트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 189

 
산산이치 포멘코 :


데이터 마이닝에 대한 거의 모든 책을 가져 가면 상관 관계가 있는 예측 변수를 제거하는 절차가 반드시 설명됩니다.

상호 작용하는 예측 변수는 반드시 상관 관계가 있는 것은 아닙니다. 대상과 상호 작용합니다....

그리고 상호 작용의 존재는 다음과 같은 형식의 결과를 제공합니다.

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

모든 예측 변수는 중요합니다(및 해당 상호 작용). F 통계는 굉장합니다 ...

 
알렉세이 버나코프 :

상호 작용하는 예측 변수는 반드시 상관 관계가 있는 것은 아닙니다. 대상과 상호 작용합니다....

그리고 상호 작용의 존재는 다음과 같은 형식의 결과를 제공합니다.

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

모든 예측 변수는 중요합니다(및 해당 상호 작용). F 통계는 굉장합니다 ...

글쎄, 아마도 나는 "상호 작용"이라는 단어의 의미에 대해 다른 생각을 가지고 있었을 것입니다.
 

마법사_ :

데이터를 보내지 않습니다...

데이터가 없으므로 논의할 내용이 없습니다.

휴식 ... 그!

 
마법사_ :
Yur, 글쎄, 적어도 바보는 아닙니다) 9 살 때 네트워크를 올바르게 구성하지 않았다고 누가 말했는지 잊어 버렸지 만 polyanalyst에서 공식을 꺼낼 수 있습니다)))
가식과 비밀은 없으며 표준 dm 도구를 사용하며 때로는 약간의 편집을 합니다. 추천에만 관심이 있다면 들어보세요.
하지만 현실은 조금 다릅니다... 이전 실험은 실제 데이터를 기반으로 했습니다. 단순 인공으로 제작되었습니다. 첫 번째 세트는 절대적으로 인식됩니다.
오른쪽. 믹스 ........... 답은 100%여야 하는데, jPrediction 11은 너무 애매한 'ai'가 나와서 가까스로 내놓았습니다.))) 한마디로 다듬어서,

pribluda는 아직 작동하지 않습니다. 나는 데이터를 버리지 않고 당신이 그것을 할 것이고 당신이 그것을 스스로 끝낼 것입니다 ... "광고"가 오늘과 같으면 여전히 20 버전을 볼 것입니다))))


그리고 여러 최적화를 통해 항상 다른 결과를 얻는다는 것을 알고 있습니다. 이것은 최적화입니다. 항상 모호하지 않은 답변이 나온다면 확실히 좋을 것입니다. 그러나 너무 이상했습니다. 최적화를 여러 번 시도하십시오. 10번 중 8번은 100%를 얻을 수 있는 것이 사실입니다. 그래서 이와 같은 것입니다. ...
 
산산이치 포멘코 :
글쎄, 아마도 나는 "상호 작용"이라는 단어의 의미에 대해 다른 생각을 가지고 있었을 것입니다.


선형 모델의 상호 작용 해석에는 명확한 규칙이 있습니다. 선형 조합 해석보다 조금 더 복잡합니다. https://www.r-bloggers.com/interpreting-interaction-coefficient-in-r-part1-lm/

그러나 의미 있는 상호 작용을 찾으려면 많은 조합을 살펴봐야 합니다. 여기 매복이 있습니다.

Interpreting interaction coefficient in R (Part1 lm)
Interpreting interaction coefficient in R (Part1 lm)
  • grumble10
  • www.r-bloggers.com
Interaction are the funny interesting part of ecology, the most fun during data analysis is when you try to understand and to derive explanations from the estimated coefficients of your model. However you do need to know what is behind these estimate, there is a mathematical foundation between them that you need to be aware of before being able...
 
마이클 마르쿠카이테스 :
그리고 여러 최적화를 통해 항상 다른 결과를 얻는다는 것을 알고 있습니다. 이것은 최적화입니다. 항상 모호하지 않은 답변이 나온다면 확실히 좋을 것입니다. 그러나 너무 이상했습니다. 최적화를 여러 번 시도하십시오. 10번 중 8번은 100%를 얻을 수 있는 것이 사실입니다. 그래서 이와 같은 것입니다. ...

예, 그는 훈련 전의 일반 샘플이 무작위로 부분으로 나뉘어져 있다는 사실조차 깨닫지 못합니다. 일부 패턴은 훈련 부분에, 다른 패턴은 테스트 부분에 속합니다. 그리고 이러한 고장으로 인해 패턴을 명확히 하는 데 필요한 일부 패턴이 테스트 부분에 붐비고 훈련 부분에 제시되지 않은 것으로 판명될 수 있습니다. 그리고 알고리즘은 훈련 부분에서만 훈련하고 테스트 부분에 무엇이 있는지 알아내는 텔레파시 능력이 없기 때문에 일반화 능력을 계산할 때 오류가 발생합니다. 저것들. 놀라운 일은 일어나지 않습니다.

그러나 패턴을 명확히 해야 하는 패턴이 샘플의 다른 부분에 고르게 분포되어 있는 경우 위의 경우에 비해 학습 능력이 더 높습니다.

저것들. 한 번에 한 번씩은 필요하지 않으며 조만간 사고가 바람직하지 않은 측면에서 나타날 수 있습니다.

일반 표본이 무작위가 아니라 결정론적으로 부분으로 분할되는 방법을 찾는 것이 가능합니까? 그러나 지금까지 경험에서 알 수 있듯이 샘플을 나눌 때 결정론은 후속 재교육에 적합하기가 어렵습니다.

 
유리 레셰토프 :

일반 표본이 무작위가 아니라 결정론적으로 부분으로 분할되는 방법을 찾는 것이 가능합니까? 그러나 지금까지 경험에서 알 수 있듯이 샘플을 나눌 때 결정론은 후속 재교육에 적합하기가 어렵습니다.

훈련을 여러 번 수행하는 동시에 매번 사례의 표본을 나누어야 할 수도 있습니다. 방법? 그리고 이 기성품 학습 모델 세트에서 모델이 얼마나 적합한지 선택하고 일반적으로 평가할 수 있습니다.
이런 식으로 우리는 무작위로 적합된 모델을 얻을 가능성을 부정할 수 있으며 동시에 결정론의 인질이 되지 않을 수 있습니다.

 
안드레이 딕 :
훈련을 여러 번 수행하는 동시에 매번 사례의 표본을 나누어야 할 수도 있습니다. 방법? 그리고 이 기성품 학습 모델 세트에서 모델이 얼마나 적합한지 선택하고 일반적으로 평가할 수 있습니다.
이런 식으로 우리는 무작위로 적합된 모델을 얻을 가능성을 부정할 수 있으며 동시에 결정론의 인질이 되지 않을 수 있습니다.

이것은 이미 jPrediction에서 구현되어 있습니다. 서로 다른 CPU 코어에서 여러 개의 서로 다른 샘플 분할이 병렬로 계산됩니다(2개의 바이너리 분류기는 하나의 자유 코어당 하나의 테라 분류기입니다). 프로세서가 100% 로드됩니다. 문제는 CPU의 코어 수에 제한이 있어 패턴이 고르지 않게 분포될 확률을 줄일 수 밖에 없지만 이를 무효화하는 것은 매우 문제가 많다는 점이다. 개인용 컴퓨터가 아닌 슈퍼컴퓨터에서 모델을 훈련하지 않는 한.

예를 들어 중국 슈퍼컴퓨터 Tianhe-2에서 모델을 계산하면 3,120,000개의 코어가 있습니다. 샘플의 일부에 걸쳐 패턴이 고르지 않게 분포될 확률은 무시할 수 있습니다. 4코어 개인용 컴퓨터에서 모델을 계산하는 경우(심지어 다른 작업을 위해 몇 개의 코어를 예약), 조만간 불균등한 상황이 발생할 수 있다는 것은 놀라운 일이 아닙니다.

 
아무도 나에게 왜 이것을 하는지 묻지 않은 샘플의 균일한 분할에 대해 상기시켜 드리겠습니다. 하지만 나는 1과 0의 수가 같도록 그러한 출력 변수를 만듭니다. 나는 신호의 이익을 -10핍에서 +50으로 조정하여 이 작업을 수행합니다. 동일한 수의 1과 0을 사용하면 모델이 종종 반으로 나뉩니다. 그리고 다시 한 번 말씀드리지만 분할은 어떻게 하는 것이 중요한 것이 아니라 분할이 안정되는 것이 중요합니다.....
 
유리 레셰토프 :

이것은 이미 jPrediction에서 구현되어 있습니다. 서로 다른 CPU 코어에서 여러 개의 서로 다른 샘플 분할이 병렬로 계산됩니다(2개의 바이너리 분류기는 하나의 자유 코어당 하나의 테라 분류기입니다). 프로세서가 100% 로드됩니다. 문제는 CPU의 코어 수에 제한이 있어 패턴이 고르지 않게 분포될 확률을 줄일 수 밖에 없지만 이를 무효화하는 것은 매우 문제가 많다는 점이다. 개인용 컴퓨터가 아닌 슈퍼컴퓨터에서 모델을 훈련하지 않는 한.

예를 들어 중국 슈퍼컴퓨터 Tianhe-2에서 모델을 계산하면 3,120,000개의 코어가 있습니다. 샘플의 일부에 걸쳐 패턴이 고르지 않게 분포될 확률은 무시할 수 있습니다. 4코어 개인용 컴퓨터에서 모델을 계산하는 경우(심지어 다른 작업을 위해 몇 개의 코어를 예약), 조만간 불균등한 상황이 발생할 수 있다는 것은 놀라운 일이 아닙니다.

즉, 그렇게 하는 것이 유용합니다. 따라서 4개의 파티션 대신 40개의 파티션을 수행해야 합니다. 4코어의 경우 계산하는 데 10배 더 오래 걸리지만 견고함을 위해 시간을 희생할 수 있다고 생각합니다.

"그것이 가능하다면, 그리고 그것이 아무 소용이 있다면, 반드시 이루어져야 합니다." (c) 파포 카를로 알베르토비치.

사유: