트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

Alexey Burnakov 2016.10.17 16:46 #1621

산산이치 포멘코 :

1) Random Forest 알고리즘의 저자의 첫 번째 출판물을 보면 저자는 rf가 전혀 재학습되지 않는 경향이 있다고 진지하게 언급하고 많은 예를 제시했습니다. randomforest 패키지 자체는 과적합에 대한 약간의 의심도 제거하는 방식으로 구축됩니다.

그러나 가장 재학습 가능한 알고리즘은 randomforest입니다. 개인적으로 불.

2) 기계 학습에 관한 대부분의 출판물은 두 번째 파일의 유사체에서 테스트되지 않습니다. 이유는 평범합니다. 알고리즘은 시계열에 적용되지 않습니다. 그리고 파일 번호 1을 무작위로 나누면 충분하다는 것이 밝혀졌습니다. 예를 들어 손으로 쓴 텍스트를 인식할 때 그렇습니다.

1) 숲과 GBM 및 기타 모든 방법이 재교육됩니다. 접는 데이터의 배경에 대해 눈에 띄지 않고 매우 시끄러운 데이터에서 매우 눈에.니다.

2) 예, 다른 시간 범위의 추가 샘플에 대한 중첩 교차 검증 도입을 논의하는 출판물이 있습니다.

СанСаныч Фоменко 2016.10.17 17:13 #1622

알렉세이 버나코프 :

2) 예, 다른 시간 범위의 추가 샘플에 대한 중첩 교차 검증 도입을 논의하는 출판물이 있습니다.

실례가 안된다면 링크

Alexey Burnakov 2016.10.17 17:31 #1623

산산이치 포멘코 :
실례가 안된다면 링크

토론 중 하나: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

거기: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

토론에 기사에 대한 링크가 있습니다.

흥미로운 기사 중 하나: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

이름에서 알 수 있듯이 교차 검증 검증 폴드에 대한 모델 평가 단계에서 발생하는 재학습에 대해 이야기하고 있습니다. 따라서 교차 검증 외에도 이미 선택된 모델을 평가하기 위해 다른 샘플이 필요합니다.

Nested cross validation for model selection

stats.stackexchange.com

How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...

Alexey Burnakov 2016.10.17 18:01 #1624

간단히 말해서 (이미 이것에 대해 썼습니다):

교차 검증을 통해 선택한 모델은 다른 지연된 샘플로 다시 검증해야 합니다.

또한, 중첩 교차 검증은 n개의 지연된 샘플(각각 다른 데이터에 대해)에 대한 후속 검증과 함께 n개의 k-겹 교차 검증(다른 데이터에 대한)의 구성을 의미합니다.

그리고 그게 다가 아닙니다. 지연된 샘플의 상위 계층(예: 이러한 지연된 샘플의 데이터를 기반으로 하는 모델 위원회)에서 재선택이 수행되는 경우 위원회는 다른 지연된 샘플에서 검증되어야 합니다.

이상적으로 이 프로세스는 다음과 같습니다.

k-fold кроссвалидация

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего

최고 수준에서 결과의 분포를 얻으려면 한 번이 아니라 m번 반복해야 합니다. 이것은 선택 편향을 실질적인 최소로 줄입니다.

그러나 동시에 예상 값, 예를 들어 EF가 크게 감소할 수 있습니다. 고통.

Machine learning in trading: 베이지안 회귀 - 이 머신 러닝 및 신경망

Dr. Trader 2016.10.17 18:07 #1625

알렉세이 버나코프 :

다른 시간 범위의 추가 샘플에 대한 중첩 교차 검증 도입.

저도 비슷한 일을 합니다. 1년 동안의 교육 데이터가 있다고 가정해 보겠습니다. 저는 12개의 모델을 훈련할 것입니다. 하나는 1월 데이터, 하나는 2월 데이터, 하나는 3월 데이터 등입니다. 예측자와 모델 매개변수를 선택함으로써 작은 데이터 영역에 대해 훈련된 이러한 모델이 일년 내내 잘 거래되고 사용된 예측자가 서로 일정한 관계를 갖기를 희망합니다. 나는 이 전체 모델 앙상블의 도움으로 새로운 데이터에 대한 결정을 내립니다.

내가 시도한 모든 교차 검증 중에서 이것이 새로운 데이터에 대한 최상의 결과를 제공했습니다. 그러나 해결되지 않은 문제가 많이 있습니다. 모델이 몇 개여야 하는지, 즉 12 대신 100을 훈련할 수 있지만 의미가 있습니까? 거래 평가도 중요합니다. rf 또는 샤프를 포함하여 무엇이든 선택하려면 실험적으로 가장 좋은 것을 선택해야 합니다.

파이어버드 EA 베이지안 회귀 - 이 논의

Mihail Marchukajtes 2016.10.17 18:16 #1626

내 기사에서 자세히 다루게 될 힌트를 주시겠습니까???? 원하는지 아닌지???

Mihail Marchukajtes 2016.10.17 18:26 #1627

Dr.Trader :

저도 비슷한 일을 합니다. 1년 동안의 교육 데이터가 있다고 가정해 보겠습니다. 저는 12개의 모델을 훈련할 것입니다. 하나는 1월 데이터, 하나는 2월 데이터, 하나는 3월 데이터 등입니다. 예측자와 모델 매개변수를 선택함으로써 작은 데이터 영역에 대해 훈련된 이러한 모델이 일년 내내 잘 거래되고 사용된 예측자가 서로 일정한 관계를 갖기를 희망합니다. 나는 이 전체 모델 앙상블의 도움으로 새로운 데이터에 대한 결정을 내립니다.

내가 시도한 모든 교차 검증 중에서 이것이 새로운 데이터에 대한 최상의 결과를 제공했습니다. 그러나 해결되지 않은 문제가 많이 있습니다. 모델이 몇 개여야 하는지 , 즉 12 대신 100을 훈련할 수 있지만 요점이 있습니까? 거래 평가도 중요합니다. rf 또는 샤프를 포함하여 무엇이든 선택하려면 실험적으로 가장 좋은 것을 선택해야 합니다.

답: 9

Alexey Burnakov 2016.10.17 18:29 #1628

Dr.Trader :

저도 비슷한 일을 합니다. 1년 동안의 교육 데이터가 있다고 가정해 보겠습니다. 저는 12개의 모델을 훈련할 것입니다. 하나는 1월 데이터, 하나는 2월 데이터, 하나는 3월 데이터 등입니다. 예측자와 모델 매개변수를 선택함으로써 작은 데이터 영역에 대해 훈련된 이러한 모델이 일년 내내 잘 거래되고 사용된 예측자가 서로 일정한 관계를 갖기를 희망합니다. 나는 이 전체 모델 앙상블의 도움으로 새로운 데이터에 대한 결정을 내립니다.

내가 시도한 모든 교차 검증 중에서 이것이 새로운 데이터에 대한 최상의 결과를 제공했습니다. 그러나 해결되지 않은 문제가 많이 있습니다. 모델이 몇 개여야 하는지, 즉 12 대신 100을 훈련할 수 있지만 의미가 있습니까? 거래 평가도 중요합니다. rf 또는 샤프를 포함하여 무엇이든 선택하려면 실험적으로 가장 좋은 것을 선택해야 합니다.

이것은 적합합니다. 매개변수와 입력을 선택하면 최소 3년의 테스트 기간 동안 작동하는 모델을 쉽게 얻을 수 있습니다.

나도 좀 있다. 훈련 외부의 데이터에서 좋은 결과를 보여주는 모델(100). 우리는 10년에 대해 이야기하고 있습니다 ... 그러나 이것은 모델이 정확히 테스트 데이터에 따라 선택되기 때문입니다 (훈련 외). 즉, 시험을 위한 날씨입니다.

다음 단계는 추가 지연 샘플에서 이러한 모델 또는 선택한 위원회를 평가하는 것입니다. 또한 각 모델은 고유한 데이터를 사용하는 것이 좋습니다. 그런 다음 테스트의 품질이 모델이 선택되지 않은 샘플의 품질과 어떻게 상관되는지 이해하게 될 것입니다.

지표를 무료로 작성해 드립니다 푸리에 기반 가설 성배는 어떻게 할까요?

СанСаныч Фоменко 2016.10.17 18:43 #1629

알렉세이 버나코프 :

토론 중 하나: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

거기: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

토론에 기사에 대한 링크가 있습니다.

흥미로운 기사 중 하나: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

이름에서 알 수 있듯이 교차 검증 검증 폴드에 대한 모델 평가 단계에서 발생하는 재학습에 대해 이야기하고 있습니다. 따라서 교차 검증 외에도 이미 선택된 모델을 평가하기 위해 다른 샘플이 필요합니다.

고맙습니다. 나만 걱정하는 것이 아니어서 다행이다.

Mihail Marchukajtes 2016.10.17 18:46 #1630

Ty ... 당신은 특히 새로운 지식 분야에서 지루한 사람들입니다 ...

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 163