트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2381

 
막심 드미트리예프스키 :

katbust는 상당히 강력한 정규화를 가지고 있습니다. 특히 기호가 범주형인 경우 부스트에서 그렇게 선언해야 합니다.

개선은 L2 정규화를 감소시키지 않았습니다. 그래서 올가미가 더 좋습니다.

 
도서관 :

아마도 이것은 시험 샘플의 운 좋은 부분일 것입니다. 그리고 그것에 가장 적합한 매개변수가 있는 모델을 선택하여 조정합니다.

이제 저는 항상 교차 검증(또는 진행)으로 확인합니다. 작은 영역에는 적합하지 않지만 모든 데이터에 대해서는 즉시 이것이 최고의 훈련 옵션이라고 생각합니다.
Doc은 또한 그녀에게 포럼에서 사라지기 전에 확인하라고 조언했습니다.

첫째, 올가미를 설정하는 방법을 몰라서 피팅이 전혀 없습니다. 매개변수가 있는 그대로입니다.

두 번째로, 이것은 CatBoostom과 동일한 사이트이며 선택할 수 있는 모델이 800개이고 거의 최고의 옵션을 선택했습니다.

파일을 첨부했습니다. 다른 모델을 직접 사용해 보십시오. 특히 바이너리 샘플에 대해 Lasso가 권장되었습니다. 이것이 트릭입니다.

 
알렉세이 비아즈미킨 :

첫째, 올가미를 설정하는 방법을 몰라서 피팅이 전혀 없습니다 . 매개변수가 있는 그대로입니다.

두 번째로, 이것은 CatBoostom과 동일한 사이트이며 선택할 수 있는 모델이 800개이고 거의 최고의 옵션을 선택했습니다.

파일을 첨부했습니다. 다른 모델을 직접 사용해 보십시오. 특히 바이너리 샘플에 대해 Lasso가 권장되었습니다. 이것이 트릭입니다.

교차 검증을 위해 있는 그대로 시도하십시오. 전체 데이터 양의 1/10인 서로 다른 미지의 영역으로 10회 주기로. 이것은 일부 매개변수가 있는 컷 부스트 또는 기본 매개변수가 있는 올가미를 선택하는 데 가장 좋은 추정치입니다.

 
막심 드미트리예프스키 :


같은 방법으로 시도하십시오. 커스텀 테스터에서 잘 나왔는데, 모델을 내보낼 때 문제가 있는데 나중에 오류를 찾아봐야겠습니다.

Mashka 가 교육에 참여하고 있다면 모델을 적용해야 하지 않을까요?

유형 마크업에서 Mashka의 본질 - 위의 한 클래스와 아래의 다른 클래스만?

 
도서관 :

교차 검증을 위해 있는 그대로 시도하십시오. 전체 데이터 양의 1/10인 서로 다른 미지의 영역으로 10회 주기로. 이것은 일부 매개변수가 있는 컷 부스트 또는 기본 매개변수가 있는 올가미를 선택하는 데 가장 좋은 추정치입니다.

이진화는 특정 샘플 평가 방법에 따라 발생하므로 교차 검증은 주요 샘플 영역에서 더 나은 결과를 보여줍니다.

교차 검증은 시간에 얽매인 샘플에 대해 완전히 적절하지 않지만 거래의 경우 그러한 연결이 있습니다. 시장은 점진적으로 변화하고 모델은 시간에 안정적인 패턴을 찾아야 하며 교차 검증의 경우 훈련 및 검증 기간은 훈련된 샘플에서 가깝거나 조각날 수 있습니다.

이제 실제로 CatBoost 는 모든 데이터의 60%에 대해 학습됩니다. 20%는 정지에 의해 제어되고 마지막 20%는 모델에 의해 평가됩니다.

훈련에 대해 10%에 대해 이야기한다면 이는 샘플에 대해 너무 적습니다.
 
알렉세이 비아즈미킨 :

교차 검증은 시간에 얽매인 샘플에 대해 완전히 적절하지 않지만 거래의 경우 그러한 연결이 있습니다. 시장은 점진적으로 변화하고 모델은 시간에 안정적인 패턴을 찾아야 하며 교차 검증의 경우 훈련 및 검증 기간은 훈련된 샘플에서 가깝거나 조각날 수 있습니다.

당신은 일부 표준/고대 교차 검증에 대해 쓰고 있습니다.
첫째, 줄을 섞을 필요는 없지만 0-90 훈련 90-100 테스트, 10-100 훈련, 0-10 테스트, 20-100-10 훈련 10-20과 같이 블록으로 가져옵니다. 테스트 등..
둘째, 프라도의 조언에 따르면 기차와 테스트 사이에 공간(가지치기)을 남겨두어 기차와 테스트에서 이웃한 사례가 작업에 들어가지 않도록 해야 한다. 테스트의 10-100개 예제 옆에 있는 기차의 예제는 힌트/피프입니다. https://dou.ua/lenta/articles/ml-vs-financial-math/에서 더 많은 것을 읽으십시오.
또는 다음 그림이 있습니다.

알렉세이 비아즈미킨 :

이제 실제로 CatBoost 는 모든 데이터의 60%에 대해 학습됩니다. 20%는 정지에 의해 제어되고 마지막 20%는 모델에 의해 평가됩니다.

훈련에 대해 10%에 대해 이야기한다면 이는 샘플에 대해 너무 적은 양입니다.
20% 또는 원하는 대로 할 수 있습니다.

그리고 마지막으로 교차 검증 대신 앞으로 걷기를 사용할 수 있습니다. 테스트 섹션을 원으로 가져 가지 않고 앞에서만 수행합니다.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
막심 드미트리예프스키

셔플 매개변수는 무엇을 담당합니까? 일반적으로 False이면 결과가 True보다 훨씬 나쁩니다.

train_test_split(X, y, train_size = 0.5 , test_size = 0.5 , shuffle=True)
 

앞으로 걸어가는 모습에 대한 설명이 담긴 사진.

 
예브게니 가브릴로비 :

셔플 매개변수는 무엇을 합니까? 일반적으로 False이면 결과가 True보다 훨씬 나쁩니다.

순서대로 진행되지 않도록 훈련 및 테스트에 대한 예제를 섞습니다.

 
막심 드미트리예프스키 :

순서대로 진행되지 않도록 훈련 및 테스트에 대한 예제를 섞습니다.

무작위로? 즉, 여기에 명시된 대로? 무작위 표본 테스트 50%

사유: