트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1173

 
유리 아사울렌코 :

책은 어떻게 읽나요? 엉덩이 아래에 뭔가를 넣고 있습니까?

꽤 인기가 있습니다. 문제에는 해결책이 있거나 없거나 둘 중 하나입니다. 그렇지 않으면 해결할 수 없습니다. 있다면, 당신이 결정하는 것은 전혀 사실이 아닙니다. 그리고 국회는 어느 편도 아닙니다.

위의 책을 읽어주세요. 최적의 솔루션은 항상 한 조각의 양이며 얼마나 만족스러운가는 이미 두 번째 문제입니다.

 

약속한 대로 이진 분류 모델을 선택하기 위해 여러 지표를 테스트한 결과를 보고합니다. 테스트에는 17개의 지표가 포함되었습니다. 균형 오류율; LogLikelihoodOfPrediction; W카파; 카파; 브라이어 스코어; 제로 원 손실; 정확성; 균형 잡힌 정확도; MCC; 정도; 전화; F1; AUC; 경첩 손실; 해밍로스; CrossEntropy, Logloss가 기본값입니다. 기술은 간단합니다. 교육, 테스트 및 최종 확인을 위해 동일한 샘플에서 동일한 설정으로 CatBoost를 실행하고, 교육에 참여하지 않는 최종 확인을 위해 파일에서 숫자 표시기를 가져옵니다. 각 지표에 대해 1부터 8까지 크기가 다른 8개의 나무가 형성되어 있으며, 이 역시 집합에서 좋은 값을 선택하는 능력을 평균화하고, 나무의 크기를 변경하는 의미를 판단하는 데에도 사용되었습니다. 4개의 목표는 훈련을 위해 사용되며, 그 전략은 추세 이동의 목표 측면에서 더 크게 다릅니다. 각 지표의 결과는 다음 표에 요약되어 있습니다.



일부 지표는 서로 완전히 일치하며 그룹으로 수집되었습니다. 지표 그룹의 식별자는 녹색으로 표시됩니다.


다음은 각 지표에 대한 요약표로 지표의 최대값과 최소값을 하이라이트 하고 전체 샘플의 피크 지표를 컬러로 표시한 것이다.

다음은 각 지표의 평균 수익에 대한 요약 테이블이며, 이는 최대 평균 금액에 대한 모든 대상 옵션에 대한 범용 지표를 식별하기 위한 옵션입니다.



이전에 쓴 것처럼 수신된 데이터에서 최상의 지표를 선택하기 위해 이 데이터에 대한 공식을 동시에 테스트했습니다. "% All * 1%", 결과는 테스트에 참여하는 각 지표에 대해 이러한 표에 요약되었습니다.

이 접근 방식을 통해 각 지표에 대한 선택 계수 지표의 합계로 순위를 매길 수 있었으며 이는 아래 표와 같습니다.

흥미롭게도 첫 번째 평가에서 가장 좋아하는 "정밀도"는 맨 끝에 있었는데 이는 보편적이지 않지만 반대로 첫 번째 대상에 대한 성능은 매우 성공적인 것으로 나타났습니다.

이 계수가 각 지표의 표에서 선택한 옵션을 고려하고 이러한 지표의 합계로 등급을 볼 수도 있습니다.

요약하면 피벗 테이블에서 결과를 수집하고 장소에 대한 점수를 합산할 수 있습니다. 해당 메트릭이 적은 사람이 더 나을 수 있습니다.

Logloss는 모델 선택을 위한 최상의 지표가 아니라 평균적인 지표라는 결론을 내릴 수 있습니다. 동시에 다른 TS는 훈련된 모델을 선택하기 위해 다른 방법이 필요할 수 있습니다. 따라서 예를 들어 대상(columns_100)의 균형이 더 잡힌 샘플의 경우 정밀도가 이상적이지만 불균형 샘플(예: 20%(columns_200) 및 대상 "1"보다 작으면 상황이 매우 그에게는 좋지 않은 일이며 이 일을 훌륭하게 수행한 HingeLoss를 사용하는 것이 합리적입니다. 가장 균형 잡힌 것은 아마도 Recall 표시기일 것입니다. 이 표시기는 땅을 더듬는 데 사용할 수 있습니다. 제 생각에는 그렇게 생각합니다. 정확도와 같은 지표는 매우 신뢰할 수없고 불균형 한 것으로 판명되었으며 한편으로는 가장 균형 잡힌 대상으로 최상의 옵션을 찾을 수 있었지만 다른 한편으로는 모든 트리 옵션의 평균을 성공적으로 선택하지 못했습니다 , 결과적으로 그는 불균형 샘플을 검색하거나 모델을 튜닝하는 데 능숙하지 않았습니다.

 
알렉산더_K2 :


바로 지금, 내가 문자 그대로 "무릎에" 발견한 탐나는 열쇠 의 도움으로 이 추세는 쉽고 부드럽게 변기에 던져졌습니다.


그가 생각해낸 것은 흥미롭다.

 
알렉세이 비아즈미킨 :

훌륭한 테스트, 감사합니다.

기차/테스트 오차 차이에 대한 정보가 있습니까? 가장 인기있는 정확도 또는 로그 손실을 하나만 가져 가면 충분합니다.

예를 들어 이와 같은 것

 2018.11 . 27 02 : 26 : 37.780 Core 2    2018.11 . 23 23 : 59 : 59    RlMonteCarlo TRAIN LOSS
2018.11 . 27 02 : 26 : 37.780 Core 2    2018.11 . 23 23 : 59 : 59    0.19023
2018.11 . 27 02 : 26 : 37.780 Core 2    2018.11 . 23 23 : 59 : 59    RlMonteCarlo TEST LOSS
2018.11 . 27 02 : 26 : 37.780 Core 2    2018.11 . 23 23 : 59 : 59    0.43959

오른쪽 기차 왼쪽 테스트:

나는 모델이 일반화하는 능력과 과적합을 방지하기 위해 어떤 종류의 기능이 있는지에 관심이 있습니다. 나는 그들이 빨리 길 잃은 것을 마스터했습니다. 마지막으로 진짜 이야기 :)

 
막심 드미트리예프스키 :

훌륭한 테스트, 감사합니다.

기차/테스트 오차 차이에 대한 정보가 있습니까? 가장 인기있는 정확도 또는 로그 손실을 하나만 가져 가면 충분합니다.

예를 들어 이와 같은 것

오른쪽 기차 왼쪽 테스트:

나는 모델이 일반화하는 능력과 과적합을 방지하기 위해 어떤 종류의 기능이 있는지에 관심이 있습니다. 나는 그들이 빨리 길 잃은 것을 마스터했습니다. 마지막으로 진짜 이야기 :)

catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하기 위해 필요하고, 고려하고 분석할 가치가 있지만 아직까지는 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.

나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.

이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.

 
알렉세이 비아즈미킨 :

catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하는 데 필요하고 고려하고 분석할 가치가 있지만 아직까지 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.

나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.

이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.

네, TS의 개발보다 더 많은 시간이 소요되는 영원한 통합을 화나게 할 뿐입니다. 저도 파이썬으로 해보고 싶은데 아직 시간이 없네요

 
막심 드미트리예프스키 :

네, TS의 개발보다 더 많은 시간이 소요되는 영원한 통합을 화나게 할 뿐입니다. 저도 파이썬으로 해보고 싶은데 아직 시간이 없네요

네, 저는 python을 사용하지 않습니다. catbust에 콘솔 버전이 있다는 것이 너무 좋아서 MT5와 친구가 되고 싶습니다.

 
알렉세이 비아즈미킨 :

네, 저는 python을 사용하지 않습니다. catbust에 콘솔 버전이 있다는 것이 너무 좋아서 MT5와 친구가 되고 싶습니다.

거의 모든 사람이 콘솔을 가지고 있어서 작업하기가 불편합니다.

 
막심 드미트리예프스키 :

거의 모든 사람이 콘솔을 가지고 있어서 작업하기가 불편합니다.

다른 사람이 가지고 있는지 몰랐어요?

왜 편리하지 않은가요? MT5에는 설정과 매개변수 열거를 구현할 수 있는 스크립트가 있습니다. Python이나 R의 순수 코드보다 더 나은 방법입니다.

Catboost는 그래픽 팜으로 작업하는 방법을 알고 있어 제 관심을 끌었습니다.

 
알렉세이 비아즈미킨 :

다른 사람이 가지고 있는지 몰랐어요?

왜 편리하지 않은가요? MT5에는 설정과 매개변수 열거를 구현할 수 있는 스크립트가 있습니다. Python이나 R의 순수 코드보다 더 나은 방법입니다.

Catboost는 그래픽 팜으로 작업하는 방법을 알고 있어 제 관심을 끌었습니다.

개발된 모든 ML 라이브러리에 대해 이것은 단지 플러스 측면에 있습니다

저수준 언어, 특히 연구에서 MO로 작업하는 것은 편리하지 않고 오래 걸리지 않습니다.
사유: