트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2109

 
막심 드미트리예프스키 :

모든 파일을 선택하고 삭제하면 zip으로 다운로드됩니다.

샘플의 다른 길이는 부품의 경우

감사합니다. 아카이브를 다운로드할 수 있습니다. 기쁘게 생각합니다!

그러나 다른 샘플 길이는 좋지 않습니다. 작은 편차가 허용되는 가장 임의의 열을 강조 표시하려고 생각했습니다.

이 방법을 시험 샘플에 적용할 필요는 없다고 생각합니다. 그렇지 않으면 나중에 실생활에서 어떻게 사용할 수 있습니까?

훈련을 시작하겠습니다. 무슨 일이 일어나는지 봅시다.

 
알렉세이 비아즈미킨 :

감사합니다. 아카이브를 다운로드할 수 있습니다. 기쁘게 생각합니다!

그러나 다른 샘플 길이는 좋지 않습니다. 작은 편차가 허용되는 가장 임의의 열을 강조 표시하려고 생각했습니다.

이 방법을 시험 샘플에 적용할 필요는 없다고 생각합니다. 그렇지 않으면 나중에 실생활에서 어떻게 사용할 수 있습니까?

훈련을 시작하겠습니다. 무슨 일이 일어나는지 봅시다.

시험에는 필요하지 않지만 유용할 수 있습니다.

 
도서관 :

변환하기에는 너무 게으름)
요점을 설명하겠습니다.

1) 열 정렬
2) 양자의 평균 요소 수를 계산합니다(예: 10,000개의 요소 / 255개의 양자 = 39.21).
3) 루프에서 각 단계에서 39.21개의 요소를 이동하고 정렬된 배열의 값을 양자 값의 배열에 추가합니다. 저것들. 0 배열 값 = 0 퀀텀 값, 39번째 값 = 1 퀀텀, 78번째 = 2 퀀텀 등

값이 이미 배열에 있는 경우, 즉 중복 항목이 많은 영역에 들어간 경우 중복 항목을 건너뛰고 추가하지 않습니다.

각 단계에서 정확히 39.21을 더한 다음 합계를 반올림하여 배열의 요소를 선택하여 짝수가 되도록 합니다. 저것들. 195(39*5 = 195) 대신 196( 39.21 * 5 = (int)196.05 ) 요소가 필요합니다.

균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.

그러나 그리드를 분할하는 다른 방법이 있습니다.

    THolder<IBinarizer> MakeBinarizer( const EBorderSelectionType type) {
         switch (type) {
             case EBorderSelectionType::UniformAndQuantiles:
                 return MakeHolder<TMedianPlusUniformBinarizer>();
             case EBorderSelectionType::GreedyLogSum:
                 return MakeHolder<TGreedyBinarizer<EPenaltyType::MaxSumLog>>();
             case EBorderSelectionType::GreedyMinEntropy:
                 return MakeHolder<TGreedyBinarizer<EPenaltyType::MinEntropy>>();
             case EBorderSelectionType::MaxLogSum:
                 return MakeHolder<TExactBinarizer<EPenaltyType::MaxSumLog>>();
             case EBorderSelectionType::MinEntropy:
                 return MakeHolder<TExactBinarizer<EPenaltyType::MinEntropy>>();
             case EBorderSelectionType::Median:
                 return MakeHolder<TMedianBinarizer>();
             case EBorderSelectionType::Uniform:
                 return MakeHolder<TUniformBinarizer>();
        }
 
알렉세이 비아즈미킨 :

균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.

그러나 그리드를 분할하는 다른 방법이 있습니다.

많은 샘플이 있어야 합니다. 그렇지 않으면 모델이 아무것도 배울 수 없습니다.

 
막심 드미트리예프스키 :

많은 샘플이 있어야 합니다. 그렇지 않으면 모델이 아무것도 배울 수 없습니다.

이것이 CatBoost 에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.

내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드를 MQL로 번역해야 합니다.

 
알렉세이 비아즈미킨 :

이것이 CatBoost에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.

내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드는 MQL로 번역되어야 합니다.

모델 자체(매개변수)의 설정에 있습니까? 이게 뭔지 모르겠다

설정에 없으면 쓰레기

 
막심 드미트리예프스키 :

모델 자체(매개변수)의 설정에 있습니까? 이게 뭔지 모르겠다

설정에 없으면 쓰레기

적어도 명령 줄의 경우 설정에 있습니다.

--feature-border-type

그만큼   양자화 모드   수치적 특징을 위해.

가능한 값:
  • 중앙값
  • 제복
  • 균일 및 분위수
  • 최대 로그 합계
  • 최소엔트로피
  • GreedyLogSum
Quantization - CatBoost. Documentation
  • catboost.ai
Mode How splits are chosen Combine the splits obtained in the following modes, after first halving the quantization size provided by the starting parameters for each of them: Maximize the value of the following expression inside each bucket: Minimize the value of the following expression inside each bucket: Maximize the greedy approximation of...
 
알렉세이 비아즈미킨 :

적어도 명령 줄의 경우 설정에 있습니다.

--feature-border-type

그만큼   양자화 모드   수치적 특징을 위해.

가능한 값:
  • 중앙값
  • 제복
  • 균일 및 분위수
  • 최대 로그 합계
  • 최소엔트로피
  • GreedyLogSum

그리고 무엇을 직접 강력하게 개선합니까? 백분율 차이가 있어야합니다

 
알렉세이 비아즈미킨 :

균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.

그러나 그리드를 분할하는 다른 방법이 있습니다.

고유하면 비뚤어집니다. 예를 들어, 총 100개의 행이 있고 그 중 10개는 고유하며 그 중 2개는 각각 45개 행이고 8개는 1입니다. 5개 quanta로 나누기 - 5x1만 선택되고 2개는 가장 많이 대표자(각 45명)는 건너뜁니다.
 
막심 드미트리예프스키 :

직접적으로 많이 개선되는 것은 무엇입니까? 백분율 차이가 있어야합니다

올바른 파티션을 선택하면 결과에 큰 영향을 미칩니다.

다음은 리콜에 대한 예입니다 - 최대 50% 퍼짐 - 이것은 저에게 필수적입니다.

16에서 512로 테두리를 16씩 늘리면 - 비록 히스토그램이 잘못되었지만 - 내 이름이 이것을 약간 방해합니다.


그리드 선택을 실험하는 동안 논리를 따르기 위해 다른 그리드가 필요하고 적합하지 않은 다른 예측 변수가 있다는 것은 이미 분명합니다.

사유: