1) 열 정렬 2) 양자의 평균 요소 수를 계산합니다(예: 10,000개의 요소 / 255개의 양자 = 39.21). 3) 루프에서 각 단계에서 39.21개의 요소를 이동하고 정렬된 배열의 값을 양자 값의 배열에 추가합니다. 저것들. 0 배열 값 = 0 퀀텀 값, 39번째 값 = 1 퀀텀, 78번째 = 2 퀀텀 등
값이 이미 배열에 있는 경우, 즉 중복 항목이 많은 영역에 들어간 경우 중복 항목을 건너뛰고 추가하지 않습니다.
각 단계에서 정확히 39.21을 더한 다음 합계를 반올림하여 배열의 요소를 선택하여 짝수가 되도록 합니다. 저것들. 195(39*5 = 195) 대신 196( 39.21 * 5 = (int)196.05 ) 요소가 필요합니다.
균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.
그러나 그리드를 분할하는 다른 방법이 있습니다.
THolder<IBinarizer> MakeBinarizer( const EBorderSelectionType type) {
switch (type) {
case EBorderSelectionType::UniformAndQuantiles:
return MakeHolder<TMedianPlusUniformBinarizer>();
case EBorderSelectionType::GreedyLogSum:
return MakeHolder<TGreedyBinarizer<EPenaltyType::MaxSumLog>>();
case EBorderSelectionType::GreedyMinEntropy:
return MakeHolder<TGreedyBinarizer<EPenaltyType::MinEntropy>>();
case EBorderSelectionType::MaxLogSum:
return MakeHolder<TExactBinarizer<EPenaltyType::MaxSumLog>>();
case EBorderSelectionType::MinEntropy:
return MakeHolder<TExactBinarizer<EPenaltyType::MinEntropy>>();
case EBorderSelectionType::Median:
return MakeHolder<TMedianBinarizer>();
case EBorderSelectionType::Uniform:
return MakeHolder<TUniformBinarizer>();
}
이것이 CatBoost 에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드를 MQL로 번역해야 합니다.
이것이 CatBoost에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드는 MQL로 번역되어야 합니다.
Mode How splits are chosen Combine the splits obtained in the following modes, after first halving the quantization size provided by the starting parameters for each of them: Maximize the value of the following expression inside each bucket: Minimize the value of the following expression inside each bucket: Maximize the greedy approximation of...
모든 파일을 선택하고 삭제하면 zip으로 다운로드됩니다.
샘플의 다른 길이는 부품의 경우
감사합니다. 아카이브를 다운로드할 수 있습니다. 기쁘게 생각합니다!
그러나 다른 샘플 길이는 좋지 않습니다. 작은 편차가 허용되는 가장 임의의 열을 강조 표시하려고 생각했습니다.
이 방법을 시험 샘플에 적용할 필요는 없다고 생각합니다. 그렇지 않으면 나중에 실생활에서 어떻게 사용할 수 있습니까?
훈련을 시작하겠습니다. 무슨 일이 일어나는지 봅시다.
감사합니다. 아카이브를 다운로드할 수 있습니다. 기쁘게 생각합니다!
그러나 다른 샘플 길이는 좋지 않습니다. 작은 편차가 허용되는 가장 임의의 열을 강조 표시하려고 생각했습니다.
이 방법을 시험 샘플에 적용할 필요는 없다고 생각합니다. 그렇지 않으면 나중에 실생활에서 어떻게 사용할 수 있습니까?
훈련을 시작하겠습니다. 무슨 일이 일어나는지 봅시다.
시험에는 필요하지 않지만 유용할 수 있습니다.
변환하기에는 너무 게으름)
요점을 설명하겠습니다.
1) 열 정렬
2) 양자의 평균 요소 수를 계산합니다(예: 10,000개의 요소 / 255개의 양자 = 39.21).
3) 루프에서 각 단계에서 39.21개의 요소를 이동하고 정렬된 배열의 값을 양자 값의 배열에 추가합니다. 저것들. 0 배열 값 = 0 퀀텀 값, 39번째 값 = 1 퀀텀, 78번째 = 2 퀀텀 등
값이 이미 배열에 있는 경우, 즉 중복 항목이 많은 영역에 들어간 경우 중복 항목을 건너뛰고 추가하지 않습니다.
각 단계에서 정확히 39.21을 더한 다음 합계를 반올림하여 배열의 요소를 선택하여 짝수가 되도록 합니다. 저것들. 195(39*5 = 195) 대신 196( 39.21 * 5 = (int)196.05 ) 요소가 필요합니다.
균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.
그러나 그리드를 분할하는 다른 방법이 있습니다.
균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.
그러나 그리드를 분할하는 다른 방법이 있습니다.
많은 샘플이 있어야 합니다. 그렇지 않으면 모델이 아무것도 배울 수 없습니다.
많은 샘플이 있어야 합니다. 그렇지 않으면 모델이 아무것도 배울 수 없습니다.
이것이 CatBoost 에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드를 MQL로 번역해야 합니다.
이것이 CatBoost에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드는 MQL로 번역되어야 합니다.
모델 자체(매개변수)의 설정에 있습니까? 이게 뭔지 모르겠다
설정에 없으면 쓰레기
모델 자체(매개변수)의 설정에 있습니까? 이게 뭔지 모르겠다
설정에 없으면 쓰레기
적어도 명령 줄의 경우 설정에 있습니다.
--feature-border-type
그만큼 양자화 모드 수치적 특징을 위해.
적어도 명령 줄의 경우 설정에 있습니다.
--feature-border-type
그만큼 양자화 모드 수치적 특징을 위해.
그리고 무엇을 직접 강력하게 개선합니까? 백분율 차이가 있어야합니다
균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.
그러나 그리드를 분할하는 다른 방법이 있습니다.
직접적으로 많이 개선되는 것은 무엇입니까? 백분율 차이가 있어야합니다
올바른 파티션을 선택하면 결과에 큰 영향을 미칩니다.
다음은 리콜에 대한 예입니다 - 최대 50% 퍼짐 - 이것은 저에게 필수적입니다.
16에서 512로 테두리를 16씩 늘리면 - 비록 히스토그램이 잘못되었지만 - 내 이름이 이것을 약간 방해합니다.
그리드 선택을 실험하는 동안 논리를 따르기 위해 다른 그리드가 필요하고 적합하지 않은 다른 예측 변수가 있다는 것은 이미 분명합니다.