트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2111

 
알렉세이 비아즈미킨 :

아니, 의미가 있는 모델이 아닌 심플한 핏이 될 것이다!

동의하지 않는다. 양자화를 통해 정보의 양을 줄입니다. 최대 양자화 수는 최대 정보를 남깁니다.

그러나 255보다 65535에서 양자화하는 데 더 오래 걸립니다.

 
도서관 :

당신은 방법을 알고 있습니까?

예, 작업 중입니다. 원래는 유전적 나무를 대상으로 한 것입니다.

표본의 정보 분포와 대상과의 관계를 평가할 필요가 있습니다. 특정 양자화 섹션에서 오류가 감소하는 방법과 포함된 예제의 비율을 살펴봅니다. 이러한 표시기의 균형을 통해 최상의 파티션을 선택할 수 있습니다.

 
도서관 :

동의하지 않는다. 양자화를 통해 정보의 양을 줄입니다. 최대 양자화 수는 최대 정보를 남깁니다.

그러나 255보다 65535에서 양자화하는 데 더 오래 걸립니다.

그들이 동의하지 않는다는 것은 헛된 일입니다. 거기에는 정보가 거의 없으며 소음과 분리되어야합니다. 우리는 (I) 5년에 한 번 반복되는 종속성이 아닌 안정적인 종속성이 필요하므로 특정 대상에 대한 성향을 평가하기 위한 통계만으로는 충분하지 않으며 불충분한 예제를 사용하여 단순히 적합합니다.

 
알렉세이 비아즈미킨 :

예, 작업 중입니다. 원래는 유전적 나무를 대상으로 한 것입니다.

표본의 정보 분포와 대상과의 관계를 평가할 필요가 있습니다. 특정 양자화 섹션에서 오류가 감소하는 방법과 포함된 예제의 비율을 살펴봅니다. 이러한 표시기의 균형을 통해 최상의 파티션을 선택할 수 있습니다.

양자화의 오류를 어떻게 추정합니까? 또한 훈련을 실행해야만 얻을 수 있으며 모든 열에 대해 한 번에 얻을 수 있으며 현재 양자화 된 각 열에 대해서는 그렇지 않습니다.

 
도서관 :
알렉세이 비아즈미킨 :

양자화의 오류를 어떻게 추정합니까? 또한 훈련을 실행해야만 얻을 수 있으며 모든 열에 대해 한 번에 얻을 수 있으며 현재 양자화 된 각 열에 대해서는 그렇지 않습니다.

전체 표본에 대한 목표 균형의 변화를 추정합니다. 두 개 이상의 대상이 있는 경우 특히 그렇습니다.

 
알렉세이 비아즈미킨 :

전체 표본에 대한 목표 균형의 변화를 평가합니다. 두 개 이상의 대상이 있는 경우 특히 그렇습니다.

어쨌든 다음 분할은 양자화 지점을 통해 두 부분으로 분할됩니다.

255개의 큰 조각을 양자화하여 양자 경계를 대략적으로(크기의 5-10-20%) 이동할 수 있습니다. 65535 퀀텀을 적용하면 퀀텀의 0.5% 스텝을 갖게 됩니다. 그리고 나무는 최선의 선택을 할 것입니다.

비록 거의. 보통 중간이나 쿼터에 안타를 친다. 65535 quanta에서는 중간이 더 정확하게 발견되고 255 quanta에서는 256배 더 거칠습니다.

 
도서관 :

어쨌든 다음 분할은 양자화 지점을 통해 두 부분으로 분할됩니다.

255개의 큰 조각을 양자화하여 양자 경계를 대략적으로(크기의 5-10-20%) 이동할 수 있습니다. 65535 퀀트를 적용하면 퀀트의 0.5% 단계를 갖게 됩니다. 그리고 나무는 최선의 선택을 할 것입니다.

비록 거의. 보통 중간이나 쿼터에서 안타를 친다. 65535 quanta에서는 중간이 더 정확하게 발견되고 255 quanta에서는 256배 더 거칠습니다.

그것이 바로 분할이 될 것이지만 분할은 50%가 아니라 고르지 않을 것입니다. 상위 분할과의 일치에 따라 다르지만 논리에 따르면 세그먼트가 포화된 위치를 찾는 경우 가능성이 다를 것이라고 제안합니다. 단위 또는 균일한 양이 있는 경우(전체 샘플의 균형과 관련하여). 목표는 나뭇잎의 샘플에서 최소 1%의 예제를 얻는 것과 동시에 한 클래스의 레이블에서 약 65%를 얻는 것입니다.

 
알렉세이 비아즈미킨 :

그것이 바로 분할이 될 것이지만 분할은 50%가 아니라 고르지 않을 것입니다. 상위 분할과의 일치에 따라 다르지만 논리에 따르면 세그먼트가 포화된 위치를 찾는 경우 가능성이 다를 것이라고 제안합니다. 단위 또는 균일한 양이 있는 경우(전체 샘플의 균형과 관련하여). 목표는 나뭇잎의 샘플에서 최소 1%의 예제를 얻는 것과 동시에 한 클래스의 레이블에서 약 65%를 얻는 것입니다.

이것은 매우 어려운 작업이라고 생각합니다.

그리고 그러한 기능이 있다면 MO 없이도 해당 기능에서만 작업할 수 있습니다.

불행히도, 우리는 그러한 기능이 없습니다.

 
막심 드미트리예프스키 :

시험에는 필요하지 않지만 유용할 수 있습니다.

결과는 이상하게 판명되었습니다. 테스트 및 교육 샘플에서 0.6-0.8을 호출하고 변환이 없는 시험에서 0.009, 변환이 0.65인 경우 - 여기에서 뭔가 잘못되었습니다.

CatBoost가 변환 알고리즘을 배운 것 같은 느낌입니다 :)

이전 줄과 새 줄을 표시할 수 있습니까? 그런 다음 변환된 샘플에서 변환된 행을 제거하고 이것이 해석 문제인지 고품질 교육이 아닌지 확인할 수 있습니다.

 
도서관 :

이것은 매우 어려운 작업이라고 생각합니다.

그리고 그러한 기능이 있다면 MO 없이도 해당 기능에서만 작업할 수 있습니다.

불행히도, 우리는 그러한 기능이 없습니다.

y - 그리드 파티셔닝의 경우, X 편차의 경우 전체 샘플에서 각 클래스의 목표 합계에 대한 백분율입니다. 5%를 필터링합니다. 다른 클래스가 다른 영역에서 우세하고 미러 변경이 있음을 알 수 있습니다. 그런 다음 특정 클래스로 인해 개선이 발생하지만(히스토그램은 마이너스로 이동) 때로는 그렇지 않습니다. 이 모든 것이 교육에 사용되어야 하지만 내가 알고 있는 표준 교육 방법에서는 이를 실제로 고려하지 않습니다. 유전학 (더 정확하게는 제거를 위해)으로 파열시키는 것이 더 효과적 일 가능성이 있습니다. 수행해야합니다.

사유: