그러면 더 자세한 정보가 필요합니다
제가 하고 있는 일에 대해 더 자세히 이야기할 기사를 쓸 생각입니다.
여기에서 비슷한 접근 방식에 대해 논의하고 싶었지만 관심이 없는 것으로 나타났습니다.
요컨대, 단계별로 수행하는 작업은 다음과 같습니다.
1. CatBoost를 사용하여 다른 수의 "양자"(강제 예비 분할)를 사용하여 다양한 유형의 양자 테이블을 저장합니다.
2. 지표의 안정성과 예측력을 위해 스크립트로 각 퀀텀을 분석합니다.
2.1. 전체 샘플에서 완전성과 정확성에 대한 임계값을 통과합니다.
2.2. 표본 영역에서 대상 예측 변수 지표의 편차 안정성 평가 - 나는 7점을 취하고 표준 편차에 따라 걸러냅니다.
3. 나는 양자화가 일어난 범위의 공간에서 교차하지 않는 것을 고려하여 각 예측 변수에 대한 모든 테이블에서 최상의 양자를 선택합니다.
4. 나는 새로운 샘플(모든 양자에 대해 결합된 두 가지 유형과 그렇지 않음)을 생성합니다. 여기서 양자의 예측자는 0 또는 1의 신호를 갖습니다.
5. 표본에서 유사한 신호를 갖는 예측 변수를 제외합니다.
6. 모델을 훈련시킵니다.
5번 포인트 이후에도 테스트 및 시험 샘플에 대한 지표의 안정성을 계속 확인하고 만족스러운 결과를 보인 예측 변수만 선택하면 학습 결과가 크게 향상됩니다. 이것은 일종의 속임수이지만 사용할 가치가 있는지 여부는 실험의 문제입니다. 실적이 안정적일수록 지속 가능성이 높다고 생각합니다.
특정 단계에 대해 궁금한 점이 있으시면 질문해 주세요. 더 많은 정보를 드릴 수 있도록 노력하겠습니다.추신: 선택한 양자 테이블을 저장하고 비효율적인 예측 변수를 제거하고 일반 샘플에서 훈련할 수도 있습니다. 그러면 학습도 향상됩니다.
양자 테이블은 예측 변수를 경계/범위로 분할한 다음 훈련에 포함됩니다. 예, 이전에 여러 번 이에 대해 썼습니다.
계속 지켜봐 주세요.
요점은 우리가 어떻게 그리고 어떤 목적으로 양자화한다는 것입니다.
시간 대신 예측 변수를 사용할 때 형평성 단조로운 영역으로 어떻게든 양자화를 시도했습니다. 특별히 좋은 점은 못 봤습니다.
아, 알겠습니다. 특징 양자화는 학습 속도를 높이기 위해서만 사용되는 것 같습니다. 아니면 힘든 일이 있으신가요? 나는 고전적인 접근 방식의 지지자에 약간의 변태를 더한 것뿐입니다.
학습 가속화는 장점 중 하나이지만 유사한 예측 변수 상태를 집계하는 효과도 있습니다. 대략적으로 말하면 파티션 섹션을 기본 예측기에서 노이즈를 제거할 수 있는 별도의 이진 예측기로 간주합니다.
훈련 개선 효과 외에도 유사한 결과를 제공하는 모델의 트리 수를 줄여 모델의 노이즈를 줄이는 것으로 나타났습니다.
저는 고정 프레임 테이블을 실험 중입니다. 파티션이 데이터를 기반으로 하지 않고 지정된 기준(예: 피보나치 수준)을 기반으로 하는 경우입니다.
그래서 나는 특정 영역에서 통계적 이점을 제공하는 안정적인 패턴을 식별하기 위해 썼습니다. 그리고 우리는 예측 변수를 양자화합니다.
그러나 "어떻게" 이것을 하는 것이 더 나은지는 열린 질문입니다. 지금까지는 CatBoost 알고리즘의 경험적 가정 또는 통계적 분할에 따라 만들어진 준비된 테이블의 열거에 의해서만 가능합니다.
그림 3은 "양자"를 보여줍니다. 아마도 중간 범위가 선택되어 일종의 통계 이점이 있는 것 같습니다.