트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2413

 
막심 드미트리예프스키 :
이것이 작동하는 이유에 대한 전체 그림을 볼 수 없습니다.

샘플에 무작위 예측 변수가 있다고 가정합니다. 사실 노이즈는 노이즈를 제거하는 것입니다.

이것이 결과를 개선하지 않을 것이라고 생각하십니까?

 
알렉세이 비아즈미킨 :

샘플에 무작위 예측 변수가 있다고 가정합니다. 사실 노이즈는 노이즈를 제거하는 것입니다.

이것이 결과를 개선하지 않을 것이라고 생각하십니까?

기능 대상 링크를 가져와 안정적인 신호가 발견될 때까지 시간별로 신호를 필터링하는 것이 더 쉽습니다. 그리고 그러한 봇 모델에서 수집
 
막심 드미트리예프스키 :
기능 대상 링크를 가져와 안정적인 신호가 발견될 때까지 시간별로 신호를 필터링하는 것이 더 쉽습니다. 그리고 그러한 봇 모델에서 수집

본질을 이해하지 못한 다음 더 자세히 작성하거나 제안된 조치가 시간에 대한 정보가 포함된 predictor_2를 predictor_1에 추가하는 것과 어떻게 다른지 이해하지 못합니까?

 
알렉세이 비아즈미킨 :

그런 다음 결과 모델의 분석을 통해 예측 변수/특징/특징을 선택하는 방법을 개선하는 방법에 대해 생각했습니다.

나는 알고리즘 구현에 대한 아이디어를 제 자신에게 주었지만 존경받는 커뮤니티와 공유하기로 결정했습니다. 아마도 이 알고리즘 구현 작업을 시작하기 전에 건설적인 비판이나 알고리즘의 추가/정련이 있을 것입니다. 정당화로 작동하는 것이 없다는 아이디어는 흥미 롭습니다.


CatBoost 모델 생성 시 사용 빈도(기능 중요도)에 따른 예측 변수 선택

아이디어는 각 알고리즘이 트리를 구축하는 고유한 특성을 가지고 있으며 특정 알고리즘의 알고리즘(이 경우 CatBoost)에서 더 자주 사용되는 예측 변수를 선택한다는 것입니다.

그러나 시간 규모에 대한 균일성을 평가하기 위해 여러 샘플을 사용하고 해당 데이터를 단일 테이블에 요약합니다. 이 접근 방식을 사용하면 모델 중 하나 에서 예측 변수의 선택에 큰 영향을 미친 무작위 이벤트를 제거할 수 있습니다. 모델이 구축되는 패턴은 전체 샘플에서 발생해야 하며, 이는 새 데이터에 대한 올바른 분류에 기여할 수 있습니다. 이 기능은 시장에서 얻은 데이터에 적용됩니다. 숨겨진 순환성을 포함하여 완전하지 않은 데이터, 즉 일시적인 것이 아니라 다사다난합니다. 동시에 섹션 중 하나에서 상위 30% -50%에 포함되지 않은 예측 변수에 페널티를 부여하는 것이 바람직합니다. 이렇게 하면 다른 시간 간격으로 모델을 생성할 때 가장 자주 수요가 있는 예측 변수를 선택할 수 있습니다.

또한 임의성 요인을 줄이려면 Seed 값이 다른 모델을 사용해야 하므로 이러한 모델이 25~100개 있어야 한다고 생각합니다. 결과 모델의 품질에 따라 계수를 추가할 가치가 있는지 아니면 모든 평균을 예측 변수에 대한 결과 - 아직 잘 모르겠지만 간단한 것부터 시작해야 한다고 생각합니다. 그냥 평균.

중요한 문제는 양자화 테이블의 사용이며 원칙 선택에 결정적인 역할을 할 수 있습니다. 테이블이 고정되어 있지 않으면 각 모델은 하위 샘플에 대해 자체 테이블을 생성하므로 얻은 결과를 비교할 수 없으므로 테이블은 모든 샘플에 대해 공통적이어야 합니다.

양자화 테이블을 얻을 수 있습니다.

  1. 전체 훈련 샘플의 양자화 유형 및 수에 따라 CatBoost에 대한 하이퍼파라미터를 설정하고 결과를 csv에 저장합니다.
  2. CatBoost의 하이퍼파라미터를 파티션의 유형과 수에 따라 quant로 설정하고 샘플링 사이트 중 하나를 선택하여 가장 좋은 사이트를 선택하고 결과를 csv에 저장합니다.
  3. 다양한 테이블에서 최상의 옵션을 선택하는 별도의 스크립트를 사용하여 테이블을 가져옵니다.
훈련 중 테이블을 강제로 로딩하여 이전에 얻은 테이블을 각 샘플에 사용합니다.

부스트에 적용하기 전에 자신을 퀀타이즈할 수 있습니다. 모든 것은 사용자가 제어할 수 있습니다.
0 ~ 0.00005 = 0.00005 0.00005 ~ 0.00010 = 0.00010 등

 
도서관 :

부스트에 적용하기 전에 자신을 퀀타이즈할 수 있습니다. 모든 것은 사용자가 제어할 수 있습니다.
0 ~ 0.00005 = 0.00005 0.00005 ~ 0.00010 = 0.00010 등

양자화 테이블을 얻기 위한 세 번째 옵션은 내가 미리 생성한 사용자 양자화 테이블의 평가를 제공합니다. 실험에 따르면 이것이 항상 최선의 선택은 아닙니다. 그건 그렇고, 우리가 숫자 시퀀스에 대해 이야기하고 있기 때문에 선형, 피보나치, 지수 외에 어떤 다른 단계를 사용할 수 있습니까?

 
알렉세이 비아즈미킨 :

양자화 테이블을 얻기 위한 세 번째 옵션은 내가 미리 생성한 사용자 양자화 테이블의 평가를 제공합니다. 실험에 따르면 이것이 항상 최선의 선택은 아닙니다. 그건 그렇고, 우리가 숫자 시퀀스에 대해 이야기하고 있기 때문에 선형, 피보나치, 지수 외에 어떤 다른 단계를 사용할 수 있습니까?

3으로 충분하지 않습니까? 그래서 실험 횟수가 3배가 되었습니다.)) 다른 곳은 어디인가요?
 
알렉세이 비아즈미킨 :

본질을 이해하지 못한 다음 더 자세히 작성하거나 제안된 조치가 시간에 대한 정보가 포함된 predictor_2를 predictor_1에 추가하는 것과 어떻게 다른지 이해하지 못합니까?

아직 세부사항을 작성하지 않을 이유가 있지만 언젠가는 나타날 것입니다. 회로의 일부는 이미 여기에서 설명되었습니다. 나는 이것이 기능 선택의 껍질에 묶여 있지 않은 유일한 정상적인 옵션이라고 생각합니다. 이상적으로 기호는 레이블도 될 수 있습니다. 알고리즘의 임무는 시간 구성 요소(이러한 기능이 작동하지 않는 곳을 필터링)를 고려하여 보정하는 것입니다. 증거는 이 접근 방식을 약간 조정한 Prado의 메타 레이블입니다. 당신은 완전히 다른 대초원에 있으므로 이해가 일어나지 않을 수 있습니다.
 
도서관 :
3으로 충분하지 않습니까? 그래서 실험 횟수가 3배가 되었습니다.)) 다른 곳은 어디인가요?

물론 충분하지 않습니다 :) 사실 저는 각각의 예측변수에 대해 최적의 테이블을 선택하고 있는데, 하늘이 크면 클수록 좋습니다. 최신 버전의 스크립트에서는 일반적으로 모든 테이블에서 가장 좋은 구간이 선택되어 각 예측 변수에 대해 하나의 테이블로 결합됩니다.

 
막심 드미트리예프스키 :
아직 세부사항을 작성하지 않을 이유가 있지만 언젠가는 나타날 것입니다. 회로의 일부는 이미 여기에서 설명되었습니다. 나는 이것이 기능 선택의 껍질에 묶여 있지 않은 유일한 정상적인 옵션이라고 생각합니다. 이상적으로 기호는 레이블도 될 수 있습니다. 알고리즘의 임무는 시간 구성 요소(이러한 기능이 작동하지 않는 곳을 필터링)를 고려하여 보정하는 것입니다. 증거는 이 접근 방식을 약간 조정한 Prado의 메타 레이블입니다. 당신은 완전히 다른 대초원에 있으므로 이해가 일어나지 않을 수 있습니다.

예, 알고리즘의 보정에 대해 명확한 것은 없습니다. 훈련에서 장소를 걸러내더라도 적용하는 동안 이러한 장소를 어떻게 인식하는지 명확하지 않습니다.

 
도서관 :

영화 매트릭스의 팬?

여기서 매트릭스는 무엇입니까?
나는 똑똑한 사람들을 읽습니다 정보를 읽는 1 시간에 블로그를 읽는 10 년 이상 과학자의 모든 종류의 단점을 해외에서 얻을 수 있습니다.
그리고 별로...
사유: