트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2386

[삭제]  
알렉세이 비아즈미킨 :

게다가, 나는 수년 동안 이 접근 방식을 해왔다.

그러나 지금은 매우 느려서 대상을 빠르게 변경(성공한 대상 검색)할 수 없고 개별 규칙은 기록에서 어떻게 확인하더라도 작동이 중지되기 때문에 다소 연기되었습니다.

Maxim, CSV 파일의 데이터에 따라 주기에서 모델(또는 100개 모델)을 생성하는 파이썬 스크립트를 만든 다음 표준 CatBoost 도구를 사용하여 예측자의 중요성에 대해 분석한 다음 비활성화하는 것을 도와주시겠습니까? / 특정 조건에서 예측자(CatBoost가 이 작업을 수행할 수 있음)를 사용하도록 설정하고 새 모델을 다시 생성합니다. 이 방법을 사용하면 중요한 예측 변수를 강조 표시하여 모델을 개선할 수 있습니다. 저도 비슷한 방법을 사용하지만, 매 주기마다 예측변수를 필터링/추가한 후 학습 주기를 수동으로 다시 시작해야 하기 때문에 이렇게 하는 것이 매우 불편합니다.

그때까지

그리고 나는 그러한 접근 방식을 믿지 않습니다 (나는 더 빠르고 더 나은 배수를 알고 있습니다)

 
막심 드미트리예프스키 :

그때까지

그리고 나는 그러한 접근 방식을 믿지 않습니다 (나는 더 빠르고 더 나은 배수를 알고 있습니다)

일하는 방식은 믿음의 문제가 아닙니다.

그리고 어떤 접근이 더 빠르고 더 좋은지, 효과를 비교해 볼까요!?

[삭제]  
알렉세이 비아즈미킨 :

일하는 방식은 믿음의 문제가 아닙니다.

그리고 어떤 접근이 더 빠르고 더 좋은지, 효과를 비교해 볼까요!?

믿음의 문제가 아니므로 일종의 문서가 필요합니다.

모델에서 기능을 제거하면 상호 작용이 변경되므로 원하는 만큼 다시 정렬할 수 있습니다.
 
알다시피, 모든 NS, Forest, Boost는 MA 및 기타 디지털 필터 와 같은 기능을 자체적으로 재생할 수 있습니다. 그리고 50-100개의 바만 제공한다면 동일한 Mashki를 제공하는 것은 의미가 없는 것처럼 보일 것입니다.
심층 신경망 에서는 아마도.
그러나 규제 된 부스트 및 숲에서는 - 아니요.
예를 들어, catboost에서 권장되는 트리 깊이는 6입니다. 이는 2^6=64 분할입니다. MA30이 필요한 경우 평균적으로 각 막대는 2번 나누어집니다(반으로, 반 중 하나를 다시 반으로). 대략(오차 10%) MA를 재현하려면 각 막대를 최소 10번 나누어야 합니다. 이것은 9-10의 깊이가 필요합니다.
그러나 트리를 깊게 나누면 일반화할 수 없습니다.
따라서 얕은 나무는 일반화할 수 있지만 필요한 기능(예: MA) 내부에서 재생산하는 것은 불가능합니다. 즉, 막대 외에도 MA, CCI 및 기능으로 확인하려는 모든 항목을 제출해야 합니다.

나무 시스템에는 막대만 있으면 충분하다고 생각한 사람은 나뿐만이 아닙니다. 아직 지지자가 있다면 - 나는 그들의 주장을 표현할 것을 제안합니다.
 
막심 드미트리예프스키 :

믿음의 문제가 아니므로 일종의 문서가 필요합니다.

모델에서 기능을 제거하면 상호 작용이 변경되므로 원하는 만큼 다시 정렬할 수 있습니다.

입증해야 할 사항을 결정합시다.

왜, 예측자를 제거하면 이점이 있을 수 있습니다. 제 생각에는 공식적으로 예측자가 루트(종종) 분할에 대해 성공적인 것으로 선택할 수 있습니다. 그 이유는 이에 대한 성능이 좋기 때문입니다. 종종 다른 예측자와의 일치가 결과를 향상시킵니다. - 탐욕의 원칙, 그러나 이 원칙은 단일 전체로서 데이터 세트와 함께 작동하며, 공간적 특성(결과와 관련하여 전체 샘플에 대한 이벤트 발생 빈도)에 대한 확인이 없습니다. 이는 다음과 같은 상황입니다. 예를 들어, 샘플의 1/5에 대한 이벤트 결과의 누적은 강한 경향이 있었고 그 다음에는 그다지 강하지 않고 결과가 이미 모호했다는 사실에서 만, 모델 구축 방법은 이것을 취하지 않습니다. 계정에. 또는 비슷한 상황이지만 다른 이유가 있습니다. 모델조차도 안정적인 것으로 판명되었지만 일반적으로 거래 결과의 재무 지표가 플러스가 너무 작거나 마이너스가 너무 크며 이는 모델이 학습할 때 고려할 수 없는 매우 얇은 순간입니다.

따라서 목표는 다른 시간 간격으로 분류 모델 자체를 개선하는 것뿐만 아니라 재정적 결과 측면에서 개선하는 것입니다.

[삭제]  
알렉세이 비아즈미킨 :

입증해야 할 사항을 결정합시다.

왜, 예측자를 제거하면 이점이 있을 수 있습니다. 제 생각에는 공식적으로 예측자가 루트(종종) 분할에 대해 성공적인 것으로 선택할 수 있습니다. 그 이유는 이에 대한 성능이 좋기 때문입니다. 종종 다른 예측자와의 일치가 결과를 향상시킵니다. - 탐욕의 원칙, 그러나 이 원칙은 단일 전체로서 데이터 세트와 함께 작동하며, 공간적 특성(결과와 관련하여 전체 샘플에 대한 이벤트 발생 빈도)에 대한 확인이 없습니다. 이는 다음과 같은 상황입니다. 샘플의 1/5에 대한 이벤트 결과의 누적, 예를 들어 강한 경향이 있었다는 사실로부터만, 그렇게 강하지는 않지만 결과가 이미 모호하지만 모델 구축 방법은 다음을 취하지 않습니다. 이것을 고려합니다. 또는 비슷한 상황이지만 다른 이유가 있습니다. 모델조차도 안정적인 것으로 판명되었지만 일반적으로 거래 결과의 재무 지표가 플러스가 너무 작거나 마이너스가 너무 크며 이는 모델이 학습할 때 고려할 수 없는 매우 얇은 순간입니다.

따라서 목표는 다양한 시간 간격으로 분류 모델 자체를 개선하는 것뿐만 아니라 재정적 결과 측면에서 개선하는 것입니다.

코딩할 준비가 되지 않은 다음 이해할 수 없는 결과로 이해할 수 없는 아이디어를 지원합니다.

 
막심 드미트리예프스키 :

코딩할 준비가 되지 않은 후 이해할 수 없는 결과로 이해할 수 없는 아이디어를 지원합니다.

따라서 귀하의 아이디어만 정확하고 토론할 가치가 있는 것으로 간주된다고 말하십시오.

[삭제]  
알렉세이 비아즈미킨 :

따라서 귀하의 아이디어만 정확하고 토론할 가치가 있는 것으로 간주된다고 말하십시오.

오히려 정당하다. 나는 설명에서 아무것도 이해하지 못했습니다.

나는 이미 표지판 재배열의 무의미함에 대해 썼습니다. 나는 몇 년 전에 그것을했습니다.

 
막심 드미트리예프스키 :

오히려 정당하다. 나는 설명에서 아무것도 이해하지 못했습니다.

나는 이미 표지판 재배열의 무의미함에 대해 썼습니다. 나는 몇 년 전에 그것을했습니다.

설명에서 이해가 안 된다면 정확히 무엇이 명확하지 않은지 질문하세요. 더 잘 설명하도록 노력하겠습니다.

저도 몇 년 전에 이미 그렇게 했는데, 무의미한 게 아니라 인건비 때문에 거절했어요.

아래는 이전 실험의 결과 표입니다. 작업은 다음과 같습니다.

1. 예측변수의 개수를 9개로 자른다.

2. 조각 간의 조합이 만들어집니다 - 512

3. 그런 다음 각 조각의 유무에 따라 샘플이 평균적으로 어떻게 거동하는지에 대한 평가가 있습니다.

4. 작품의 의미(긍정/부정)에 대해 가정합니다.

5. 중요한 조각은 더 작은 조각으로 쪼개지고 덜 중요한 조각은 하나로 결합됩니다(순서대로일 필요는 없습니다).

6. 새로운 512 조합이 형성됩니다.

7. 샘플에 부정적인 영향을 미치는 작은 조각이 발견되면 결과의 개선이 멈출 때까지 추가 열거에서 제외되고 폐기 된 조각을 추가하고 동일한 방식으로 결과를 분석 할 수 있습니다. 반대로 긍정적인 영향력은 하나의 그룹으로 일반화됩니다.

다음은 32번의 이러한 반복으로 지표가 어떻게 변하는지에 대한 예입니다.



물론 방법은 개선될 수 있지만 이를 위해서는 실험과 결과의 결과가 필요합니다.

예, 개선은 여러 번은 아니지만 결과를 통해 어떤 예측 변수가 결과에 더 좋거나 더 나쁜 영향을 미치는지와 그 이유를 생각할 수 있습니다.

그리고 CatBoost 통계로 작업하고 예측자(및 해당 그룹)를 제거/추가하려고 합니다. 이전에 사용한 열거보다 빠를 수 있기 때문입니다.

또 다른 장점은 예측 변수가 과도하면 드문 분할이 나타나고 리프 활성화가 훈련 외부의 샘플에서 매우 드물게 발생할 수 있다는 것입니다(이전에 화면에서 이것을 보여주었습니다). 이는 의도적으로 훈련 및 평가의 품질을 저하시킵니다.

[삭제]  
알렉세이 비아즈미킨 :

설명에서 이해가 안 된다면 정확히 무엇이 명확하지 않은지 질문하세요. 더 잘 설명하도록 노력하겠습니다.

저도 몇 년 전에 이미 그렇게 했는데, 무의미한 게 아니라 인건비 때문에 거절했어요.

무의미한 시간 죽이기