트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1203

 
알렉세이 비아즈미킨 :

고맙습니다. 표본에서 예측자가 가지고 있던 것과 동일한 값으로 무작위화해야 합니다. 제대로 이해하고 있습니까?

일반적으로 접근 방식은 명확합니다. 덕분에 구현 및 테스트 방법에 대해 생각해야 합니다.

아아, 나는 그것을 압도 할 수 없으므로 때때로 당신의 입술에서 다시 이야기를들을 것입니다.

아니요, 일반적으로 좌파를 무작위로 지정합니다. 예측 변수 값을 완전히 제거하고 거기에 백색 잡음을 밀어 넣습니다.

그런 다음 다음 검사로 넘어갈 때 원래 값을 다시 푸시합니다.

대략적으로 말하면 각 예측 변수 대신 백색 잡음을 하나씩 대체합니다. 그래서 아마도 더 명확할 것입니다.

중요한 조건: 예측자는 상관되지 않아야 합니다. 그렇지 않으면 오류가 있는 쓰레기로 판명됩니다. 이를 위해 먼저 PCA를 통해 변환했지만 상관 행렬을 만들고 강력한 상관 관계가 있는 모든 행렬을 제거할 수 있습니다. 다른 메커니즘이 있지만 어렵습니다.
 
막심 드미트리예프스키 :

아니요, 일반적으로 좌파를 무작위로 지정합니다. 예측 변수 값을 완전히 제거하고 거기에 백색 잡음을 밀어 넣습니다.

그런 다음 다음 검사로 넘어갈 때 원래 값을 다시 푸시합니다.

소음일 경우 분할을 완전히 깰 것입니다. 예를 들어 "100 이상" 규칙이 있는 분할이 있고 0에서 99까지 무작위로 입력하면 추가 분할이 더 이상 활성화되지 않으며 아마도 시트 규칙 중 하나를 삭제하면 분할이 얼마나 더 잘 작동하는지 확인하는 것이 중요합니다...

 
막심 드미트리예프스키 :


중요한 조건: 예측자는 상관되지 않아야 합니다. 그렇지 않으면 오류가 있는 쓰레기로 판명됩니다. 이를 위해 먼저 PCA를 통해 변환했지만 상관 행렬을 만들고 강력한 상관 관계가 있는 모든 행렬을 제거할 수 있습니다. 다른 메커니즘이 있지만 어렵습니다.

어떤 상관 관계가 허용됩니까? 결국 좋은 예측 변수는 목표와 상관 관계가 있어야 하므로 서로 어느 정도 상관 관계가 있습니다 ...

 
알렉세이 비아즈미킨 :

소음일 경우 분할을 완전히 깰 것입니다. 예를 들어 "100 이상" 규칙이 있는 분할이 있고 0에서 99까지 무작위로 입력하면 추가 분할이 더 이상 활성화되지 않으며 아마도 시트 규칙 중 하나를 삭제하면 분할이 얼마나 더 잘 작동하는지 확인하는 것이 중요합니다...

그것은 오류가 많이 떨어지고 모든 것이 무리가 될 것이며 중요성이 낮다는 것을 의미합니다. 나무가 어떻게 나누어지는지 알고 있는 모델 내부로 올라가지 마십시오. 각각 다른 방식으로 다양한 기능을 가지고 있습니다. 병원에선 늘 평범해 보여

 
알렉세이 비아즈미킨 :

어떤 상관 관계가 허용됩니까? 결국 좋은 예측 변수는 목표와 상관 관계가 있어야 하므로 서로 어느 정도 상관 관계가 있습니다 ...

이것은 하나의 예측 변수가 있는 선형 회귀 대한 이단입니다. 비선형 모델에서는 특히 분류인 경우 대상과 상관 관계를 지정할 필요가 없습니다.

어떤 것이 허용되는지, 어렵습니다. .. 또는 실험적으로 모르겠습니다. 물론 이와 관련하여 PCA를 통해 더 쉽습니다.
 
막심 드미트리예프스키 :

그것은 오류가 많이 떨어지고 모든 것이 무리가 될 것이며 중요성이 낮다는 것을 의미합니다. 나무가 어떻게 나누어지는지 알고 있는 모델 내부로 올라가지 마십시오. 각각 다른 방식으로 다양한 기능을 가지고 있습니다. 병원에서는 항상 평균처럼 보입니다.

그런 다음 값을 재설정하거나 다른 값으로 바꿀 수 있습니다. 동일한 임의의 값이지만 이것은 논리적이지 않은 것 같습니다. 일반적으로 이것을 구현할 수 있다면 두 가지 옵션을 시도해 볼 것입니다.

막심 드미트리예프스키 :

이것은 선형 회귀 에 대한 이단입니다. 비선형 모델에서는 대상과 상관 관계가 없어야 합니다.

음, 목표와 상관관계가 있는 경우 예측 변수가 나쁘다는 주장은 무엇입니까?

 
알렉세이 비아즈미킨 :

그런 다음 값을 재설정하거나 다른 값으로 바꿀 수 있습니다. 동일한 임의의 값이지만 이것은 논리적이지 않은 것 같습니다. 일반적으로 이것을 구현할 수 있다면 두 가지 옵션을 시도해 볼 것입니다.

음, 목표와 상관관계가 있는 경우 예측 변수가 나쁘다는 주장은 무엇입니까?

원하는대로하십시오. 주요 원칙은 기능을 재정렬하는 원칙입니다. 이것은 사소한 일이며 가장 가능성이 높습니다.

하나가 아니라 많이 있고 수입 이 거의 같을 때 입니다. 그들 사이의 상관 관계는 강력합니다. 재정렬 중에 하나의 강력한 특성을 제거해도 모델 오류가 떨어지지 않는 것으로 나타났습니다. 가져오기가 동일한 유사한 기능이 있고 강력한 기능이 인식되지 않습니다. 따라서 모든 상관된 기능을 한 번에 무작위화하거나(구현하기가 더 어렵습니다) 처음에는 아무 것도 강하게 상관되지 않도록 주의해야 합니다.

 
막심 드미트리예프스키 :

원하는대로하십시오. 주요 원칙은 기능을 재정렬하는 원칙입니다. 이것은 사소한 일이며 가장 가능성이 높습니다.

하나가 아니라 수입이 많고 수입도 비슷하기 때문에 상관관계가 강하다. 재정렬 중에 하나의 강력한 특성을 제거해도 모델 오류가 떨어지지 않는 것으로 나타났습니다. 가져오기가 동일한 유사한 기능이 있고 강력한 기능이 하나도 인식되지 않습니다.

대칭 트리를 구축할 수 있는 방식으로 예측자를 얻어야 하는 모델이기도 합니다. 결국 재교육 없이는 모델을 생성할 때 의미가 없기 때문에 제 생각에는 그럴 것 같지 않습니다.

그렇다면 어떤 종류의 상관 관계가 허용됩니까?
 
알렉세이 비아즈미킨 :

또한 대칭 트리를 구축할 수 있는 방식으로 예측자를 얻어야 하는 모델이기도 합니다. 결국 반복적인 훈련 없이는 모델을 생성할 때 이것이 의미가 없기 때문에 제 생각에는 그럴 것 같지 않습니다.

이것은 숲의 경우 잘 작동합니다. catbust의 경우에는 읽어야 합니다. 어떻게 작동하는지 기억나지 않습니다. 모델 자체의 구조 때문에 그의 수입품 자체가 잘 구현되었을 수도 있습니다.

무엇이 받아들여질 수 있는지 모르겠어, 임계값을 설정하고 보십시오. + - 모델이 약간 변경됩니다. 부스팅이 RF가 작동하는 방식이 아니라는 사실에도 불구하고 처음에는 분명히 가져오기가 있을 수 있습니다.

또는 기능이 원칙적으로 이질적이고 상관 관계가 없다고 확신하는 경우 일반적으로 이 단계를 시도하십시오.

이것들은 모두 중요한 것입니다. 특히 많은 기능이 있고 모델을 시끄럽게 만들지 않기 위해 슬래그를 버려야 하지만 상관 관계의 모든 %에 대해 흔들릴 정도로 많지는 않다고 생각합니다. 범위 -0.5; 0.5는 괜찮습니다

나중에 내가 직접 할게, 내가 봐줄게

 
막심 드미트리예프스키 :

이것은 숲의 경우 잘 작동합니다. catbust의 경우에는 읽어야 합니다. 어떻게 작동하는지 기억나지 않습니다. 모델 자체의 구조 때문에 그의 수입품 자체가 잘 구현되었을 수도 있습니다.

무엇이 받아들여질 수 있는지 모르겠어, 임계값을 설정하고 보십시오. + - 모델이 약간 변경됩니다. 부스팅이 RF가 작동하는 방식이 아니라는 사실에도 불구하고 처음에는 분명히 가져오기가 있을 수 있습니다.

또는 기능이 원칙적으로 이질적이고 상관 관계가 없다고 확신하는 경우 일반적으로 이 단계를 시도하십시오.

이것들은 모두 중요한 것입니다. 특히 많은 기능이 있고 모델을 시끄럽게 만들지 않도록 슬래그를 버려야 하지만 상관 관계의 모든 %에 대해 흔들릴 정도는 아니라고 생각합니다. 범위 -0.5; 0.5는 괜찮습니다

나중에 내가 직접 할게, 내가 봐줄게

물론 시도해야 합니다. 대상과 확실히 그런 상관관계는 없지만 모든 손이 행렬에 도달하지 않습니다. - 나는 상관관계에 대한 잎사귀를 보고 싶습니다. 그리고 아마도 catbust 모델 - 모델의 짝짓기가 가능하다는 것을 확실히 알고 있습니다 - 간단한 열거가 보여졌습니다 그러나 모든 것이 더 합리적으로 수행되어야 하며 공개된 상관 관계는 모델을 페어링할 때 반복 횟수를 줄여줍니다.

사유: