트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2387

 
알렉세이 비아즈미킨 :

설명에서 이해가 안 된다면 정확히 무엇이 명확하지 않은지 질문하세요. 더 잘 설명하도록 노력하겠습니다.

저도 몇 년 전에 이미 그렇게 했는데, 무의미한 게 아니라 인건비 때문에 거절했어요.

아래는 이전 실험의 결과 테이블이며 작업은 다음과 같습니다.

1. 예측변수의 개수를 9개로 자른다.

2. 조각 간의 조합이 만들어집니다 - 512

3. 그런 다음 각 조각의 유무에 따라 샘플이 평균적으로 어떻게 거동하는지에 대한 평가가 있습니다.

4. 작품의 의미(긍정/부정)에 대해 가정합니다.

5. 중요한 조각은 더 작은 조각으로 쪼개지고 덜 중요한 조각은 하나로 결합됩니다(순서대로일 필요는 없습니다).

6. 새로운 512 조합이 형성됩니다.

7. 샘플에 부정적인 영향을 미치는 작은 조각이 발견되면 결과의 개선이 멈출 때까지 추가 열거에서 제외되고 폐기 된 조각을 추가하고 동일한 방식으로 결과를 분석 할 수 있습니다. 반대로 긍정적인 영향은 하나의 그룹으로 일반화됩니다.

다음은 32번의 이러한 반복으로 지표가 어떻게 변하는지에 대한 예입니다.



물론 방법은 개선될 수 있지만 이를 위해서는 실험과 결과의 결과가 필요합니다.

예, 개선은 여러 번은 아니지만 결과를 통해 어떤 예측 변수가 결과에 더 좋거나 더 나쁜 영향을 미치는지와 그 이유를 생각할 수 있습니다.

그리고 CatBoost 통계로 작업하고 예측자(및 해당 그룹)를 제거/추가하려고 합니다. 이전에 사용한 열거보다 빠를 수 있기 때문입니다.

또 다른 장점은 예측 변수가 과도하면 드문 분할이 나타나고 리프 활성화가 훈련 외부의 샘플에서 매우 드물게 발생할 수 있다는 것입니다(이전에 화면에서 이것을 보여주었습니다). 이는 의도적으로 훈련 및 평가의 품질을 저하시킵니다.

뭔가 똑똑해.
한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까?
첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등
2개의 중첩 루프만 있으면 됩니다.
적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.
 
막심 드미트리예프스키 :

무의미한 시간 죽이기

건설적인 토론이 없을 것이 분명합니다. 본질을 이해하려는 욕구가 없습니다.

 
알렉세이 비아즈미킨 :

건설적인 토론이 없을 것이 분명합니다. 본질을 이해하려는 욕구가 없습니다.

쓰레기를 겪을 생각이 없고 본질이 분명하다(고통쓰레기)

 
도서관 :
뭔가 똑똑해.
한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까?
첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등
2개의 중첩 루프만 있으면 됩니다.
적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.

최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.

 

부스팅의 도움으로 부스팅을 재발명하기로 한 남자, 그를 방해하지 말자

상식에 호소하는 것은 도움이 되지 않았습니다

 
막심 드미트리예프스키 :

쓰레기를 겪을 생각이 없고 본질이 분명하다(고통쓰레기)

왜 헛소리?

이 개선 사항을 제공합니다. 그렇습니다.

이론적 근거가 있습니다. 그렇습니다.

물론 이러한 개선은 규모의 순서가 아닙니다.

그리고 예, 예측자에게는 그다지 효과적이지 않을 수 있습니다. 여기에서 거절의 근거를 인정할 수 있습니다.

 
신경 화상))
거래는 잊어버리고 신경망에서 지표 만들기

 
알렉세이 비아즈미킨 :

왜 헛소리?

이 개선 사항을 제공합니다. 그렇습니다.

이론적 근거가 있습니다. 그렇습니다.

물론 이러한 개선은 규모의 순서가 아닙니다.

그리고 예, 예측자에게는 그다지 효과적이지 않을 수 있습니다. 여기에서 거절의 근거를 인정할 수 있습니다.

이미 모든 것을 말했지만, 나는 열거 할 수없는 열거를 방해하지 않을 것입니다.

 
알렉세이 비아즈미킨 :

최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.

첫 번째 최상의 기능을 선택한 후 첫 번째 기능과 함께 상호 작용이 가장 좋은 두 번째 기능이 선택되는 식입니다. 10에 도달하면 이전에 선택한 10개 중 하나와 가장 잘 상호 작용하는 방식으로 다음 항목이 선택되지만 대부분의 경우 모든 항목과 상호 작용합니다.
 
도서관 :
첫 번째 최상의 기능을 선택한 후 첫 번째 기능과 함께 상호 작용이 가장 좋은 두 번째 기능이 선택되는 식입니다. 10을 칠 때. 다음 항목은 이전에 선택한 모든 항목과 가장 잘 상호 작용하여 선택되지만 대부분의 경우

네 그렇게 작동하지 않습니다

모델에서 가져오기 가 적은 피처를 제거하고 분리한 다음 잘 비교 .. 손가락(기타 피처) 등으로 원을 그리십시오.

사유: