트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 104

 
트레이더 박사 :

Vtreat가 더 좋습니다. 특정 예측 모델에 맞추지 않고 대상 변수를 예측하는 데 예측자가 일반적으로 얼마나 좋은지 나쁜지, 모든 것을 통계적으로 평가합니다. 점수가 1/(예측 변수 수) 이하인 예측 변수를 사용하는 것이 좋습니다. 예를 들어 200개의 예측 변수가 있는 경우 점수가 1/200 미만인 예측 변수만 사용합니다. 예측 변수를 추정할 수 있으며 모든 추정치가 임계값을 초과하는 경우 모델을 성공적으로 훈련하고 새 데이터를 예측하는 대신 다른 예측 변수를 즉시 찾기 시작하는 것이 좋습니다.

몇 가지 단점이 있습니다. 패키지는 예측자와 하나씩 작동하며 상호 작용을 고려하지 않습니다. 나는 또한 완전히 동일하거나 상관관계가 높은 예측자가 있더라도 vtreat가 중복을 제거하지 않고 때로는 방해가 되는 것도 좋아하지 않습니다.

사실 상관된 예측 변수는 좋지 않습니다.

패키지는 일반적으로 스케일링, 센터링, 상관 관계 제거와 같은 예측 변수의 사전 처리가 필요합니다. 예를 들어 캐럿에서와 같이 .....

어쩌면 그렇게?

 
산산이치 포멘코 :

사실 상관된 예측 변수는 좋지 않습니다.

패키지는 일반적으로 스케일링, 센터링, 상관 관계 제거와 같은 예측 변수의 사전 처리가 필요합니다. 예를 들어 캐럿에서와 같이 .....

어쩌면 그렇게?

그건 그렇고, 아무도 데이터 마이닝을 취소하지 않았습니다. 여기 사이트에는이 주제에 대한 우리 동료의 세련된 기사 가 있습니다. 불행히도 저자는 이 스레드에 참여하지 않습니다.
 
트레이더 박사 :

당신은 휴리스틱을 평가하기 위한 좋은 툴킷을 확실히 개발했습니다. 자신이 개발한 모델(위원회)을 훈련시키는 방식이 FX에 적합하지 않다는 것을 증명했는데, 그 다음은?


나는 아직 그 방법을 끝내지 않았다. 훈련 및 테스트에서 최고의 모델 중 1/3이 플러스와 함께 또 다른 5년의 검증을 거쳤기 때문에 적어도 흥미롭습니다. 모든 것이 새고 있었다면.

그리고 제 일정에 대해 한 가지 더 생각이 있습니다. 모델이 너무 좋아서 유효성 검사에서 값의 95%가 0보다 크면 유효성 검사와 테스트 간의 연결을 잊고 훈련된 모델을 사용할 수 있습니다.

이것은 (좋은 일반화 효과가 있는) 강력한 모델을 찾는 요점입니다.

 
나는 항상 복잡한 거래 이론을 구축하려는 주제(이 포럼뿐만 아니라)를 읽습니다.
유전자 알고리즘 , 신경망, 작성자 본인만 알 수 있는 혼란스러운 공식 등

그리고 나는 항상 그러한 시스템이 시장에서 작동하지 않는다는 것을 알고 있습니다. 모니터링은 0 또는 마이너스가 됩니다.
그러나 다른 한편으로, 다음 주제에서 누군가는 두 개의 이동 평균에서 고문으로 수익을 얻습니다. 그리고 그는 잘 벌고 있습니다.

문제는 모든 것이 의미가 있습니까?
내 경험상 시스템이 단순하고 명확할수록 수익성이 높기 때문입니다.
 
산산이치 포멘코 :

.... 하지만 노이즈를 필터링한 후에만. 그리고 노이즈가 없다는 사실은 다른 샘플에 대한 모델의 성능 지표의 대략적인 불변성에 의해 결정됩니다. 예측 오차의 절대값이 아니라 모델의 과적합이 없다는 증거로 해석되는 성능 지표의 대략적인 동등성 사실(동등성)입니다. 어떤 재교육도 우리의 전부가 아닙니다.

나도 당신에게 대답하고 싶습니다.

여기에서 지표의 평등을 보고 있습니다. 그것을 재교육의 부족이라고 부르십시오. 선택한 모델을 다른 대규모 표본(지연)으로 테스트하여 과적합의 부재를 현실적으로 평가하려고 시도했습니까? 데이터의 한 부분에 대한 평등이 이 데이터에 모델을 맞추는 것으로 퇴화되고 모델이 미래에 병합되는 것으로 밝혀지지 않습니까? 나는 연구에서 이 패턴을 따릅니다.

 
Elasticnet에 대해 읽어보세요. 방법이자 패키지입니다. 선형 모델에 대한 하이브리드 정규화. 거기에서 예측 변수의 상관 관계가 처리되고 있습니다.
 
구매 및 착석을 위해 모델을 별도로 교육하는 사람이 있습니까?
 
알렉세이 버나코프 :

나도 당신에게 대답하고 싶습니다.

여기에서 지표의 평등을 보고 있습니다. 그것을 재교육의 부족이라고 부르십시오. 선택한 모델을 다른 대규모 표본(지연)으로 테스트하여 과적합의 부재를 현실적으로 평가하려고 시도했습니까? 데이터의 한 부분에 대한 평등이 이 데이터에 모델을 맞추는 것으로 퇴화되고 모델이 미래에 병합되는 것으로 밝혀지지 않습니까? 나는 연구에서 이 패턴을 따릅니다.

저만의 노이즈 필터링 알고리즘이 있습니다.

적용되는 경우 모델은 선택한 예측 변수에 대해 학습되고 모든 샘플에는 이 모델의 성능 지표가 거의 동일합니다. 신뢰 구간 에 대한 제 생각은 여기에서 "약 같음"이라는 단어를 없애기 위한 것입니다.

나는 그 이상을 말할 것이다.

연습이 달라 보입니다.

창구에서 작업해야 합니다. 따라서 미리 선택한 예측 변수 집합의 창에서 작업하기 위해 캐럿에서 rfe로 예측 변수를 선택하기 시작합니다. 특정 창에 대해 오류를 5-7% 줄이는 일부 하위 집합을 얻습니다. H1에서는 일주일에 한 번 합니다. 이 하위 집합은 주말마다 변경됩니다. 작년부터 그렇게 살고 있습니다.

그러나 사전에 소음을 제거하는 것은 필수 단계입니다. 그렇지 않다면 기적을 기대하십시오.

 
안드레이 딕 :
구매 및 착석을 위해 모델을 별도로 교육하는 사람이 있습니까?

나는 "구매"와 "판매"의 두 가지 클래스만 예측합니다. 즉, 항상 어떤 종류의 거래가 열려 있을 것입니다. 나는 한 모델로 작업하는데, 단순히 반대 결과를 주는 두 모델을 만들 이유가 없습니다.

그러나 점차적으로 "구매"/ "모든 것을 닫고 거래하지 않음"/ "판매"의 3 가지 클래스로 이동하고 싶습니다. 이렇게 하면 더 복잡한 전략으로 거래할 수 있습니다. 몇 번 시도했지만 3개의 클래스에 대한 훈련 모델에 문제가 있었습니다. 특히 모델이 이후에 클래스로 결과를 반올림하는 회귀인 경우에는 더욱 그렇습니다.
원래 클래스 1/0/-1이 첫 번째 모델( 구매만 )에 대해 1/0/0으로, 두 번째 모델(판매 오직). 이것은 각 모델에서 불균형한 클래스로 이어지지만(한 클래스의 예제 수가 다른 클래스보다 훨씬 많음) F-점수 및 카파와 같은 조건에서 작동하는 모델을 평가하기 위한 좋은 메트릭을 찾았습니다. 아직 이 방향으로 실제로 행해진 것은 없지만 그러한 계획은 꽤 가능성이 있어 보입니다.

 
산산이치 포멘코 :

사실 상관된 예측 변수는 좋지 않습니다.

패키지는 일반적으로 스케일링, 센터링, 상관 관계 제거와 같은 예측 변수의 사전 처리가 필요할 수 있습니다. 예를 들어 캐럿에서처럼 .....

어쩌면 그렇게?

아니요, vtreat는 불행히도 예측자 상호 작용 분석을 전혀 수행하지 않습니다. 그는 그것들을 하나 하나 엄격하게 연구합니다. 이것은 성배 패키지가 아닙니다 :(
스케일링이나 센터링이 어떻게든 결과에 영향을 미칠 것이라고 생각하지 않습니다. 그리고 y-aware 옵션을 활성화하면 패키지가 데이터 자체의 크기를 조정하고 중앙에 배치합니다.

블라디미르의 흥미로운 기사, 링크 감사합니다. 예측 변수의 상호 작용에 대한 분석은 주제에 있습니다.

사유: