트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

mytarmailS 2016.08.26 14:26 #1251

안드레이 딕 :
당신은 나를 이해하지 못하는 것 같다. zz 또는 다른 표시기가 아닌 그리드에 입력할 위치를 알려주지 않습니다. 훈련된 네트워크 자체가 입력할 위치를 선택합니다.

젠장.. 이해가 안가..

Alexey Burnakov 2016.08.26 14:31 #1252

mytarmailS :

무엇과 무엇을 연관시켜야 합니까? 당신은 그것을 어떻게합니까? 나도 이해가 안감..

나는 당신을 제외하고 아무도 이것을 하지 않았다고 생각합니다.

다시 설명하고 중첩 교차 검증에 대해 읽어보길 권합니다.

이것은 내 작업의 예입니다. 저는 매우 복잡한 시스템에서 일부 엔지니어링 매개변수를 예측 하는 회귀 모델 을 구축하고 있었습니다.

모델의 훈련 매개변수를 반복하고 테스트 교차 검증 폴드에서 최상의 모델을 선택한 다음 검증합니다. 테스트에서 총 100개의 모델을 선택했습니다(그래프의 점). 이들은 테스트 세트에서 최고의 모델입니다. 그들은 서로 다른 예측 변수를 사용한다는 점에서 다릅니다.

테스트에서 과소 학습된 모델이 검증에서도 과소 학습된 것으로 판명되었음을 알 수 있습니다. 테스트 및 검증에 대해 완전히 훈련된 모델이 훈련되었습니다. 테스트가 높지만 검증이 전혀 낮지 않은 오버트레이닝된 상태입니다.

테스트에서 선택한 모델의 작업과 검증 작업의 상관 관계가 있습니다.

예측 변수의 수를 변경하여 모델이 과소 적합에서 완전 적합으로 성장합니다. 그리고 이러한 성장은 최상의 모델이 선택된 데이터와 선택된 최상의 모델이 검증된 데이터에 대해 일반적입니다. 일관성이 있습니다!

즉, 검증에서 가장 좋은 하나의 모델(샘플 외)을 선택했을 뿐만 아니라, 여러 모델에 대한 훈련, 테스트를 위한 선택, 검증에서 품질 메트릭 비교를 수행했습니다. 이것은 중첩 교차 검증입니다. 이 모델은 재학습되지 않습니다. 최고의 교차 검증 모델을 선택하고 최고의 샘플 외 메트릭 중 하나를 얻을 수 있습니다.

그리고 Forex 모델의 변화가 검증 중 모델 성능의 변화를 설명하지 못한다면, 그것은 우리가 최고의 모델을 선택하는 샘플이 있다는 것을 의미합니다(이 경우 교차 검증 테스트에서 품질의 평균 값 접기), 샘플에서 작업의 품질을 예측할 수 없습니다.

따라서 모형을 선택하지만 표본 외 선택 절차 자체를 테스트하지 않음으로써 모형에 적합합니다.

고정적이고 일관된 데이터에 대한 이러한 그림은 안정적인 종속성을 포함합니다. 예를 들어 센서의 과열은 어떠한 경우에도 시뮬레이션 값을 저하시키며 이는 물리적으로 설명됩니다.

금융 시계열을 모델링할 때 2,000개의 선택된 모델의 예를 사용하여 테스트 샘플의 품질 메트릭이 검증 모델과 상관 관계가 없다는 것을 이미 보여주었습니다.

중첩 교차 검증에는 고유한 훈련 세트에 대해 다른 모델(또는 다른 입력 또는 매개변수가 있는 모델)을 반복적으로 훈련한 후 테스트하는 것이 포함됩니다. 각각의 고유한 샘플에 대해 최상의 모델이 선택됩니다. 그런 다음 고유한 검증 세트에서 다시 테스트됩니다. 이 과정이 여러 번 반복됩니다. 외부 테스트 레이어는 모델 자체와 선택 절차가 샘플 내 및 샘플 외에서 일관된 결과를 제공한다는 것을 보여주기 위해 필요합니다.

나는 이것을 San Sanych 박사에게 지적했습니다. 및 기타 참가자. 박사 나를 이해했다. SanSanych는 이해하지 못했습니다.

따라서 Forex 또는 다른 금융 시장에 대해 이러한 그림을 달성하면 테스트 부문 측면에서 최고의 모델을 생산에 출시할 수 있습니다.

베이지안 회귀 - 이 머신 러닝 및 신경망 계량경제학: 한 발 앞서

СанСаныч Фоменко 2016.08.26 14:51 #1253

알렉세이 버나코프 :

다시 설명하고 중첩 교차 검증에 대해 읽어보시도록 권장하겠습니다.

이것은 내 작업의 예입니다. 저는 매우 복잡한 시스템에서 일부 엔지니어링 매개변수를 예측하는 회귀 모델을 구축하고 있었습니다.

모델의 훈련 매개변수를 반복하고 테스트 교차 검증 폴드에서 최상의 모델을 선택한 다음 검증합니다. 테스트에서 총 100개의 모델을 선택했습니다(그래프의 점). 이들은 테스트 세트에서 최고의 모델입니다. 그들은 서로 다른 예측 변수를 사용한다는 점에서 다릅니다.

테스트에서 과소 학습된 모델이 검증에서도 과소 학습된 것으로 판명되었음을 알 수 있습니다. 테스트 및 검증에 대해 완전히 훈련된 모델이 훈련되었습니다. 테스트가 높지만 검증이 전혀 낮지 않은 오버트레이닝된 상태입니다.

테스트에서 선택한 모델의 작업과 검증 작업의 상관 관계가 있습니다.

예측 변수의 수를 변경하여 모델이 과소 적합에서 완전 적합으로 성장합니다. 그리고 이러한 성장은 최상의 모델이 선택된 데이터와 선택된 최상의 모델이 검증된 데이터에 대해 일반적입니다. 일관성이 있습니다!

즉, 검증에서 가장 좋은 하나의 모델(샘플 외)을 선택했을 뿐만 아니라, 여러 모델에 대한 훈련, 테스트를 위한 선택, 검증에서 품질 메트릭 비교를 수행했습니다. 이것은 중첩 교차 검증입니다. 이 모델은 재학습되지 않습니다. 최고의 교차 검증 모델을 선택하고 최고의 샘플 외 메트릭 중 하나를 얻을 수 있습니다.

그리고 Forex 모델의 변화가 검증 중 모델 성능의 변화를 설명하지 못한다면, 그것은 우리가 최고의 모델을 선택하는 샘플이 있다는 것을 의미합니다(이 경우 교차 검증 테스트에서 품질의 평균 값 접기), 샘플에서 작업의 품질을 예측할 수 없습니다.

따라서 모형을 선택하지만 표본 외 선택 절차 자체를 테스트하지 않음으로써 모형에 적합합니다.

고정적이고 일관된 데이터에 대한 이러한 그림은 안정적인 종속성을 포함합니다. 예를 들어 센서의 과열은 어떠한 경우에도 시뮬레이션 값을 저하시키며 이는 물리적으로 설명됩니다.

금융 시계열을 모델링할 때 2,000개의 선택된 모델의 예를 사용하여 테스트 샘플의 품질 메트릭이 검증 모델과 상관 관계가 없다는 것을 이미 보여주었습니다.

중첩 교차 검증에는 고유한 훈련 세트에 대해 다른 모델(또는 다른 입력 또는 매개변수가 있는 모델)을 반복적으로 훈련한 후 테스트하는 것이 포함됩니다. 각각의 고유한 샘플에 대해 최상의 모델이 선택됩니다. 그런 다음 고유한 검증 세트에서 다시 테스트됩니다. 이 과정이 여러 번 반복됩니다. 외부 테스트 레이어는 모델 자체와 선택 절차가 샘플 내 및 샘플 외에서 일관된 결과를 제공한다는 것을 보여주기 위해 필요합니다.

나는 이것을 San Sanych 박사에게 지적했습니다. 및 기타 참가자. 박사 나를 이해했다. SanSanych는 이해하지 못했습니다.

따라서 Forex 또는 다른 금융 시장에 대해 이러한 그림을 달성하면 테스트 부문 측면에서 최고의 모델을 생산에 출시할 수 있습니다.

아직도 이해가 안가네요 죄송합니다.

유효성 검사를 위한 접기: 테스트를 위한 접기와 동일한 파일에 있습니까, 아니면 일반적으로 새 파일에서 유효성 검사를 수행합니까?

추신.

교차 검증이란 다음 알고리즘을 의미합니다. 예를 들어 파일을 10개의 겹으로 분할합니다. 그들은 처음 9와 10 검증에 대해 가르칩니다. 그런 다음 2-10에서 가르치고 1겹에서 검증을 가르칩니다. 따라서 유효성 검사 접기가 이동합니다. 그래서?

Alexey Burnakov 2016.08.26 14:59 #1254

산산이치 포멘코 :

아직도 이해가 안가네요, 죄송합니다.

유효성 검사를 위한 접기: 테스트를 위한 접기와 동일한 파일에 있습니까, 아니면 일반적으로 새 파일에서 유효성 검사를 수행합니까?

추신.

교차 검증이란 다음 알고리즘을 의미합니다. 예를 들어 파일을 10개의 겹으로 분할합니다. 그들은 처음 9와 10 검증에 대해 가르칩니다. 그런 다음 2-10에서 가르치고 1겹에서 검증을 가르칩니다. 따라서 유효성 검사 접기가 이동합니다. 그래서?

네.

10겹에 대한 M1 교차 검증이 있는 하나의 교육 주기를 올바르게 이해하고 있습니다. 학습 매개변수의 각 조합에 대해 9겹으로 학습하고 지연을 확인합니다. 그래서 10번. 10개의 보류 중인 폴드에 대한 품질 메트릭의 평균 값을 얻습니다. 이 양을 m1이라고 합시다.

이 절차를 N 번 반복해 보겠습니다(항상 새로운 데이터를 훈련 및 테스트에 적용).

중첩 교차 검증:

M - N 번 반복합니다. 각 주기 M은 고유한 훈련 샘플입니다. 서로 다른 데이터에서 최상의 모델을 선택하고 훈련하는 동안 얻은 m1, m2, .. mn 품질 메트릭을 얻습니다.

외층. 고유한 검증 세트에서 선택된 각 모델 M을 확인합니다. 우리는 k1, k2, ... kn 샘플 외 테스트를 얻습니다.

M 대 산점도를 작성합니다. K. 교차 검증에서 모델의 품질 변화가 샘플의 품질을 어떻게 결정하는지에 대한 추정치를 얻습니다.

예측 변수 선택 정보 . 엄청난 양의 데이터에 액세스할 수 없는 경우 모델의 각 N 주기에 고유한 예측 변수 집합을 제공하면 됩니다. 테스트 및 검증에서 선택한 예측 변수에 따라 모델의 일관성이 있는지 여부를 테스트합니다. 대략적으로 말하자면, 테스트에서 제대로 훈련되지 않은 모델은 검증에서 더 나쁜 결과를 제공해야 합니다. 테스트에서 과도하게 훈련된 모델은 검증에서 훨씬 더 나쁜 결과를 줄 것입니다.

베이지안 회귀 - 이 머신 러닝 및 신경망 스크립트 형태의 신경망

СанСаныч Фоменко 2016.08.26 15:22 #1255

알렉세이 버나코프 :

나는 이 환상에 15년의 절반을 보냈다. 모델 검증은 교육, 테스트 및 검증 절차와 아무 관련이 없는 데이터에 대해서만 수행해야 합니다. 나는 해당 계산의 결과를 찾기에는 너무 게으르다. 그러나 당신이 쓰는 것처럼 덜거덕 거리기 때문에 나는 반년을 잃었습니다.

Alexey Burnakov 2016.08.26 15:23 #1256

산산이치 포멘코 :

모델 검증은 교육, 테스트 및 검증 절차와 아무 관련이 없는 데이터에 대해서만 수행해야 합니다.

브르르

그래서 그것은 있어야합니다! 검사는 지연된 샘플(보다 정확하게는 샘플, 중첩 접근 방식에 대해 이야기하는 경우)에서 수행됩니다.

무슨 환상? 이 접근 방식은 일회성 모델 적합보다 어떤 면에서든 더 객관적입니다.

СанСаныч Фоменко 2016.08.26 15:32 #1257

알렉세이 버나코프 :

브르르

그래서 그것은 있어야합니다! 검사는 지연된 샘플(보다 정확하게는 샘플, 중첩 접근 방식에 대해 이야기하는 경우)에서 수행됩니다.

무슨 환상? 이 접근 방식은 일회성 모델 적합보다 더 객관적입니다.

네가 더 잘 알 잖아.

모든 것이 작동합니다. 노이즈 예측자를 제거하면 6월 데이터로 훈련된 모델은 7월 데이터에서 작동하고 7월 데이터로 모델을 훈련할 때 7월 데이터에서 이 훈련의 오류는 예측 I와 동일합니다. 6월에 훈련된 모델에서 7월에 사용되었습니다. 이것이 내가 재교육 부족이라고 부르는 것입니다.

Alexey Burnakov 2016.08.26 15:40 #1258

산산이치 포멘코 :

네가 더 잘 알 잖아.

모든 것이 작동합니다. 노이즈 예측자를 제거하면 6월 데이터로 훈련된 모델은 7월 데이터에서 작동하고 7월 데이터로 모델을 훈련할 때 7월 데이터에서 이 훈련의 오류는 예측 I와 동일합니다. 6월에 훈련된 모델에서 7월에 사용되었습니다. 이것이 내가 재교육 부족이라고 부르는 것입니다.

2개월 동안이 아니라 항상 효과가 있다고 가정해 보겠습니다.

지그재그 부족에 속한 당신은 무엇을 가르칩니까? 나는 이 특정 표적이 일관되게 잘 훈련된다는 것을 배제하지 않지만, 부족에 속하는 것은 정확한 입력을 제공하지 않습니다. 이게 문제 야. 나는 그 날의 변동성을 꽤 정확하게 예측할 수 있지만 이것은 나에게 거래에서 아무 것도 제공하지 않을 것입니다.

СанСаныч Фоменко 2016.08.26 15:47 #1259

알렉세이 버나코프 :

2개월 동안이 아니라 항상 효과가 있다고 가정해 보겠습니다.

지그재그 부족에 속하는 당신은 무엇을 가르칩니까? 나는 이 특정 표적이 일관되게 잘 훈련된다는 것을 배제하지 않지만, 부족에 속하는 것은 정확한 입력을 제공하지 않습니다. 이게 문제 야. 나는 그 날의 변동성을 꽤 정확하게 예측할 수 있지만 이것은 나에게 거래에서 아무 것도 제공하지 않을 것입니다.

대상의 단점은 모델의 과적합을 결정하는 방법론과 관련이 없습니다. 알 수 없는 목표와 예측 변수로 여러 주문을 완료했습니다. 노이즈 예측자를 제거하면 결과는 모든 곳에서 동일합니다.

Alexey Burnakov 2016.08.26 15:54 #1260

산산이치 포멘코 :
대상의 단점은 모델의 과적합을 결정하는 방법론과 관련이 없습니다.

나는 당신이 틀렸다고 생각합니다. 시끄러운 레이블(타겟팅)은 테스트에서 본 것과 미래에 보게 될 것 사이의 불일치 날짜를 나타냅니다. 이러한 경우 중첩 유효성 검사와 같은 모든 종류의 종소리와 휘파람이 도입됩니다. 테스트의 여러 대안 모델 중에서 더 나쁜 것을 선택해야 함을 증명하는 접근 방식도 있습니다.

노이즈 예측자를 제거하면 결과는 모든 곳에서 동일합니다.

어떻게 정의했습니까? 당시 알려지지 않은 미래에 대한 예측 변수를 추적했습니까?

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 126