트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 87

 
산산이치 포멘코 :

모든 패키지(모델)는 두 가지 범주로 나눌 수 있습니다.

  • 기본적으로 맞는
  • 기본적으로 부적합합니다.

"원칙적으로 적합한" 패키지의 효과는 거의 동일하며 차이점은 중요하지 않습니다.

모든 문제는 모델에 있는 것이 아니라 예측 변수 집합과 예비 준비에 있습니다. 특정 예측 변수 집합을 사용하면 NOT 과적합 모델을 구축하는 능력과 오류의 크기는 모델의 변화에 거의 의존하지 않습니다. 따라서 "원칙적으로 적합한"모델에서 가장 간단하고 빠른 모델을 선택해야합니다.

추신.

내 자신의 경험에서. 나에게 있어 TS 구축의 복잡성 중 75% 이상이 특정 대상 변수에 대해 그러한 집합을 선택할 수 있는 경우 예측 변수를 선택하는 것입니다.

San Sanych, 안녕하세요

그러나 귀하의 방법에 따라 훈련 중 교차하지 않는 3개의 데이터 세그먼트에서 예측 변수의 중요성이 다른 경우 예측 변수가 비정상(노이즈 등)이어야 합니까?

 
산산이치 포멘코 :

모든 패키지(모델)는 두 가지 범주로 나눌 수 있습니다.

  • 기본적으로 맞는
  • 기본적으로 부적합합니다.

"원칙적으로 적합한" 패키지의 효과는 거의 동일하며 차이점은 중요하지 않습니다.

모든 문제는 모델에 있는 것이 아니라 예측 변수 집합과 예비 준비에 있습니다. 특정 예측 변수 집합을 사용하면 NOT 과적합 모델을 구축하는 능력과 오류의 크기는 모델의 변화에 거의 의존하지 않습니다. 따라서 "원칙적으로 적합한"모델에서 가장 간단하고 빠른 모델을 선택해야합니다.

추신.

내 자신의 경험에서. 나에게 있어 TS 구축의 복잡성 중 75% 이상이 특정 대상 변수에 대해 그러한 집합을 선택할 수 있는 경우 예측 변수를 선택하는 것입니다.

어떤 모델, 무슨 말을 하는 겁니까 ... 마치 사람 이 "지금 몇시입니까?"라고 묻는 것과 같습니다. , 그리고 그들은 그에게 "내가 당신을 위해 무엇을 춤을 추기를 원하십니까?"라고 대답합니다. :)

절대, 제발, 아니, 다시는 이렇게 하지 마

 
mytarmailS :

누군가가 관심을 가질 것입니다. 거래를 시뮬레이션하고 quantstrat 라는 거래 시스템을 구축할 수 있는 패키지를 찾았습니다.

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

다시 게시
 
알렉세이 버나코프 :

San Sanych, 안녕하세요

그러나 귀하의 방법에 따라 훈련 중 교차하지 않는 3개의 데이터 세그먼트에서 예측 변수의 중요성이 다른 경우 예측 변수가 비정상(노이즈 등)이어야 합니까?

예측 변수의 중요성은 모델을 훈련할 때 한 번만 얻습니다. 그러면 이 모델은 학습된 것이 아니라 적용됩니다.
 
산산이치 포멘코 :
예측 변수의 중요성은 모델을 훈련할 때 한 번만 얻습니다. 그러면 이 모델은 학습된 것이 아니라 적용됩니다.
내가 기억하는 한 그곳에서 여러 번 훈련을 받아야 합니까?
 
알렉세이 버나코프 :
내가 기억하는 한 그곳에서 여러 번 훈련을 받아야 합니까?

예, 어떤 식 으로든 아닙니다!

다시.

1. 예를 들어 10,000개의 관측치(행)와 같은 예측 변수 시계열의 큰 조각을 취합니다.

2. 엄격하게 기계적으로 두 부분으로 나눕니다. 첫 번째 부분 7000개와 두 번째 부분 3000개

3. 첫 번째 부분은 학습, 테스트 및 검증을 위해 무작위로 세 부분으로 나뉩니다.

4. 훈련을 위해 샘플에서 모델을 가르칩니다(조정 - 맞춤).

5. 훈련된 모델을 샘플 테스트, 검증에 적용합니다.

6. 세 가지 샘플(훈련, 테스트 및 검증) 모두에서 오류가 거의 같으면 항목 7입니다.

7. 두 번째 부분에 모델 모델을 적용합니다. 이 부분은 시계열 이 깨지지 않는 시계열입니다.

8. 이 섹션의 오류가 앞의 세 가지 오류와 거의 같으면 다음을 수행합니다.

  • 이 예측 변수 집합은 모델의 재학습으로 이어지지 않습니다.
  • 4개 세트(임의 3개, 연속 1개) 모두에서 얻은 오차로 모델을 피팅하여 줄이기가 매우 어려운 오차입니다.
내 모델 효율성은 실수로 다음과 같습니다: ada, randomforest, SVM 및 다양한 종류. nnet은 훨씬 더 나쁩니다.

 
산산이치 포멘코 :

예, 어떤 경우에도 아닙니다!

다시.

1. 예를 들어 10,000개의 관측치(행)와 같은 예측 변수 시계열의 큰 조각을 취합니다.

2. 엄격하게 기계적으로 두 부분으로 나눕니다. 첫 번째 부분 7000개와 두 번째 부분 3000개

3. 첫 번째 부분은 학습, 테스트 및 검증을 위해 무작위로 세 부분으로 나뉩니다.

4. 훈련을 위해 샘플에서 모델을 가르칩니다(조정 - 맞춤).

5. 훈련된 모델을 샘플 테스트, 검증에 적용합니다.

6. 세 가지 샘플(훈련, 테스트 및 검증) 모두에서 오류가 거의 같으면 항목 7입니다.

7. 두 번째 부분에 모델 모델을 적용합니다. 이 부분은 시계열이 깨지지 않는 시계열입니다.

8. 이 섹션의 오류가 앞의 세 가지 오류와 거의 같으면 다음을 수행합니다.

  • 이 예측 변수 세트는 모델의 재학습으로 이어지지 않습니다.
  • 4개 세트(임의 3개, 연속 1개) 모두에서 얻은 오차로 모델을 피팅하여 줄이기가 매우 어려운 오차입니다.
내 모델 효율성은 실수로 다음과 같습니다: ada, randomforest, SVM 및 다양한 종류. nnet은 훨씬 더 나쁩니다.

여기. 고맙습니다.

다른 샘플보다 훈련에서 훨씬 더 나은 결과를 얻었습니다. 그리고 교차 검증에서 결과는 최종 샘플 아웃에 훨씬 더 가깝습니다.

나는 모든 표본에서 오차의 평등에 대한 당신의 논문이 모델의 과소적합을 나타낸다고 생각합니다. 즉, 모든 곳에서 동일합니다.
 
알렉세이 버나코프 :
.... 즉, 모든 곳이 똑같이 그렇습니다.

그래서 - 두뇌와 시간만으로는 충분하지 않습니다.

대상 변수로 시작하여 의미에 따라 예측 변수를 선택한 다음 수학 등으로 다시 확인해야 합니다. 어쨌든 그 과정은 지루하고 나에게 공식화되지 않았습니다.

 
산산이치 포멘코 :

그래서 - 두뇌와 시간이 충분하지 않습니다.

대상 변수로 시작하여 의미에 따라 예측 변수를 선택한 다음 수학 등으로 다시 확인해야 합니다. 어쨌든 그 과정은 지루하고 나에게 공식화되지 않았습니다.

특히 의미 면에서 씁쓸하다. 나는 그것을 의미하지 않는다.

당신이 모든 곳에서 동등하게 좋다면 이것은 성취입니다. 그러나 대부분의 경우 약한 모델이 달성할 수 있는 똑같이 나쁠 것입니다.
 
스레드가 도중에 죽었습니다...
사유: