트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 655

 
박사 상인 :

저도 그것에 대해 많이 생각합니다.

회귀 모델이 막대당 가격의 증가를 예측하고 R2 점수가 전면 및 후면 테스트에서 0보다 높으면 이미 좋은 시작입니다. 문제는 그 결과가 안정적이기는 하지만 그 확산을 극복할 수 없다는 점이다.

분석적으로 문제는 R2가 큰 오류에 대해 모델에 더 많은 페널티를 부여하고 작은 오류와 잘못된 거래 방향 을 무시한다는 것입니다. 이익 분포를 보면 대부분의 가격 변동은 몇 핍에 불과합니다. 그리고 모델은 이러한 미세한 움직임의 올바른 방향을 예측하는 대신 더 높은 R2를 받을 분포의 긴 꼬리를 예측하는 방법을 학습합니다. 결과적으로 모델은 어떻게 든 큰 움직임을 예측하지만 작은 움직임에서는 끊임없이 방향을 실수하고 확산에 따라 병합합니다.

결론 - 외환에 대한 표준 회귀 추정치는 좋지 않습니다. 일종의 적합성 함수를 자체적으로 개발하여 거래의 방향을 고려하고 확산, 정확성, 심지어 기능까지 매끄럽게 해야 합니다. 그러면 정확도가 50%를 약간 넘더라도 이미 이익을 얻을 수 있는 기회가 있습니다.
정확도, 샤프 비율, 회복 계수 및 거래 차트를 분석하는 기타 기능은 너무 이산적이며, 표준 백프롭이 있는 뉴런은 로컬 최소값을 벗어나지 않고 실제로 학습하지 않습니다.

대안적인 결론은 뉴런의 약한 신호를 완전히 무시하는 것입니다. 강한 사람에게만 거래하십시오. 여기서 문제는 백테스트에서 우수한 결과를 보여줄 임계값을 항상 선택할 수 있지만, 이를 사용하면 전면 테스트에서는 나쁜 결과가 나타날 수 있다는 것입니다. 여기서도 한 가지 생각해볼 필요가 있습니다.

여전히 기계 학습 회귀 모델을 사용하는 아이디어 자체가 매우 의심스러워 보입니다. 그리고 이것은 예측 증가분에 특히 해당됩니다. 그리고 두 번 이것은 의미 측면에서 일부 레이어와 퍼셉트론이 있는 블랙박스인 NN의 경우 특히 그렇습니다. 이 단어에는 어떤 경제적 또는 통계적 의미가 있습니까?

결국, GARCH 모델이 증분에 사용된다는 것은 헛된 것이 아닙니다. 그리고 그들은 현재 가장 일반적입니다. 비정상 계열을 상당히 의미 있는 경제적, 통계적 의미를 갖는 성분으로 분해하여 비정상성을 타파한다는 기본 발상은 매우 매력적이다.


GARCH에서 모델은 다음 단계로 구성됩니다.

  • 원래 계열은 인접 막대 비율의 로그(이상값의 영향 감소)에 의해 제거됩니다.
  • NOT 고정성을 완전히 제거하는 것은 일반적으로 불가능하기 때문에
  • 나머지 추세 모델링(ARIMA)
  • ARCH의 뉘앙스를 시뮬레이션
  • 증분 분포를 모델링합니다.

모든 의미 있고 의미있는 작업.

여기에 외부 회귀자를 추가할 수 있는 가능성을 추가하면 불행히도 매우 다양하고 시간이 많이 소요되는 다소 풍부한 도구를 얻게 됩니다.

 
산산이치 포멘코 :

글쎄, 무엇이 문제인가?

https://www.quantstart.com/articles/ARIMA-GARCH-Trading-Strategy-on-the-SP500-Stock-Market-Index-Using-R

복사-붙여넣기 및 fperet

ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
  • www.quantstart.com
In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...
 
산산이치 포멘코 :

  • 원래 계열 인접 막대 비율의 로그 ( 이상치의 영향 감소 )를 취하여 추세를 제거합니다.

무슨 근거로?

 
산산이치 포멘코 :

여전히 기계 학습 회귀 모델을 사용하는 아이디어 자체가 매우 의심스러워 보입니다. 그리고 이것은 예측 증가분에 특히 해당됩니다. 그리고 두 번 이것은 의미 측면에서 일부 레이어와 퍼셉트론이 있는 블랙박스인 NN의 경우 특히 그렇습니다. 이 단어에는 어떤 경제적 또는 통계적 의미가 있습니까?

결국, GARCH 모델이 증분에 사용된다는 것은 헛된 것이 아닙니다. 그리고 그들은 현재 가장 일반적입니다. 비정상 계열을 상당히 의미 있는 경제적, 통계적 의미를 갖는 성분으로 분해하여 비정상성을 타파한다는 기본 발상은 매우 매력적이다.

당신은 잘못 SanSanych입니다. NS, 이것은 퍼지 논리에 해당하는 유형입니다. 가르치기 쉬운. 개인적으로 나는 신비한 것을 보지 못했습니다. 다른 비유를 사용할 수 있습니다.

글쎄, 비 고정. 모든 프로세스는 조각으로 쪼개지면 비정상이 되고 그렇지 않으면 무작위가 아닙니다.

그건 그렇고, 다양한 장기(3개월 이상)의 분포 유형에 따라 그들 사이에 큰 차이를 느끼지 못했습니다.

경제적 의미에 관해서는 - 글쎄, 나는 모른다. 나는 관찰자에게 시장이 무작위라고 가정합니다. 랜덤인지 아닌지는 별로 중요하지 않습니다. 여기서 키워드 는 관찰자를 위한 것입니다.

 
막심 드미트리예프스키 :

글쎄, 무엇이 문제인가?

https://www.quantstart.com/articles/ARIMA-GARCH-Trading-Strategy-on-the-SP500-Stock-Market-Index-Using-R

복사-붙여넣기 및 fperet

당신은 흥미로운 사람입니다! 당신이 모든 것을 알고 있다는 것이 밝혀졌습니다!

 
막심 드미트리예프스키 :

무슨 근거로?

로그가 있습니다. 차이점이 무엇인가요?

 
산산이치 포멘코 :

로그가 있습니다. 차이점이 무엇인가요?

이 경우 로그는 이상값을 제거하지 않기 때문에: n-lag로 증분을 계산하면 이상값이 제거됩니다.

로그는 단순히 0을 중심으로 그래프를 중앙에 배치합니다.

로그를 취하여 이상값을 제거하려면 로그 척도를 도입해야 합니다.

그냥 증가

로그 증분(자연)


 
막심 드미트리예프스키 :

이 경우 로그는 이상값을 제거하지 않기 때문에: n-lag로 증분을 계산하면 이상값이 제거됩니다.

로그는 단순히 0을 중심으로 그래프를 중앙에 배치합니다.

로그를 취하여 이상값을 제거하려면 로그 척도를 도입해야 합니다.

그냥 증가

로그 증분(자연)


배출은 섬세한 것입니다. 너무 많은 배출량을 허용 가능한 최대값으로 대체하는 것이 좋습니다.

배기가스를 완전히 제거하는 것은 불가능합니다. 그러나 분포에 미치는 영향을 과소평가하는 것은 가능하고 필요할 뿐만 아니라 로그를 취함으로써 수행됩니다.

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   : 2016 - 01 - 04 00 : 00 : 00    Min.   :- 0.0230100   
 1 st Qu.: 2016 - 04 - 14 19 : 00 : 00    1 st Qu.:- 0.0005300   
 Median : 2016 - 07 - 27 12 : 00 : 00    Median : 0.0000100   
 Mean   : 2016 - 07 - 27 12 : 01 : 14    Mean   :- 0.0000036   
 3 rd Qu.: 2016 - 11 - 08 06 : 00 : 00    3 rd Qu.: 0.0005200   
 Max.   : 2017 - 02 - 17 23 : 00 : 00    Max.   : 0.0143400   


> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1


그리고 우리가 이웃 인용문 10과 2로 어떤 가상의 경우를 취한다면,

10/2 = 5

로그(10/2) = 0.69

 
막심 드미트리예프스키 :

이 경우 로그는 이상값을 제거하지 않기 때문에: n-lag 로 증분을 계산하면 이상값이 제거됩니다.



n-lag는 TF의 증가이며, TF가 많을수록 증가량이 커집니다.

50의 지연은 H8이며, 일반적인 일정과 달리 TF=8 시간이 1분마다 시작된다는 점에서 더 정확합니다.

 
산산이치 포멘코 :

배출은 섬세한 것입니다. 너무 많은 배출량을 허용 가능한 최대값으로 대체하는 것이 좋습니다.

배기가스를 완전히 제거하는 것은 불가능합니다. 그러나 분포에 미치는 영향을 과소평가하는 것은 가능하고 필요할 뿐만 아니라 로그를 취함으로써 수행됩니다.



그리고 우리가 이웃 인용문 10과 2로 어떤 가상의 경우를 취한다면,

10/2 = 5

로그(10/2) = 0.69

음, 좋아, 초기 증분 값을 얻기 위해 밑수 e 를 올려야 하는 전력을 찾았습니다.

하지만 당신은 배출을 제거하지 않았다

위에 2장의 사진을 올렸습니다.