트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 18

 

아이디어 범주에서:

순수하게 MQL4에서 다음 시스템을 만들려고 했습니다.

입력 벡터를 형성했습니다(시차를 가진 가격 간의 차이만)

이상적인 진입과 퇴장을 형성함 (여러가지 방법이 있는데 나는 내가 좋아하는 방법을 택했다)

예를 들어 바와 같이 5분 동안 이 모든 것.

그런 다음, 각각의 새로운 막대 에서 어레이를 보충하고, 또한 과거의 유사한 패턴을 찾고 가변 반경의 다차원 영역에서 매수 및 매도 항목의 백분율을 계산했습니다. 이것은 아주 오랫동안 테스트되었습니다. 결과는 불안정했습니다.

그런 연구를 R로 어떻게든 다시 해보고 싶다. 즉, 유클리드 거리에 따라 입구와 출구를 찾는 것이다.

 
mytarmailS :

클러스터는 조금 다릅니다. 이제 시장이 5번 클러스터에 해당하고 다음 캔들은 이미 18번 클러스터에 해당한다고 가정해 보겠습니다. 클러스터 5번을 거래할 시간이 없기 때문에 아무 것도 제공하지 않습니다 , 그리고 SMM에는 상태의 개념이 있습니다. 상태는 얼마 동안 지속될 수 있습니다.

아니면 내가 당신의 생각을 이해하지 못했나요?

시리즈의 긴 시퀀스는 클러스터링됩니다(최소 100개의 캔들). 이러한 긴 시퀀스를 기반으로 많은 항목을 만들 수 있습니다. 그리고 어느 시점에서 시스템은 클러스터 5에서 클러스터 45로 이동하지만 말하자면 매끄럽게 발생합니다.
 
알렉세이 버나코프 :

아이디어 범주에서:

순수하게 MQL4에서 다음 시스템을 만들려고 했습니다.

입력 벡터를 형성했습니다(시차를 가진 가격 간의 차이만)

이상적인 진입과 퇴장을 형성함 (여러가지 방법이 있는데 나는 내가 좋아하는 방법을 택했다)

예를 들어 바와 같이 5분 동안 이 모든 것이 가능합니다.

그런 다음, 각각의 새 막대 에서 어레이를 보충하고, 추가로 단순히 과거의 유사한 패턴을 찾고 가변 반경의 다차원 영역에서 매수 및 매도 항목의 백분율을 계산했습니다. 이것은 아주 오랫동안 테스트되었습니다. 결과는 불안정했습니다.

어떻게든 그런 연구를 R로 다시 해보고 싶다. 즉, 유클리드 거리에 따라 입구와 출구를 찾는 것이다.

나도 비슷한 일을 해서 유클리드와 피어슨의 상관관계를 통해 근접도를 구했는데 유클리드가 0.27보다 작았어야 했고 상관이 0.97보다 커야 했다. 즉, 패턴이 거의 1:1로 발견되었고, 유사도가 4가지 가격 모두에 대한 3개의 캔들 시리즈 OHLC + 거래량 + 변동성 , 가격은 정상이며 차이가 없습니다. 결과는 이전에 썼던 것처럼 크기가 조정되고 중심에 맞춰집니다(규모, 중심), 가격은 자체 예측과 반대입니다. -0.6 -0.9의 역 상관 관계, 교차 검증조차 여기에서 도움이 되지 않을 것 같습니다. 적어도 유클리드 공간에서 가까운 곳에서는 아마도 이것이 99%가 돈을 낭비하는 이유일 것입니다.
 
알렉세이 버나코프 :
시리즈의 긴 시퀀스는 클러스터링됩니다(최소 100개의 캔들). 이러한 긴 시퀀스를 기반으로 많은 항목을 만들 수 있습니다. 그리고 어느 시점에서 시스템은 클러스터 5에서 클러스터 45로 이동하지만 말하자면 매끄럽게 발생합니다.
100개의 양초에 대해 클러스터를 수행하면 이것이 클러스터 5번의 101개 촛불에 대한 클러스터 5번이라는 것을 알게 될 것입니다. 즉, 100개의 촛불을 불었습니다. 클러스터 45에 있는 SMM에서 우리는 클러스터 번호 5로 이동할 확률이 무엇인지 이미 알고 있습니다.
 

그리고 R 전문가를 위한 또 다른 질문

도서관(kza)

DAT <- rnorm(1000)

KZP <- kzp(DAT,m=100,k=3)

요약(KZP, 숫자=2 , 상단=3)


이 수치로 작업할 수 있도록 "요약" http://prntscr.com/bhtlo9에서 이것을 어떻게 추출할 수 있습니까?

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
트레이더 박사 :


오늘은 예측 변수를 선택하는 기능을 테스트하려고합니다. r-blogger에 대한 기사를 읽으려고했지만 영어를 모르기 때문입니다. 정말 아무것도 이해하지 못했습니다. 이 선택 방법의 본질이 무엇인지, 어떻게 작동하는지 이해할 수 있는 언어로 설명해 주시겠습니까?

순전히 직관적이고 첫 번째 테스트 결과를 바탕으로 이 방법이 주성분 방법과 매우 유사하고 어쩌면 같을 수도 있다고 생각합니다.

첫 번째 테스트에는 30개의 예측 변수 샘플이 있었고 훈련된 RF 오류는 정확도: 0.6511로 밝혀졌습니다.

그런 다음 귀하의 방법으로 선택했습니다.

14개의 예측변수가 오류로 밝혀졌습니다. 정확도: 0.6568

실제로 우리는 예측 변수의 절반을 제거하고 예측 결과를 약간 개선했는데 나쁘지 않습니다.

다른 데이터셋을 시도해 보겠습니다...

그리고 또 다른 질문, 왜 같은 데이터가 딸랑이에 로드되면 테스트 데이터의 오류가 3-6%인데 이를 어떻게 이해해야 할까요?

 
mytarmailS :
100개의 양초에 대해 클러스터를 수행하면 이것이 클러스터 5번의 101개 촛불에 대한 클러스터 5번이라는 것을 알게 될 것입니다. 즉, 100개의 촛불을 불었습니다. 클러스터 45에 있는 SMM에서 우리는 클러스터 번호 5로 이동할 확률이 무엇인지 이미 알고 있습니다.
아무 것도 낭비되지 않았습니다. 첫 번째 측정에서 클러스터를 인식합니다. 그런 다음 일련의 클러스터 변경이 있을 것입니다. 클러스터에서 클러스터로의 전환 지점에서 정방형 행렬을 만들고 거래의 MO를 변경할 수 있습니다. 클러스터 n에서 구매를 입력하고 클러스터 m에서 거래를 종료합니다. 그런 다음 셀에 대해 동일한 매트릭스입니다. 모든 옵션이 정렬됩니다. 그리고 클러스터링 매개변수를 변경하고 루프에서 결과를 볼 수 있습니다.
 
mytarmailS :

오늘은 예측 변수를 선택하는 기능을 테스트하려고합니다. r-blogger에 대한 기사를 읽으려고했지만 영어를 모르기 때문입니다. 정말 아무것도 이해하지 못했습니다. 이 선택 방법의 본질이 무엇인지, 어떻게 작동하는지 이해할 수 있는 언어로 설명해 주시겠습니까?

순전히 직관적이고 첫 번째 테스트 결과를 바탕으로 이 방법이 주성분 방법과 매우 유사하고 어쩌면 같을 수도 있다고 생각합니다.

첫 번째 테스트에는 30개의 예측 변수 샘플이 있었고 훈련된 RF 오류는 정확도: 0.6511로 밝혀졌습니다.

그런 다음 귀하의 방법으로 선택했습니다.

14개의 예측변수가 오류로 밝혀졌습니다. 정확도: 0.6568

실제로 우리는 예측 변수의 절반을 제거하고 예측 결과를 약간 개선했는데 나쁘지 않습니다.

다른 데이터셋을 시도해 보겠습니다...

그리고 또 다른 질문, 왜 같은 데이터가 딸랑이에 로드되면 테스트 데이터의 오류가 3-6%인데 이를 어떻게 이해해야 할까요?

1. 주성분을 약간 수정하여 사용하는 방법입니다.

2. 이 방법을 적용하는 주요 아이디어는 예측의 정확도를 높이는 것이 아닙니다. 주요 아이디어는 얻은 예측 정확도가 미래에도 거의 동일하게 유지된다는 것입니다. 실제로 우리는 테스터를 통해 이것을 알고 있으며 최적화를 통해 Expert Advisors로부터 놀라운 데이터를 얻는 것이 거의 항상 가능합니다. 그러나 미래의 단조로운 단조로움으로 인해 이러한 성배는 창고를 고갈시킵니다. 이것은 훈련 중에 고문이 앞으로 반복되지 않을 몇 가지 세부 사항을 도용한다는 사실 때문입니다. 이러한 세부 사항은 대상 변수와 관련이 없는 예측 변수이므로 특히 편리합니다. 소음. R에서 모델을 최적화하거나 피팅할 때 성능을 근본적으로 향상시킬 수 있는 이 노이즈에서 항상 일부 값을 선택할 수 있습니다. 그러나 앞으로는 이런 일이 일어나지 않을 것이며 고문은 병합될 것입니다.

따라서 다시 한 번: 훈련 세트와 향후 견적에서 모델 성능의 차이를 제거할 수 있는 도구를 사용하고 있습니다. 제 생각에는 재교육 문제를 해결해야만 계속 나아갈 수 있습니다.

3. 10% 미만 및 5% 이상의 오류는 모델의 과적합에 대한 명확한 증거입니다. 그리고 모델의 과적합은 모델 자체가 아니라 입력 예측자 세트 때문입니다.

 
산산이치 포멘코 :


3. 10% 미만 및 5% 이상의 오류는 모델의 과적합에 대한 명확한 증거입니다. 그리고 모델의 과적합은 모델 자체가 아니라 입력 예측자 세트 때문입니다.

문제는 동일한 데이터와 동일한 모델에 대해 R에서 다른 결과와 덜거덕거리는 이유가 아닙니다.

질문 2: "샘플이 아닌" 모델에서 딸랑이를 확인하는 요점이 무엇입니까?

 
mytarmailS :

문제는 동일한 데이터와 동일한 모델에 대해 R에서 다른 결과와 덜거덕거리는 이유가 아닙니다.

질문 2: "샘플이 아닌" 모델에서 딸랑이를 확인하는 요점이 무엇입니까?

r과 rattle에서 숲을 생성하기 위한 다른 매개변수가 있을 수 있으므로 결과가 다릅니다. 딸랑이 자체에서 나무와 변수의 수를 변경할 수도 있습니다.

그리고 훈련 데이터의 딸랑이에 34% 오류가 있고 테스트 데이터에 3% 오류가 있습니까? 테스트 데이터에 문제가 있습니다. 어떻게든 이미 훈련 데이터에 존재하거나 매우 작은 데이터 세트가 있고 그런 식으로 발생했습니다.

사유: