트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1783

 
막심 드미트리예프스키 :

현재 상태는 무엇입니까? 클러스터에 대한 경우 새 데이터에 대한 통계를 확인하기만 하면 됩니다. 같은 경우 차량을 만들 수 있습니다.

바 옵션. 기록의 증분, 속도, 평균. 어떤 이유로 모든 사람이 마지막 전체 막대에서 매개변수를 계산하지만 이것은 본질적으로 잘못된 것입니다. 평균은 평균 범위보다 절반이나 약간 늦고 증분은 충분히 크지 않습니다. 그리고 아무도 시리즈의 매개 변수를 전체적으로 고려하지 않습니다. 플랫과 트렌드의 두 가지 그라데이션은 재미도 없습니다.
 
막심 드미트리예프스키 :

클러스터에 대한 경우 새 데이터에 대한 통계를 확인하기만 하면 됩니다. 같은 경우 차량을 만들 수 있습니다.

클러스터 및 통계의 주제 영역을 명확하게 이해해야 합니다. 70에서 20까지의 모든 악기에서 동일한 경우 다음을 수행할 수 있습니다))

 
mytarmailS :

Catbust는 도움이되지 않습니다. 문제는 데이터 크기에 있습니다. 표지판을 만들 수도 없으며 훈련을받을 수도 없습니다.

50k 샘플을 만들고, 작게, 심각하게하지 말고, 재교육을 더 가능하게하십시오, ... ..., ... 작업은 즉시 생산용 로봇을 만드는 것이지만 단순히 오류를 줄이는 것입니다. 공동 창의성에 의해 얻은 지식은 모든 도구와 시장으로 이전될 수 있습니다. 50k는 기호가 무엇을 의미하는지 보기에 충분합니다.

알겠습니다. 작은 샘플을 가져오겠습니다.

mytarmailS :

글쎄요, OHLK를 모르면 쓸 필요가 없는데 왜 OHLK 전체를 빼야 합니까? 아무도 안 하고, 33을 한 칸씩 옮기면 마치 미래를 내다보는 것처럼 학습을 위해 1보씩 움직이면 됩니다. 사슴 학습에 대한 Vladimir Perervenko의 기사를 적어도 한 번 읽어 보셨습니까? 읽어주세요. 데이터에 대해 이미 잘 정립된 최적의 조치가 있고 모든 사람이 이에 익숙해지고 누군가가 같은 일을 하려고 하지만 각자의 방식으로 다른 방식으로 무의미하고 성가신 것처럼 보일 때 이것은 매우 불편합니다. 그러한 저자의 데이터로 작업하려는 사람들에게 많은 오류의 원인.

그의 기사를 읽었지만 R 코드를 이해하지 못합니다. 따라서 R 코드를 모두 이해할 수는 없습니다.

이 문제를 파악하셨기 때문에 묻겠습니다. 제로바에서 분류가 일어나는데 시가 알면 제로바의 시가는 안쓰고 1바 이후의 정보만 사용하는 걸로 아는데? 타겟이 실제로 제로 바에서 ZZ 벡터를 결정합니까? 다음 막대의 벡터가 예측된 것으로 나타났습니다. 필수적인 것은 아닙니다. 그렇죠? 그리고 다시 많은 변경 작업을 수행해야 합니다. 피곤합니다.

계산 모델이 아니라 데이터를 가져와 모델을 적용하기 위한 기성품 솔루션이 있습니다.

mytarmailS :

이 모든 후에도 여전히 무언가를하고 싶다면 그러한 요구 사항이 있습니다.

1) 데이터 50-60k 더 이상, 더 나은 하나의 파일, 마지막 n 촛불이 테스트가 될 것이라는 데 동의하십시오.

2) 최신 가격뿐만 아니라 지원 및 저항도 고려할 수 있으므로 접착하지 않고 데이터를 접착하는 것이 바람직합니다. 접착하는 것은 불가능합니다

3) 대상이 이미 데이터에 포함되어 있어야 합니다.

4) 날짜, 시간, o, h, l, c, 대상 형식의 데이터


아니면 데이터세트를 만들어야 하나요?

의무를 이행한 사람들에게 요구할 수 있습니다. 나와 함께하지 않습니다 :) 협상하자.

1. 훈련 50과 테스트(훈련 외 샘플)에 대해 또 다른 50을 가정합니다.

2. 좋아.

3. 좋아.

4. 좋아.

추가됨: 나는 선물 Si-3.20(22793)에 일반 막대가 충분하지 않다는 것을 깨달았습니다. 그리고 당신은 접착을 원하지 않습니다.


저축을 위해 샘플을 추가했습니다. 정확히 67을 얻었습니다.

파일:
Setup.zip  891 kb
 
알렉세이 비아즈미킨 :

이 문제를 파악하셨기 때문에 묻겠습니다. 제로바에서 분류가 일어나는데 시가 알면 제로바의 시가는 안쓰고 1바 이후의 정보만 사용하는 걸로 아는데? 대상이 실제로 제로 바의 ZZ 벡터를 결정합니까? 다음 막대의 벡터가 예측된 것으로 나타났습니다. 필수적인 것은 아닙니다. 그렇죠? 그리고 다시 많은 변경 작업을 수행해야 합니다. 피곤합니다.

분류는 잘 알려진 종가 (본격적인 OHLS 양초) 가 있는 마지막 막대에서 이루어지며 미래 양초의 ZZ 기호를 예측합니다. 열리는 것으로만 알려진 양초를 고려하는 이유는 무엇입니까? 컴플리케이션 외에 장점이 무엇인지 이해할 수 없습니다. 이해와 구현 모두에서 open[i] 가 거의 항상 close[i-1] 과 같다는 것을 이해한다면 이 접근 방식에 대해 물음표가 하나만 있습니다.


알렉세이 비아즈미킨 :

의무를 이행한 사람들에게 요구할 수 있습니다. 나와 함께하지 않습니다 :) 협상하자.

예, 개인적으로 당신에게 아무것도 요구하지 않습니다. 당신은 무엇입니까)) 샘플에 대한 요구 사항, 샘플에 대한 요구 사항, 샘플은 모든 사람에게 동일해야 무언가가 비교할 수 있습니까? 그것은 나에게 분명하다.


그리고 내 말을 들어줘서 고마워

1) 데이터 50-60k 더 이상, 하나의 파일에 더 나은 .......

훈련 50과 테스트(훈련 외부의 샘플)에 대해 또 다른 50을 가정해 보겠습니다.

나는 아마도 불도저에서 숫자 50-60k의 이름을 지었을 것입니다. 왜 2배로 늘리지 않습니까? )))

)))

1) 데이터 50-60k 더 이상, 하나의 파일에 더 나은 , 그냥 동의

그리고 두개가 아닌 하나의 파일을 올려주셔서 감사합니다! ))
 

나는 첫 번째 급습으로 그것을 시도했습니다. 말하자면, 즉시 사용 가능한 ...

오류가 동일하기 때문에 마지막 n 값만 예측에 포함됩니다.

표지판 217, 분명히 중복되지만 청소하기에는 너무 게으른 곳이 있습니다.

OHLC_Train.csv 파일에서 54k보다 쉬운 총 54147개의 관찰을 훈련하고 검증했습니다.


처음 10k 관찰에 대해 모델을 훈련했습니다 (정확히 말하면 8k, 처음 2k는 지표가 계산되었기 때문에 고려되지 않았습니다)

나머지 44k 데이터로 모델을 확인했으니 재학습은 없는 것 같아요. 테스트는 기차 44/8 = 5.5의 5.5배입니다.


부스팅과 포레스트를 시도한 모델 중 부스팅이 인상적이지 않아 포레스트로 정착했습니다.

훈련 세트에 클래스의 불균형이 심하지만 샤먼을 하기에는 너무 게으르다.

table(d$Target[tr])

   0      1 
3335 4666 

현재 기능에 대한 최종 모델 - Forest 200 나무

기차에서...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75 %
Confusion matrix:
     0      1 class .error
0 2557    778    0.23328336
1    402 4264    0.08615517

시험에

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701           
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0  

보시다시피 결과는 귀하의 것과 동일하며 수백만 개의 데이터가 필요하지 않습니다. 패턴이 있는 경우 50k만 있으면 충분합니다.

그래서 우리는 동일한 결과를 얻었습니다. 이것이 우리의 시작점입니다. 이제 이 오류를 개선해야 합니다.

 

)) 호크마 ))

모든 소위 기술 분석 지표 제거

기호는 위의 예와 같이 217 이 아니라 86 이 되었습니다.

그리고 모델의 품질이 향상되었습니다)


Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707           
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0 
 
mytarmailS :

분류는 잘 알려진 종가 (본격적인 OHLS 양초) 가 있는 마지막 막대에서 이루어지며 미래 양초의 ZZ 기호를 예측합니다. 열리는 것으로만 알려진 양초를 고려하는 이유는 무엇입니까? 컴플리케이션 외에 장점이 무엇인지 이해할 수 없습니다. 이해와 구현 모두에서 open[i] 가 거의 항상 close[i-1] 과 같다는 것을 이해한다면 이 접근 방식에 대해 물음표가 하나만 있습니다.

R에 데이터가 있기 때문에 이해할 수 없지만 현재 막대에서 OHLC가 형성된 시점을 터미널에서 알 수 없으므로 첫 번째 막대에서 0 막대에서만 OHLC를 얻을 수 있습니다. 음, 0 막대에서 열기는 시간에 대한 새로운 데이터입니다. 샘플에 동일한 예측 변수 클래스가 있지만 다른 시간 프레임에 적용되기 때문에 대규모 기간에 특히 중요합니다.


mytarmailS :


1) 데이터 50-60k 더 이상, 하나의 파일에 더 나은 .......

훈련 50과 테스트(훈련 외부의 샘플)에 대해 또 다른 50을 가정해 보겠습니다.

나는 아마도 불도저에서 숫자 50-60k의 이름을 지었을 것입니다. 왜 2배로 늘리지 않습니까? )))

)))

1) 데이터 50-60k 더 이상, 하나의 파일에 더 나은 , 그냥 동의

그리고 두개가 아닌 하나의 파일을 올려주셔서 감사합니다! ))
mytarmailS :

OHLC_Train.csv 파일에서 54k보다 쉬운 총 54147개의 관찰을 훈련하고 검증했습니다.

처음 10k 관찰에 대해 모델을 훈련했습니다 (정확히 말하면 8k, 처음 2k는 지표가 계산되었기 때문에 고려되지 않았습니다)

나머지 44k 데이터로 모델을 확인했으니 재학습은 없는 것 같아요. 테스트는 기차 44/8 = 5.5의 5.5배입니다.

보시다시피 결과는 귀하의 것과 동일하며 수백만 개의 데이터가 필요하지 않습니다. 패턴이 있는 경우 50k만 있으면 충분합니다.

그래서 우리는 동일한 결과를 얻었습니다. 이것이 우리의 시작점입니다. 이제 이 오류를 개선해야 합니다.

샘플을 두 개의 파일로 나눴습니다. 첫 번째 파일은 학습을 위한 비뚤어진 시도를 위한 파일이고 두 번째 파일은 학습 결과를 확인하기 위한 파일입니다.

모델을 저장하고 새 데이터에서 테스트할 방법이 없습니까? 있는 경우 확인하십시오. OHLC_Exam.csv 샘플에 따라 정확하게 결과를 제공했습니다.

동일한 방식으로 분할된 이 두 파일을 다시 보낼 수 있지만 여기에 자신의 예측 변수와 분류 결과가 포함된 열을 추가할 수 있습니까?


재교육 또는 그 부족에 관하여.

제 생각에는 명백한 과잉입니다.

 
알렉세이 비아즈미킨 :

흠 ... 새로운 데이터에서 모든 것이 더 슬프다 (((

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496           
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0


다음은 파일입니다. 기차에서 처음 2k 라인을 사용 하지 마십시오 .

테스트에서 처음 100줄

UPD====

파일이 맞지 않습니다. 개인용으로 메일을 던지십시오.

 
mytarmailS :

흠 ... 새로운 데이터에서 모든 것이 더 슬프다 (((


다음은 파일입니다. 기차에서 처음 2k 라인을 사용 하지 마십시오 .

테스트에서 처음 100줄

응용 프로그램에 파일이 없습니다.

훈련 및 검증을 위해 샘플의 분석을 변경했습니다. 검증을 위해 모든 5번째 라인을 가져갔고 재미있는 그래프를 얻었습니다.

동시에 샘플 OHLC_Exam.csv 정확도 0.63에서


X의 경우, 각각의 새로운 트리는 결과를 감소시키며, 이는 샘플의 불충분한 예제로 인한 과적합을 나타냅니다.

zip으로 파일을 압축합니다.
 
알렉세이 비아즈미킨 :

응용 프로그램에 파일이 없습니다.

훈련 및 검증을 위해 샘플의 분석을 변경했습니다. 검증을 위해 모든 5번째 라인을 가져갔고 재미있는 그래프를 얻었습니다.

동시에 샘플 OHLC_Exam.csv 정확도 0.63에서


X의 경우, 각각의 새로운 트리는 결과를 감소시키며, 이는 샘플의 불충분한 예제로 인한 과적합을 나타냅니다.

zip으로 파일을 압축합니다.

예, 예, 우리 모델이 재교육되었습니다...

압축된 파일도 포럼에 맞지 않는 파일을 다운로드할 수 있는 링크입니다.

https://dropmefiles.com.ua/56CDZB


내 표지판에 모델을 훈련, 나는 Akuras가 무엇인지 궁금해

사유: