트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2746

 
JeeyCi #:

확인하시기 바랍니다.

뭘요? 로테이션이 있는지요?

이젠 재미도 없네요.

 
Maxim Dmitrievsky #:
산치의 이론을 요약하자면(산치 자신도 제대로 공식화하지 못하고 예를 제시하지 못했기 때문에) 다음과 같습니다:

*"관계"와 "관계"가 상관관계의 정의이기 때문에 그의 특징 선택 방식은 상관관계에 기반합니다.

*이 방식은 LDA(선형 판별 분석) 또는 PCA와 유사한 의미로 역사에 암묵적으로 적합하게 만들고 학습 과정을 단순화하며 오류를 줄입니다.

*특징이 이전에 특성에 적합했거나 (더 나쁘게는) 사용 가능한 전체 기록에 적합했기 때문에 훈련된 모델이 새로운 데이터(특징-대상 관계 추정과 관련이 없음)에서 더 나은 성능을 보여야 한다는 이론도 없습니다.

*슬라이딩 창에서 QC를 평균화하여 스프레드를 추정하고 더 안정적인 것을 선택할 수 있는 것처럼 상황은 다소 개선됩니다. 신뢰할 수 있는 최소한의 통계

*인과관계나 통계적으로 유의미한 관계를 생각했지만 그의 접근 방식은 그렇지 않습니다.

완전히 틀렸습니다.

1. 위에서 "예측력"에 대한 저의 이해에 대해 썼습니다.

2. 의미가 명확하지 않습니다.

3. 일반적인 의미에서 훈련이 없습니다. 무작위 숲 피팅. 표본 크기 = 1500개 막대, 나무 수 = 150개. 샘플 크기는 적합 오차 그래프에서 가져옵니다. 이 170개의 예측자 샘플에서 다양한 기준에 따라 예측자를 선택하고 전처리를 수행합니다. 최종적으로 남은 20~30개의 예측자 중 최대 예측력을 기준으로 5~10개의 예측자를 선정하고 모델을 맞춥니다. 이렇게 얻은 모델을 사용하여 다음 막대를 예측합니다. 새로운 막대가 등장하면 모델 구축의 전체 과정이 반복됩니다.

최대 피팅 오류는 약 20%이지만 매우 드뭅니다. 보통 약 10% 정도입니다.

4. 앞서 접근 방식을 설명했습니다.

 
СанСаныч Фоменко #:

다시 한 번 말씀드립니다.

하지만 타겟이 지그재그가 아니죠?

 
СанСаныч Фоменко #:

완전히 잘못된 정보

1. 위는 "예측 능력"에 대한 그의 이해에 대해 썼습니다.

2. 의미가 명확하지 않음

3. 일반적인 의미에서 트레이네가 없습니다. 무작위 숲 피팅. 샘플 크기 = 1500개 막대, 트리 수 = 150개. 표본 크기는 적합 오차 플롯에서 가져옵니다. 170개의 예측자로 구성된 이 샘플에서 다양한 기준에 따라 예측자를 선택하고 전처리합니다 . 최종적으로 남은 20~30개의 예측자 중 최대 예측 능력을 기준으로 5~10개의 예측자를 선정하여 모델을 맞춥니다. 이렇게 얻은 모델을 사용하여 다음 막대를 예측합니다. 새로운 막대가 등장하면 모델 구축의 전체 과정이 반복됩니다.

최대 피팅 오류는 약 20%이지만 매우 드뭅니다. 보통 약 10% 정도입니다.

4. 앞서 접근 방식을 설명했습니다.

더 명확해졌습니다. 클러스터링 결과에 따라 타깃은 어디에서 도출되나요?
 

향후 결과가 괜찮을 것이라는 확신은 예측 능력 통계를 통해 얻을 수 있습니다:

1. 충분히 높은 SD 값을 가져야 합니다.

2. sd 값이 낮아야 합니다.

평소와 같이 sd가 10% 미만인 예측 변수를 찾을 수 있다면 예측 오차의 변화는 거의 동일할 것입니다.


결론은 다음과 같습니다:

1. "예측 능력" 알고리즘 중 하나를 채택(또는 개발)해야 합니다.

2. 예측 능력 값이 1배 차이가 나는 예측자 목록을 찾습니다.

3. 창을 실행하고 평균 및 평균 편차와 같은 통계를 얻습니다. 운이 좋으면 그러한 목록을 찾을 수 있습니다. 저는 그랬어요.

모델은 중요하지 않습니다. 내 예측자 RF, ada, GBM, GLM에서 거의 동일한 결과를 제공합니다. SVM은 약간 더 나쁩니다. nnet은 전혀 좋지 않습니다.


모든 성공은 예측자와 전처리에 있습니다. 그리고 당신은 여기서 말도 안되는 소리를하고 있습니다!

 
Maxim Dmitrievsky #:
이제야 이해가 되네요. 클러스터링 결과에서 타깃은 어디에서 나온 건가요?

정상 증가의 부호가 있습니다.

타깃은 부차적인 것입니다. 대상의 문제는 예측자입니다. 예측자를 특정 대상에 일치시킬 수도 있고 일치시키지 않을 수도 있습니다.

 
СанСаныч Фоменко #:

일반 증분에 대한 기호가 있습니다.

대상은 부차적입니다. 목표의 문제는 예측자입니다. 예측자를 특정 목표에 맞출 수도 있고 그렇지 않을 수도 있습니다.

목표를 표시하는 단계에서 상관 관계를 통해 하나 이상의 기호에 맞추거나 적어도 마하라노비스를 수행 할 수 있습니다. 즉, 어떤 유익한 세트도 만들 수 있습니다.

이제 슬라이딩 창 테마가 명확하므로 모델을 다시 훈련하고 표지판을 다시 선택하기만 하면 됩니다.

슬라이딩 창에서 통계를 계산하고 최적의 통계를 선택하여 모든 막대에서 다시 훈련하지 않도록합니다.
 
СанСаныч Фоменко 예측자 선택의 결과가 아닙니다.

예측 능력은 정보의 상관관계이지 예측의 결과가 아닙니다:

1. 상관관계는 한 고정 계열과 다른 계열의 '유사성'이며, 항상 어떤 값이 있으며 '관계 없음' 값은 존재하지 않습니다. 상관관계에는 항상 어떤 종류의 값이 있으므로 상관관계를 사용하여 선생님과 커피 찌꺼기 사이의 관계를 쉽게 찾을 수 있습니다.

2. 피시 셀렉틴은 모델을 구축할 때 피시를 사용하는 빈도입니다. 선생님과 관련이 없는 예측자를 사용해도 피시 순위를 얻을 수 있습니다.

제가 이해하는 "예측력"과 유사한 예로 각 무게 중심 클래스에 대해 마하라노비스 샘플링 거리 를 정의하는 caret::classDist()를 들 수 있습니다. 또는 woeBinning. R에는 많은 접근 방식과 많은 패키지가 있습니다. 정보 이론에 기반한 더 많은 것들이 있습니다.

아직도 이해가 안 되시나요? 상관 관계나 사용 빈도가 아닙니다. 훈련에서 presc.sp.는 어떻게 추정되거나 무엇에 의해 추정되나요?
아니면 그렇게 명명 된 일종의 평형 지표입니까?
S.F. 더 읽어보니 더 명확해졌습니다.
 
СанСаныч Фоменко #:

일반 증분에 대한 기호가 있습니다.

대상은 부차적입니다. 대상의 문제는 예측자입니다. 예측자를 특정 대상에 일치시킬 수도 있고 일치시키지 않을 수도 있습니다.

증분의 부호와 ZZ의 부호는 수익을 보장하지 않습니다. 5개의 작은 증분은 하나의 강한 증분과 쉽게 겹칠 수 있지만 반대 방향입니다. 예를 들어 10개의 야간 수익 막대는 1일 손실 막대(10% 오차)에도 포함됩니다.

새 데이터에서 어떤 균형선을 얻을 수 있을까요? 위/아래로 작은 변동이 있는 수평선이 아니었으면 좋겠어요?

블라디미르의 기사에서 오차도 약 10~20%이지만 균형선은 낙관론을 불러 일으키지 않습니다.

 
Valeriy Yastremskiy #:
아직도 이해가 되지 않습니다. 상관관계나 사용 빈도가 아닙니다. 교육에서 presc.sp.는 어떻게 추정되거나 무엇에 의해 추정되나요?
아니면 그렇게 명명된 일종의 평형 지표인가요?

동일한 벡터 대수학, 동일한 특징 매핑으로 다중공선성 문제를 제거합니다.

마하라노비스 거리는 다변량 통계에서 가장 일반적인 측정값 중 하나입니다.

- 즉, 본질적으로 동일한 "구성 요소"의 공간적 선택/투영 .... 다선형 특징 공간에서 위치는 벡터(!) 대수를 적용할 수 있는 필드를 제공하며, 장인의 방식으로 다선형성을 제거하지 않으려면 이를 고려하는 것이 좋습니다(예: 3D 공간 등으로 축소하고 원하는 대로 투영하여 작업하고 필요한 경우 초기 데이터에 요인 부하와 같은 추정치를 곱할 수 있지만 일반적으로 라이브러리 자체에서 이 마하라노비스 거리를 측정하고 결과를 제공합니다).

어쨌든 최종 결과는 평균과 st.dev에 대한 동일한 근사치이며 이를 기반으로 트레이딩 결정을 내립니다.

- 본질적으로 다른 모델링은 없으며 (다른) n 차원 공간에서 일반적인 문제 (이질 공적분, 다중 공선성, 잔차의 자기 상관 관계)를 해결하는 방법 만 있습니다...

그리고 통계에서 벗어날 수 없습니다 ... 특성 상관 관계 문제에 대한 해결책은 여기에 명시적인 형태로 있습니다 ...

추신.

업데이트 : 여전히이 도구(MD)클러스터링 / 그룹화 / 다차원 분류에 사용됩니다 ... 다차원 공간에서 이상값을 선택하기 위해... 때때로 유클리드 거리와 함께 사용됩니다... "변수가 상관 관계가 없을 때-마하라노비스 거리는 일반적인 유클리드 거리와 일치합니다.".... LDA에서... 일반적으로 tz는 앞서 설명한 것입니다....

이 게시물로 나는 PCA와 클러스터링을 동일시하려는 의도가 아니며, PCA와 MD 모두 다차원 공간에서 이상 치를 제거 할 수있는 가능성을 제공한다는 것이 내 기억에 남았습니다 ... 그러나 내 업데이트의 본질은 변하지 않습니다. 이들은 모두 다중 공선성 문제를 고려하기 위해 벡터 대수에 의한 공간 문제의 해결책입니다 (통계적 추정치를 왜곡 / 이동시키지 않도록).

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте сделать кластерный анализ, чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса.
Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте сделать кластерный анализ, чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса.
  • 2022.09.15
  • www.mql5.com
поскольку он сам не смог нормально формализовать и привести примеры его способ отбора признаков основан на корреляции. чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. на основании которых относить sample ы к тому или иному классу
사유: