혼돈에 패턴이 있을까요? 찾아보겠습니다! 특정 샘플의 예에 대한 머신 러닝. - 페이지 17

 
Valeriy Yastremskiy #:

어떤 일의 시작 시간과 종료 시간(세션, 캘린더) 외에는 아무 것도 떠오르지 않습니다. 무슨 뜻인가요?

왜요, 가장 뻔한 것들뿐이니까요. 변동성은 그림에 있었고 고려해야 할 다른 요소가 있습니다.

대략적으로 시장 지표를 가져와서 빨아들여야 할 것 같습니다. 쌓아두지 말고요. 모두들 쌓아놓고 싶어 하지만 그런 식으로 작동하지 않는 것으로 밝혀졌습니다.
 
Maxim Dmitrievsky #:
가장 명백하게 가능한 이유입니다. 변동성이 수치에 포함되었지만 고려해야 할 다른 요소도 있습니다.

대략적으로 시장 지표를 가져와서 빨아들여야 할 것 같습니다. 쌓아두지 말고요. 모두가 더미를 원했지만 그런 식으로 작동하지 않는 것으로 밝혀졌습니다.
개별 가격 지표를 사용하면 모든 것을 파악하기가 쉽지 않고, 개별적으로 보면 연결성과 의미를 잃는 경우가 많습니다. 채널 폭 또는 가격 변화의 변동성 및 속도. 간단해 보이지만 제 머릿속에는 개념이 없습니다))))).
 
Valeriy Yastremskiy #:
개별 가격 지표를 사용하면 모든 것이 단순하지 않고, 개별적으로 보면 연관성과 의미를 잃는 경우가 많습니다. 채널 폭 또는 가격 변화의 변동성 및 속도. 단순해 보이지만 제 머릿속에는 개념이 없습니다)))))))

먼저 MO에서 원하는 것이 무엇인지 정의해야 합니다. 분류 또는 일부 선택, 즉 다양한 목표 기능이 설정된 표준 옵티마이저와 같은 도구를 만드는 것입니다.

그런 다음 이를 사용하여 지표(속성)를 조작합니다. 종종 성배처럼 흥미로운 것이 떠오를 때까지 무차별 대입을 통해 멍청한 방식으로 조작하는 경우가 많습니다.

일단 무언가를 알게 되면 더 깊이 파고들기 시작합니다.

뻔한 내용을 쓰고 있다고 생각하지만 저한테만 그런 것 같아요 :D

 
Renat Akhtyamov #:

지점 질문은 확실히 흥미로운 질문입니다....

그래서 궁금했습니다.

아마도 패턴을 파악할 수 있을 것 같습니다.

예를 들어 3-4와 같이 여러 개의 막대를 연속으로 분석하는 것이 좋습니다.

그런 다음 이 3-4 막대 샘플의 시작 부분에서 한 막대를 이동하고 다시 분석합니다.

마치 한 샘플을 다른 샘플에 오버레이하는 것처럼 말이죠.

다음과 같은 패턴을 찾을 수 있습니다.

이렇게요:


어떻게 될까요? 막대는 항상 달라집니다. 현재 눈금과 연결하지 않는 한 말이죠. 예를 들어 색상(극성)과 같이 약간 다른 이론으로 접근해야 한다고 생각합니다. 고정성은 발생하지만 약간 다른 방식으로 발생하며 쉽게 파괴됩니다.
 

그 동안 이 스레드의 첫 번째 샘플에서 이 모델을 얻었습니다.

잔액

안타깝게도 테스트 샘플에서는 실패했습니다. 샘플이 다른 것이 분명합니다.

 

모델을 훈련하는 방법을 찾는 과정에서 다양한 접근 방식을 테스트하고 10만 개 이상의 모델을 생성했으며, 이전에 좋은 잠재력을 보였던 새로운 접근 방식을 발명했습니다. 다양한 샘플 변환 및 예측자 선택 방법이 사용되었습니다. 이러한 방법들은 서로 결합되었습니다.



샘플 변환 및 예측자 선택 방법.

샘플 변환:

  • 1. 변환 없음 .
  • 2. 방향(벡터) 유형별 거래 선택 - 선택 없음, 매수, 매도 - 별도의 샘플로 저장.
  • 3. 재무 결과에 따라 목표 함수 이동 .
  • 4."드롭" 방법 - FP 유형 예측자의 강한 양자에 의해 샘플에서 행을 제외 - 각 반복에서 샘플을 변경하여 샘플 양자를 10-30회 연속으로 추정합니다:

(a) 샘플 트레인의 벡터를 고려하지 않고 최상의 양자에 의한 제외는 샘플의 목표 평균에서 주어진 편차 비율보다 큰 경우, 그렇지 않으면 벡터를 고려하여 샘플에서 추가로 평가되고 최상의 변형이 선택됩니다.

b)"a"와 동일하지만 테스트 샘플 편차가 TN에 대한 확률이 감소하는 방향으로 표시된 양자 세그먼트는 취하지 않습니다.

c)"a"와 동일하지만 추정 선택은"테스트" 샘플에서 수행됩니다.

예측자 선택:

  • 1. 정량화 방법 :

(a) 각 예측자에 대한 퀀트 테이블을 선택하여 통계에 의한 예측자 선택 .

( b) 이진 샘플링으로 통계에 의한 퀀트 선택 .

(c ) 하위 샘플의 사분위수 세그먼트를 다른 벡터와 결합하여 풀링된 이진 샘플을 형성합니다.

d) 이진 양자에 기반한 양자 테이블을 선택하여 통계에 의한 예측자 선택 .

  • 2)상관관계가 강한 예측자 제외.
  • 3. 유사한 응답 필드별로 예측자를 그룹화하여 필드별 지배적 예측자를 선택 - 예측자를 바이너리로 변환한 후에만 가능합니다.
  • 4. 8개로 분할된 훈련 샘플에 대해 CatBoost 모델 에서 예측자 사용의 평균 빈도에 따른 선택 . 획득한 통계를 기반으로 5가지 학습 전략과 20가지 이상의 예측자 선정 방법을 사용합니다.
  • 5."드롭" 방법을 수행한 후 각 샘플에 대한 예측자 요약 선택.
 

새로운 기록이며, 이번 테스트 샘플도 긍정적인 측면이 있습니다.

잔액

모델

 

아무도 복잡한 샘플에서 무언가를 얻는 방법에 관심이 없기 때문에 모델이 어떻게 도출되었는지 작성할 것입니다.

그래서 여기서 가장 먼저 한 일은 수익이 50 핍 미만이면 마이너스 결과, 즉 이전에는 "1"이 아닌 "0"이라는 원칙에 따라 목표를 이동하는 것이 었습니다. 20% 미만의 포지티브 마크가 남았지만 더 뚜렷한 추세 움직임을 선택할 수 있었습니다.

그런 다음 각 예측자에 대해 퀀트 테이블에서 분할을 선택했습니다. 약 900개의 테이블을 샘플링에 사용하고, 확률을 5%에서 이동시키는 분할을 선택하고, 양자 분할에서 신호 생성의 안정성을 평가했습니다.

다음 단계는 선택한 양자 세그먼트를 결합하는 것입니다. 저는 무작위 요소로 접근 방식을 사용하고 "세그먼트가 많을수록 좋다"는 기준으로 결과를 평가했습니다. 이 방법이 완벽하다고 확신 할 수 없으며 아마도 개선되어야 할 것입니다 - 알고리즘에 대해 생각해야합니다.

이런 식으로 저는 예측자에 대한 결합된 퀀텀 테이블을 얻었습니다. 성공적인 세그먼트가 없는 예측자는 양자 테이블에 "0,5"라는 구분 기호만 표시되었습니다.

8~800단계의 Seed로 100개의 모델을 8단계로 훈련했습니다.

얻은 변형에서 가장 좋은 모델을 선택하고 그 모델이 사용한 예측자를 분석 한 결과 77 개가 있음이 밝혀졌습니다.

다른 100개의 모델을 훈련하려고 시도했지만 이러한 예측자에 대해서만 8단계에서 8~800의 씨앗을 사용 했습니다. 가장 좋은 모델의 결과는 마지막 모델보다 약간 나빴습니다. 물론 당황스러웠습니다.

저는 더 작은 단계와 더 큰 볼륨으로 Seed를 시도해야한다고 결정했습니다. 예측자가 더 나은 결과를 얻을 수 있기 때문에 입증되었습니다. 1단계에서 1부터 10000까지 Seed를 사용하여 10000개의 모델을 훈련시켰습니다.

아래 그래프는 모델의 재무 결과를 최고부터 최악까지 순서대로 보여줍니다.

모델의 약 25%가 수익성이 없었으며, 평균 수익은 2116.65로 더 이상 나쁘지 않습니다. 모델의 38%는 수익이 3000점 이상입니다.

테스트 샘플의 결과가 시험 샘플과 상관 관계가 없는 이유는 명확하지 않습니다. 하위 샘플의 특성 때문일까요, 아니면 다른 이유가 있을 수 있을까요?

아래 그래프는 이전과 동일한 방식으로 정렬된 테스트 샘플의 결과를 시험 샘플의 재무 결과별로 보여줍니다.

명확성을 위해 분산형 그래프는 무작위처럼 보입니다.

이진 통계 지표가 아닌 점수라는 지표의 문제라고 생각했지만 아래 그래프에서 볼 수 있듯이 두 샘플 간의 정확도 지표도 독립적입니다.


시험 샘플과 훈련 샘플에 대한 결과의 의존성을 파악하지 않으면 모델을 선택하기가 어렵기 때문에 모델이 할 수 있는 추가적인 평가 기준, 즉 지표를 개발해야 한다고 생각합니다.

새 모델(두 개를 발견했습니다)은 50개 미만의 예측 변수를 사용했습니다. 이 과정을 반복하면 결국 모델을 구축하기에 충분한 예측 변수가 남게 될 것 같습니다.

그러면 어떻게 해야 할까요 - 선택한 예측자만 사용하여 전체 샘플에 대해 모델을 학습시킨 다음 새 데이터에서 그 집합이 어떻게 작동하는지 확인할 수 있습니다.

또한 테이블에서 양자 세그먼트를 선택할 때와 마찬가지로 훈련 없이도 선택 확률을 높이는 몇 가지 특수 기능을 선택한 예측자에서 찾아보고 싶습니다.

 
Aleksey Vyazmikin #:

그런 다음 각 예측자에 대해 양자 테이블에서 분할을 선택했습니다. 약 900개의 테이블을 샘플링에 사용하고, 5%의 확률로 이동하는 분할을 선택한 다음, 양자 분할에서 신호 생성의 안정성을 평가했습니다.

다음 단계는 선택한 양자 세그먼트를 결합하는 것입니다. 저는 무작위 요소로 접근 방식을 사용하고 "세그먼트가 많을수록 좋다"는 기준으로 결과를 평가했습니다. 이 방법이 완벽하다고 확신하지 못하며 아마도 개선되어야 할 것입니다. 알고리즘에 대해 생각해 볼 필요가 있습니다.

본질적으로 55% 이상의 확률로 나뭇잎을 선택하는 건가요?

알렉세이 비야즈미킨 #:

100 개의 모델을 더 훈련하려고했지만이 예측자에 대해서만 8 단계에서 8에서 800까지의 씨앗을 사용 했습니다. 가장 좋은 모델의 결과는 마지막 모델보다 약간 나빴습니다. 물론 이것은 저를 당황하게 만들었습니다.

분명히 Seed-a의 무작위 추출은 최상의 샘플의 무작위 추출과 완전히 일치하지 않았습니다. 따라서 다른/더 나쁜 결과가 나왔습니다.

알렉세이 비야즈미킨 #:

테스트 샘플의 결과가 시험 샘플과 상관 관계가 없는 이유가 명확하지 않습니다. 하위 샘플의 특성 때문인가요, 아니면 다른 이유가 있을 수 있나요?

아래 그래프는 이전과 동일한 방식으로 정렬된 테스트 샘플의 결과를 시험 샘플 재무 결과별로 보여줍니다.

이는 일반적인 훈련에서 훈련에 맞게 재훈련/조정하는 것과 같습니다. 이 경우 시험에 맞게 피팅이 완료된 것입니다. 테스트와 시험 모두에서 볼 수 있듯이 모든 피팅은 임의의 결과로 이어집니다.

최고의 훈련이나 시험을 치르면 안 된다고 생각합니다. 최고의 훈련이나 시험보다 훨씬 더 나쁜 결과가 나오더라도 안정적인 것이 필요합니다.

Darch로 작업할 때 두 샘플 모두에서 선택이 있었습니다 err_ oob * k+ err_trn * (1 - k); 여기서 k=0.62 (권장되지만 변경 가능)
즉, err = err_ oob * 0.62+ err_trn * 0.38;
그러나 이것은 계산 시간이 증가함에 따라 선택에 불필요한 매개 변수입니다.

H1에서 샘플링을 사용한 실험에 따르면 안정적이지만 수입이 거의 없었습니다. 10000 건의 거래가 있었지만 거래 당 0.00005 건에 불과했습니다. 스프레드 / 슬리피지 등이 일반 거래에서이 5 포인트를 먹기 때문에 이것은 또한 흥미롭지 않습니다.

400번 거래했지만 시험에서는 40점을 받았습니다. 그리고 시험에서는 저처럼 0에 가깝습니다 (무작위).

많은 접근 방식이 있지만 아무도 효과가있는 접근 방식을 찾지 못했습니다.
 
elibrarius #:

기본적으로 55% 이상의 확률로 잎을 선택하는 건가요?

아니요, 선택되는 예측자 하나의 수치 범위라고 할 수 있습니다. 5%는 샘플 트레인의 백분율 "1"의 값에 상대적인 것입니다.

엘리바리우스 #:

Seed-a의 랜덤이 최상의 샘플의 변형 랜덤과 완전히 일치하지 않는 것 같습니다. 따라서 다른/더 나쁜 결과가 나옵니다.

랜덤은 고정되어 있습니다 :) 이 시드는 까다로운 방식으로 계산되는 것 같습니다. 즉, 모델 구축에 허용 된 모든 예측 변수가 관련되어 있으며 그 수를 변경하면 선택 결과도 변경됩니다.

엘리바리우스 #:

이는 일반적인 학습을 재학습/적합하는 것과 같습니다. 이 경우 시험에 적합하게 만들었습니다. 시험과 시험에 대한 모든 피팅은 시험에서 볼 수 있듯이 무작위 결과로 이어집니다.

왜 적합하다고 생각하시나요, 아니면 무엇을 적합하다고 생각하시나요? 저는 시험 샘플이 기차에서 시험보다 더 많이 다르다고 생각하는 경향이 있습니다. 즉, 예측 변수의 확률 분포가 다르다는 것입니다. 그리고 가장 안정적인 예측자를 선택하여 모든 샘플에서 허용 가능한 결과를 제공하거나 외부 기능 (예 : 다른 예측자)에 의해 확률 분포를 변경하여 처리 할 수 있습니다. 그러한 모델에 대해 잘 모르겠지만 시도해보고 싶습니다. 다른 나무의 선택된 잎이나 전체 모델에 대해 반복 학습을 사용하면 비슷한 효과를 얻을 수 있습니다. 아마도 반복 뉴런이 이것을 할 수있을 것입니다-나는 그것에 대해 잘 모릅니다.

저는 지금까지 이 방법을 결합된 모델을 구축할 예측자를 선택하는 방법과 실제 훈련 전에 다른 효과적인 예측자를 식별하기 위한 벤치마크로 취급했습니다.

엘리바리우스 #:

최고의 훈련이나 시험은 없다고 생각합니다. 최고의 훈련이나 시험보다 결과가 훨씬 나쁘더라도 안정적인 것이 필요합니다.

제가 Darch로 작업할 때 두 샘플 모두에 선택이 있었습니다 err_ oob * k+ err_trn * (1 - k); 여기서 k=0.62 (권장되지만 변경 가능)
즉, err = err_ oob * 0.62+ err_trn * 0.38;
그러나 계산 시간이 늘어나는 선택에 불필요한 매개 변수입니다.

err_가 나타내는 메트릭은 무엇인가요?

엘리바리우스 #:

400건의 거래가 있지만 시험에서 40점을 받았습니다. 글쎄요, 저처럼 시험에서 0에 가깝습니다 (무작위).

많은 접근 방식이 있지만 아직 아무도 생산적인 접근 방식을 찾지 못했습니다.

X 축은 테스트 샘플의 기대 행렬 값입니다. 즉, 일반적으로 예, 그러나 성공적인 사례가 있습니다.


사유: