트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3171

 
Aleksey Vyazmikin #:

첫 번째 반복에서 가격이 무작위로 선택되면 테스트/시험 샘플에서 결과가 크게 변경되나요?

제가 직접 대답하겠습니다 - 네, 그렇습니다.

저는 신호(문자열)를 제외할 첫 번째 양자 세그먼트를 무작위로 1000번 선택했습니다.

다음은 다른 무작위 첫 번째 양자 반복 (나뭇잎 일 수 있음)으로 프로세스가 어떻게 진행되었는지 보여주는 몇 가지 예제 gif입니다.


그리고 다음은 중간 반복의 순간, 즉 다양한 선택 및 무작위화 단계의 정적인 그림입니다.

어떤 결론을 도출할 수 있을까요?

1. 운이 좋으면 무작위로 작업 패턴을 찾을 수 있습니다.)

2. 잘못된 패턴의 수를 줄이지 않고서는 탐욕의 원리만으로는 모델을 구축하기 어렵습니다.

3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.

4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.

5. 논리적으로 유효한 모델이 성공하려면 필요합니다.

6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.

다른 어떤 결론을 도출할 수 있나요?

 
Aleksey Vyazmikin #:
...

어떤 결론을 내릴 수 있을까요?

1. 운이 좋으면 무작위로 작동하는 모델을 찾을 수 있습니다 :)

2. 잘못된 패턴의 수를 줄이지 않으면 탐욕의 원리만으로 모델을 구축하기 어렵습니다.

3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.

4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.

5. 성공하려면 논리적으로 유효한 모델이 필요합니다.

6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.

다른 어떤 결론을 도출할 수 있나요?

스레드 진행 중에 정량화 방법을 놓쳤습니다. 죄송합니다. 다시 알려주세요.

시계열의 정량화는 매우 중요합니다. 예를 들어 렌코 방법으로 가격을 정량화하면 SB (적어도 통계적으로 관련이 있음)를 얻을 수 있으므로 "정량화하지 않으면 여전히 XXX를 얻을 수 있습니다"라는 표현은 적어도 정보를 파괴하는 정량화가 있다면 정보를 추출하는 정량화가있을 수 있기 때문에 최소한 과소 평가 된 것 같습니다. 물론 틱 스트림에 정보가 있다는 전제하에 말입니다(그렇지 않다면 MO의 적용은 무의미할 것이기 때문에 우리는 그것을 간절히 바라고 있습니다).

 

Andrey Dik #:

렌코 방법을 사용하여 가격을 정량화하면 SB(적어도 통계적으로 관련성이 있는)를 얻습니다.

SB는 막대보다 더 이상 없다고 생각합니다.

안드레이 딕 #: 물론 틱 스트림에 정보가 있다는 전제하에(그렇지 않다면 MO의 사용은 의미가 없으므로 그렇게 되기를 간절히 바랍니다).
아직 MO를 사용하여 진드기를 조사한 사람은 없는 것 같습니다.
 
Forester #:

더 이상 바만 있는 SB는 없다고 생각합니다.

바에 대한 통계는 SB 성능과 매우 다르기 때문에 훨씬 더 큰 SB가 필요하다고 생각합니다.

포레스터 #:

아직 MO로 티키를 사용해 본 사람은 없는 것 같아요.

적어도 시리즈를 정량화하지는 않았을 겁니다.

 

즉, 규칙성이 아니라 결코 달성 할 수없고 역사상 발생하지 않는 가격 (틱) 시리즈 ( "시계열"을 사용하고 싶지 않음)의 상태를 검색하는 것이 유망 해 보입니다.

이를 통해 트레이더에게 유리한 전략을 수립하기 위해 경계 조건을 사용할 수 있습니다.

 
Andrey Dik #:

스레드를 작성하는 과정에서 간과했습니다. 죄송합니다. 정량화 방법을 다시 알려주세요.

"정량화된 컷오프"의 개념은 간단한 개념으로, 샘플의 각 라인에 숫자 값이 있는 예측자의 범위입니다. 범위 내에 있는 모든 것이 하나의 단위가 됩니다.

범위로 분할하는 방법은 여러 가지가 있을 수 있으며, 저는 CatBoost에 내장된 변형(부스팅에서는 필요한 RAM을 줄이고 차원을 줄이기 위해 자주 사용됨)과 저만의 변형(예: 다른 숫자 시퀀스)을 모두 사용합니다.

예측자가 얻은 그리드를 사용하여 어떤 식 으로든 범위로 나눈 후 각 세그먼트를 차례로 가져와 그 안에있는 정보 값을 평가합니다.

샘플의 평균값에서 5% 이상 클래스에 속할 확률의 변화는 가치 있는 정보로 간주되며, 샘플의 신호 수와 분포도 고려됩니다.

샘플에 이진 목표가 있는 경우, 0 또는 1을 맞힐 확률이 그에 따라 이동하는 두 개의 양자 세그먼트 그룹을 얻습니다.

각 양자 세그먼트에 고유한 열이 있는 새 샘플을 생성하고, 해당 범위에 신호가 있으면 "1"을, 없으면 "0"을 입력합니다.

 
여기에서 제가 한 것처럼 시리즈를 변환/정량화하지 못하는 이유 https://www.mql5.com/ru/forum/86386/page3166#comment_48559717.
또는 이와 유사한 것을 사용하여 좋은 결과를 얻을 수 있습니다.
 
Aleksey Vyazmikin #:

이에 대한 답은 '그렇다'입니다.

신호(문자열)를 제외할 첫 번째 양자 세그먼트를 무작위로 1000번 선택했습니다.

다음은 서로 다른 임의의 첫 번째 양자 세그먼트(나뭇잎일 수 있음)를 사용하여 프로세스가 어떻게 진행되었는지 보여주는 몇 가지 예시입니다.


그리고 다음은 중간 반복의 순간, 즉 다양한 선택 및 무작위화 단계의 정적인 사진입니다.

어떤 결론을 도출할 수 있을까요?

1. 운이 좋으면 무작위로 작동하는 모델을 찾을 수 있습니다.)

2. 잘못된 패턴의 수를 줄이지 않으면 탐욕의 원리만으로 모델을 구축하기 어렵습니다.

3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.

4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.

5. 성공하려면 논리적으로 유효한 모델이 필요합니다.

6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.

어떤 다른 결론을 도출할 수 있나요?

몇 년 동안 헛소리를 해왔다고 결론을 내릴 수도 있습니다. 아니면 지금처럼 무작위 샘플링을 했을 수도 있습니다.
 
Aleksey Vyazmikin #:

한 클래스에 속할 확률이 표본 평균에서 5% 이상 변화하는 것은 신호의 수와 표본에 대한 분포뿐만 아니라 중요한 정보로 간주됩니다.

맥심에서 최근 언급한 파이 해킹과 비슷해 보입니다. 할당 된 퀀타의 중요성을 결정하기 위해 일부 통계 테스트를 사용하지 않는 한 확실히 그 사람입니다.

SB에서 거래하기 가장 좋은 시간을 선택한 간단한 예를 든 적이 있습니다 (분명히 존재하지 않는 경우). 5 * 24 = 120 개의 변형 만 있었지만 그러한 시간이 항상 발견되는 것으로 충분했습니다 (시간 간격은 반년이라고 생각합니다). 거기에도 "샘플링 안정성"이 있습니다.

 
Andrey Dik #:

즉, 규칙성이 아니라 결코 달성 할 수없고 역사상 발생하지 않는 가격 (틱) 시리즈 ( "시계열"을 사용하고 싶지 않음)의 상태를 검색하는 것이 "반대 방법"으로 행동하는 것이 유망 해 보입니다.

이를 통해 트레이더에게 유리한 전략을 수립하기 위한 경계 조건을 사용할 수 있습니다.

시계열 분석에서 유일하게 유효한 접근 방식은 패턴을 검색하고 어떤 방법으로든 이상값을 제외하는 것입니다.

시계열이 시계열이 아니거나 아예 시계열이 아닌 스택 또는 묶음으로 정의된 경우 다른 옵션이 있을 수 있습니다.
사유: