트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3170

 
fxsaber #:

거의 모든 테스터 사용자가 본 사진입니다. 설명이 궁금합니다.

이 사진에서 통계적 유의성이 상당히 높은데, 겹치지 않는 위치가 3000개 이상입니다.

저는 이것이 Sample 자체의 시장 변화의 영향이라고 생각합니다. 예를 들어 샘플은 처음에는 실제 패턴이 있다가 아무것도 없었습니다. 하지만 전체 샘플에 대해 피팅이 일어났습니다.

우리는 어떻게든 Sample 내에서 이러한 고장을 피해야 합니다.


반대 효과도 발생할 수 있습니다: 왼쪽 OOS는 아래로, 오른쪽은 위로. 즉, 샘플의 초기 조각에서는 패턴이 발견되지 않고 피팅만 발견되는 경우입니다.

오버트레이닝 또는 비고정성일 수 있습니다. 물론 원시 데이터나 알고리즘 자체에 문제가 있는 것이 아니라면요.

저는 보통 가능한 모든 매개변수(및 사용 가능한 메타변수)를 약간 변경하고 결과가 어떻게 변하는지 확인하는 식으로 문제를 약간 "이동"시키려고 노력합니다. 때로는 조금 더 명확해지기도 합니다.

 
mytarmailS #:
훈련에서와 같이 OOS에서 수익을 얻는다면, 이 효과(OOS에 대한 직접 유출)는 시장에만 내재되어 있으며 다음과 같은 가설을 더 세울 수 있습니다.

거래, 자동 거래 시스템 및 테스트 거래 전략에 관한 포럼.

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

fxsaber, 2023.08.16 11:38 AM

이런 말도 안 되는 일이 벌어집니다. 왼쪽에는 OOS가 통과하고 오른쪽에는 그렇지 않습니다. 그리고 오른쪽은 말 그대로 즉시 "다이빙"합니다.

왼쪽에 OOS 패스가 있는 게 보이시나요?

 
fxsaber #:

왼쪽에 OOS가 통과하는 것이 보이시나요?

오른쪽의 효과에 대해 이야기하고 있습니다

실험을 완전히 복제하되 합성 데이터를 사용합니다.


======================================

왼쪽의 OOS도 적합하지만 일종의 두 번째 순서입니다.


일반적으로 TC의 변형이 1000개만 있다고 가정해 보겠습니다.


1단계와 2단계

1) 좋은 TS를 찾기 위해 최적화/검색을 시작합니다. 이것이 바로 훈련 데이터(피팅/검색/최적화)입니다.

TC가 수익을 창출하는 300개의 옵션을 찾았다고 가정해 보겠습니다...

2) 이제 이 300개의 옵션 중에서 OOS를 통과할 TC를 찾고 있는 것이 테스트 데이터입니다. 트레이닝과 테스트 ( OOS )에서 모두 수익을 내는 TC를 10개 찾았다고 가정해 보겠습니다.


그렇다면 포인트 2는 무엇인가요?

이제 최적화 조건(훈련 통과)이 하나가 아니라 두 개(테스트 통과 + 훈련통과)가 있기 때문에 검색(피팅/검색/최적화)이 조금 더 깊어지거나 복잡해졌을 뿐, 피팅의 동일한 연속입니다.

 
fxsaber #:

거의 모든 테스터 사용자가 본 사진입니다. 설명이 궁금합니다.

이 사진에서 통계적 유의성이 상당히 높은데, 겹치지 않는 위치가 3000개 이상입니다.

저는 이것이 Sample 자체의 시장 변화의 영향이라고 생각합니다. 예를 들어 샘플은 처음에는 실제 패턴이 있다가 아무것도 없었습니다. 하지만 전체 샘플에 대해 피팅이 일어났습니다.

우리는 어떻게든 Sample 내에서 이러한 고장을 피해야 합니다.


반대 효과도 발생할 수 있습니다. 왼쪽 OOS에서는 아래로, 오른쪽에서는 위로. 즉, 샘플의 초기 조각에서는 패턴이 발견되지 않고 피팅만 발견되는 경우입니다.

OOS는 항상 오른쪽에 있어야 합니다.

OOS가 왼쪽에 있으면 TC가 과도하게 훈련되지 않았고 앞을 보고 있지 않다고 보장할 방법이 없습니다. TC를 테스트할 때 다른 어떤 것보다 먼저 해결해야 할 첫 번째 주요 문제입니다.


어떤 문제가 있나요? 차이가 없습니다! 둘 중 하나이든 둘 다이든 상관없습니다. 올바르게 테스트하고 바스타 - 오른쪽에 OOS가 필요합니다.

그리고 다음과 같이 테스터와 양식 파일을 테스트하기 위해 잊어 버리는 것이 좋습니다:


두 개의 파일이 있습니다.


첫 번째 파일은 샘플별로 무작위로 교육, 테스트 및 유효성 검사의 세 부분으로 나뉩니다. (무작위) 교육 샘플을 학습한 다음 무작위 테스트 및 검증 샘플을 확인합니다. 이들은 모두 첫 번째 파일에서 서로 다른 부분입니다. 결과를 비교하세요. 결과가 거의 같으면 두 번째 "자연 시퀀스" 파일을 확인합니다. 여기서도 거의 동일하다면 TC가 과잉 훈련되지 않았으며 앞을 내다보지 않는다는 주요 결론을 내릴 수 있습니다. 이 결론이 있어야만 정확도, 수익성 등 다른 모든 것에 대해 이야기하는 것이 합리적이며, 이는 모두 부차적인 것입니다.


실제로 앞을 내다보고 재훈련하는지 확인할 수 있는 다른 방법은 없습니다.

 
fxsaber #:

이런 일이 일어납니다. 왼쪽에는 OOS 패스가 있고 오른쪽에는 그렇지 않습니다. 그리고 오른쪽에서는 말 그대로 즉시 "다이빙"합니다.


대부분의 경우 이런 일이 발생합니다.

즉, 말 그대로 즉시 중요한 다이빙입니다. 다이빙의 성격은 명확하지 않습니다. SB에 가까운 것이어야한다고 생각하지만 그런 그림을 너무 자주 봅니다.


최적화 후 반전된 TC를 실행하면 배수조차 되지 않는 것 같은 느낌이 듭니다.

P-해킹(또는 데이터 준설)은 연구자가 통계적으로 유의미한 결과를 찾을 때까지 데이터를 분석하는 통계적 기법입니다. 연구자는 분석의 매개변수를 변경하거나 특정 데이터만 선택하거나 데이터에서 유의미한 관계나 차이를 찾기 위해 여러 번 비교할 수 있습니다. 이는 오탐으로 이어져 과학적 결론을 왜곡할 수 있습니다. P-해킹은 과학적 부정직의 한 형태이며 잘못된 전제에 기반한 잘못된 추천과 결정으로 이어질 수 있습니다.


***올바르게 지적했듯이, 그 반대도 일어날 수 있습니다.
 
fxsaber #:

왼쪽에 OOS가 통과하는 것이 보이시나요?

트레이닝 기간을 줄이면 차트 추세 반전이 그만큼 빨리 일어나나요?

저는 틱 전략에 대해 잘 모르지만 이러한 동작의 요인 중 하나는 훈련 중 비교 가능한 데이터가 부족하다는 것입니다. 예를 들어 훈련은 대부분 일부 TF에서 추세 하락이었습니다.

어떤 훈련 방법을 사용하고 있는지 모르겠지만 트리 시스템이나 조건부 지표(함수)의 범위를 제한하는 필터인 경우 각 범위에 속하는 예제 수를 추정해 볼 가치가 있습니다.

가능한 상황은 데이터 드리프트와 필터/리스트의 확률 결과 분포의 변화입니다.

예를 들어, 훈련용 샘플에서 양자 세그먼트를 선택한 다음 다른 두 샘플에서 그 분포(목표 0||1에 대한 정답 및 오답 비율)를 추정하면 3개의 샘플에서 안정성 기준을 충족하는 것이 25%~30% 범위에서 발견되며, 이 경우 모델이 불안정한 예측자를 선택할 가능성이 더 높아져 사이트 중 하나에서 작동이 중지된다는 것이 분명합니다.

결국 모든 것은 망원경으로 혜성의 꼬리를 무작위로 관찰하는 것이 아니라 단순한 규칙성을 분석하는 것, 즉 그렇게 고려해야 할 이유를 찾는 것으로 귀결됩니다.

 
fxsaber #:

왼쪽에 OOS가 통과하는 것이 보이시나요?

시스템이 얼마나 오래 수익성을 유지합니까?

나는 시스템의 유사한 동작을 경험했는데, 오른쪽의 OOS에 날카로운 매화가있을 때 발견 된 시장 패턴의 급격한 180도 반전과 직접 연결되어 있다고 생각하지 않습니다 (재교육이나 조정과 같은 실제 문제보다는 신비로운 성격의 이유, 부두 관행의 적용 및 일반적으로 적어도 훈련이 끝난 후 날카로운 매화가 항상 발생하는 것이 이상하기 때문에 일반적으로 어떤 것이 든 나타낼 것입니다). 일반적으로 Max가 위에서 말한 것처럼 오탐(또는 오탐)을 유발하는 코드의 일부 오류로 인해 발생하며, 이를 수정하면 최악의 경우 OOS에서 임의의 동작이 발생하거나(과훈련) 최상의 경우 수익성이 점진적으로 감소합니다(발견된 패턴의 퇴색 및/또는 점진적인 변화).

 
Andrey Dik #:

시스템 수익성은 얼마나 오래 유지되나요?

나는 시스템의 유사한 동작을 경험했는데, 오른쪽의 OOS에서 급격한 급락이있을 때 발견 된 시장 패턴의 급격한 180도 반전과 직접 연결되어 있다고 생각하지 않습니다 (재교육이나 조정과 같은 실제 문제보다는 신비로운 성격의 이유, 부두 관행의 적용 및 일반적으로 훈련 종료 후 항상 급격한 급락이 발생하는 것이 적어도 이상하기 때문에 일반적으로 어떤 것이 든 나타납니다). 일반적으로 Max가 위에서 말한 것처럼 오탐(또는 오탐)을 유발하는 코드의 일부 오류로 인해 발생하며, 이를 수정하면 최악의 경우 OOS에서 임의의 동작이 발생하거나(과훈련) 최상의 경우 수익성이 점진적으로 감소(발견된 패턴의 퇴색 및/또는 점진적인 변화)하게 됩니다.

그리고 TS에 많은 매개변수가 있거나 매우 잘 맞는 경우, 하락은 항상 급격합니다. "얇게" 작동했기 때문입니다. 매개 변수가 많으면 오차가 증가하고 합산됩니다. TS를 거칠게하고 매개 변수를 더 적게 만들면 테스터에서 그렇게 아름답지는 않지만 더 부드럽게 무너집니다.

마틴 게일의 포커에 비유할 수 있습니다. 많은 수의 실패한 위치가 있습니다. 많은 수의 실패한 매개 변수 또는 다른 것으로 교체하십시오. 결과는 동일합니다.

파이 해킹은 문제를 해결하지 못하기 때문에 문제를 덮어버립니다. 편향을 줄이고 분산을 늘리거나 그 반대의 경우도 마찬가지입니다. 오류는 여전히 존재하며 단지 숨겨져 있을 뿐입니다.
 

시험과 시험 하위 샘플에 그래프 시각화를 추가하고 기차를 잘라내어 그림이 호환되도록 초기 부분을 제거했습니다.

실제로는 훈련->시험->시험의 시간 순서로 구성된 구간입니다.

GIF를 보면 테스트 샘플과 시험 샘플이 어느 방향으로든 추세를 보이기보다는 오히려 진동의 진폭을 줄인 것을 알 수 있습니다.

그러나 자세히 살펴보면 일부 반복에서 이러한 샘플에 개선이 있음을 알 수 있습니다. 즉, 이것이 다른 샘플에서 안정성을 보여주는 규칙 (양자 세그먼트 형태)이라고 가정 할 수 있습니다. 또한 반복마다 다른 섹션이 반복마다 다르게 변경된다는 점, 즉 테스트 개선이 시험 개선과 직접적인 상관 관계가 없다는 점에 주목할 수 있습니다.

위에서 썼듯이 이것은 개별 양자 세그먼트의 클래스에 속할 확률의 편향성 변화로 설명됩니다.

양자 세그먼트 자체는 목표 신호를 건너뛰는 신호, 즉 0으로 만들거나 샘플을 두 부분으로 나누는 신호로서 비용 추정에 따라 선택됩니다. 즉, 잘못된 신호를 줄이는 데 드는 비용이 추정됩니다. 각 반복마다 재계산이 수행되고 가장 낮은 가격을 가진 변형이 제거됩니다.

다음은 계산 방법 중 하나에 따라 가격이 변경되는 방식입니다. 아래는 각 점이 양자 세그먼트(축 x는 시퀀스 번호)인 GIF입니다.

첫 번째 반복에서 가격이 무작위로 선택되면 테스트/시험 샘플에서 결과가 크게 변경되나요?

 

반복 4와 5 사이에서 테스트 하위 샘플의 정답 수가 급격히 감소하여 시험 샘플과 차이가 발생(델타 증가)하는 것을 볼 수 있습니다.