혼돈에 패턴이 있을까요? 찾아보겠습니다! 특정 샘플의 예에 대한 머신 러닝. - 페이지 20

 
Aleksey Vyazmikin #:

패턴이 있지만 찾을 수 없다는 것을 어떻게 해석할 수 있을까요? 아니면 무작위성 속에 패턴이 있는 건가요?

내용을 주의 깊게 읽어보세요.

줄 사이에는 아무것도 없으며 문자 그대로 매우 명확합니다.

제가 작성한 내용과 일치하지 않는 질문을 두 번째로 작성하셨습니다.

 
elibrarius #:

욕심 없이 어떻게 할 수 있을까요? 각 분할에 대해 다른 하나를 계산하고 한 번에 한 쌍을 선택하지만, 이 경우 계산 시간이 5000배 이상 늘어납니다. 100개의 모델을 평균화하는 것이 더 쉽습니다.

저는 오히려 품질, 즉 추가 평가 기준에 대해 생각합니다.

또 다른 접근 방식은 명확한 트리 프레임워크가 아니라 적용의 일관성을 보장하는 예측자에 대한 가중치입니다. 일종의 "먼저 시간 정의", "변동성 추정", "현재 가격 포지션"과 같은 방식입니다.

엘리바리우스 #:

무작위성의 영향을 줄이려면 맞습니다. 그렇지 않으면 숲에서와 같이 20-100 개의 모델의 평균을 내야 합니다.

처음에는 잘린 샘플에 나무를 만든 다음 (전체 샘플에 강제되지 않은 경우) 전체 샘플의 잎으로 결과를 계산하는 과정을 완전히 이해하지 못합니다. 분명히 분할은 하위 샘플에 있고 잎의 가중치는 이미 전체 샘플에 있습니다.

엘리바리우스 #:

즉, 정제 된 나무가 최고가 아니라 무작위로 더 나쁠 수 있습니다.

따라서 모델의 분산이 손실에서 수익성으로 바뀝니다.

아니요, 훈련은 항상 각 반복에서 결과를 개선하고 훈련 샘플의 모델은 항상 플러스 측면에 있습니다. 비록 재정적 스프레드가 있긴 하지만요.

엘리바리우스 #:

분포 그래프로 판단하면 더 많은 드레인 모델이 있습니다. 즉, 평균을 내면 평균 결과는 수익성이 없습니다.

예, 하지만 이것은 특별한 경우에 가깝습니다.

엘리바리우스 #:

무작위 강도 = 0일까요? 그 이후에는 시드 변경이 모델을 변경하지 않기를 바랍니다. 무작위로 나쁜 나무가 아닌 더 나은 정제 트리로 모델을 만들 수 있습니다. 가장 좋은 모델이 낭비라면 10000 개의 무작위 모델에서 무작위로 가장 좋은 모델을 검색하는 것이 실제 낭비로가는 길입니다.

나는 0으로 시도했지만나무의 점수가 모두 동일하게되었으므로 동일한 것들이 무작위로 선택되었다는 것을 이해합니다:)). 또는 여전히 어딘가에서 난수 생성기가 사용됩니다.

엘리바리우스 #:

또는 숲에서와 같이 무작위로 선택된 여러 모델의 평균을 구합니다. 가장 좋은 모델을 재학습할 수 있기 때문입니다.

즉, 세 개의 샘플에서 모델을 선택한 다음 좋아요를 평균화한다고요? 그럴 수도 있습니다. 아직 모델 앙상블로 이동하고 싶지는 않지만 모델 자체의 구성을 개선 할 수있는 가능성을 조사해야합니다.

 
Aleksey Vyazmikin #:

또 다른 접근 방식은 명확한 트리 프레임워크가 아닌 일관성 있는 적용을 보장하는 예측 변수에 가중치를 부여하는 것입니다. "시간을 먼저 정의한 다음, 변동성을 추정하고 현재 가격 포지션을 정의하자"와 같은 방식입니다.

먼저 요일 및/또는 시간별로 나눠서 시도해 보았습니다. 모델은 자체적으로 첫 번째 분할을 찾는 것보다 더 나쁜 것으로 나타났습니다. 샘플을 요일별로 5개로 나누고 각 요일마다 1개의 모델을 훈련시키는 것도 가능합니다. 또는 한 시간 또는 원하는 대로 훈련할 수도 있습니다.

알렉세이 뱌즈미킨 #:

아니요, 훈련은 항상 각 반복에서 결과를 개선하고 훈련 샘플의 모델은 항상 플러스에 있습니다. 비록 재정적 스프레드가 있긴 하지만요.

개선이있을 것이 분명하지만 최고는 아니지만 점수의 무작위 화를 통해 개선 될 것입니다.
나는주의를 산만하게하지 않기 위해 Trein을 전혀 보지 않습니다. 그는 항상 잘할 것입니다.

Aleksey Vyazmikin #: 0으로 시도했지만나무의 점수가 모두 동일 해졌고 동일한 나무에서 무작위로 선택되었다는 것을 이해합니다:)) 또는 여전히 난수 생성기가 어딘가에서 사용됩니다.

점수가 무작위화되지 않고 결과가 여전히 다르면 다른 곳에서 무작위화가 사용된다는 것을 의미합니다.

알렉세이 비야즈미킨 #: 즉, 세 개의 샘플로 모델을 선택한 다음 평균을 낸다고요? 그럴 수도 있습니다. 아직 모델 앙상블로 가고 싶지 않고 모델 자체의 구성을 개선 할 수있는 가능성을 조사해야합니다.

선택하는 것이 아니라 무작위로 생성된 모든 모델을 가져와야 합니다. 그리고 평균을 내는 거죠. 숲에서처럼요. 여기에서도 무작위 나무의 평균을 구합니다. 하지만 무작위로 생성된 나무 중 가장 좋은 것을 가지고 실험해 볼 수 있습니다.

 
elibrarius #:

먼저 요일 및/또는 시간별로 나누어 보았습니다. 모델이 스스로 첫 번째 분할을 찾는 것보다 더 나빴습니다. 샘플을 요일별로 5개의 부분으로 나누고 각 요일마다 1개의 모델을 훈련시키는 것도 가능합니다. 또는 한 시간 또는 원하는 대로 훈련할 수도 있습니다.

네, 그 옵션이 있습니다 :) 저는 예측 변수 중 하나에서 흥미로운 결과를 포착하고 이에 대한 신호 전략을 만들었습니다.

그러나 여기서 저는 훈련 중에 모델이 선택하는 예측자의 우선 순위에 대해 다른 것에 대해 이야기하고 있습니다.

엘리바리우스 #:

무작위 추출을 하지 않고 점수를 산출했는데도 결과가 여전히 다르다면 다른 곳에서 무작위 추출이 사용되고 있다는 뜻입니다.

분명히 :) 개발자는 이 주제에 대해 여전히 침묵하고 있습니다.

엘리바리우스 #:

컬링이 아니라 무작위로 생성 된 모든 것을 연속으로 가져옵니다. 그리고 평균을 내세요. 숲에서처럼. 거기에서도 무작위 나무의 평균을 구합니다. 하지만 무작위로 생성된 트리 중 가장 좋은 트리를 실험해 볼 수 있습니다.

이러한 작업은 대규모 리콜을 사용하거나 응답 포인트의 유사성을 기준으로 모델을 긍정적 인 클래스로 사전 그룹화하여 수행 할 수 있으며 그렇지 않으면 항상 부정적인 추천이 있습니다.

 

이전에 선택한 예측 변수를 사용하여 마지막 실험의 표본을 줄였습니다. 2014~2015년 두 해를 훈련 표본에서 제거했습니다.

지난번에는 시험 샘플에 수익이 3000이 넘는 모델이 208개였다면 이제는 277개입니다. 우연의 일치일까요, 아니면 샘플이 더 비슷해졌을까요?

그런데 지난번 테스트 샘플의 평균 수익 잔액은 982포인트였고 잘린 샘플은 2115포인트였는데, 시험에서는 -1114 대 -1214로 거의 변하지 않았습니다.


결과를 개선할 수 있는 다른 방법이 있을까요?

 
안녕하세요, 첫 번째 게시물의 파일을 게시해 주실 수 있나요? 저도 아이디어를 시도해 보고 싶습니다.
 
Aleksey Vyazmikin #:

지난번 샘플 테스트에서 수익률이 3000이 넘는 모델이 208개였다면 지금은 277개입니다. 우연의 일치일까요, 아니면 샘플이 더 비슷해졌을까요?

Seed, 즉 새로운 데이터에 대한 의존도가 매우 높습니다. 패턴이 있는 데이터에서 그림은 훈련에서와 같습니다: 올인 + 작은 편차.
초기 Seed를 변경해 보세요(여러 가지 변형을 시도해 보세요). 성공적인 패턴의 수가 많이 다를 경우 시드를 변경할 때 HNC의 시퀀스뿐만 아니라 무작위입니다.

알렉세이 뱌즈미킨 #:

그건 그렇고, 마지막 단계의 테스트 모델 샘플의 평균 수익 잔액은 982 포인트이고 잘린 샘플에서는 2115이지만 시험에서는 거의 변하지 않는 -1114 대 -1214입니다.

테스트의 평균이 0을 초과한 것이 이상합니다. 훈련을 말하는 건가요? 시험은 학습에 참여하지 않거나 훈련을 선택하기 위해 간접적으로 참여하는 것 같습니다.

알렉세이 뱌즈미킨 #:

결과를 개선할 수 있는 아이디어가 있나요?

모델이 과도하게 훈련되었거나 훈련이 부족할 가능성이 높습니다. 그리고 마지막 옵션은 패턴이 없습니다.
과도하게 훈련된 경우 나무 수를 1로 줄이세요. 훈련이 부족한 경우 나무 깊이를 늘릴 수 있습니다.
이미 많은 수의 나무가 있는 변형을 시도해 보셨을 것입니다.
패턴이 없는 경우 더 어렵습니다. 5000 개 이상의 예측자로 찾지 못했다면 다른 방법을 찾아야할지 모르겠습니다. 5000개 이상의 예측 변수를 어떻게 생각해냈는지 저도 모르겠네요. 아직 그 방향에 대해 자세히 알아보지 못했습니다. 계산하는 데 시간이 오래 걸리지만, OOS에서도 50 대 50 정도이기 때문에 그렇게 해야 할 것 같습니다.

 

그런데 수평축에 시간을 기준으로 균형선을 그리나요, 아니면 거래 사이에 균등한 간격으로 균형선을 그리나요? 차트로 판단하면 두 번째입니다.

예를 들어 보겠습니다:

상단에는 3000개 이상의 거래가 있고 하단에는 600개 이상의 거래가 있습니다. 동일한 간격으로 만들면 아름다운 추세를 얻을 수 있습니다. 그러나 여기서 5년 동안 거래는 며칠에 불과했고 몇 달 / 몇 년 동안 잠자는 로봇을 만드는 것은 의미가 없다는 것을 알 수 있습니다. 당신은 그것을 끌 것입니다.

그림은 흑백 백조를 주제로 한 것입니다. 보시다시피 MO는 그들을 잘 "물리고"존재한다면 그들에게 적응합니다.
@fxsaber도이 문제를 연구했습니다 https://www.mql5.com/ru/blogs/post/749420
나는 백조와 흑조의 영향을 모두 제거해야한다는 것에 전적으로 동의합니다.

옵티마이저에서 사용자 지정 기준을 적용하고 어떻게 든 다른 옵션을 선택할 수있는 경우 MO에는 분할을 선택하는 표준 옵션 만 있으며 여기에서는 기록 조각 만 잘라낼 수 있습니다. 문제는 모델이 학습되기 전에는 화이트 스완의 순간을 알 수 없다는 것입니다. 그리고 그것을 잘라내면 모델이 완전히 달라지고 자체적인 백조가 있을 수 있습니다. 우리는 생각하고 실험해야 합니다...

Фильтр белых лебедей.
Фильтр белых лебедей.
  • www.mql5.com
В любом исследовании сначала идет подготовка исходных данных. На фин. рынках это почти всегда истории котировок. В зависимости от источника, они могут обладать определенными особенностями. Сегодня
 
RomFil #:
안녕하세요, 첫 번째 게시물의 파일을 게시해 주실 수 있나요?

안녕하세요. 네, 오늘 게시해 보겠습니다.

 
elibrarius #:

새 데이터에 대한 씨앗, 즉 HGF에 대한 의존도가 매우 높습니다. 패턴이 있는 데이터에서 그림은 트레이네와 같습니다: 올인 + 작은 편차.
초기 Seed를 변경해 보세요(여러 가지 변형을 시도해 보세요). 성공적인 패턴의 수가 많이 다르면 시드를 변경할 때 HGC의 시퀀스뿐만 아니라 무작위입니다.

각 모델의 시드는 1에서 10000까지 순차적으로 변경되며, 이것이 다른 모델을 생성하는 포인트입니다. 시드가 고정되어 있지 않고 전체 공간에서 가져온 경우 (또는 생성 방법-또한 질문) - 모르겠습니다-확인할 수 있습니다.

결과가 테스트와 유사해야한다는 진술의 근거는 무엇입니까? 샘플이 동질적이지 않다고 가정합니다. 비슷한 수의 유사한 예가 없으며 양자에 대한 확률 분포가 약간 다르다고 생각합니다.

예, 모델이 우연히 만들어 졌다고 가정 해 보겠습니다. 그러나 그것이 식별 된 규칙 성을 설명하지 않는다는 것을 의미합니까?

엘리바리우스 #:

테스트에서 평균이 0보다 높게 나온 것이 이상합니다. 혹시 훈련을 말하는 건가요? 테스트는 학습에 관여하지 않거나 학습을 선택하는 데 간접적으로 관여하는 것 같습니다.

훈련 중 훈련 중 테스트에서 개선이 없으면 훈련이 중지되고 테스트 모델에서 마지막으로 개선이 있었던 지점까지 나무가 제거되는 등 훈련 중지를 제어하는 데만 참여합니다.

개선이 없을 수도 있지만 열화가 강하지 않고 열차 샘플에서 더 일반화 된 예제이며 학습 알고리즘은이 경우를 중지하도록 지시합니다. 이 기능을 비활성화하면 모델에서 얼마나 많은 트리를 사용해야 하는지에 대한 또 다른 질문이 생깁니다. 고정 된 수의 트리를 훈련 한 다음 테스트 샘플을 사용하여 모델을 자르는 또 다른 옵션에 대해 생각하지만 각 단계에서 균형을 계산해야하므로 확실히 비용이 많이 듭니다.

이제 하나의 샘플이 아닌 일련의 하위 샘플로 훈련을 중지하여 시간이 지남에 따라 패턴의 지속성을 확인하는 것이 좋을 것 같습니다.

엘리바리우스 #:

모델이 과도하게 훈련되었거나 훈련이 부족할 가능성이 높습니다. 마지막 옵션은 패턴이 없는 경우입니다.

과도하게 학습된 경우 트리 수를 1로 줄이세요. 학습이 부족한 경우 트리 깊이를 늘릴 수 있습니다.
이미 많은 수의 나무로 변형을 시도해 보셨을 것입니다.
패턴이 없으면 더 어렵습니다. 5000 개 이상의 예측자로 찾지 못했다면 다른 방법을 찾아야할지 모르겠습니다. 5000개 이상의 예측 변수를 어떻게 생각해냈는지 저도 모르겠네요. 아직 그 방향에 대해 자세히 알아보지 못했습니다. 계산하는 데 시간이 오래 걸리지만, OOS에서도 50 대 50 정도이기 때문에 그렇게 해야 할 것 같습니다.

분명히 제가 사용한 샘플을 명확하게 표시하지 않은 것 같습니다. 여기에 설명 된 실험의 여섯 번째 (마지막) 샘플이므로 예측 변수는 61 개뿐입니다.

위에서 지적했듯이 - 예, 모델은 전체 샘플 열차를 설명하지 않는다는 점에서 완전히 훈련되지 않았으며 이는 일반적으로 시장이 변화하고 있고 모든 조합이 존재할 수 없으며 각 후속 샘플에서 다른 수가 있고 평균 결과가 다를 수 있기 때문에 일반적으로 정상입니다. 대표 샘플로 작업하는 것이 아니기 때문에 완전한 설명을 기대할 수는 없으며, 몇 가지 안정적인 패턴을 추출하는 것이 목표입니다.

트리의 경우 학습률(--learning-rate)에 대한 설정이 있는데, 이는 트리의 수와 관련이 있습니다. 즉, 학습률이 높을수록 샘플을 설명하는 데 필요한 트리의 수가 줄어듭니다. 따라서 비율(0.3)을 높이면 조건부 필터링을 통과하는 모델의 수가 더 많아지고 때로는 두 배 이상 증가하며 마지막 실험은 이러한 설정에 불과하며 평균 트리 수는 10 개이고 깊이는 6 분할입니다. CB의 트리는 다소 다릅니다. 대칭 트리의 전체 레벨에 하나의 분할이 있으므로 클래식 변형보다 적용 속도가 빠르지 만 하나씩 정보가 적습니다. 최신 릴리스에서는 클래식 트리를 사용할 수 있지만 MQL5에는 해당 모델에 대한 인터프리터가 없기 때문에 사용하지 않으므로 화를 내지 않습니다.

일반적으로 예측자를 더 추가 할 수 있습니다. 지금은 몇 가지 예외를 제외하고는 3 TF에서만 사용되기 때문에 수천 개를 더 추가 할 수 있다고 생각하지만 61 개의 예측자에 대한 10000 개의 시드 변형이 이러한 확산을 제공한다는 점을 감안할 때 모두 훈련에 제대로 사용될지는 의심 스럽습니다.....

물론 예측자를 미리 선별해야 훈련 속도가 빨라집니다.

엘리바리우스 #:

그건 그렇고, 수평 축에 시간이있는 균형 선을 구축합니까, 아니면 거래 사이에 균등 한 단계로 구축합니까? 차트로 판단하면 두 번째입니다.

다음은 예시입니다:

위쪽은 3000개 이상의 거래가 있고 아래쪽은 600개 이상의 거래가 있습니다. 동일한 들여 쓰기로 만들면 아름다운 추세를 얻을 수 있습니다. 그러나 여기서 5년 동안 거래는 며칠에 불과했고 몇 달 / 몇 년 동안 잠자는 로봇을 만드는 것은 의미가 없다는 것을 알 수 있습니다. 당신은 그것을 끌 것입니다.

잔액은 달력의 연대기를 고려하지 않고 순차적으로 구축됩니다. 예, 무슨 뜻인지 알지만 제 개념에서는 거래 패턴을 준비하는 후반 단계의 문제입니다.

엘리바리우스 #:

그림은 흑백 백조를 주제로 한 것입니다. 보시다시피 MO가 잘 "물린"것을 볼 수 있고, 있다면 그것에 적응합니다.

배출이 편차라는 것은 논리적이며, 저는 이것이 비효율적이라고 생각하며 백색 잡음을 제거하여 배워야한다고 생각합니다. 다른 영역에서는 특히 평평한 시장 영역에서 단순한 원시 전략이 종종 효과가 있습니다.

사유: