혼돈에 패턴이 있을까요? 찾아보겠습니다! 특정 샘플의 예에 대한 머신 러닝.

Forester 2023.01.15 12:51 #171

Aleksey Vyazmikin #:

랜덤은 고정되어 있습니다 :) 이 시드는 까다로운 방식으로 계산되는 것 같습니다. 즉, 모델 구축에 허용되는 모든 예측자가 포함될 수 있으며 그 수를 변경하면 선택 결과도 변경됩니다.

시작 시드는 고정되어 있습니다. 그리고 HSC를 호출할 때마다 새로운 번호가 나타납니다. 그렇기 때문에 예측자 수가 달라져도 전체 예측자 수와 동일한 예측자에 DST가 떨어지지 않습니다.

알렉세이 뱌즈미킨 #:

이것이 왜 적합 하다고 생각하시나요? 저는 시험 샘플이 기차에서 시험보다 시험과 더 다르다고 생각하는 경향이 있습니다. 즉, 예측 변수의 확률 분포가 다르다는 것입니다.

시험에서 잘 맞기를 바라며 가장 좋은 시험 변형을 선택합니다. 가장 좋은 시험에 따라 예측 변수를 선택합니다. 그러나 그들은 시험에 대해서만 최고입니다.

알렉세이 뱌즈미킨 #:

"err_" 메트릭이란 무엇인가요?

err_ oob - OOB에 대한 오류 (시험이 있습니다), err_trn - 기차에 대한 오류. 이 공식을 통해 두 샘플 사이트에서 공통적으로 발생하는 오류를 얻을 수 있습니다.

그건 그렇고, 토론에서 우리는 테스트와 시험을 바꿨습니다. 처음에는 테스트에 대한 중간 점검과 시험에 대한 최종 점검을 계획했습니다. 그러나 문맥을 보면 이름이 바뀌었지만 무엇이 무엇인지 명확하게 알 수 있습니다.

Aleksey Vyazmikin 2023.01.15 13:32 #172

elibrarius #:

시작 번호는 고정되어 있습니다. 그리고 DST를 호출할 때마다 새로운 번호가 나타납니다. 따라서 예측자 수와 DST의 수가 다르면 전체 예측자 수와 동일한 예측자에 해당되지 않습니다.

아니요, 훈련에 사용된 예측자가 같은 수에 남아 있으면 변형이 재현됩니다.

엘리바리우스 #:

글쎄요, 시험에서 좋은 점수를 받기를 바라면서 최고의 시험 변형을 선택합니다. 예측자는 최고의 시험에 의해 선택됩니다. 그러나 그들은 시험에 대해서만 최고입니다.

이 변형은 시험과 시험에서 적절한 이익으로 가장 균형 잡힌 것이 었습니다. 아래 그림은 처음에 선택한 모델 인 "Was"와 10k 훈련 후 가장 균형 잡힌 모델 인 "Become"입니다. 일반적으로 결과가 더 좋고 더 적은 수의 예측 변수가 사용되므로 노이즈가 제거됩니다. 여기서 문제는 훈련 전에 이러한 노이즈를 피하는 방법입니다.

따라서 논리는 테스트에서 훈련이 중단되는 것이므로 훈련에 전혀 참여하지 않는 샘플보다 긍정적 인 결과가있을 가능성이 더 높으므로 후자에 중점을 둡니다.

엘리바리우스 #:

err_ oob - OOB에 대한 오류 (시험이 있습니다), err_trn - trn에 대한 오류. 이 공식을 통해 두 샘플 사이트에서 공통적으로 발생하는 오류를 확인할 수 있습니다.

내 말은, "오류"가 어떻게 계산되는지 모르겠습니다 - 정확도인가요? 그리고 기본 접근 방식 시험에서는 알 수 없기 때문에 왜 시험이 아니라 테스트가 아닌지.

엘리바리우스 #:

그건 그렇고, 우리는 토론에서 테스트와 시험을 전환했습니다. 처음에는 시험에 대한 중간 시험과 시험에 대한 최종 시험을 치를 계획이었습니다. 그러나 문맥에 따라 이름을 변경했지만 무엇이 무엇인지 명확합니다.

나는 아무것도 바꾸지 않았습니다 (어딘가에 설명했을까요?) - 훈련-훈련, 테스트-훈련 중지 제어, 시험-어떤 종류의 훈련과도 관련이없는 섹션입니다.

저는 단지 평균 수익을 포함하여 모든 모델의 평균으로 접근 방식의 효과를 평가하고 있습니다. 좋은 결과를 얻은 가장자리보다 얻을 가능성이 더 높습니다.

트레이딩의 머신러닝: 이론, 모델, HFT, 차익거래 베이지안 회귀 - 이

Forester 2023.01.15 14:53 #173

Aleksey Vyazmikin #:
그리고 훈련을 시작하기 전에 그 소음을 피하는 방법에 대한 질문이 있습니다.

분명히 할 수 없습니다. 노이즈를 걸러내고 올바른 데이터에서 학습하는 것이 바로 이 작업입니다.

알렉세이 뱌즈미킨 #:

"오류"가 어떻게 고려되는지 모르겠습니다. 정확도인가요?

테스트를 통해 훈련에 대한 오류를 합산/요약하는 방법입니다. 모든 종류의 오류를 합산할 수 있습니다. 그리고 (1- 정확도), RMS, AvgRel, AvgCE 등이 있습니다.

알렉세이 비야즈미킨 #:

나는 아무것도 변경하지 않았습니다(어딘가에서 나 자신을 설명했을까요?)-훈련-훈련, 테스트-훈련 중지 제어 및 시험-어떤 종류의 훈련에도 관여하지 않는 섹션에서 그런 방식입니다.

사진에서 시험은 시험을 의미하는 것 같았습니다
예를 들어 여기.

그리고 위의 표에서 시험 결과는 테스트보다 낫습니다. 확실히 가능하지만 그 반대 여야합니다.

Aleksey Vyazmikin 2023.01.15 15:07 #174

elibrarius #:

분명히 그렇지 않습니다. 노이즈를 제거하고 올바른 데이터를 통해 학습하는 것이 과제입니다.

그렇지 않으면 모두 쓸모없거나 무작위일 뿐입니다.

엘리바리우스 #:

이것은 테스트와 함께 훈련에 대한 오류를 합산/요약하는 방법입니다. 모든 종류의 오류를 합산할 수 있습니다. 그리고 (1-정확도), RMS, AvgRel, AvgCE 등도 가능합니다.

알았어요, 제 데이터에서는 작동하지 않지만 적어도 상관관계가 있어야 합니다.)

엘리바리우스 #:

사진에서 시험이 테스트를 의미하는 것 같았습니다
예를 들어 여기

그리고 위의 표에서 시험 결과가 시험보다 낫습니다.

예, 시험이 모델러에게 더 많은 돈을 벌 가능성이 더 높다는 것이 밝혀졌습니다-나는 상황을 완전히 이해하지 못합니다.

불행히도 이제 어느 시점에서 전체 샘플 (행)을 혼동했고 이제 2022 년의 예제가 기차에 있다는 것을 알았습니다 :(.

모든 것을 다시 실행하겠습니다. 몇 주 안에 결과가 나올 것 같습니다. 전체 그림이 바뀌는 지 살펴 보겠습니다.

Forester 2023.01.15 15:17 #175

Aleksey Vyazmikin #:
안타깝게도 이제 어느 시점에서 전체 샘플(행)을 혼동한 것을 발견했고 이제 기차에는 2022년의 예가 포함되어 있습니다 :(

다시 해보겠습니다 - 몇 주 안에 결과가 나올 것 같습니다 - 전체적인 그림이 바뀌는지 확인하겠습니다.

시험으로 평가하든 시험으로 평가하든 아무런 차이가 없습니다. 중요한 것은 평가 사이트가 교육이나 초기 평가에 사용되지 않았다는 것입니다.

2주. 당신의 체력에 놀랐습니다. 저도 3시간 동안 계산하는 게 짜증나네요..... 그리고 이미 당신과 거의 같은 총 5년을 MO에 보냈습니다.

요컨대, 은퇴 후 무언가를 벌기 시작할 것입니다 )))) 아마도요.

Forester 2023.01.15 15:35 #176

Aleksey Vyazmikin #:

안타깝게도 어느 순간 전체 샘플(행)을 혼동하여 이제 기차가 2022년의 예시로 채워진 것을 발견했습니다.

저는 모든 것을 하나의 순차 배열로 붙였습니다. 그런 다음 적절한 양을 분리합니다. 이렇게 하면 아무것도 섞이지 않습니다.

Aleksey Vyazmikin 2023.01.15 16:06 #177

elibrarius #:

시험으로 평가하든 시험으로 평가하든 아무런 차이가 없습니다. 중요한 것은 평가 사이트가 교육이나 초기 평가에 사용되지 않았다는 것입니다.

Maxim과 같이 최종 훈련을하는 것이 더 나은지, 통제를 위해 선사 시대 샘플을 가져 오는 것이 더 나은지, 아니면 최고의 모델에서 평균적으로 사용 가능한 전체 샘플을 가져 와서 나무 수를 제한하는 것이 더 나은지 궁금합니다.

엘리바리우스 #:

2 주... 당신의 체력에 놀랐습니다. 저도 3시간 동안 계산하는 게 짜증나네요..... 그리고 이미 당신과 거의 같은 총 5 년을 MO에 보냈습니다.

물론 항상 더 빨리 결과를 얻고 싶겠죠. 나는 내 계산이 다른 것들을 방해하지 않도록 하드웨어를로드하려고 노력합니다. 나는 종종 주 작업 컴퓨터가 아닌 다른 컴퓨터를 사용합니다. 동시에 다른 아이디어를 코드로 구현할 수 있습니다. 코드에서 확인할 시간보다 더 빨리 아이디어를 떠올립니다.

엘리바리우스 #:

요컨대, 우리는 은퇴 후 무언가를 벌기 시작할 것입니다 )))) 아마도요.

동의합니다 - 전망이 슬프다. 비록 느리긴 하지만 연구가 진전을 보지 못했다면 아마 지금쯤이면 작업을 끝냈을 것입니다.

거래량, 변동성 및 허스트 МQL5에서 Open,Low,High,Close 매개변수를 얻는 상인을 위한 테마.

Aleksey Vyazmikin 2023.01.15 16:10 #178

elibrarius #:

저는 모든 것을 하나의 순차 배열로 붙입니다. 그런 다음 그 배열에서 적절한 양을 분리합니다. 이렇게 하면 아무것도 섞이지 않습니다.

예, 샘플을 바이너리 파일로 변환했고 스크립트에서 실수로 샘플 혼합을 담당하는 확인란을 넣었으므로 문제가되지 않으며 CatBoost에는 3 개의 개별 샘플이 필요하지만 내장 된 교차 유효성 검사가 있지만 행 범위에서 선택하지 않았습니다.

Forester 2023.01.15 18:09 #179

Aleksey Vyazmikin #:

또한 Maxim과 같이 최종 훈련을 할 때 제어를 위해 선사 시대 샘플을 가져오는 것이 더 나은지, 아니면 최고의 모델에서 평균적으로 사용 가능한 전체 샘플을 가져와 나무 수를 제한하는 것이 더 나은지 궁금합니다.

저에게 사전 훈련과 테스트는 평균적으로 가장 좋은 하이퍼파라미터(나무 수 등)와 예측자를 선택할 수 있는 기회입니다. 테스트 없이도 트레이닝을 통해 훈련하고 즉시 트레이딩에 들어갈 수 있습니다.

선사 시대 샘플링의 아이디어는 패턴이 변하지 않으면 작동 할 것입니다. 그러나 변경 될 위험이 있습니다. 그래서 저는 위험을 감수하고 향후 샘플링을 테스트하지 않는 것을 선호합니다.

또 다른 질문은 이 선사시대 샘플이 얼마나 오래 전의 것일까, 6개월 전일까 아니면 15년 전일까 하는 것입니다. 6개월 전은 괜찮을지 모르지만 15년 전의 시장은 지금과 같지 않습니다. 하지만 확실하지 않습니다. 어쩌면 수십 년 동안 지속되어 온 패턴이 있을 수도 있습니다.

EURUSD - 동향, 예측 트레이딩의 머신러닝: 이론, 모델, 이동 평균이 실제로 작동합니까?

Aleksey Vyazmikin 2023.01.27 09:51 #180

여기서 설명한 것과 동일한 알고리즘을 사용하여 얻은 결과를 설명하되 샘플이 혼합되지 않은 상태, 즉 시간순으로 유지된 상태로 설명하겠습니다.

제가 변경한 유일한 점은 이제 10000개의 모델에 대한 학습이 제외된 예측자가 포함된 전체 샘플이 아니라 제외된 예측자가 포함된 열이 제거된 재구성된 샘플에서 수행되어 학습 프로세스가 빨라졌다는 것입니다(대용량 파일을 펌핑하는 데 많은 시간이 걸리는 것 같습니다). 이러한 변경 덕분에 6단계의 예측자 스크리닝을 일관되게 수행할 수 있었습니다.