트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 57

 
유리 레셰토프 :
Duc 결국 잠재적인 과적합을 방지해야 하기 때문에 안정성이 달성됩니다. 그리고 불균형한 훈련 세트는 대표성이 없는 클래스에 대한 과적합의 잠재적 원인입니다. 결국, 학습 알고리즘은 일반화 능력을 높이는 데 필요하지 않은 것처럼 더 쉽게 작동하려고 합니다. 표본이 불균형한 경우 대표성이 가장 낮은 클래스에 대한 학습 오류가 최소화됩니다. 이러한 클래스에 대한 예제는 거의 없으며 일반화하는 대신 암기하는 것이 가장 쉽습니다. 이러한 벼락치기 후에는 훈련 샘플 외부에서 대표성이 없는 클래스의 알고리즘 오류가 가장 가능성이 높다는 사실에 놀랄 일이 없습니다.
나는 훈련 샘플의 균형을 맞추는 데 반대할 것이 없습니다. 날짜별로 분할하지 않고 유효성 검사를 위해 임의의 하위 샘플을 사용하는 것에 반대합니다. 검증에 대한 메트릭의 과대 평가가 있을 것입니다.
 
알렉세이 버나코프 :

생각은 간단합니다. 실생활에서 아무도 실제 거래의 품질을 평가하기 위해 미래의 관찰이 포함된 혼합 샘플을 취하는 것을 허용하지 않습니다. 모든 관찰은 x일 이후에 진행됩니다.

따라서 검증 중에 혼합 샘플을 취하면(날짜별 구분 없이) 검증을 위한 품질 메트릭을 과대평가하게 됩니다. 그게 다야. 그러면 불쾌한 놀라움이 있을 것입니다.

그리고 생각은 어떻습니까? 생각은 주관적입니다. 옳고 명백하게 틀린 생각은 모두 가능합니다. 상상력을 제한하는 데 문제가 있기 때문입니다. 진리의 기준은 항상 경험입니다.

두 개의 훈련 샘플을 가져옵니다. 하나는 사전 균형이고 다른 하나는 매우 불균형합니다. 두 샘플에 대해 알고리즘을 훈련하고 테스트 부분에 대한 일반화 능력을 측정합니다. 그런 다음 일반화 능력을 비교합니다. 최고의 일반화 능력을 제공하고 진실의 기준이 될 옵션.

그렇지 않으면 우리는 추진력을 잃을 때까지 생각하고 추측할 것입니다. 사실, 불일치는 논쟁에서 태어나고, 진실은 경험에서 태어난다.

따라서 나는 샘플 균형 훈련 주제에 대한 추가 논의와 연결합니다. 그렇지 않으면, 이 holivar는 무한정 계속될 수 있습니다. 두 가지 다른 의견이 있으며 우리 중 어느 것이 더 정확하다고 생각하는 주제에 대해 계속 측정하는 것은 시간 낭비입니다.

 
유리 레셰토프 :
Duc 결국 과적합을 방지해야 하기 때문에 안정성이 확보됩니다. 그리고 불균형한 훈련 세트는 대표성이 없는 클래스에 대한 과적합의 잠재적 원인입니다. 결국, 학습 알고리즘은 일반화 능력을 높이는 데 필요하지 않은 것처럼 더 쉽게 작동하려고 합니다. 표본이 불균형한 경우 대표성이 가장 낮은 클래스에 대한 학습 오류가 최소화됩니다. 그러한 클래스에 대한 예는 거의 없으며 일반화하는 대신 암기하는 것이 가장 쉽습니다. 이러한 벼락치기 후에는 훈련 샘플 외부에서 대표성이 없는 클래스의 알고리즘 오류가 가장 가능성이 높다는 사실에 놀랄 일이 없습니다.

1. 일반적으로 불균형 클래스에서 악마는 다음과 같은 사실이 밝혀졌습니다. 클래스 간의 오류는 때때로 분기될 수 있습니다. 그리고 어느 것이 맞습니까?

2. 수업의 균형을 유지하는 것이 항상 가능한 것은 아닙니다.

BUY|SELL의 예입니다. 관측치(막대) 수가 3000개를 초과하면 불균형 차이는 최대 20%가 10%가 됩니다. 균형을 잡는 것은 충분히 가능합니다.

그리고 여기 위에서 Dr.Trader 는 대상 변수 "반전/반전 없음"을 제안했습니다. ZZ에서 가져온 것처럼. 따라서 이러한 대상 변수에서 클래스의 불균형은 크기에 따라 다릅니다. 최대 학급으로 보충한다면 이런 균형 잡힌 표본으로 가르칠 수 있을까? 그건 아닌 것 같습니다.

그래서 균형을 잡기가 쉽지 않습니다.

내 경험에서:

  • 불균형이 크지 않은 경우(20% 이하) 균형을 맞춰야 합니다.
  • 불균형이 크면(다중) 균형을 맞출 수 없으며 일반적으로 이러한 대상 변수를 거부해야 합니다.

다른 솔루션을 찾지 못했습니다.

 
유리 레셰토프 :
이제 모든 걸 포기하고 진지한 머그를 얼굴에 대고 치피리를 하기 위해 R 숙달자가 될 것이다.
당신이 숫자 놀이를 하고 있다는 것을 알아차리기 전까지는 얼굴에 대해 알지 못합니다. 눈에 보이지 않습니다.
 
산산이치 포멘코 :
당신이 숫자 놀이를 하고 있다는 것을 알아차리기 전까지는 얼굴에 대해 알지 못합니다. 눈에 보이지 않습니다.
암튼 아바타에 내 얼굴이 꽤 진지한 것 같은데? 최소한 인상을 찌푸릴 수 있도록 열심히 노력했습니다. 하지만 잘 작동하지 않는 것 같죠?
 
유리 레셰토프 :

그리고 생각은 어떻습니까? 생각은 주관적입니다. 옳고 명백하게 틀린 생각은 모두 가능합니다. 상상력을 제한하는 데 문제가 있기 때문입니다. 진리의 기준은 항상 경험입니다.

두 개의 훈련 샘플을 가져옵니다. 하나는 사전 균형이고 다른 하나는 매우 불균형합니다. 두 샘플에 대해 알고리즘을 훈련하고 테스트 부분에 대한 일반화 능력을 측정합니다. 그런 다음 일반화 능력을 비교합니다. 최고의 일반화 능력을 제공하고 진실의 기준이 될 옵션.

그렇지 않으면 우리는 추진력을 잃을 때까지 생각하고 추측할 것입니다. 사실, 불일치는 논쟁에서 태어나고, 진실은 경험에서 태어난다.

따라서 나는 샘플 균형 훈련 주제에 대한 추가 논의와 연결합니다. 그렇지 않으면, 이 holivar는 무한정 계속될 수 있습니다. 두 가지 다른 의견이 있으며 우리 중 어느 것이 더 정확하다고 생각하는 주제에 대해 계속 측정하는 것은 시간 낭비입니다.

나는 한 가지에 대해 이야기하고 있고, 당신은 다른 것에 대해 이야기하고 있습니다. 나는 세트를 날짜별로 엄격하게 나눌 필요가 있다고 말합니다. 밸런스 말씀하시는건가요?
 
알렉세이 버나코프 :
나는 한 가지에 대해 이야기하고 있고, 당신은 다른 것에 대해 이야기하고 있습니다. 나는 세트를 날짜별로 엄격하게 나눌 필요가 있다고 말합니다. 밸런스 말씀하시는건가요?

미안하지만, 나는 이미 이 holivar를 계속하는 것이 의미가 없다고 말했습니다. 나는 이미 예를 들어 균형의 부족을 설명하려고 노력했습니다. 아마 별로 설득력이 없겠죠? 글쎄, 나는 내 얼굴에 진지한 찻잔을 들고 검은 색을 흰색으로 전달하는 검은 수사학에 강하지 않습니다. 그러니 판단하지 마세요.

아마도 그 이유는 내가 당신에게 현실의 균형을 맞추도록 "강제"하려고 한다고 설득하려고 하기 때문일 것입니다. 하지만 저는 그런 의도가 없습니다. 나는 현실과 유감스럽게도 균형이 맞지 않는 경우가 많고 균형을 잡을 수 있는 가능성이 항상 있는 것은 아니라는 것을 알고 있습니다. 따라서 내 게시물에서 교육 샘플 외부의 현실과 균형을 맞추려고 할 필요는 없지만 학습 샘플에서 얻은 모델이 대표성이 높은 수업. 일반 표본을 날짜별로 부분으로 나눌 때도 균형을 이루는 것이 종종 불가능합니다. 따라서 나는 훈련 샘플의 균형을 날짜별로가 아니라 클래스의 동일한 표현으로 균형을 맞춥니다.

훈련 샘플의 균형에 대한 추가 질문에는 답변하지 않겠습니다. 그래서 이 holivar는 이미 끌었습니다.

 
유리 레셰토프 :

미안하지만, 나는 이미 이 holivar를 계속하는 것이 의미가 없다고 말했습니다. 나는 이미 예를 들어 균형의 부족을 설명하려고 노력했습니다. 아마 별로 설득력이 없겠죠? 글쎄, 나는 내 얼굴에 진지한 찻잔을 들고 검은 색을 흰색으로 전달하는 검은 수사학에 강하지 않습니다. 그러니 판단하지 마세요.

아마도 그 이유는 내가 당신에게 현실의 균형을 맞추도록 "강제"하려고 한다고 설득하려고 하기 때문일 것입니다. 하지만 저는 그런 의도가 없습니다. 나는 현실과 유감스럽게도 균형이 맞지 않는 경우가 많고 균형을 잡을 수 있는 가능성이 항상 있는 것은 아니라는 것을 알고 있습니다. 따라서 내 게시물에서 교육 샘플 외부의 현실과 균형을 맞추려고 할 필요는 없지만 학습 샘플에서 얻은 모델이 대표성이 높은 수업. 일반 표본을 날짜별로 부분으로 나눌 때도 균형을 이루는 것이 종종 불가능합니다. 따라서 나는 훈련 샘플의 균형을 날짜별로가 아니라 클래스의 동일한 표현으로 균형을 맞춥니다.

훈련 샘플의 균형에 대한 추가 질문에는 답변하지 않겠습니다. 그래서 이 holivar는 이미 끌었습니다.

확인 . 나는 당신을 설득하지 않을 것입니다.
 

나는 완전성을 위해 개입하고 지점에 대해 위에서 표현한 나의 의견을 반복하고 싶습니다.

1. 두 세트의 데이터가 필요합니다. 두 번째는 시간상 첫 번째 데이터 세트의 연속입니다.

2. 첫 번째 데이터 세트의 균형을 맞춥니다. 균형을 잡아야 합니다.

3. 첫 번째 데이터 세트는 학습, 테스트 및 검증의 세 부분으로 무작위로 나뉩니다.

  • 훈련 데이터 세트에서 교차 검증을 사용하여 모델을 학습합니다.
  • 훈련된 모델은 테스트 및 검증 세트에서 실행됩니다.
  • 오류가 세 세트 모두에서 거의 같으면 4단계로 이동합니다. 그렇지 않으면 더 괜찮은 예측 변수를 찾기 시작합니다. 오차의 상당한 차이는 예측 변수 사이에 노이즈(목표 변수와 약한 관계를 가짐) 예측 변수의 존재로 인해 발생하는 모델의 과적합을 증명하기 때문입니다.

4. 시간상 첫 번째 세트의 연속인 두 번째 세트에서 오류가 발생합니다.

모든 4개 세트의 오차가 거의 같으면 모델이 과대적합되지 않은 것입니다. 오류에 적절한 값이 있으면 안전하게 더 나아갈 수 있습니다. 테스터를 통과합니다.

유의미한 차이(30% 이상)가 있는 경우 원래 예측 변수 집합은 모델을 다시 훈련하게 하고 개인적인 경험에 따르면 모델 유형을 변경해도 재훈련이라는 의미에서 아무 것도 고칠 수 없습니다. 노이즈 예측자를 제거해야 합니다. 예측 변수 중 NOISE 예측 변수가 전혀 없음을 쉽게 알 수 있습니다.

 
여러분, 저는 유리의 최적화 프로그램을 1년 이상 사용해 왔으며 PRNG 생성기를 사용한 샘플링에 대해 전적으로 동의합니다. 사실 작업은 출력 정보에 대한 입력 데이터의 정보를 식별하는 것입니다. 즉, 옵티마이저는 입력 데이터가 출력에 얼마나 유익한지 알려줍니다(이상적임). 즉, 옵티마이저는 이 질문에 답합니다. 데이터가 좋지 않은 결과를 나타내면 출력에 대한 정보를 전달하지 않거나 예측자가 제공하는 일반화 수준으로 전달한다는 의미입니다. 이제 10개의 입력이 있다고 가정해 보겠습니다. 문제는 샘플을 0으로 자르려면 얼마나 많은 레코드(짚)가 필요합니까???? 내가 힌트를 줄게. 10개의 입력이 있는 100개의 항목은 0으로 최적화되어야 합니다. 100개의 항목으로 데이터의 완전한 열거가 수행되기 때문입니다. 제가 명확하게 표현하지 못했을 수도 있습니다. 죄송합니다. 물론 Yuri는 이에 대해 이야기하지 않지만 광고되지 않은 예측자를 사용하는 뉘앙스가 있습니다. 하지만 이는 모든 데이터의 일반화 능력을 증가시킵니다. 즉, 데이터 시스템과 완전히 관련되지 않더라도 10개의 입력으로 100개의 라인을 제출합니다. 알고리즘은 일반화 능력이 높을 모델을 구축합니다. 90% 이상입니다. 데이터는 천장에서 가져오고 어떤 식으로든 시스템과 관련이 없기 때문에 이 모델이 미래에 적절하게 작동할 것이라는 사실은 아닙니다. 그러나 Predictor는 최소한의 오차로 다차원 공간을 절단할 수 있습니다. 그러나 이를 위해서는 까다롭지 않은 데이터 조작을 수행해야 합니다. 그래서 저도 유리님 말씀에 전적으로 동의합니다. 이 경우 출력 및 데이터 순서와 관련하여 입력의 정보성을 식별하는 작업은 아무런 역할을 하지 않습니다. 이 경우 GSHR은 옵션입니다 ....
사유: