기고글 토론 "랜덤 포레스트로 추세 예측하기" - 페이지 9

 
Reshetov:
이제 모든 것을 망쳤습니다. 어떻게 당신의 높은 인공지능이 사소한 액수를 즉시 알아채지 못했을까요?
 
gpwr:

아래 예제에서 모델이 어떻게 작동하는지 보여주세요. 첫 번째 열은 모델링된 시리즈이고, 두 번째와 세 번째 열은 예측자입니다. 이 예측자의 예측력은 어느 정도인가요?

-0.35742 0.461646 -0.81907
0.431277 0.004545 0.426731
-0.00018 -0.4037 0.403528
-0.08575 0.90851 -0.99426
0.773826 0.008975 0.764852
0.426905 -0.96485 1.391757
0.253233 0.487955 -0.23472
0.20994 0.880554 -0.67061
-0.09929 0.160276 -0.25956
0.332911 -0.08736 0.420268
0.032258 0.360106 -0.32785
0.253027 -0.06859 0.321621
-0.66668 -0.54985 -0.11683
-0.5476 -0.13231 -0.41529
-0.75652 0.536488 -1.29301
-0.66109 -0.87314 0.212052
-0.09993 -0.86293 0.763
0.014625 0.715032 -0.70041
-0.48345 -0.62666 0.143206
-0.03596 0.935653 -0.97161
-0.17023 0.678024 -0.84826
0.293376 0.079529 0.213847
0.002922 0.754594 -0.75167
0.329194 -0.05535 0.384546
0.639423 -0.41358 1.053007
0.431631 -0.60334 1.034973
0.59125 0.497989 0.093262
0.266098 -0.79645 1.062549
-0.02624 0.643164 -0.6694
0.055014 -0.46214 0.517154
0.436132 -0.89992 1.336052
-0.30143 0.628619 -0.93005
-0.12168 0.886467 -1.00814
-0.10851 -0.0507 -0.0578
-0.74573 -0.50921 -0.23653
-0.574 0.244825 -0.81883
-0.87313 0.336188 -1.20932
-0.00344 0.117363 -0.1208
-0.20265 0.424326 -0.62697
0.177873 -0.17967 0.357541

저는 제너럴리스트 수학자가 아닙니다. 나는 매우 구체적으로 추론하려고 노력하며 거래를 근거로 10000 줄의 샘플을 얻는 것은 어렵지 않습니다. 나는 40 줄에 대한 결론을 도출하는 방법을 모르며 내가 말하는 모든 것이 그러한 샘플에 적용될 수 있지만 배울 필요가 없다고 생각합니다. 의학의 경우 40 라인은 정상입니다.

1. 일반적으로 저는 "예측 능력"이 발생한 모델의 과도한 훈련에 대해 쓰고 있습니다.

2. 저는 "롱-숏"이라는 공칭 값의 예측에 관심이 있습니다. 이것이 분류 모델입니다. 귀하의 예, 회귀 모델 나는하지 않습니다 .

계속할 준비가 되었습니다.

ZZ를 실행하고 여러 개의 브레이크 아웃을 가질 수있는 견적이 필요합니다. 거기에서 상당히 큰 파일이 필요합니다.

코티르 자체 외에도 여러 예측자, 심지어 하나도 있습니다. 이 예측자가 롱-숏 예측력을 가지고 있는지에 대한 질문에 답하겠습니다.

물론 파일이 필요한가요, 아니면 모든 것을 직접 입력할 것을 제안하시나요?

 

TheXpert:

레셰토프:

샘플의 "높은 일반화 가능성"의 비밀이 밝혀졌습니다. 첫 번째 열의 값은 다른 두 열의 값의 합계입니다.


이제 당신은 모든 것을 망쳤습니다 ) . 그리고 어떻게 높은 인공지능이 사소한 합계를 한 번에 인식하지 못했을까요?

이진 분류를 위한 모델을 구축하기 때문에 합계를 인식하도록 설계되지 않았고, 작업은 다중 회귀 섹션에서 이루어집니다.

이 모델은 이진 분류를 위한 모델이지만, 여전히 표현식:

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

표현식은 Y ~ V0 + V1로 단순화됩니다.

이제 남은 것은 스프레드시트에서 가설을 테스트하는 것입니다.

 

안녕하세요, 산사니치 님.

교육 부족, 교육 과잉 문제에 대해서는 여기에서 책 초안을 볼 수 있습니다(http://www.iro.umontreal.ca/~bengioy/dlbook/).

섹션 5.3.3에 모든 것이 잘 설명되어 있습니다. 일반적으로 책 전체가 매우 유용하며 특히 코리 페트가 쓴 책입니다.

행운을 빕니다.

 
vlad1949:

안녕하세요, 산사니치 님.

교육 부족, 교육 과잉 문제에 대해서는 여기에서 책 초안을 볼 수 있습니다 (http://www.iro.umontreal.ca/~bengioy/dlbook/).

섹션 5.3.3에 모든 것이 잘 설명되어 있습니다. 일반적으로 책 전체가 매우 유용하며 특히 코리 페트가 쓴 책입니다.

행운을 빕니다.

안녕하세요!

링크 주셔서 감사합니다.

나는 완전한 도구 세트와 주제에 대한 다양한 문헌을 가지고 있습니다. 그러나 실제 적용을 용이하게하지는 않습니다.

원하신다면 이 전체 툴킷을 자동화를 위해 함께 공유할 수 있습니다.

 
faa1947:

안녕하세요!

링크를 보내 주셔서 감사합니다.

저는 이 주제에 대한 완전한 도구 세트와 다양한 문헌을 보유하고 있습니다. 하지만 실제 적용이 더 쉽지는 않습니다.

원하신다면 이 모든 툴킷을 자동화하기 위해 함께 공유할 수 있습니다.

저는 이 문제를 프로그래밍 방식으로 해결합니다. 결과는 괜찮습니다.

행운을 빕니다.

 
faa1947:

저는 보편적인 수학 전문가가 아닙니다. 나는 매우 구체적으로 추론하려고 노력하며 거래를 기반으로 10000 라인의 샘플을 얻는 것은 어렵지 않습니다. 나는 40 줄에 대한 결론을 내리는 방법을 모르며 내가 말하는 모든 것이 그러한 샘플에 적용될 수 있지만 배울 필요가 없다고 생각합니다. 의학의 경우 40 라인은 정상입니다.

1. 일반적으로 저는 "예측 능력"이 발생한 모델의 과도한 훈련에 대해 쓰고 있습니다.

2. 저는 "롱-숏"이라는 명목값의 예측에 관심이 있습니다. 이것이 분류 모델입니다. 귀하의 예, 회귀 모델 나는하지 않습니다 .

계속할 의향이 있습니다.

ZZ를 실행하고 여러 개의 브레이크 아웃을 가질 수있는 견적이 필요합니다. 거기에서 상당히 큰 파일이 필요합니다.

코티르 자체 외에도 여러 예측자, 심지어 하나도 필요합니다. 이 예측자가 롱-숏 예측력을 가지고 있는지에 대한 질문에 답하겠습니다.

그리고 물론 파일이 필요합니다. 아니면 모든 것을 손으로 입력 할 것을 제안합니까?

알겠습니다. 훈련 샘플과 외부에서의 행동을 비교하여 모델이 과훈련되었는지 확인하는 것은 매우 쉽습니다. 그러나 모델이 과훈련되지 않도록 만드는 방법은 모델링된 시리즈와 관련된 예측 변수 입력과 그렇지 않은 예측 변수 입력을 판단하는 능력에 달려 있으며, 이는 과훈련 여부를 판단하는 것보다 훨씬 더 어렵습니다. 모델의 일반화 능력은 과적합 여부에 따라 달라집니다. 제가 제시한 예는 매우 간단합니다. 모델링 중인 시리즈 y는 잡음이 있는 사인파입니다. 첫 번째 예측 변수 x1은 난수입니다. 두 번째 예측자 x2는 차이 x2 = y-x1입니다. 즉, 모델은 예측자 y = x1+x2의 합으로 정확하게 설명됩니다. 이 간단한 예에 자신의 방법을 적용하지 않았다는 사실은 자신의 방법이 데이터의 관련성을 결정할 수 없다는 의심을 불러일으킬 뿐이며, 이러한 관련성을 결정하는 것이 바로 오버트레이닝을 식별하고 제거하는 주요 목표입니다. 실제 모델링 문제는 이 예시보다 훨씬 더 복잡하며, 관련성 있는 데이터와 관련성 없는 데이터가 모두 포함됩니다. 둘을 분리하는 것은 매우 어렵습니다. 모든 입력이 있는 신경망은 관련성 있는 입력과 관련성이 없는 입력에 연결되도록 학습되고, 따라서 재학습을 거치게 됩니다. 데이터의 관련성을 판단하는 방법을 모르는 것 같으니, 나는 당신의 기사와 책에 관심이 없습니다. 행운을 빕니다!
 
gpwr:

훈련 샘플과 외부에서의 행동을 비교하여 모델이 과훈련되었는지 확인하는 것은 매우 쉽습니다.

이것은 큰 착각이며 제가 알기로는 아직 비용을 지불하지 않은 것으로 알고 있습니다. 기사에 제시된 모델은 훈련 외부의 세 샘플에서도 똑같이 좋은 결과를 보였지만 이 모델은 과훈련된 모델입니다.

그리고 모델이 과도하게 학습되지 않도록 만드는 방법은 모델링된 시리즈와 관련이 있는 예측 변수 입력과 그렇지 않은 예측 변수 입력을 결정하는 능력에 달려 있으며, 이는 과도하게 학습되었는지 확인하는 것보다 훨씬 더 어렵습니다.

먼저, 표 3에서 목표 변수를 예측하는 데 있어 예측 변수의 중요성에 대해 설명한 논문을 주의 깊게 읽어보세요.

그런 다음 행렬을 학습하고, 예를 들어 예측 변수를 선택하기 위한 전문 패키지인 varSerf, Boruta, FSelector를 학습하세요. 그리고 CORElearn 패키지에는 목표 변수에 중요한 예측자를 선택하기 위한 35개(!)의 다양한 알고리즘이 있습니다.

제 경험상 목표 변수에 중요한 예측자를 선택하는 방법은 다음과 같습니다.

1. 예를 들어 막대 수가 15000개인 50개와 같이 다소 큰 예측자 집합을 구성합니다.

2. 위에서 언급 한 알고리즘 중 하나를 사용하여이 15,000 개의 막대에서 예측자를 선택합니다. 일반적으로 15 ~ 20 개를 얻으며 모델 구축에 사용되는 경우는 20 %보다 더 자주 사용됩니다.

3. 그런 다음 더 작은 창(예: 2000개의 막대)을 가져와 한 번에 한 막대씩 이동하면서 이전에 선택한 50개 중 20개에서 중요한 예측 변수를 선택합니다.

4. 유의미한 예측 변수의 구체적인 목록은 항상 변경됩니다.

데이터의 관련성을 판단하는 방법을 모르는 것 같으니, 저는 귀하의 기사와 책에 관심이 없습니다.

이 패키지가 필요한 이유와 이해 방법 및 실제 데이터에 대한 실제 사례를 설명하는 내 책에 약간의 돈을 쓰면 이러한 패키지를 손에 사용하는 효율성이 크게 높아질 것입니다.

그리고 여러분과 제가 함께 예측자에 대해 훈련되지 않은 모델을 만들려고 노력한다면 그 효과는 훨씬 더 커질 것입니다. 성공이 보장되는 것은 아니지만 저와 소통 한 후에는 그러한 피상적 인 게시물을 작성하지 않을 것입니다. 또한 실제 계정에서 훨씬 더 조심할 것입니다.

 
faa1947:

1. 예를 들어 막대 수가 15000 인 50 개와 같이 다소 큰 예측 변수 세트를 형성합니다.

이제 왜 책을 팔아 돈을 벌고 거래하지 않는지 알 수 있습니다.

 
faa1947:

이것은 큰 착각이며 제가 알기로는 아직 비용을 지불하지 않은 것으로 알고 있습니다. 기사에 제시된 모델은 훈련된 세 가지 샘플에서 똑같이 좋은 결과를 보였지만 이 모델은 과도하게 훈련되었습니다.

오버트레이닝은 잘 정립된 매우 구체적인 용어입니다. 당신은 그것을 대체하고 있을 뿐만 아니라 그것이 무엇인지 설명하지 않고 있습니다.

말하는 방식이 술턴을 연상시킵니다.