알렉세이 비아즈미킨 :

이전에는 시트에 작은 샘플의 경우 1% 이상의 지표가 포함되어야 하고 큰 샘플의 경우 100개 이상 포함되어야 한다고 설명하지 않았으므로 물론 어떤 클래스의 시트에 오류가 없을 때까지 분할되지 않을 것입니다.

마지막 단계를 잘못 이해하고 있는 것 같습니다. 나머지 샘플 1%의 통계적 추정치로 봅니다. 이 샘플에서 다른 예측 변수로 분할할 때 결과가 향상되는 것을 관찰하고 부분 공간에 대한 정보를 얻습니다. 예를 들면 다음과 같습니다.

A>x1인 경우 대상 1은 하위 샘플의 60%인 40%로 올바르게 식별됩니다.

B>x2인 경우 대상 1은 하위 샘플의 45%인 55%로 올바르게 식별됩니다.

A<=x1인 경우 대상 1은 하위 샘플의 50%인 70%로 올바르게 식별됩니다.

이러한 각 분할에는 유의 요소가 있으며(아직 계산 방법을 결정하지 않았습니다) 마지막 분할에도 유의 요소가 있습니다.

등등, 최대 5-10개의 예측 변수를 가정하고 적용할 때 마지막 분할에 도달한 경우 계수를 추가하고(또는 더 복잡한 감소 방법 사용) 계수의 합이 임계값을 초과하면 1은 시트에 분류되고 그렇지 않으면 0입니다.


간단한 방법으로, 이것은 끝에서 두 번째 분할까지 포리스트를 강제로 구축한 다음 샘플에서 이미 선택된 예측자를 제외하여 새 예측자를 선택함으로써 수행할 수 있습니다. 또는 트리를 구축한 직후에 선택 항목을 리프로 필터링하고 각 예측자를 직접 검토하여 완전성과 정확성의 기준을 충족하는 최상의 분할을 찾습니다.

그리고 다른 클래스 "0"이 비활성을 의미하고 반대 입력이 아닌 경우 훈련 샘플의 결과가 향상됩니다. 그렇지 않으면 개선과 저하가 모두 있을 수 있습니다.

어쨌든, 훈련의 결과는 N과 N+1 깊이로 훈련된 트리(예: 6과 7) 사이의 무언가가 될 것입니다. 레벨 6에서 오류가 20%이고 레벨 7 - 18%에서 방법은 오류를 제공합니다. 그 사이, 예를 들어 19%. 1%의 이득이 시간 가치가 있다고 생각하십니까?
이전에 저는 간단한 방법을 설명했습니다. 일부 트리는 최대 6까지, 일부는 최대 7 깊이 레벨까지 훈련하는 것입니다. 이것은 코드를 다시 작성해야 합니다.
이제 더 쉬운 방법을 생각해 냈습니다. 왜냐하면. 다시 쓸 필요가 없습니다. 레벨 6까지의 패키지와 레벨 7까지의 다른 포리스트 로 임의의 포리스트 를 만든 다음 평균을 내기만 하면 됩니다.


훈련 샘플에 대해 걱정할 필요가 없습니다. 항상 훌륭합니다.

 
도서관 :
증가율은 일반적으로 1% 이상입니다.

물론 랜덤 포레스트 도 가능하지만 마지막에서 두 번째로 분할될 때까지 어떻게 동일하게 만들 수 있습니까? 10개의 나무를 6번째 분할까지 훈련하고 나머지 10개의 나무를 같은 방식으로 7번째 분할까지 훈련했다고 가정해 보겠습니다.

 
안 돼요. 무작위이기 때문에 임의의 열을 학습용으로 사용합니다. 평균화하면 좋은 결과를 얻을 수 있습니다.
열 공유 = 1로 설정할 수 있습니다. 즉. 모든 열이 트리 구성에 참여하며 전체의 50%가 무작위가 아닙니다. 모든 나무가 같으므로 숲에도 1그루의 나무를 설정합니다. 전체적으로 우리는 하나의 나무가 있는 하나의 숲을 최대 6까지 훈련하고 다른 하나는 최대 7 깊이 수준으로 훈련합니다.
2개 이상의 나무가 필요한 경우 세트에서 일부 기둥을 독립적으로 버리고 나머지 모든 기둥에서 추가 숲을 훈련합니다.

부록: 교육에 참여하는 라인 수도 1로 설정해야 합니다. 훈련이 동일하도록 모든 것. 저것. 랜덤 포레스트 에서 모든 랜덤을 제거합니다.
해당 ns에 대한 거래 논리를 찾는 것은 또 다른 작업입니다.

그런 때까지


게다가 아키텍처는 큰 범위에서 변경되지 않고 반복됩니다.

가장 중요한 것은 올바른 보상을 선택하는 것입니다

 
다시 증원군으로 국회에 도전했습니까? 보상이 그들에게 사용되는 것 같습니다.

 

나는 이 데이터에 대한 테스트를 제안합니다. 거기에는 확실히 패턴이 있고 무엇을 위해 노력해야 하는지 분명합니다 .

ps 이름에서 .txt 제거

파일:
test.zip.001.txt  15360 kb
test.zip.002.txt  13906 kb
1.5개월 동안 개입 없이 완전한 자가 학습

그런 다음 선택하겠습니다 .. 너무 많은 매개 변수

 
나쁘지 않다.)
 
그렇다면 이것은 새로운 데이터에 대한 거래입니까, 아니면 이를 전혀 이해하는 방법입니까?

mytarmailS :

그렇다면 이것은 새로운 데이터에 대한 거래입니까, 아니면 이를 전혀 이해하는 방법입니까?

시작하고 거래하고 길을 따라 배우십시오.
