스토브에 대해 오해하고 계십니다. 트리 빌딩 코드를 본 적이 없는 것 같습니다.... 거기에는 단일 행 내 연산이 전혀 없습니다 !!!, 세트 (전체 또는 배치)만 있습니다.
간단히 설명하면: 훈련에 전달된 무작위/전체 행 세트는 각 예측자/열에 대해 하나씩 정렬됩니다. 다양한 분할(중간/백분위수/무작위)이 확인되고, 각각의 통계가 계산되며, 제안하신 것처럼 각 행이 아닌 전체 행 세트에 대해 가장 좋은 분할이 선택됩니다. 최적의 분할에 따라 문자열 집합을 2 개의 집합으로 나눈 다음 각 집합을 다시 정렬하고 중지 규칙에 도달 할 때까지 각 부분 등에 대해 최상의 분할을 선택합니다 (깊이, 행당 예제 수 등)
편집기에서 자세한 내용을 볼 수 있으며 \MQL5\Include\Math\Alglib\dataanalysis.mqh ClassifierSplit () 함수 및 호출되는 파일을 가지고 있습니다. 몇 시간만 있으면 이해할 수 있으며 예측자를 한 줄로 검색하는 것에 대해 이야기할 필요가 없습니다.
Привет, Хабр! После многочисленных поисков качественных руководств о решающих деревьях и ансамблевых алгоритмах (бустинг, решающий лес и пр.) с их непосредственной реализацией на языках программирования, и так ничего не найдя (кто найдёт — напишите в комментах, может, что-то новое почерпну), я решил сделать своё собственное руководство, каким...
스토브에 대해 오해하고 계십니다. 트리 빌딩 코드를 본 적이 없는 것 같습니다.... 거기에는 단일 행 내 연산이 전혀 없습니다 !!!, 세트 (전체 또는 배치)만 있습니다.
간단히 설명하면: 훈련에 전달된 무작위/전체 행 세트는 각 예측자/열에 대해 하나씩 정렬됩니다. 다양한 분할(중간/백분위수/무작위)이 확인되고, 각각의 통계가 계산되며, 제안하신 것처럼 각 행이 아닌 전체 행 세트에 대해 가장 좋은 분할이 선택됩니다. 최적의 분할에 따라 문자열 집합을 2 개의 집합으로 나눈 다음 각 집합을 다시 정렬하고 중지 규칙에 도달 할 때까지 각 부분 등에 대해 최상의 분할을 선택합니다 (깊이, 행당 예제 수 등)
편집기에서 자세한 내용을 볼 수 있으며 \MQL5\Include\Math\Alglib\dataanalysis.mqh ClassifierSplit () 함수 및 호출되는 파일을 가지고 있습니다. 몇 시간만 지나면 이해하실 수 있으며 예측자 검색에 대해 한 줄로 설명할 필요가 없을 것입니다.
많은 줄에 대해 맞습니다.
처음으로 돌아가 보겠습니다. 무작위 숲에서 패턴이란 무엇입니까?
그것은 하나의 나무입니다. 다음은 RF에서 이러한 트리의 한 예입니다:
left daughter right daughter split var split point status prediction
12320.341541251024520.282384751036740.375051551040000.00000000 -1258950.642356641060000.00000000 -127101110.45438075108121310.46271469109141530.258036911010161720.519423281011181910.488398811012202130.4524358110130000.00000000 -12140000.00000000 -1215222360.627894881016242520.342249831017262740.538453611018282930.392079781019303130.035963121020323370.4938015610210000.00000000 -12220000.00000000 -1223343560.7647290410240000.00000000 -11250000.00000000 -1226363750.875885501027383910.310892091028404120.391933981029424310.470686281030444570.764209401031464720.3838095410
[ reached getOption("max.print") -- omitted 185 rows ]
총 행 = 166+185! 모두 맞지 않습니다.
내 모델에는 이러한 나무가 150개 있습니다.
split var - это номер переменной, всего их в модели 8
split point - лучшее значение конкретной переменной, которое использовалось для разделения.
분류 작업에서는 다수결 투표로 솔루션을 선택하는 반면 회귀 작업에서는 평균으로 솔루션을 선택한다는 점도 주목할 가치가 있습니다.
왜 해결되지 않나요?
각 나무에서 활성화된 잎/패턴 중 하나가 투표에 참여(평균)합니다.
숲의 답은 모든 나무(또는 활성화된 잎/패턴)의 답의 평균이며, 이 공식은 이를 계산합니다. 이진 분류의 경우 평균이 0.5를 초과하면 1, 그렇지 않으면 0이 됩니다. 그러나 패키지가 평균값에 대한 액세스를 제공하는 경우 0.5 경계가 최선의 옵션은 아닐 수 있으므로 다른 경계로 실험해 볼 수 있습니다.
그럼 거래를 보여주세요.
그런 질문은 모두를 현기증 나게 할 것입니다.
학교와 같아요.
멀리서부터 시작해서 간단한 질문부터 해야 합니다.
어떤 쌍으로 거래하시나요?
그리고 모든 매개변수와 함께 마지막 거래, 진입과 청산을 보여주세요.
그런 다음 하루에 몇 번의 거래를하고 여기에서 일시 중지합니다.
P.Z.
두 개 이상의 질문을 해서는 안됩니다.
마스터를 불쾌하게 할 수 있습니다. 그리고 그렇게하기 시작하면 어떨까요?
P.Z.
저는 스파르타크를 지지합니다.
스토브에 대해 오해하고 계십니다. 트리 빌딩 코드를 본 적이 없는 것 같습니다.... 거기에는 단일 행 내 연산이 전혀 없습니다 !!!, 세트 (전체 또는 배치)만 있습니다.
간단히 설명하면:훈련에 전달된 무작위/전체 행 세트는 각 예측자/열에 대해 하나씩 정렬됩니다. 다양한 분할(중간/백분위수/무작위)이 확인되고, 각각의 통계가 계산되며, 제안하신 것처럼 각 행이 아닌 전체 행 세트에 대해 가장 좋은 분할이 선택됩니다.
최적의 분할에 따라 문자열 집합을 2 개의 집합으로 나눈 다음 각 집합을 다시 정렬하고 중지 규칙에 도달 할 때까지 각 부분 등에 대해 최상의 분할을 선택합니다 (깊이, 행당 예제 수 등)
편집기에서 자세한 내용을 볼 수 있으며
\MQL5\Include\Math\Alglib\dataanalysis.mqh
ClassifierSplit () 함수 및 호출되는 파일을 가지고 있습니다.
몇 시간만 있으면 이해할 수 있으며 예측자를 한 줄로 검색하는 것에 대해 이야기할 필요가 없습니다.
1. RegressionTree() 클래스
스토브에 대해 오해하고 계십니다. 트리 빌딩 코드를 본 적이 없는 것 같습니다.... 거기에는 단일 행 내 연산이 전혀 없습니다 !!!, 세트 (전체 또는 배치)만 있습니다.
간단히 설명하면:훈련에 전달된 무작위/전체 행 세트는 각 예측자/열에 대해 하나씩 정렬됩니다. 다양한 분할(중간/백분위수/무작위)이 확인되고, 각각의 통계가 계산되며, 제안하신 것처럼 각 행이 아닌 전체 행 세트에 대해 가장 좋은 분할이 선택됩니다.
최적의 분할에 따라 문자열 집합을 2 개의 집합으로 나눈 다음 각 집합을 다시 정렬하고 중지 규칙에 도달 할 때까지 각 부분 등에 대해 최상의 분할을 선택합니다 (깊이, 행당 예제 수 등)
편집기에서 자세한 내용을 볼 수 있으며
\MQL5\Include\Math\Alglib\dataanalysis.mqh
ClassifierSplit () 함수 및 호출되는 파일을 가지고 있습니다.
몇 시간만 지나면 이해하실 수 있으며 예측자 검색에 대해 한 줄로 설명할 필요가 없을 것입니다.
많은 줄에 대해 맞습니다.
처음으로 돌아가 보겠습니다. 무작위 숲에서 패턴이란 무엇입니까?
그것은 하나의 나무입니다. 다음은 RF에서 이러한 트리의 한 예입니다:
총 행 = 166+185! 모두 맞지 않습니다.
내 모델에는 이러한 나무가 150개 있습니다.
줄이 많다는 말씀이 맞습니다.
처음으로 돌아가서: 랜덤 포레스트의 패턴이란 무엇인가요?
그것은 하나의 나무입니다. 다음은 RF에서 이러한 트리의 한 예입니다:
총 행 = 166+185! 모두 맞지 않습니다.
내 모델에는 이러한 트리가 150개 있습니다.
나뭇잎을 형성하는 경로를 다시 생각해 보세요. 위의 예에서는 5개의 분할이 있습니다. 이것은 꼭지점이 2개인 패턴에 대한 설명이 아닌가요? 설명입니다.
7개의 분할은 머리 어깨 등을 설명할 수 있습니다.
한 나무의 각 잎은 다른 패턴을 설명합니다.
숲은 군중(더뷰)의 의견입니다.
첫 번째 나무: 이 문자열은 내 18번째 패턴/잎에 속하며 답은 = 1
두 번째: 같은 문자열이 내 215번째 패턴/잎에 속하며 답은 = 0
세 번째: = 1
...
평균을 내서 150개의 나무에 대한 평균 의견을 얻습니다. 예를 들어 = 0.78입니다. 각각 활성화된 잎/패턴이 다릅니다.
경로 형성 시트를 다시 생각해 보세요. 위의 예시에는 5개의 분할이 있습니다. 두 개의 윗부분이 있고 밑부분이 있는 패턴에 대한 설명이 아닌가요? 설명입니다.
7개의 분할은 머리 어깨 등을 설명할 수 있습니다.
단일 나무의 각 잎은 다른 패턴을 설명합니다.
숲은 더비드 군집의 의견입니다.
첫 번째 나무: 이 선은 내 18번째 패턴/잎에 해당하며 답은 = 1
두 번째: 같은 선이 내 215번째 패턴/잎에 해당하며 답은 = 0
세 번째: = 1
...
150개의 나무의 평균을 구해 평균 의견을 얻습니다. 각각 활성화된 잎/패턴이 달랐습니다.
얼마나 많은 나뭇잎이 있는지 알 수 없습니다.
나무의 수는 학습을 위한 최소 샘플 크기를 얻기 위해 변경할 수 있는 매개변수입니다.
50개의 나무면 충분하다는 것을 알 수 있으므로 나무를 하나의 패턴으로 간주하는 것이 편리합니다.
얼마나 많은 잎이 있는지 알 수 없습니다.
나무의 수는 학습을 위한 최소 샘플 크기를 얻기 위해 변경할 수 있는 매개변수입니다.
50개의 나무면 충분하므로 나무를 패턴으로 간주하는 것이 편리합니다.
트리는 각 상황/라인에 하나의 잎/패턴으로 반응합니다. 다른 상황에서는 다른 잎사귀/무늬로 반응합니다.
나뭇잎뿐만 아니라 나무도 아무것도 해결하지 못하는 것 같습니다.
여기서 최종 분류기의 공식을 찾았습니다.
여기서
분류 작업에서는 다수결 투표로 솔루션을 선택하는 반면, 회귀 작업에서는 평균으로 솔루션을 선택한다는 점도 주목할 필요가 있습니다.
나뭇잎뿐만 아니라 나무도 아무것도 해결하지 못하는 것 같습니다.
최종 분류기의 공식은 다음과 같습니다.
분류 작업에서는 다수결 투표로 솔루션을 선택하는 반면 회귀 작업에서는 평균으로 솔루션을 선택한다는 점도 주목할 가치가 있습니다.
왜 해결되지 않나요?
각 나무에서 활성화된 잎/패턴 중 하나가 투표에 참여(평균)합니다.
숲의 답은 모든 나무(또는 활성화된 잎/패턴)의 답의 평균이며, 이 공식은 이를 계산합니다. 이진 분류의 경우 평균이 0.5를 초과하면 1, 그렇지 않으면 0이 됩니다.
그러나 패키지가 평균값에 대한 액세스를 제공하는 경우 0.5 경계가 최선의 옵션은 아닐 수 있으므로 다른 경계로 실험해 볼 수 있습니다.
트리는 각 상황/라인에 하나의 잎/패턴으로 반응합니다. 다른 상황에서는 다른 잎사귀/패턴으로 반응합니다.
나뭇잎뿐만 아니라 나무도 아무것도 해결하지 못하는 것 같습니다.
하나의 잎뿐만 아니라 모든 나무가 각 상황에 대한 책임이 있으며 모든 나무가 활성화되는 것은 아니며 활성화 된 예측의 합계가 모델의 예측입니다.....
나무 모델 전문가 여러분, 도대체 무슨 말씀이세요?
하나의 잎이 아니라 모든 나무가 각 상황을 담당하며, 모든 나무가 활성화되는 것은 아니며 활성화된 나무의 예측을 합한 것이 모델의 예측입니다.
나무 모델 전문가 여러분, 도대체 무슨 말씀이세요?