트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2944

 
Aleksey Vyazmikin #:

말하기 어렵습니다 :) 계산은 이 동영상에서 확인할 수 있습니다.

아니요, 공백입니다. 부스팅에 관한 내용이라는 것을 깜빡했네요.

 
Stanislav Korotky #:

나무 분류 알고리즘에서 다음 공식이 어떻게 얻어지는지 설명해 주세요(PDF로 링크 가능):


인터넷에서 찾을 수있는 모든 자료에서 공식은 마술처럼 "천장에서 가져온"것입니다.

클래스별로 요약하면 분모는 지니 지수 또는 노드 순도입니다. 작을수록 좋습니다. 분자는 시트의 행 수입니다.

기준이 클수록 클래스가 더 깔끔하게 분리되지만 시트가 과도하게 잘리지 않고 더 좋습니다.

지니 지수는 분류 오류율보다 더 민감한 것으로 간주되기 때문에 선택된 것 같습니다.

 
Aleksey Nikolayev #:

클래스별로 요약하면 분모는 지니 지수 또는 노드 순도입니다. 작을수록 좋습니다. 분자는 시트의 행 수입니다.

기준이 클수록 클래스가 더 깔끔하게 분리되지만 시트가 과도하게 쪼개지지 않습니다.

지니 지수는 분류 오류율보다 더 민감한 것으로 간주되기 때문에 선택된 것 같습니다.

아니요, 노드에 도달한 레코드에 대한 요약입니다. 문제는 정보성의 척도에 관한 것이 아닙니다. 트리 간에 "잔여"를 전송하는 것에 관한 것입니다. 확률에서 로짓으로, 그리고 다시 확률로 끊임없이 재계산이 이루어집니다.

 
Stanislav Korotky #:

아니요, 노드에 도달한 레코드를 기준으로 요약한 것입니다. 이 질문은 정보성의 척도와 관련이 없습니다. 트리 간에 "잔여"를 전송하는 것에 관한 것입니다. 확률에서 로짓으로, 그리고 다시 확률로 끊임없이 재계산이 이루어집니다.

그렇다면 일반적으로 기록의 빈도는 어떻게 계산할 수 있을까요? 수업의 경우 그 방법은 분명합니다.

 
Stanislav Korotky #:

아니요, 노드에 도달한 레코드를 기준으로 요약한 것입니다. 이 질문은 정보성의 척도와 관련이 없습니다. 트리 간에 "잔여"를 전송하는 것에 관한 것입니다. 확률에서 로짓으로, 다시 로짓으로 끊임없이 재계산이 이루어집니다.

아니면 로지스틱 회귀에 의한 분류에 관한 것일까요? 어느 쪽이든, 어딘가에서 뽑아낸 공식만으로는 충분하지 않으며 전체 텍스트가 필요합니다.

 
Aleksey Nikolayev #:

아니면 로지스틱 회귀에 의한 분류에 대해 이야기하고 있는 건가요? 어쨌든 어딘가에서 뽑아낸 공식만으로는 충분하지 않으며 전체 텍스트가 필요합니다.

ln(odds)의 의미에서 로짓 함수. 확률 값 [0,1]의 영역을 플러스 또는 마이너스 무한대로 변환하려면 이 함수가 필요하며, 그렇지 않으면 기울기로 훈련할 수 없습니다.

예를 들어, 다음은 텍스트입니다 - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

그리고 여기 비디오가 있습니다 - https://www.youtube.com/watch?v=hjxgoUJ_va8.

추신. IMHO, 거기 및 자료 모두에 오류가 있습니다.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

클래스별로 요약하면 분모는 지니 지수 또는 노드 순도입니다. 작을수록 좋습니다. 분자는 시트의 행 수입니다.

기준이 클수록 클래스가 더 깔끔하게 분리되지만 시트가 과도하게 쪼개지지 않습니다.

지니 지수는 분류 오류율보다 더 민감한 것으로 간주되기 때문에 선택된 것 같습니다.

오!
마침내 누군가가 지니 지수에 대해 알고 있습니다.... 나는 '18 년에 그것을 찾아 보았습니다. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

ln(odds)의 의미의 로그 함수입니다. 확률 값 [0,1]의 영역을 플러스 또는 마이너스 무한대로 변환하는 데 필요합니다. 그렇지 않으면 기울기로 학습할 수 없습니다.

예, 클래스에 속할 확률(로짓 함수)을 찾고자 할 때 로지스틱 회귀에 사용됩니다.

스타니슬라프 코로트키 #:

예를 들어, 다음은 텍스트입니다 - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

저자는 부스팅의 내부를 대중적인 방식으로 제시하고 싶어하는 것 같지만 문제의 너무 복잡한 변형을 취했습니다. 그는 로짓 회귀, 트리 및 부스팅을 혼합하여 그 자체로는 이해하기 쉽지 않습니다. 부스팅의 본질은 펀캔 없이 논리적으로 설명할 수 없습니다. 로짓 회귀의 본질을 이해하려면 이론가(아마도 이항 분포)가 필요합니다.

 
Forester #:
오!
마침내 누군가가 지니 지수에 대해 알고 있습니다 ... 나는 '18 년에 코드를 찾고있었습니다. h ttps:// www.mql5.com/ru/blogs/post/723619

지니 계수도 있습니다. MOE에서도 사용되지만 그것은 다릅니다.)

 
Stanislav Korotky #:

부스팅이 있는 나무의 분류 알고리즘에서 다음 공식이 어떻게 얻어지는지 설명해 주세요(PDF에 링크할 수 있습니다):


인터넷에서 찾을 수있는 모든 자료에서 공식은 마술처럼 "천장에서 가져온"것입니다.

공식은 어디에서 얻었습니까? "천장에서"일반적인 집단 농업으로 판단하면 대부분 소비에트 일 가능성이 높습니다.

잘 정립 된 알고리즘이있는 전문 수학을 사용해야합니다.

R에는 엄청난 수의 나무 모델이 있으며 전문 R 언어와 매우 많은 다른 언어의 차이점은 알고리즘 작성자와 해당 출판물에 대한 필수 참조입니다. 언뜻 보기에 R 패키지에서 해당 참조가 없는 다소 복잡한 함수는 기억이 나지 않습니다.


R을 제외한 모든 것을 잊어버리세요. 오늘날 통계 계산을 위한 유일한 전문 환경입니다.

사유: