L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2944

 
Aleksey Vyazmikin #:

Difficile à dire :) Les mathématiques sont présentées dans cette vidéo

Non, c'est vide. J'ai oublié de préciser qu'il s'agit de bouster.

 
Stanislav Korotky #:

Veuillez expliquer comment la formule suivante est obtenue dans l'algorithme de classification sur les arbres(vous pouvez faire un lien vers le PDF) :


Dans tous les documents que j'ai pu trouver sur l'internet, la formule est simplement "prise au plafond" comme par magie.

Si l'on résume par classes, le dénominateur est l'indice de Gini ou la pureté des nœuds. Plus il est petit, mieux c'est. Le numérateur est le nombre de lignes de la feuille.

Plus le critère est grand, mieux c'est - les classes sont séparées plus proprement, mais sans couper excessivement les feuilles.

L'indice de Gini semble avoir été choisi parce qu'il est considéré comme plus sensible que le taux d'erreur de classification.

 
Aleksey Nikolayev #:

S'il est résumé par classe, le dénominateur est l'indice de Gini ou la pureté des nœuds. Plus il est petit, mieux c'est. Le numérateur est le nombre de lignes de la feuille.

Plus le critère est grand, mieux c'est - les classes sont séparées plus proprement, mais sans déchiqueter excessivement la feuille.

L'indice de Gini semble avoir été choisi parce qu'il est considéré comme plus sensible que le taux d'erreur de classification.

Non, il s'agit de résumer les enregistrements qui ont atteint le nœud. La question ne porte pas sur la mesure de l'informativité. Il s'agit de transférer les "résidus" entre les arbres - il y a un recalcul constant de la probabilité au logit et vice-versa.

 
Stanislav Korotky #:

Non, en résumant les enregistrements qui ont atteint le nœud. La question n'est pas liée à la mesure de l'informativité. Il s'agit du transfert des "résidus" entre les arbres - il y a un recalcul constant de la probabilité au logit et vice-versa.

Et comment la fréquence peut-elle être comptée pour un enregistrement en général ? Pour une classe, c'est clair.

 
Stanislav Korotky #:

Non, en résumant les enregistrements qui ont atteint le nœud. La question n'est pas liée à la mesure de l'informativité. Il s'agit du transfert des "résidus" entre les arbres - il y a un recalcul constant de la probabilité au logit et vice-versa.

Ou s'agit-il d'une classification par régression logistique ? Quoi qu'il en soit, une formule piochée quelque part ne suffit pas, vous avez besoin du texte entier.

 
Aleksey Nikolayev #:

Ou s'agit-il d'une classification par régression logistique ? Dans tous les cas, une formule piochée quelque part ne suffit pas, il faut le texte entier.

Fonction logit au sens de ln(odds). Vous en avez besoin pour traduire la région des valeurs de probabilité [0,1] en plus ou moins l'infini - sinon vous ne pouvez pas faire de formation par gradient.

Par exemple, voici le texte - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Et voici la vidéo - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, il y a à la fois des erreurs dans le matériel.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

S'il est résumé par classe, le dénominateur est l'indice de Gini ou la pureté des nœuds. Plus il est petit, mieux c'est. Le numérateur est le nombre de lignes de la feuille.

Plus le critère est grand, mieux c'est - les classes sont séparées plus proprement, mais sans déchiqueter excessivement la feuille.

L'indice de Gini semble avoir été choisi parce qu'il est considéré comme plus sensible que le taux d'erreur de classification.

Oh !
Enfin quelqu'un connaît l'indice de Gini.... Je l'ai cherché en 18, le code pour cela. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Fonction logit au sens de ln(odds). Il est nécessaire de traduire la région des valeurs de probabilité [0,1] en plus ou moins l'infini - sinon il ne sera pas possible d'entraîner par gradient.

Oui, elle est utilisée pour la régression logistique lorsque vous recherchez la probabilité (fonction logit) d'appartenir à une classe.

Il semble que l'auteur veuille présenter les tenants et aboutissants du bousting d'une manière populaire, mais il a pris une variante trop compliquée du problème. Il mélange la régression logit, les arbres et l'écrasement, ce qui n'est pas facile à comprendre en soi. L'essence du bousting ne peut être énoncée logiquement sans funcan. Pour comprendre l'essence de la régression logit, vous avez besoin d'un théoricien (la distribution binomiale, probablement).

 
Forester #:
Oh !
Enfin quelqu'un connaît l'indice de Gini... J'étais en 18 à la recherche de son code. h ttps:// www.mql5.com/ru/blogs/post/723619

Il y a aussi le coefficient de Gini. Il est également utilisé dans le MOE, mais c'est différent).

 
Stanislav Korotky #:

Veuillez expliquer comment la formule suivante est obtenue dans l'algorithme de classification sur les arbres avec bousting(vous pouvez faire un lien vers le PDF) :


Dans tous les documents que j'ai pu trouver sur l'internet, la formule est simplement "tirée du plafond" par magie.

Où avez-vous trouvé cette formule ? À en juger par l'habitude de l'agriculture collective "du plafond", il s'agit très probablement de l'agriculture soviétique.

Vous devez utiliser des mathématiques professionnelles, pour lesquelles il existe des algorithmes bien établis.

R dispose d'un grand nombre de modèles en bois, et la différence entre le langage R professionnel et beaucoup d'autres est la référence obligatoire aux auteurs de l'algorithme et à la publication correspondante. D'un coup d'œil rapide, je ne peux pas me souvenir d'une fonction plus ou moins complexe des paquets R qui n'a pas de références correspondantes.


Oubliez tout sauf R. C'est aujourd'hui le seul environnement professionnel pour les calculs statistiques.

Raison: