Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 8

 
Valeriy Yastremskiy:

Offenbar haben wir unterschiedliche Vorstellungen vom Zufallsbousting. Beim Decisive Tree geht es um ausgewählte Merkmale aus einer zufälligen Menge. Der Punkt ist, dass die Mengen zufällig sind, aber die Auswahl / Clustering in schlechte gute war ursprünglich da. Es ist, als würde man eine Nadel werfen, Winkel messen und die Zahl Pi berechnen.)

aus dem Wiki

  1. Erstellen wir einenEntscheidungsbaum, der die Proben der gegebenen Teilstichprobe klassifiziert, und wählen wir bei der Erstellung des nächsten Knotens des Baums eine Reihe von Merkmalen aus, auf deren Grundlage die Partitionierung durchgeführt wird (nicht aus allenM Merkmalen , sondern nur ausm zufällig ausgewählten). Die Auswahl der besten dieserm Merkmale kann auf verschiedene Weise erfolgen. Der ursprüngliche Breiman-Code verwendet dasGini-Kriterium, das auch imCART-Entscheidungsbaum-Algorithmus verwendet wird. Einige Implementierungen des Algorithmus verwenden stattdessen dasKriterium des Informationsgewinns. [3]
Ich verstehe Sie nicht.
Ich habe auch zum ersten Mal von Random Boosting gehört.
Ich habe von Random Forest gesprochen.
 
Maxim Dmitrievsky:

Ja, es gibt viele Bäume, aber jeder versucht, sich selbst am besten auf verschiedene Merkmale einzustellen. Das ist nicht dasselbe, wie mehrere Wälder (auch schlechte) in einen Topf zu werfen.

In einem Zufallsforst werden die Bäume gemittelt.
Das Kombinieren von Fallwäldern, die auf denselben Attributen basieren, ist jedoch gleichbedeutend mit einem Wald mit der Anzahl von Bäumen = der Anzahl von Bäumen in allen zu kombinierenden Wäldern. Der einzige Unterschied besteht in der unterschiedlichen Initialisierung des HCS.
 
elibrarius:
Die Bäume in einem Fallwald werden gemittelt.
Die Zusammenlegung von Fallwäldern, die auf denselben Merkmalen basieren, entspricht jedoch einem Wald mit der Anzahl der Bäume = der Anzahl der Bäume in allen zusammengelegten Wäldern. Der einzige Unterschied besteht in der unterschiedlichen Initialisierung des HCS.

Der Unterschied besteht darin, dass jeder Baum ohne Beschneidung in der Lage ist, sich den Datensatz perfekt zu merken, was ihn dazu veranlasst, sich neu zu trainieren. Ein Ensemble von Bäumen ist vor Übertraining geschützt, da eine gewisse Mittelwertbildung stattfindet. Aber jeder Baum ist für sich allein gut.

Wenn Sie Klassifizierer horten, sieht die Sache anders aus. Die Mittelwertbildung mit einem schlechten Klassifikator verschlechtert das Gesamtergebnis.

 
Maxim Dmitrievsky:

Der Unterschied besteht darin, dass jeder Baum ohne Beschneidung in der Lage ist, sich den Datensatz perfekt zu merken, was ihn dazu veranlasst, neu zu lernen. Ein Ensemble von Bäumen ist gegen Überlernen, da eine gewisse Mittelwertbildung stattfindet. Aber jeder Baum ist für sich allein gut.

Wenn Sie Klassifizierer horten, sieht die Sache schon anders aus. Die Mittelwertbildung mit einem schlechten Klassifikator verschlechtert das Gesamtergebnis.

Neben dem Pruning gibt es auch eine Begrenzung der Tiefe und der Anzahl der Beispiele im Blatt.

Ein einzelner Baum ist auch ein Klassifikator.

Ich hoffe, dass Sie die Zeit finden werden, die durchschnittlichen und die besten Ergebnisse der Prüfungsbeispiele zu vergleichen. Nicht um theoretisch zu argumentieren, sondern um eine der Varianten in der Praxis zu bestätigen.

 
elibrarius:
Ich kann Sie nicht verstehen.
Ich höre auch zum ersten Mal von Random Boosting.
Ich sprach von Random Forest.

Ich entschuldige mich, Tippfehler. Wald natürlich, Wald. Übrigens wurde es erstmals 1986 in Fortran 77 (mit Oop) implementiert, als die Leute hier noch Fortran 4 (ohne Oop) lernten.

Aber das ändert nichts an der Sache. Das Sampling der besten Merkmale und Bäume in einem Ensemble verbessert das Ergebnis. Aber gleichzeitig wird die Einteilung in gute und schlechte Gruppen aus einer zufälligen Gruppe von Merkmalen vorgenommen, nicht aus der vollständigen Gruppe, was die erforderlichen Ressourcen reduziert und gleichzeitig, wie die Praxis gezeigt hat, das Ergebnis nicht wesentlich verschlechtert.

 
elibrarius:

Zusätzlich zur Beschneidung gibt es eine Tiefenbegrenzung und eine Begrenzung der Anzahl der Beispiele pro Blatt.

Ein Baum ist auch ein Klassifikator.

Ich hoffe, dass Sie die Zeit finden werden, die durchschnittlichen und die besten Ergebnisse in der Prüfungsprobe zu vergleichen. Nicht um theoretisch zu argumentieren, sondern um eine der Varianten in der Praxis zu bestätigen.

Trainierte 20 Modelle

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

Bestes:

Alle 20:


 

50 Modelle


 

100 Modelle

beste

alle


 

Noch einmal, auf 50 Modelle:

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

Beste

Durchschnittswerte


 

Noch einmal.