Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 8
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Offenbar haben wir unterschiedliche Vorstellungen vom Zufallsbousting. Beim Decisive Tree geht es um ausgewählte Merkmale aus einer zufälligen Menge. Der Punkt ist, dass die Mengen zufällig sind, aber die Auswahl / Clustering in schlechte gute war ursprünglich da. Es ist, als würde man eine Nadel werfen, Winkel messen und die Zahl Pi berechnen.)
aus dem Wiki
Ich habe auch zum ersten Mal von Random Boosting gehört.
Ich habe von Random Forest gesprochen.
Ja, es gibt viele Bäume, aber jeder versucht, sich selbst am besten auf verschiedene Merkmale einzustellen. Das ist nicht dasselbe, wie mehrere Wälder (auch schlechte) in einen Topf zu werfen.
Das Kombinieren von Fallwäldern, die auf denselben Attributen basieren, ist jedoch gleichbedeutend mit einem Wald mit der Anzahl von Bäumen = der Anzahl von Bäumen in allen zu kombinierenden Wäldern. Der einzige Unterschied besteht in der unterschiedlichen Initialisierung des HCS.
Die Bäume in einem Fallwald werden gemittelt.
Die Zusammenlegung von Fallwäldern, die auf denselben Merkmalen basieren, entspricht jedoch einem Wald mit der Anzahl der Bäume = der Anzahl der Bäume in allen zusammengelegten Wäldern. Der einzige Unterschied besteht in der unterschiedlichen Initialisierung des HCS.
Der Unterschied besteht darin, dass jeder Baum ohne Beschneidung in der Lage ist, sich den Datensatz perfekt zu merken, was ihn dazu veranlasst, sich neu zu trainieren. Ein Ensemble von Bäumen ist vor Übertraining geschützt, da eine gewisse Mittelwertbildung stattfindet. Aber jeder Baum ist für sich allein gut.
Wenn Sie Klassifizierer horten, sieht die Sache anders aus. Die Mittelwertbildung mit einem schlechten Klassifikator verschlechtert das Gesamtergebnis.
Der Unterschied besteht darin, dass jeder Baum ohne Beschneidung in der Lage ist, sich den Datensatz perfekt zu merken, was ihn dazu veranlasst, neu zu lernen. Ein Ensemble von Bäumen ist gegen Überlernen, da eine gewisse Mittelwertbildung stattfindet. Aber jeder Baum ist für sich allein gut.
Wenn Sie Klassifizierer horten, sieht die Sache schon anders aus. Die Mittelwertbildung mit einem schlechten Klassifikator verschlechtert das Gesamtergebnis.
Neben dem Pruning gibt es auch eine Begrenzung der Tiefe und der Anzahl der Beispiele im Blatt.
Ein einzelner Baum ist auch ein Klassifikator.
Ich hoffe, dass Sie die Zeit finden werden, die durchschnittlichen und die besten Ergebnisse der Prüfungsbeispiele zu vergleichen. Nicht um theoretisch zu argumentieren, sondern um eine der Varianten in der Praxis zu bestätigen.
Ich kann Sie nicht verstehen.
Ich höre auch zum ersten Mal von Random Boosting.
Ich sprach von Random Forest.
Ich entschuldige mich, Tippfehler. Wald natürlich, Wald. Übrigens wurde es erstmals 1986 in Fortran 77 (mit Oop) implementiert, als die Leute hier noch Fortran 4 (ohne Oop) lernten.
Aber das ändert nichts an der Sache. Das Sampling der besten Merkmale und Bäume in einem Ensemble verbessert das Ergebnis. Aber gleichzeitig wird die Einteilung in gute und schlechte Gruppen aus einer zufälligen Gruppe von Merkmalen vorgenommen, nicht aus der vollständigen Gruppe, was die erforderlichen Ressourcen reduziert und gleichzeitig, wie die Praxis gezeigt hat, das Ergebnis nicht wesentlich verschlechtert.
Zusätzlich zur Beschneidung gibt es eine Tiefenbegrenzung und eine Begrenzung der Anzahl der Beispiele pro Blatt.
Ein Baum ist auch ein Klassifikator.
Ich hoffe, dass Sie die Zeit finden werden, die durchschnittlichen und die besten Ergebnisse in der Prüfungsprobe zu vergleichen. Nicht um theoretisch zu argumentieren, sondern um eine der Varianten in der Praxis zu bestätigen.
Trainierte 20 Modelle
Bestes:
Alle 20:
50 Modelle
100 Modelle
beste
alle
Noch einmal, auf 50 Modelle:
Beste
Durchschnittswerte
Noch einmal.