Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 5

 
elibrarius:
Dann ist es notwendig, genau zu mitteln. Andernfalls wird es bei den neuen Daten "anders" sein.

Sie brauchen nicht genau zu mitteln. Der Sampler hat bereits eine Mittelwertbildung eingebaut.

Der GMM-Sampler kann eine schlechte Stichprobe erzeugen, mit schiefen Klassen usw., die Stichprobe ist zufällig. Ist es sinnvoll, dies zu berücksichtigen?

 
Maxim Dmitrievsky:

brauchen definitiv keinen Durchschnitt

Der GMM-Sampler kann eine schlechte Stichprobe erzeugen, mit schiefen Klassen usw., die Stichprobe ist zufällig. Ist es sinnvoll, dies zu berücksichtigen?

Ein Random Forest erzeugt auf ähnliche Weise eine Reihe erfolgreicher und weniger erfolgreicher Bäume. Die Durchschnittsbildung aller Modelle zeigt bei neuen Daten ein besseres Ergebnis als ein einzelner bester Baum.

 
elibrarius:

Ein Zufallsforst erzeugt auf ähnliche Weise eine Reihe guter und weniger guter Bäume. Die Durchschnittsbildung aller Modelle zeigt bei neuen Daten ein besseres Ergebnis als ein einzelner bester Baum.

Und wenn Sie mehrere Wälder zusammenstellen, gibt es ungefähr null Transaktionen, da sich die Signale überschneiden.

 
Maxim Dmitrievsky:

und wenn Sie mehrere Gerüste zusammenstellen, wird der Handel gegen Null gehen, die Signale werden sich überschneiden.

Mehrere (z.B. 10) Wälder mit 100 Bäumen sind dasselbe wie ein Wald mit 1000 Bäumen. Es gibt eine Menge Signale.

 
elibrarius:

Ein paar (z. B. 10) Wälder mit 100 Bäumen sind dasselbe wie ein Wald mit 1000 Bäumen. Das gibt eine Menge Signale.

Kann man das üben? Ich habe es gemacht. Die Signale werden rar.
 
Wenn die Einstufung über 0,5 liegt. Wird von 0,51 und 0,49 anstelle von 0,6 und 0,4 ausgelöst
 
Maxim Dmitrievsky:
Haben Sie Übung? Ich habe es schon mal gemacht. Die Signale werden weniger.
Wenn Sie die Einrückung auf 0,5 gesetzt haben, müssen Sie sie nur verringern. Wenn es 10 mal mehr Bäume gibt, dann ist der Einzug 10 mal kleiner
 
elibrarius:
Wenn Sie eine 0,5-Eindrückung eingestellt haben, müssen Sie sie nur verringern.
Ich stimme dem zu, es war immer noch zu klein. Und ich verstehe nicht ganz, warum man wahllos schlechte Modelle hinzufügen sollte. Stellen Sie coole Modelle zusammen, die sich gegenseitig verbessern - ein anderes Gespräch
 
Maxim Dmitrievsky:
Dem stimme ich zu, es hat sowieso nicht gereicht. Und ich verstehe nicht ganz, warum du wahllos schlechte Modelle hinzufügst. Stellen Sie coole Modelle zusammen, die sich gegenseitig verbessern - ein anderes Gespräch
Mit dem Wald habe ich das vor etwa 2 Jahren gemacht, 1000 trainiert, die besten 10-50 genommen. Es hat nicht funktioniert, anscheinend war das Ergebnis auf neuen Daten nicht sehr gut.
Es ist eine Mittelwertbildung von allem, was benötigt wird. So steht es in den grundlegenden Beschreibungen des Gerüstprinzips. Als ob die Masse es besser wüsste als ein einzelner Experte.
 
elibrarius:
Ich habe das vor etwa 2 Jahren mit Holz gemacht, 1000 trainiert und die besten 10-50 genommen. Es hat nicht funktioniert, anscheinend war das Ergebnis bei neuen Daten nicht sehr gut.
Es ist die Mittelung über alles in einer Reihe, die benötigt wird. So steht es in den grundlegenden Beschreibungen des Scaffolding-Prinzips. Als ob die Menge es besser wüsste als ein einzelner Experte.
Das habe ich in den Lehrbüchern nicht gesehen. Ich weiß, dass man die Qualität verbessern kann, indem man gute Modelle kombiniert. Aber nicht andersherum :)