Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 6

 
Maxim Dmitrievsky:
Das habe ich in den Lehrbüchern nicht gesehen. Ich weiß, dass man die Qualität verbessern kann, indem man gute Modelle kombiniert. Aber nicht andersherum :)

Nun, genau das tut der Wald. Alle guten und schlechten Modelle. Und der Wald wurde von sehr coolen Mathematikern und Statistikern erstellt.

Und sie haben wahrscheinlich versucht, nur die besten Modelle zu kombinieren (falls Sie und ich das dachten).
 
elibrarius:

Nun, genau das tut der Wald. All das Gute und das Schlechte. Und der Wald wurde von sehr coolen Mathematikern und Statistikern erstellt.

Und sie haben wahrscheinlich versucht, nur die besten Modelle zu kombinieren (falls Sie und ich das meinen).

Selbst wenn der Wald eine vernünftige Grenze von 50-100 Bäumen hat, die von jemandem empirisch abgeleitet wurde, macht er keinen Sinn mehr

Es ist gängige Praxis, die besten Modelle zusammenzufassen. Auf Kaggle stapelt jeder gerne Boosts. Zumindest ging das Meme früher so

 
Maxim Dmitrievsky:
selbst wenn ein Wald eine vernünftige Grenze von 50-100 Bäumen hat, die von jemandem empirisch abgeleitet wurde, macht das keinen Sinn mehr.
Ja, es macht keinen Sinn mehr. Die Zeit wird verschwendet, und der Qualitätsgewinn ist sehr gering.

Sie haben nur 50 Clustervarianten. Es ist in Ordnung, sie zu mitteln.
 
elibrarius:
Ja. Das hat keinen Sinn. Es ist Zeitverschwendung, und der Qualitätsgewinn ist sehr gering.

Sie haben nur 50 Clustering-Varianten. Es wäre in Ordnung, sie zu mitteln.

Ich sehe den Sinn darin, nur die besten Varianten zu clustern.

 
Maxim Dmitrievsky:

Es ist gängige Praxis, das Beste zu bündeln. Auf Kaggle stapelt jeder gerne Boosts. Zumindest lautete das Meme früher

Ich schätze, es sind nicht die Breimans, die auf kaggle)))))) sitzen. Sie experimentieren also...

 
Maxim Dmitrievsky:

Ich sehe den Sinn darin, nur die Besten zusammenzustellen.

Probieren Sie beide aus und vergleichen Sie das Ergebnis mit dem Prüfungsbeispiel.
 
elibrarius:

Es sind wahrscheinlich nicht die Breiman's, die auf kaggle))))) sitzen. Sie experimentieren also...

das sind diejenigen, die die Wettbewerbe gewonnen haben )

 
elibrarius:
Probieren Sie beide aus und vergleichen Sie das Ergebnis mit dem Prüfungsbeispiel.

Nein, es hat keinen Sinn, schlechte Modelle hinzuzufügen. Per Definition.

Beim Training ist die Mittelwertbildung eine Sache, aber die Mittelwertbildung der trainierten Modelle ist eine andere. Hier schießen Sie sich absichtlich in den Fuß, indem Sie schlechte Modelle hinzufügen. Sie führen Fehler ein und das war's. Und eine solche Praxis gibt es nicht, ich habe sie nirgendwo gesehen.

Stellen Sie sich außerdem die Kosten vor, die entstehen, wenn man ein Signal von 50 Modellen erhält, und die Bremsen beim Testen.
 
Maxim Dmitrievsky:

Nein, es macht keinen Sinn, schlechte Modelle hinzuzufügen. Per Definition.

Beim Training ist die Mittelwertbildung eine Sache, die Mittelwertbildung der trainierten Modelle eine andere. Hier schießen Sie sich absichtlich in den Fuß, indem Sie schlechte Modelle hinzufügen. Sie führen Fehler ein und das war's.

Probieren Sie es aus. Es wird nicht lange dauern. Wäre es nicht interessant, dies in einem Experiment zu testen? Breiman hat es in seinem Random Forest nicht getan.
 
Maxim Dmitrievsky:

Nein, es macht keinen Sinn, schlechte Modelle hinzuzufügen. Per Definition.

Beim Training ist die Mittelwertbildung eine Sache, die Mittelwertbildung der trainierten Modelle eine andere. Hier schießen Sie sich absichtlich in den Fuß, indem Sie schlechte Modelle hinzufügen. Sie führen Fehler ein und das war's. Und eine solche Praxis gibt es nicht, ich habe sie nirgendwo gesehen.

Und stellen Sie sich vor, was es kostet, ein Signal von 50 Modellen zu bekommen, was die Tests bremst.

Das ist, was in jedem Zufallswald passiert .