Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode"

 

Neuer Artikel Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode :

Dieser Artikel beschreibt einen der möglichen Ansätze zur Datentransformation mit dem Ziel, die Verallgemeinerbarkeit des Modells zu verbessern, und erörtert auch die Stichprobenziehung und Auswahl von CatBoost-Modellen.

Eine einfache Zufallsstichprobe der im vorigen Artikel verwendeten Labels hat einige Nachteile:

  • Die Klassen können unausgewogen sein. Nehmen wir an, dass der Markt vor allem während der Trainingsphase anstieg, während die allgemeinen Daten (die gesamte Historie der Preise) sowohl ein Auf und Ab impliziert. In diesem Fall führt eine naive Stichprobenziehung zu mehr Käufen und weniger Verkäufen. Dementsprechend werden sich Labels einer Klasse gegenüber einer anderen durchsetzen, wodurch das Modell lernen wird, Käufe öfter vorherzusagen als Verkäufe, was jedoch für neue Daten ungültig sein kann.

  • Autokorrelation von Merkmalen und Labels. Bei Verwendung von Zufallsstichproben folgen die Labels derselben Klasse aufeinander, während sich die Merkmale selbst (wie z.B. Inkremente) nur unwesentlich ändern. Dieser Prozess kann am Beispiel eines Regressionsmodelltrainings gezeigt werden - in diesem Fall wird sich herausstellen, dass Autokorrelation in den Modellresiduen beobachtet wird, was zu einer möglichen Überschätzung des Modells und zu einem Übertraining führt. Diese Situation ist unten dargestellt:


Modell 1 verfügt über eine Autokorrelation der Residuen, die mit einer Modellüberanpassung bei bestimmten Markteigenschaften verglichen werden kann (z.B. in Bezug auf die Volatilität der Trainingsdaten), während andere Muster nicht berücksichtigt werden. Modell 2 hat Residuen mit der gleichen Varianz (im Durchschnitt), was darauf hinweist, dass das Modell mehr Informationen abdeckt oder andere Abhängigkeiten gefunden wurden (zusätzlich zur Korrelation benachbarter Stichproben).

Autor: Maxim Dmitrievsky