Im Übrigen ist dies ein Ansatz, den ich schon seit vielen Jahren verfolge.
Allerdings habe ich es jetzt etwas zurückgestellt, weil es wirklich sehr langsam ist, was es unmöglich macht, das Ziel schnell zu ändern (nach einem guten Ziel suchen), und einzelne Regeln auch nicht mehr funktionieren, egal wie man sie in der Historie überprüft.
Maxim, können Sie helfen, machen Sie ein Skript in Python, die Zyklus, um Modell (oder 100 Modelle) aus CSV-Datei zu erstellen, dann analysieren Sie es (sie) auf Bedeutung der Prädiktoren durch Standard CatBoost Mittel, dann verbieten/erlauben die Verwendung von Prädiktoren (CatBoost kann es tun) auf bestimmte Bedingungen und erstellen Sie wieder neues Modell. Mit dieser Methode lassen sich wichtige Prädiktoren zuordnen, die zu einer Verbesserung des Modells führen. Ich verwende eine ähnliche Methode, aber sie ist sehr umständlich für mich, weil ich nach jedem Zyklus, nachdem ich die Prädiktoren gesiebt/hinzugefügt habe, den Lernzyklus manuell neu starten muss.
noch nicht so weit
und ich glaube nicht an diesen Ansatz (ich kenne bessere und schnellere Multiplikatoren)
Der Ansatz funktioniert - es ist keine Frage des Glaubens.
Und welcher Ansatz ist schneller und besser, vergleichen wir die Wirksamkeit!
Damit es sich nicht um eine Glaubensfrage handelt, brauchen Sie einen Beweis.Wenn Sie Merkmale aus dem Modell entfernen, ändert sich ihre Interaktion, so dass Sie sie beliebig lange neu anordnen können
In tiefen neuronalen Netzen vielleicht.
Aber bei regulierten Boosts und Gerüsten, nein.
In katbust z.B. ist die empfohlene Baumtiefe = 6. Das sind 2^6=64 Teilungen. Wenn wir MA30 benötigen, dann wird jeder Balken im Durchschnitt zweimal geteilt (in zwei Hälften und eine der Hälften noch einmal in zwei Hälften). Um MA grob zu reproduzieren (mit einem Fehler von 10 %), müssen wir jeden Balken mindestens 10 Mal teilen. Dies ist eine Tiefe von 9-10 erforderlich.
Aber eine tiefe Spaltung wird es dem Baum nicht erlauben, sich zu verallgemeinern.
Es zeigt sich also, dass flache Bäume zwar verallgemeinern können, aber es ist unmöglich, darin erforderliche Merkmale (wie MA) zu reproduzieren. Das bedeutet, dass MAs, CCIs und alles andere, was wir als Merkmale prüfen wollen, zusammen mit den Balken übergeben werden müssen.
Ich bin nicht der Einzige, der glaubt, dass Stäbe allein für Baumsysteme ausreichen. Wenn es noch Befürworter gibt, schlage ich vor, dass sie ihre Argumente vortragen.
Lassen Sie uns definieren, was zu beweisen ist.
Warum, meiner Meinung nach, kann ein Prädiktor entfernt werden, formal kann ein Prädiktor die Auswahl als gut für die Wurzel passieren (oft) aufgeteilt aus dem Grund, dass es gute Indikatoren für sie hat - oft Korrespondenz mit anderen Prädiktoren verbessert das Ergebnis - gierig Prinzip, aber dieses Prinzip arbeitet mit Datum als Ganzes gesetzt, keine Kontrollen auf räumliche Merkmale (Häufigkeit des Auftretens von Ereignissen in der gesamten Stichprobe aufgrund ihrer Ergebnisse), ist es eine Situation der Aggregation von Ereignis Ergebnisse auf 1/5 der Stichprobe zum Beispiel nur von dort war Oder eine ähnliche Situation, aber hier ist der Grund ein anderer - sogar das Modell ist stabil, aber es stellt sich heraus, dass der Prädiktor in dem Moment gut mit dem Ziel korreliert, wenn die finanzielle Leistung des Transaktionsergebnisses hauptsächlich zu klein im Plus oder zu groß im Minus ist, und das ist ein sehr subtiler Punkt, den das Modell beim Training nicht zu berücksichtigen weiß.
Daher besteht das Ziel nicht nur darin, das Klassifizierungsmodell selbst in verschiedenen Zeitintervallen zu verbessern, sondern auch in Bezug auf das finanzielle Ergebnis.
Ich bin nicht bereit, zu programmieren und dann unverständliche Ideen mit unverständlichen Ergebnissen zu unterstützen.
Sagen Sie mir also, dass Sie nur Ihre eigenen Ideen für richtig und diskussionswürdig halten.
ziemlich vernünftig. Ich habe der Beschreibung nichts entnommen.
Ich habe bereits vor ein paar Jahren über die sinnlose Umstellung von Zeichen geschrieben.
Wenn Sie die Beschreibung nicht verstehen, stellen Sie Fragen, was genau nicht klar ist - ich werde versuchen, es besser zu erklären.
Ich habe vor ein paar Jahren dasselbe getan, und ich habe es wegen der Anstrengung aufgegeben, nicht wegen der Sinnlosigkeit.
Nachfolgend finden Sie eine Tabelle mit den Ergebnissen des alten Experiments, das wie folgt abläuft:
1. Die Anzahl der Prädiktoren wird in 9 Teile zerlegt.
2. Kombinationen zwischen Chunks werden erstellt - 512
3. Anschließend wird geschätzt, wie sich die Proben im Durchschnitt bei Vorhandensein bzw. Fehlen der einzelnen Chunks verhalten.
4. Es wird eine Annahme über die Bedeutung des Chunks (positiv/negativ) getroffen.
5. Die wichtigen Teile werden in kleinere Teile zerlegt, und die weniger wichtigen Teile werden zu einem Teil zusammengefasst (sie müssen nicht unbedingt in der richtigen Reihenfolge auftreten).
6. Neue 512 Kombinationen werden gebildet
7. Wird ein kleines Stück gefunden, das sich negativ auf die Probe auswirkt, wird es von der weiteren Auszählung ausgeschlossen, bis sich das Ergebnis nicht mehr verbessert; dann kann man versuchen, die ausgeschlossenen Stücke hinzuzufügen und das Ergebnis auf dieselbe Weise zu analysieren. Positive Einflüsse hingegen werden in einer Gruppe zusammengefasst.
Hier ist ein Beispiel für die Veränderung der Indikatoren bei 32 solchen Iterationen.
Die Methode kann natürlich verbessert werden, aber dazu sind Experimente und deren Ergebnisse erforderlich.
Ja, die Verbesserung ist nicht um ein Vielfaches höher, aber die Ergebnisse erlauben es auch, darüber nachzudenken, welche Prädiktoren besser oder schlechter für das Ergebnis sind und warum.
Außerdem möchte ich versuchen, speziell mit CatBoost-Statistiken zu arbeiten und Prädiktoren (und ihre Gruppen) zu entfernen/hinzufügen, und zwar genau aus dem Grund, dass dies schneller sein könnte als die Suche, die ich bisher verwendet habe.
Ein weiterer Pluspunkt ist, dass zu viele Prädiktoren zu seltenen Splits führen, und die Aktivierung von Blättern kann in der Stichprobe außerhalb des Trainings sehr selten sein (ich habe es vorhin auf dem Screenshot gezeigt), was die Qualität des Trainings und seiner Auswertung absichtlich verringert.
Sinnlose Zeitverschwendung.