Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2111

 
Aleksey Vyazmikin:

Nein, es wäre ein passendes Modell, nur kein Modell mit Bedeutung!

Da bin ich anderer Meinung. Durch die Quantifizierung reduzieren Sie die Menge der Informationen. Die maximale Anzahl von Quantisierungen lässt die maximale Menge an Informationen übrig.

Es dauert jedoch länger, auf 65535 zu quantisieren als auf 255.

 
elibrarius:

Wissen Sie, wie?

Ja, ich arbeite daran - ursprünglich war es für genetische Bäume gedacht.

Sie müssen die Verteilung der Informationen in der Stichprobe und ihre Beziehung zum Ziel beurteilen. Ich schaue mir an, wie der Fehler in einem bestimmten Quantisierungsabschnitt reduziert wird und welcher Prozentsatz an Stichproben darin enthalten ist - ein Ausgleich dieser Metriken ermöglicht die Auswahl der besten Partitionen.

 
elibrarius:

Da bin ich anderer Meinung. Durch die Quantifizierung reduzieren Sie die Menge der Informationen. Die maximale Anzahl von Quantifizierungen wird die maximale Menge an Informationen hinterlassen.

Es dauert jedoch länger, auf 65535 zu quantisieren als auf 255.

Es wäre falsch, Ihnen zu widersprechen - es gibt nicht viele Informationen da draußen, und diese müssen vom Lärm getrennt werden. Wir (ich) brauchen stabile Abhängigkeiten, nicht solche, die sich alle 5 Jahre wiederholen, so dass es nicht genügend Statistiken gibt, um ihre Neigung zu einem bestimmten Ziel abzuschätzen, und die Verwendung unzureichender Beispiele führt einfach zur Anpassung.

 
Aleksey Vyazmikin:

Ja, ich arbeite daran - ursprünglich war es für genetische Bäume gedacht.

Sie müssen die Verteilung der Informationen in der Stichprobe und ihre Beziehung zum Ziel beurteilen. Ich schaue mir an, wie der Fehler in einem bestimmten Abschnitt der Quantisierung reduziert wird und wie viel Prozent der Stichproben darin enthalten sind - wenn man diese Metriken ausgleicht, kann man die besten Partitionen auswählen.

Wie schätzen Sie den Quantisierungsfehler ein? Man kann sie nur erhalten, wenn man das Training für alle Spalten auf einmal durchführt und nicht für jede einzelne Spalte, die im Moment quantisiert wird.

 
elibrarius:
Aleksey Vyazmikin:

Wie schätzen Sie den Fehler bei der Quantifizierung ein? Sie kann nur erhalten werden, wenn das Training für alle Spalten auf einmal durchgeführt wird, nicht für jede Spalte, die gerade quantisiert wird.

Ich schätze die Veränderung des Zielsaldos im Verhältnis zur gesamten Stichprobe. Dies ist besonders wichtig, wenn es mehr als zwei Ziele gibt.

 
Aleksey Vyazmikin:

Ich schätze die Veränderung des Saldos der Ziele im Verhältnis zur gesamten Stichprobe. Dies gilt insbesondere, wenn es mehr als zwei Ziele gibt.

In jedem Fall wird der nächste Split durch den Quantisierungspunkt in 2 Teile geteilt.

Man kann die Grenzen eines Quants recht grob verschieben - 5-10-20% seiner Größe - indem man große 255 Teile quantisiert. Wenn Sie 65535 Quanten anwenden, haben Sie einen Schritt von 0,5 % Ihres Quants. Und der Baum wählt den besten aus.

Das ist aber unwahrscheinlich. Normalerweise trifft es nur die Mitte oder die Viertel. Mit 65535 Quanten finden Sie die Mitte genauer, und mit 255 ist es 256 mal gröber.

 
elibrarius:

In jedem Fall wird der nächste Split durch den Quantisierungspunkt in zwei Teile geteilt.

Man kann die Grenzen eines Quants recht grob verschieben - 5-10-20% seiner Größe - indem man große 255 Teile quantisiert. Wenn Sie 65535 Quanten anwenden, haben Sie einen Schritt von 0,5 % Ihres Quants. Und der Baum wählt den besten aus.

Das ist aber unwahrscheinlich. Normalerweise trifft es nur die Mitte oder die Viertel. Mit 65535 Quanten wird die Mitte genauer gefunden, und mit 255 ist sie 256 Mal gröber.

Genau, es wird eine Aufteilung geben, aber die Aufteilung wird nicht 50 % betragen, sondern ungleich sein - abhängig von der Übereinstimmung mit der/den oberen Aufteilung(en), aber die Logik legt nahe, dass die Chancen unterschiedlich sind, wenn man sich ansieht, wo das Segment mit Einheiten gesättigt ist oder wo es eine gleiche Anzahl von ihnen gibt (im Verhältnis zum Rest der gesamten Stichprobe). Das Ziel ist es, mindestens 1 % der Proben in den Blättern und gleichzeitig etwa 65 % der Etiketten derselben Klasse zu erhalten.

 
Aleksey Vyazmikin:

Genau, es wird eine Aufteilung geben, aber die Aufteilung wird nicht 50 % betragen, sondern ungleichmäßig sein - abhängig von der Übereinstimmung mit der/den oberen Aufteilung(en), aber die Logik legt nahe, dass die Chancen anders sind, wenn Sie dort suchen, wo das Segment mit Einheiten gesättigt ist oder wo es eine gerade Anzahl von ihnen gibt (im Verhältnis zum Rest der gesamten Stichprobe). Ziel ist es, mindestens 1 % der Stichprobe in den Blättern und gleichzeitig etwa 65 % der Etiketten der gleichen Klasse zu erhalten.

Ich denke, das ist eine ziemlich schwierige Aufgabe.

Und wenn eine solche Funktion gefunden werden kann, ist dies die einzige Möglichkeit, auch ohne MO zu arbeiten.

Leider verfügen wir nicht über solche Funktionen.

 
Maxim Dmitrievsky:

Ich brauche es nicht für die Prüfung, aber es könnte sich als nützlich erweisen.

Die Ergebnisse sind seltsam - bei der Test- und Trainingsstichprobe Recall 0,6-0,8 und bei der Prüfung ohne Konvertierung 0,009 und mit Konvertierung 0,65 - irgendetwas ist hier falsch :(

Ich habe das Gefühl, dass CatBoost den Umrechnungsalgorithmus erlernt hat :)

Und gibt es eine Möglichkeit, alte und neue Linien zu markieren? Dann ist es möglich, transformierte Zeichenketten aus der transformierten Stichprobe zu entfernen und zu sehen, ob es sich um ein Interpretationsproblem handelt oder nicht doch um eine qualitative Ausbildung.

 
elibrarius:

Ich denke, das ist eine ziemliche Herausforderung.

Und wenn eine solche Funktion gefunden werden kann, ist dies die einzige Möglichkeit, auch ohne das Verteidigungsministerium zu arbeiten.

Leider verfügen wir nicht über solche Funktionen.

Bei y handelt es sich um die Aufteilung des Rasters, und bei X um die prozentuale Abweichung der Summe der Zielwerte jeder Klasse in der gesamten Stichprobe. Der Filter beträgt 5 %. Wir können sehen, dass verschiedene Klassen in verschiedenen Abschnitten dominieren, und manchmal gibt es einen Spiegelwechsel, bei dem die Verbesserung auf eine bestimmte Klasse zurückzuführen ist (das Histogramm geht in den Minusbereich) und manchmal nicht. All dies sollte in der Ausbildung genutzt werden, aber die mir bekannten Standardausbildungsmethoden berücksichtigen dies nur wenig. Es ist möglich, dass ein Übertraining mit Genetik (genauer gesagt mit Eliminierung) effektiver wäre - das sollte man tun.

Grund der Beschwerde: