Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2878

 
Maxim Dmitrievsky #:

Es ist klar, wir können versuchen, Hash-Funktionen zu verwenden. Aber ich bin schüchtern zu fragen, auf welchem Prinzip Vektoren beliebiger Länge zu wählen, oder vielmehr die Länge für sie:) und von welchen Daten.

es kann eine Menge Varianten geben

die erste Option ist angenehmer, aber man muss etwas in die Logik einbauen

Dies ist eine sehr wichtige Frage, über die ich immer wieder nachdenke. Reden wir einfach über die Länge des verwendeten Verlaufs. Man braucht einen vernünftigen Kompromiss zwischen Relevanz und Länge für die Berechnungen. Je kürzer, desto relevanter, aber je länger, desto genauer die Berechnungen. Manchmal ist ein guter Kompromiss im Prinzip unerreichbar.

 
Maxim Dmitrievsky #:

Gut gemacht, ich habe sogar etwas Interessantes für mich selbst im Zusammenhang mit der Änderung der Fensterlänge aufgeschnappt.

Wenn Sie noch Fragen haben, skizzieren Sie sie bitte, ich werde Sie nach Neujahr fragen.

Ok, ein frohes neues Jahr für uns alle ;-)

 
Aleksey Nikolayev #:

Ok, ein frohes neues Jahr für uns alle :)

Gleichfalls :)

 

Ich bin mir nicht ganz sicher, was Sie aus dem Gespräch über die GPT mitgenommen haben.

Er antwortet manchmal das Falsche. Hier ist ein Beispiel

В идеале, алгоритм должен получать на вход всю доступную историю, которая очевидно со временем растёт. Он сам должен определять на какие куски её нарезать и что с ними делать.

*Ja, idealerweise sollte der Algorithmus in der Lage sein, eine beliebige Anzahl von Merkmalen zu verarbeiten

Sie fragten nach unterschiedlichen Zeilenlängen, und er antwortete, dass die Spaltenlängen variieren.

In der Praxis kann die Länge des Verlaufs durch erneutes Trainieren des Modells geändert werden. Trainieren Sie zum Beispiel auf 1 Tag, 3, 7, Monat, 2, ... auf 1 Jahr, 2, 3 ... Welche Länge der Historie auch immer eine gute Vorhersage ermöglicht - verwenden Sie sie.
 
Aleksey Nikolayev #:

Das ist eine sehr wichtige Frage, über die ich immer wieder nachdenke. Lassen Sie uns einfach über die Länge der verwendeten Geschichte sprechen. Es sollte einen vernünftigen Kompromiss zwischen Relevanz und Länge für die Berechnungen geben. Je kürzer, desto relevanter, aber je länger, desto genauer die Berechnungen. Manchmal ist ein guter Kompromiss im Prinzip unerreichbar.

Ich habe mir diese Frage auch schon vor langer Zeit gestellt, imho ist es einer der wichtigsten Momente, um einen funktionierenden TS zu erstellen. Ich selbst verwende diesen Ansatz - ich analysiere grob einige Merkmale eines finanziellen Vermögenswerts auf einer bekannten großen Historie, finde die Koordinaten der sich ändernden Trends - Trend, Volatilität usw. - und gehe dann vom letzten Punkt der Änderung aus, wobei ich davon ausgehe, dass dieses globale Merkmal für einige Zeit bestehen bleibt.

 
elibrarius Zeilenlängen, und er antwortete, dass es sich um unterschiedliche Spaltenlängen handelt.
Praktischerweise kann die Länge des Verlaufs geändert werden, indem das Modell neu trainiert wird. Zum Beispiel, trainieren Sie auf 1 Tag, 3, 7, Monat, 2, ... auf 1 Jahr, 2, 3 ... Welche Länge der Historie auch immer eine gute Vorhersage ermöglicht - verwenden Sie diese Länge.

Über Spalten wurde noch gar nicht gesprochen - es ist noch ein weiter Weg. Die Verwirrung ist darauf zurückzuführen, dass nicht gesagt wird, dass es sich bei den Zeichen um Preise handelt (Balken, Renko usw.). Das heißt, wir sprechen über eine beliebige Länge eines Vektors homogener Attribute. Wenn wir zusätzlich zur willkürlichen Länge des Vektors der Attribute auch noch willkürliche Arten von Attributen haben wollen, ist das schon ein deutlicher Overkill.

 
Aleksey Nikolayev #:

Das Problem ist, dass SB recht gut darin ist, den Anschein zu erwecken, dass es Regeln gibt - das einzige Problem ist, dass diese Regeln von Standort zu Standort unterschiedlich sind.

Wenn man dann darüber nachdenkt, ist es kein Problem einer willkürlichen Anzahl von Merkmalen, sondern in erster Linie ein Problem der Merkmalsinvarianz.

https://homes.esat.kuleuven.be/~tuytelaa/lehrgang-ECCV06.pdf
 
Aleksey Nikolayev #:

Das ist eine sehr wichtige Frage, über die ich immer wieder nachdenke. Lassen Sie uns einfach über die Länge der verwendeten Geschichte sprechen. Es sollte einen vernünftigen Kompromiss zwischen Relevanz und Länge für die Berechnungen geben. Je kürzer, desto relevanter, aber je länger, desto genauer die Berechnungen. Manchmal ist ein guter Kompromiss im Prinzip unerreichbar.

Man braucht ein Kriterium, und das einzige Kriterium ist der Modellanpassungsfehler.

Hier ist ein Bild


Es handelt sich um eine Stichprobe von 2000 Balken, 43 Variablen. Wir sehen, dass es sinnlos ist, die Anzahl der Bäume über 100 zu erhöhen. Ich habe die Stichprobengröße geändert. Das Ergebnis ist, dass sich das Bild ab 1500 Balken nicht mehr verändert. Das bedeutet, dass die Anzahl der Muster in meinen Prädiktoren für meinen Lehrer etwa 100 Stück beträgt und sie alle in 1500 Takten der Geschichte gefunden werden können. Außerdem wiederholen sich diese Muster.

 
mytarmailS #:

Wenn man darüber nachdenkt, ist es kein Problem einer willkürlichen Anzahl von Merkmalen, sondern in erster Linie ein Problem der Merkmalsinvarianz

https://homes.esat.kuleuven.be/~tuytelaa/lehrgang-ECCV06.pdf

Wenn man es mit der Bilderkennung vergleicht, geht es grob darum, für jeden Punkt die Grenze des Objekts (Blob) zu finden, in dem sich dieser Punkt befindet.

Das Problem ist, dass das Bild von extrem schlechter Qualität ist und es nicht ganz klar ist, was tatsächlich darauf abgebildet ist.

Ein kleines Objekt ist unter diesen Bedingungen einfach unrealistisch auszuwählen, und ein großes Objekt wird mehrdeutig ausgewählt.

 
СанСаныч Фоменко #:

Sie brauchen ein Kriterium, und das einzige Kriterium ist der Modellanpassungsfehler.

Hier ist ein Bild


Es handelt sich um eine Stichprobe mit 2000 Balken und 43 Variablen. Wir sehen, dass es sinnlos ist, die Anzahl der Bäume über 100 zu erhöhen. Ich habe die Stichprobengröße geändert. Das Ergebnis ist, dass sich das Bild ab 1500 Balken nicht mehr ändert. Das bedeutet, dass die Anzahl der Muster in meinen Prädiktoren für meinen Lehrer etwa 100 Stück beträgt und sie alle in 1500 Takten der Geschichte gefunden werden können. Außerdem wiederholen sich diese Muster.

1500 Balken sind die durchschnittliche Temperatur des Krankenhauses. Es wird Bruchstellen geben, wenn die Hälften der Geschichte sehr unterschiedlich sind und wenn es besser ist, einfach nicht zu zählen und nichts zu handeln.