Diskussion zum Artikel "Zeitreihen-Clustering für kausales Schlussfolgern"

 

Neuer Artikel Zeitreihen-Clustering für kausales Schlussfolgern :

Clustering-Algorithmen beim maschinellen Lernen sind wichtige unüberwachte Lernalgorithmen, die die ursprünglichen Daten in Gruppen mit ähnlichen Beobachtungen unterteilen können. Anhand dieser Gruppen können Sie den Markt für ein bestimmtes Cluster analysieren, anhand neuer Daten nach den stabilsten Clustern suchen und kausale Schlüsse ziehen. In dem Artikel wird eine originelle Methode für das Clustering von Zeitreihen in Python vorgeschlagen.

Clustering ist eine Technik des maschinellen Lernens, die einen Datensatz in Gruppen von Objekten (Cluster) aufteilt, sodass Objekte innerhalb desselben Clusters (Haufen) einander ähnlich sind und Objekte aus verschiedenen Clustern sich voneinander unterscheiden. Clustering kann dabei helfen, die Datenstruktur aufzudecken, verborgene Muster zu erkennen und Objekte auf der Grundlage ihrer Ähnlichkeit zu gruppieren.

Clustering kann für kausale Schlussfolgerungen verwendet werden. Eine Möglichkeit, Clustering in diesem Zusammenhang anzuwenden, besteht darin, Gruppen ähnlicher Objekte oder Ereignisse zu identifizieren, die mit einer bestimmten Ursache in Verbindung gebracht werden können. Sobald die Daten geclustert sind, können die Beziehungen zwischen Clustern und Ursachen analysiert werden, um potenzielle Ursache-Wirkungs-Beziehungen zu ermitteln.

Darüber hinaus kann das Clustering dazu beitragen, Gruppen von Objekten zu identifizieren, die möglicherweise denselben Auswirkungen unterliegen oder gemeinsame Ursachen haben, was auch bei der Analyse von Ursache-Wirkungs-Beziehungen nützlich sein kann.

Autor: Maxim Dmitrievsky

 

Ich habe vor "Matching of deals using clustering" und danach gelesen - und was der Unterschied ist, habe ich nicht verstanden.

Aus dem Artikel geht nicht hervor, ob das Clustering irgendeinen Effekt hat, da es zu viel Randomisierung gibt, was es unmöglich macht, Ergebnisse zu vergleichen. Warum kann man nicht den Seed festlegen oder die Probe vor dem Clustering speichern und dann die Erstellungsprozedur mit festem Seed für Proben mit und ohne Pre-Clustering durchführen?

Ich habe mir den Code nicht angesehen - in ONNX können alle Arten von Clustering gespeichert werden, und in MQL5 verweist der erzeugte Vektor mit den Merkmalen problemlos auf Cluster?

 
Aleksey Vyazmikin #:

Ich habe vor "Matching of deals by means of clustering" und nach "Matching of deals by means of clustering" gelesen - und was der Unterschied ist, habe ich nicht verstanden. Es wird dasselbe beschrieben, aber mit etwas anderen Worten.

Aus dem Artikel geht nicht klar hervor, ob das Clustering irgendeinen Effekt hat, da es zu viel Randomisierung gibt, was es unmöglich macht, die Ergebnisse zu vergleichen. Warum kann man nicht den Seed festlegen oder die Probe vor dem Clustering speichern und dann das Verfahren der Erstellung mit festem Seed für Proben mit und ohne Pre-Clustering durchführen?

Ich habe mir den Code nicht angesehen - in ONNX können alle Arten von Clustering gespeichert werden, und in MQL5 verweist der erzeugte Vektor mit den Merkmalen problemlos auf Cluster?

Im ersten Fall werden die Modi geclustert und der Bot handelt mit dem ausgewählten Cluster. Im zweiten Fall handelt der Bot auf allen Clustern, aber die Trades aus jedem Cluster werden mit einem bestimmten Gewicht versehen.

Das Clustering wirkt sich aus, weil das Training auf verschiedenen Clustern besser/schlechter ist.

Ich weiß nicht, wie das Clustering in onnx exportiert werden kann, ich werde mich darüber informieren müssen.

 
Maxim Dmitrievsky #:
Im ersten Fall werden die Modi geclustert und der Bot handelt in dem ausgewählten Cluster. Im zweiten Fall handelt der Bot auf allen Clustern, aber den Geschäften aus jedem Cluster werden bestimmte Gewichte zugewiesen.

Aus irgendeinem Grund dachte ich, dass im ersten Fall für jedes Cluster ein eigenes Modell erstellt wird. Wie wird dann der Cluster ausgewählt?

Für den zweiten Fall verstehe ich - ich habe die vorherigen Artikel nicht gelesen - wenn kurz - wie wird die Gewichtung vorgenommen?

Maxim Dmitrievsky #:
Clustering hat einen Effekt, weil verschiedene Cluster besser/schlechter lernen.

Nun, da gibt es verschiedene Stichproben, in der Tat....

 
Aleksey Vyazmikin #:

Aus irgendeinem Grund dachte ich, dass im ersten Fall für jeden Cluster ein eigenes Modell erstellt wird. Wie wird der Cluster dann ausgewählt?

Im zweiten Fall verstehe ich - ich habe die vorherigen Artikel nicht gelesen - kurz gesagt, wie wird die Gewichtung vorgenommen?

Nun, da gibt es verschiedene Stichproben, nämlich....

Im ersten Fall wird das Modell für jedes Cluster trainiert, ja. Der Cluster wird auf der Grundlage der Ergebnisse des Handels im Test ausgewählt.

Im zweiten Fall werden die Cluster verwendet, um schlechte Geschäfte herauszufiltern. Zunächst wird die Stichprobe in n Cluster gruppiert, dann werden für jeden Cluster die falsch vorhergesagten Beispiele gezählt und als schlecht markiert. Da der Durchschnitt der schlechten Beispiele über mehrere Cross-Training-Folds verwendet wird, sind die Durchschnittswerte für jedes Cluster unterschiedlich. Es besteht also ein Unterschied zwischen der Filterung des gesamten Datensatzes (wie in früheren Artikeln) und der Filterung der einzelnen Cluster, der Unterschied liegt in den Durchschnittswerten!

 
Aleksey Vyazmikin #:

Nun, es ist eine andere Probe, im Grunde genommen...

Unterschiedliche Stichproben = unterschiedliche Marktregime in Bezug auf die Volatilität. Das Modell ist in einigen stabiler als in anderen. Das gilt für den ersten Fall.

Im zweiten Fall geht es darum, schlechte Trades loszuwerden und in allen Modi zu handeln.

Da der Lernprozess automatisiert und nach dem Zufallsprinzip abläuft, bin ich nicht an der Clusterzahl und ihren Besonderheiten interessiert. Ich bin an einem fertigen TS am Ausgang interessiert, der aus einer Reihe verschiedener TSs ausgewählt werden kann.
 
Maxim Dmitrievsky #:
Da der Durchschnitt der schlechten Beispiele über mehrere Cross-Training-Foldings hinweg verwendet wird, sind die Durchschnittswerte für jedes Cluster unterschiedlich.

Anders als die Tatsache, dass je kleiner die Stichprobe ist, desto wahrscheinlicher ist es, dass ein Beispiel erneut untersucht wird?

Maxim Dmitrievsky #:
Unterschiedliche Stichproben = unterschiedliche Marktregime in Bezug auf die Volatilität. Das Modell funktioniert in einigen Fällen besser als in anderen. Dies gilt für den ersten Fall.

Im ersten Fall ist es ziemlich klar - das, worauf man trainiert hat, ist gut, und das, was man übrig gelassen hat.

Maxim Dmitrievsky #:
Da der Trainingsprozess automatisiert und randomisiert ist, bin ich nicht an der Anzahl der Cluster und ihren Besonderheiten interessiert. Ich bin an einem fertigen TC am Ausgang interessiert, der aus einem Bündel verschiedener TCs ausgewählt werden kann.

Auswahl ist immer gut, aber gibt es ein Muster, ein Kriterium, um eine Beziehung zwischen dem ausgewählten Output und der tatsächlichen Leistung außerhalb der Trainingsbeispiele zu erkennen?

 
Aleksey Vyazmikin #:

Anders als die Tatsache, dass je kleiner die Stichprobe ist, desto wahrscheinlicher ist es, dass ein Beispiel erneut untersucht wird?

Im ersten Fall ist es ziemlich klar - was wir gut gelernt haben, haben wir so belassen.

Auswahl ist immer eine gute Sache, aber gibt es ein Muster, Kriterien, die es uns ermöglichen, eine Korrelation zwischen dem ausgewählten Ergebnis und echten Indikatoren außerhalb der Trainingsstichproben zu finden?

Das Kriterium der Wahrheit ist die Praxis )

Es gibt einen weiteren interessanten Effekt. Beide Modelle im ersten Fall werden mit einer Genauigkeit von 0,99 trainiert. Damit ist der Weg frei, die Modelle zu kalibrieren und "wahre Wahrscheinlichkeiten" abzuleiten. Was ich vielleicht in einem anderen Artikel betrachten wollte.
 
Maxim Dmitrievsky #:

Das Kriterium der Wahrheit ist die Praxis )

Es gibt einen weiteren interessanten Effekt. Beide Modelle im ersten Fall werden mit einer Genauigkeit von 0,99 trainiert. Dies eröffnet die Möglichkeit, die Modelle zu kalibrieren und "wahre Wahrscheinlichkeiten" abzuleiten. Das wollte ich vielleicht in einem anderen Artikel behandeln.

Schreiben Sie natürlich, aber es ist besser, ausführlicher zu sein, weil es ohne Erklärungen schwer zu verstehen war.

 
Maxim Dmitrievsky #:

Das Kriterium der Wahrheit ist die Praxis )

Es gibt einen weiteren interessanten Effekt. Beide Modelle im ersten Fall werden mit einer Genauigkeit von 0,99 trainiert. Dies eröffnet die Möglichkeit, die Modelle zu kalibrieren und "wahre Wahrscheinlichkeiten" abzuleiten. Das wollte ich vielleicht in einem anderen Artikel behandeln.
Ich warte bereits auf einen neuen Artikel.
 
Aleksey Vyazmikin #:
werden mit einer Genauigkeit von 0,99 trainiert.

Wie hoch ist die Testgenauigkeit? Es ist die GAP, die zählt.