Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1144
Ich würde nicht sagen "genau so", die Formel selbst ist korrekt, aber sie sollte nicht auf der Grundlage der Renditen aus den Geschäften, sondern auf der Grundlage der täglichen (stündlichen usw.) Renditen berechnet werden. Ich glaube nicht, die Formel selbst ist korrekt, aber wir müssen die Strategien nicht nach den Renditen der Trades vergleichen, sondern nach den täglichen (stündlichen usw.) Renditen, im gleichen Schritt, für alle Strategeme, dann können wir sie nach der Leistung vergleichen, die von diesem Koeffizientenwert abhängt, andernfalls, wenn diese Zahl nach Trades und ihrer signifikant unterschiedlichen Zahl berechnet wird, ist sie nicht wichtig, zum Beispiel 0,01 Sharpe für eine Strategie und 5 für eine andere, es ist nicht klar, welche von ihnen besser oder schlechter ist, nur das Vorzeichen (über oder unter Null Sharpe) ist wichtig.
Auch wenn Pantural nicht wirklich über die klassische Sharpe Ratio gesprochen hat, so hat er doch eine wichtige Frage dazu aufgeworfen. Obwohl ich persönlich die Sharpe Ratio nicht bevorzuge, ziehe ich das Verhältnis von Gewinn zu maximalem Drawdown als Maß für die Leistung einer Strategie vor.
Ich würde sagen, es kommt auf den EA an. Wenn sie eine eindeutige Reihenfolge von Abschlüssen erzeugt, d.h. wenn eine Position eröffnet oder geschlossen wird und sich ihr Volumen zwischen Eröffnung und Schließung nicht ändert, ist es besser, nach Abschlüssen zu zählen. Wenn sich das Positionsvolumen im Laufe der Zeit gleichmäßig verändert, ist die Ermittlung der Zeitpunkte eines Handels weniger aussagekräftig und kann mit einer eigenen Methode berechnet werden.
Ich würde sagen, es kommt auf den Expert Advisor an. Wenn es eine klare Abfolge von Abschlüssen gibt, d.h. wenn eine Position eröffnet und geschlossen wird und sich ihr Volumen zwischen Eröffnung und Schließung nicht ändert, ist es besser, nach Abschlüssen zu zählen. Wenn sich das Positionsvolumen im Laufe der Zeit gleichmäßig verändert, ist die Ermittlung der Zeitpunkte eines Handels weniger aussagekräftig und kann mit einer eigenen Methode berechnet werden.
auf jeden Fall hat Pantural bereits keine Möglichkeit mehr, Einwände zu erheben :))Was machen Sie denn jetzt, wollen Sie nicht über normale Dinge im Bereich MO diskutieren? :) Ich brauche eine Person, die sich mit Formeln auskennt. Das Thema ist leer geworden, es gibt niemanden, mit dem man darüber diskutieren kann.
Was machen Sie jetzt, wandern Sie wahllos umher? Wollen Sie nicht über normale Dinge im Bereich des Verteidigungsministeriums diskutieren? :) Ich brauche jemanden, der sich gut mit Formeln auskennt. Das Thema ist vom Tisch, und es gibt niemanden, mit dem man es diskutieren kann.
Im Prinzip bin ich bereit, meine Meinung zu jedem Thema zu äußern. Aber Verfügbarkeit von Sinn für Sie in meinen Aussagen kann ich nicht garantieren)
Habe ich Ihnen die Banditen-Info zugeworfen? Sehr interessantes Thema, aber viele Formeln.
Ja, ich glaube schon. Aber aktualisieren Sie den Link und schreiben Sie, was Sie ungefähr interessiert.
der Link oben, interessiert in adversarial Bandits für nicht-stationäre Prozesse, mit kombinatorischen Algorithmen (anscheinend, so etwas wie mgua). selbst in den Prozess der immer mit den Informationen noch vertraut
mehr dazu später
In ihrem Buch bin ich sofort darauf gestoßen:
Alles, was der Lernende weiß, ist, dass die wahre Umgebung in einer Menge E liegt, die als Umgebungsklasse bezeichnet wird.
Wie sehen Sie dieses E-Set für den Handel?
Nun, es ist eine willkürlich festgelegte Umgebung für einen Banditen, zum Beispiel eine Reihe von Indikatorenz.B. ein rsi-Indikator, der Einfachheit halber ein Satz von mehreren Kursinkrementen
Ich verstehe jedoch nicht, wie ihr Modell mit dem Handel zusammenhängt. Aus ihrer Definition von Strategie (Politik) folgt, dass sie nur die ergriffenen Maßnahmen und deren Ergebnisse betrachten. Auf die Umwelt (Ihrer Meinung nach - eine Reihe von Indikatoren) sie nicht oder kann nicht einmal sehen.
At sollte nur von der Geschichte Ht-1 = (A1 , X1 , . . . , At-1 , Xt-1 ) abhängen. Eine Richtlinie ist eine Abbildung von Vorgängen auf Aktionen.
Außerdem scheint ihre Umgebung sogar in der Lage zu sein, unser Verhalten zu verfolgen, so dass die Belohnung nicht nur von der Handlung selbst, sondern auch von ihrer gesamten Vorgeschichte abhängt.
Eine Umgebung ist eine Abbildung von Geschichtssequenzen, die in Aktionen enden, auf Belohnungen.
Wenn die Politik durch ein (z. B. lineares) Modell angenähert wird, dann erhalten wir einfach eine Lösung für die neuen Daten und das war's, indem wir sie in das Modell einsetzen
Was Sie beschreiben, ist ein Prozess der Suche nach den höchsten Belohnungen.
Das Hauptproblem bei der Nicht-Stationarität ist, dass sie bei neuen Daten nicht mehr funktioniert. Unstete Banditen werden dort beschrieben, aber ich bin noch nicht zu ihnen gekommen. Zugegeben, es gibt nichts, was ich nicht schon wüsste, wie sich herausstellt :) Aber ich brauche ein paar Ideen{Lösungen}, wie ich Belohnungen richtig vergeben kann
Übrigens, gestern habe ich genau den linearen Banditen implementiert, das Ergebnis ist etwa so:
Das Beispiel ist zwar immer noch in meinem Artikel beschrieben, aber es wird ein Random Forest anstelle eines linearen verwendet. Linear sollte weniger übertrainiert sein
Über die Zukunft zu lehren und über die Vergangenheit zu prüfen, ist etwas, das man nur in diesem Forum sieht)))