Was soll in den Eingang des neuronalen Netzes eingespeist werden? Ihre Ideen... - Seite 38

 
Ivan Butko #:





Bitte klären Sie das im Zusammenhang mit einem regulären MT5-Optimierer und einem regulären EA. Wie würde das aussehen? Zwei Sets aus der Optimierungsliste (unkorreliert) nehmen, kombinieren und ausführen? Oder ist etwas anderes im Sinn

Nach den Ergebnissen erhalten Sie einige Koeffizienten, schreiben Sie diese in den Code Ihres EAs vor dem Code, der mit den optimierten Variablen arbeitet.

Als Ergebnis erhalten Sie einen Filter aus dem ersten Durchlauf, und das zweite Netzwerk lernt nicht aus allen Beispielen, sondern nur aus denen, die vom ersten NS gefiltert wurden.

Ziel ist es, die Erwartungsmatrix zu erhöhen, indem die Zahl der falschen Eingaben reduziert wird - dem Graphen nach zu urteilen ist sie sehr niedrig.

Oder, wie ich schon früher vorgeschlagen habe - zu versuchen, auf den gefilterten Ergebnissen mit anderen Methoden zu trainieren - das gleiche CatBoost.

 
Andrey Dik #:
Fachleute aus der MoD-Branche sagen

Das ist nicht der Punkt - man kann nach allem suchen, was und wie man will, es ist nur so, dass die optimale Variante auf den Suchdaten nicht das gleiche Ergebnis auf den Daten außerhalb dieser Suche (in Bezug auf den Markt) garantiert.

Wenn es einen Algorithmus gibt, der nicht nur nach optimalen Parametern aus mathematischer Sicht auf dem FF sucht, sondern auch die Datenstruktur berücksichtigt und es ermöglicht, nach dem Training eine gewisse stabile Abhängigkeit von zwei Stichproben zu erkennen, dann ist er für die Anwendung auf dem Markt wirklich wertvoll. Und es ist immer möglich, etwas zufällig zu finden, was ich im Thema MO - in meiner jüngsten Forschung - gezeigt habe.

 
Aleksey Vyazmikin #:

Anhand der Ergebnisse erhalten Sie einige Koeffizienten, die Sie in den Code Ihres NS vor dem Code, der mit den optimierten Variablen arbeitet, einfügen.

Als Ergebnis erhalten Sie einen Filter aus dem ersten Durchgang, und das zweite Netzwerk lernt nicht aus allen Beispielen, sondern nur aus denen, die vom ersten NS gefiltert wurden.

Ziel ist es, die Erwartungsmatrix zu erhöhen, indem die Zahl der falschen Eingaben reduziert wird - dem Graphen nach zu urteilen ist sie sehr niedrig.

Oder, wie ich schon früher vorgeschlagen habe - zu versuchen, auf den gefilterten Ergebnissen mit anderen Methoden zu trainieren - das gleiche CatBoost.



Ah, ich verstehe. Danke für die Idee.

 
Ivan Butko #:



Ah, ich verstehe. Danke für die Idee.

Gern geschehen! Teilen Sie Ihre Ergebnisse.

[Gelöscht]  
Aleksey Vyazmikin #:

Ja, bitte! Teilen Sie Ihre Ergebnisse.

und Bots.

Ist das aus dem Perseptron-Bot-Artikel? Dann lassen Sie es.
 
Aleksey Vyazmikin #:

1. Darum geht es nicht - Sie können nach allem suchen, was und wie Sie wollen,

2. einfach die optimale Variante auf den Suchdaten garantiert nicht das gleiche Ergebnis auf den Daten außerhalb dieser Suche (in Bezug auf den Markt).

3. Wenn es einen Algorithmus gibt, der nicht nur nach optimalen Parametern aus mathematischer Sicht auf dem FF sucht, sondern auch die Struktur der Daten berücksichtigt und es ermöglicht, eine gewisse Abhängigkeit zu sehen, die bei zwei Stichproben nach dem Training stabil ist, dann ist er wirklich wertvoll für die Anwendung auf dem Markt.

4. und es ist immer möglich, etwas durch Zufall zu finden, wie ich im Thema MO - in meiner jüngsten Forschung gezeigt habe.

1. Was ist der Punkt? - Nicht, dass man alles suchen kann, aber was genau ist der Sinn der Suche?

2. und was garantiert sie?

3. ich habe noch keinen speziellen einteiligen Algorithmus gesehen, der "eine über zwei Stichproben stabile Abhängigkeit nach dem Training" finden kann, aber es gibt logische Überlegungen, eine Reihe von Techniken und Überlegungen, wie dies erreicht werden kann (oder zumindest zu verstehen, welchen Weg man gehen sollte).

4) Warum nach etwas Zufälligem suchen, wenn man auch nach etwas nicht Zufälligem suchen kann?

 
Andrey Dik #:

1. was ist der Sinn? - nicht, dass man alles suchen kann, aber was ist der Sinn der Suche?

2. was garantiert sie?

3. ich habe noch keinen spezifischen einteiligen Algorithmus gesehen, der "eine über zwei Stichproben stabile Abhängigkeit nach dem Training" finden kann, aber es gibt logische Überlegungen, eine Reihe von Techniken und Überlegungen, wie man dies erreichen kann (oder zumindest zu verstehen, welchen Weg man gehen sollte).

4) Warum nach etwas Zufälligem suchen, wenn man auch nach etwas nicht Zufälligem suchen kann?

1. Der Punkt ist, dass es nicht nur auf den Algorithmus ankommt, sondern auch auf die Art/Herkunft der Daten - wir sprechen sowohl über die (Nicht-)Stationarität der Prozesse als auch über die Nicht-Repräsentativität der Stichprobe, wenn wir über die Zulassung verschiedener Optimierungsmethoden sprechen.

2. Ich habe keine Antwort - ich bin auf der Suche nach einer.

3. ich wäre daran interessiert, sie zu hören.

4. ich habe hier geschrieben, dass, wenn es keinen Algorithmus aus Punkt 2 gibt, dann zeigen alle Ansätze im Wesentlichen zufällig Effizienz auf neuen Daten - besser oder schlechter ist keine Frage der Algorithmuslogik (obwohl ich zugebe, dass es Heuristiken gibt, die das Ergebnis verbessern), sondern die Zufälligkeit der erhaltenen Daten bestimmt das Ergebnis.

Wenn man eine bekannte Funktion untersucht, ändert sie (ihre Konstanten) sich nicht durch die eingehenden Variablen, und je mehr Beispiele man hat, desto größer ist die Chance, dass man ihre Koeffizienten richtig auswählt. Bei den Marktdaten ist die Anzahl der Beispiele begrenzt, und das Problem besteht darin, dass viele solcher Zahlengeneratoren mit ihrer eigenen Funktion gleichzeitig arbeiten (selbst wenn es sich um große Teilnehmer handelt, deren Verhaltensregeln genehmigt und gedruckt sind, wie bei unserer Zentralbank). Es stellt sich also heraus, dass es im Idealfall möglich ist, sich an ähnliche Verhaltensregeln verschiedener Teilnehmer anzupassen, es wird eine solche verrauschte Funktion geben, die nur einen Teil des Marktes beschreibt, und so sehe ich die Situation. Gleichzeitig können die Teilnehmer von einer Verhaltensfunktion zu einer anderen übergehen....

Die Optimierungsalgorithmen aus den Artikeln selbst sind sehr interessant. Versuchen Sie, die Zulässigkeit ihrer Anwendung frontal zu prüfen, nehmen Sie vielleicht auch hundert verschiedene Funktionen zusammen und versuchen Sie, wenigstens eine zu beschreiben? Machen Sie das Experiment im Allgemeinen komplizierter.

 
Aleksey Vyazmikin #:

1. Der Punkt ist, dass es nicht nur auf den Algorithmus ankommt, sondern auch auf die Beschaffenheit der Daten - wir sprechen sowohl über die (Nicht-)Stationarität der Prozesse als auch über die Nichtrepräsentativität der Stichprobe, wenn wir über die Zulässigkeit verschiedener Optimierungsmethoden sprechen.

2. Ich habe keine Antwort - ich bin auf der Suche nach einer.

3. ich wäre daran interessiert, sie zu hören.

4. ich habe hier geschrieben, dass, wenn es keinen Algorithmus aus Punkt 2 gibt, dann zeigen alle Ansätze im Wesentlichen zufällig die Leistung auf neuen Daten - besser oder schlechter ist keine Frage der Algorithmuslogik (obwohl ich zugebe, dass es Heuristiken gibt, die das Ergebnis verbessern), sondern die Zufälligkeit der erhaltenen Daten bestimmt das Ergebnis.

Wenn man eine bekannte Funktion untersucht, ändert sie (ihre Konstanten) sich nicht durch die eingehenden Variablen, und je mehr Beispiele man hat, desto größer ist die Chance, dass man ihre Koeffizienten richtig auswählt. Bei Marktdaten ist die Anzahl der Beispiele begrenzt, und das Problem besteht darin, dass es viele solcher Zahlengeneratoren gibt, die gleichzeitig mit ihrer eigenen Funktion arbeiten (selbst wenn es sich um große Teilnehmer handelt, deren Verhaltensregeln genehmigt und gedruckt sind, wie bei unserer Zentralbank). Es stellt sich also heraus, dass es im Idealfall möglich ist, sich an ähnliche Verhaltensregeln verschiedener Teilnehmer anzupassen, es wird eine solche verrauschte Funktion geben, die nur einen Teil des Marktes beschreibt, und so sehe ich die Situation auch. Gleichzeitig können die Teilnehmer von einer Verhaltensfunktion zu einer anderen übergehen....

Die Optimierungsalgorithmen aus den Artikeln selbst sind sehr interessant. Versuchen Sie, die Frage der Zulässigkeit ihrer Anwendung frontal zu betrachten, nehmen Sie vielleicht auch hundert verschiedene Funktionen zusammen und versuchen Sie, wenigstens eine zu beschreiben? Machen Sie das Experiment im Allgemeinen komplizierter.

Weiter zum Text: zwei Zitate, danach - mein Text

1.

Darum geht es nicht - man kann nach allem suchen und wie man will,

Der Punkt ist, dass nicht nur der Algorithmus wichtig ist, sondern auch die Art/Herkunft der Daten - wir sprechen sowohl über die (Nicht-)Stationarität der Prozesse als auch über die Nicht-Repräsentativität der Stichprobe, wenn wir über die Zulässigkeit verschiedener Optimierungsmethoden sprechen.

Zum ersten Punkt habe ich nichts über Optimierungsalgorithmen gesagt. Der Kern jeder Suche ist das vom Benutzer beschriebene Optimum. Unabhängig davon, welcher Optimierungsalgorithmus verwendet wird, ermöglicht AO lediglich, die Notwendigkeit einer vollständigen Suche zu vermeiden. Wenn es möglich ist, eine vollständige Suche durchzuführen, ist AO nicht erforderlich, aber die Frage, was genau benötigt wird, bleibt bestehen, und es spielt keine Rolle, ob der Prozess stationär ist oder nicht.

2.

Ein einfaches Optimum auf Suchdaten garantiert nicht dasselbe Ergebnis auf Daten außerhalb dieser Suche (in Bezug auf den Markt).

Ich habe keine Antwort - ich bin auf der Suche.

Niemand hat eine klare Antwort auf diese Frage. Wenn man nicht weiß, wonach man suchen soll, dann wird es niemand und nichts für den Suchenden tun, weil man nicht weiß, wonach man genau suchen soll, und da dies der Fall ist, ist es unmöglich, irgendein Ergebnis als "das, wonach gesucht wurde" zu klassifizieren.

3.

Ich habe noch keinen spezifischen einteiligen Algorithmus gesehen, der "eine über zwei Stichproben stabile Abhängigkeit nach dem Training" finden kann, aber es gibt logische Überlegungen, eine Reihe von Techniken und Überlegungen, wie dies erreicht werden kann (oder zumindest, um zu verstehen, welchen Weg man gehen sollte).

Es würde mich interessieren, davon zu hören.

Und ich wäre, unter günstigen Umständen, gerne bereit, darüber zu sprechen (wenn Sie wissen, was ich meine).

4.

Und etwas zufällig zu finden ist immer möglich, wie ich im MO-Thema gezeigt habe - in meiner jüngsten Forschung.

Hier habe ich geschrieben, dass wenn es keinen Algorithmus aus Punkt 2 gibt, dann zeigen alle Ansätze im Wesentlichen zufällig Effizienz auf neuen Daten - besser oder schlechter ist keine Frage der Algorithmuslogik (obwohl ich zugeben muss, dass es Heuristiken gibt, die das Ergebnis verbessern), sondern die Zufälligkeit der erhaltenen Daten bestimmt das Ergebnis.

Genau, wenn man nicht weiß, wonach man suchen muss, ist es unmöglich, es zu finden.

Wenn man eine bekannte Funktion untersucht, ändert sie (ihre Konstanten) sich nicht mit den Eingangsvariablen, und je mehr Beispiele man hat, desto größer ist die Wahrscheinlichkeit, dass man ihre Koeffizienten richtig findet. Bei den Marktdaten ist die Anzahl der Beispiele begrenzt, und das Problem besteht darin, dass viele solcher Zahlengeneratoren mit ihrer eigenen Funktion gleichzeitig arbeiten (selbst wenn es sich um große Teilnehmer handelt, deren Verhaltensregeln genehmigt und gedruckt sind, wie bei unserer Zentralbank). Es stellt sich also heraus, dass es im Idealfall möglich ist, sich an ähnliche Verhaltensregeln verschiedener Teilnehmer anzupassen, es wird eine solche verrauschte Funktion geben, die nur einen Teil des Marktes beschreibt, und so sehe ich die Situation. Gleichzeitig können die Teilnehmer von einer Verhaltensfunktion zu einer anderen übergehen.....

Genau darum geht es in der Diskussion.

Die Optimierungsalgorithmen aus den Artikeln selbst sind sehr interessant. Versuchen Sie, die Frage der Zulässigkeit ihrer Anwendung frontal zu betrachten, nehmen Sie vielleicht auch hundert verschiedene Funktionen und mischen Sie sie und versuchen Sie, wenigstens eine zu beschreiben? Im Allgemeinen ist es komplizierter, ein Experiment zu starten.

Lassen Sie es mich so sagen: Optimierungsalgorithmen (das Verständnis ihrer internen Logik und ihrer Suchmethoden) öffnen einem die Augen für viele Dinge und eröffnen Wege und Visionen von Suchwegen (sei es die Optimierung im Allgemeinen oder das Lernen im Privaten). Ich plane einen Artikel mit einem solchen Experiment, mit einer Mischung aus Funktionen.

Was meinen Sie mit"Zulässigkeit von Frontalbewerbungen"? - Ich verstehe diese Formulierung der Frage nicht.

Erst neulich habe ich ein Kundenprojekt gestartet, einen Berater mit einem neuronalen Netz (es besteht die Möglichkeit, einen internen Optimierungsalgorithmus, SGD und viele andere zu wählen), Training, Validierung und alles, wie es sein sollte, das Projekt besteht aus mehreren Dutzend dichten Zeilen Code..... Was will ich damit sagen...? ist, dass Neuronka jedes Mal neue Ergebnisse mit denselben Trainingsdaten liefert.))))) Neuronics schneidet bei neuen Daten nicht gut ab? Nun, es zeigt unterschiedliche Ergebnisse bei denselben Daten, von welchen neuen Daten können wir also sprechen? Aber es geht nicht um Neuronka, denn Neuronka ist nur eine statische Formel, Gewichte und Offsets werden angepasst, aber Neuronka ändert sich nicht. Was ist dann das Problem, warum erhält man unterschiedliche Ergebnisse? Und der Punkt ist elementar - SGD (und andere) bleibt, Achtung, an der Verlustfunktion hängen))) D.h., nicht nur das neuronale Netz wird unverständlich trainiert, sondern auch der interne Optimierungsalgorithmus kommt nicht zum Zuge.

Ich möchte ein Experiment durchführen, um die Ergebnisse desselben neuronalen Netzes mit Gradienten- und klassischen Optimierungsalgorithmen zu vergleichen. Ich habe diese Frage ventiliert, ich habe keine Forschung zu diesem Thema gefunden, ich sehe und höre nur als Dogma "man sollte Gradient descents und so weiter verwenden", es gibt keine klare Antwort auf die Frage "warum man das sollte". Ich habe verschiedene gpt-ähnliche Leute gefragt, einer von ihnen gibt willkürliche Artikel aus einer bekannten wissenschaftlichen Quelle an, ein anderer gibt keine Links an, sagt aber stur, dass "es notwendig ist", und der dritte gestand, dass ihm das beigebracht wurde und er keine Beweise für seine Worte hat, aber er würde sich freuen, sie zu erfahren (Beweise).

 
Andrey Dik #:

Was den ersten Punkt betrifft, so habe ich nichts über Optimierungsalgorithmen gesagt. Das Wesentliche jeder Suche ist das vom Benutzer beschriebene Optimum. Unabhängig davon, welcher Optimierungsalgorithmus verwendet wird, vermeidet AO lediglich die Notwendigkeit, eine vollständige Suche durchzuführen. Wenn es möglich ist, eine vollständige Suche durchzuführen, ist AO nicht erforderlich, aber die Frage, was genau erforderlich ist, bleibt bestehen, und es spielt keine Rolle, ob der Prozess stationär ist oder nicht.

Und ich dachte, Sie hätten auf den MO-Thread verwiesen, weil die Meinung einiger Teilnehmer zu den Algorithmen in Ihren Artikeln kritisch war. Ich wollte nur klarstellen, wie ich es verstanden habe, was meiner Meinung nach der Grund für die inhaltliche Uneinigkeit ist. Ich möchte nicht das Thema der Persönlichkeiten ansprechen.


A ndrey Dik #: Niemand hat eine klare Antwort auf diese Frage. Wenn man nicht weiß, wonach man suchen soll, dann wird es niemand und nichts für denjenigen tun, der sucht, weil man nicht weiß, wonach man genau suchen soll, und wenn doch, dann kann ein Ergebnis nicht als "das Gesuchte" eingestuft werden.

2. Ich weiß, wonach ich suchen muss - statistisch stabile Abhängigkeiten von Quantensegmenten der Prädiktoren, aber welche Zeichen darüber Auskunft geben - das weiß ich noch nicht. Wenn man ein Modell baut, muss man eine hohe Wahrscheinlichkeit haben, bei einer neuen Iteration den richtigen Schritt zu machen - das ist alles :)


A ndrey Dik #:

Und ich, unter günstigen Umständen, werde es Ihnen gerne sagen (wenn Sie wissen, was ich meine).

3. Ich verstehe es überhaupt nicht, um ehrlich zu sein.


A ndrey Dik #:

Genau, wenn man nicht weiß, wonach genau man suchen muss, ist es unmöglich, es zu finden.

4. Dennoch verstehen Sie nicht, was ich meine. Um es zu vereinfachen, stellen Sie sich vor, dass Sie in einem iterativen Ansatz entsprechend dem Optimierungsalgorithmus zwangsweise alle Ergebnisse der Varianten prüfen können, aus denen Sie eine Wahl treffen müssen, und dass eine solche Wahl das Modell in allen verfügbaren Stichproben näher an ein bestimmtes Ziel bringt. Und hier in der Tasche befindet sich ein solches Modell (oder Koeffizienten - wie auch immer Sie es nennen wollen), das für die verfügbaren Daten gut ist, aber nicht unbedingt die beste Option darstellt. D.h., der Algorithmus schaut sich an, was die FF auf den endgültigen Daten sein wird, wenn er einen Schritt wählt, für den er in einer Iteration löst. Das ist es, was ich meine: Wenn man nicht nachschaut, kann man versehentlich ein gutes Ergebnis erhalten, das von zufälligen Schritten abhängt. Wir sprechen hier von Marktdaten. Und das Ergebnis kann schlecht werden, wenn man es mit neuen Daten füttert. Generell will ich damit sagen, dass es nicht so einfach ist, zu verstehen, ob man ein gutes Modell zufällig oder aufgrund eines Algorithmus auf einer nicht repräsentativen Teilstichprobe erhalten hat.


A ndrey Dik #:

Genau darum geht es in der Diskussion.


Andrey Dik #:

Lassen Sie es mich so sagen: Optimierungsalgorithmen (das Verständnis ihrer internen Logik und Suchmethoden) öffnen einem die Augen für viele Dinge und eröffnen Wege und Visionen für Suchwege (sei es Optimierung im Allgemeinen oder Lernen im Besonderen). Ich plane einen Artikel mit einem solchen Experiment, mit einer Mischung aus Funktionen.

Es würde mich interessieren, über ein solches Experiment zu lesen und wie sehr es das Modell der Marktbildung widerspiegelt.


A ndrey Dik #:

Was bedeutet"Zulässigkeit von Frontalbewerbungen"? - Ich verstehe diese Formulierung der Frage nicht.

Es bedeutet, dass es in der gleichen Weise verwendet wird wie der Standardoptimierer mit seiner Genetik und den Standard-FFs. Die Zulässigkeit bezieht sich hier auf die Wahrscheinlichkeit, ein stabiles Modell (Einstellungen) auf neue Daten zu erhalten. Es ist also klar, was gesucht und gefunden werden soll....

Haben Sie übrigens untersucht, wie die Algorithmen mit kategorialen Merkmalen zurechtkommen?


A ndrey Dik #: Was ist dann der Punkt, warum erhalten Sie unterschiedliche Ergebnisse?

Viele Algorithmen verwenden Randomisierung für Variabilität, sind Sie nicht auf solche außerhalb von MOE gestoßen? Wenn Sie wiederholbare Ergebnisse wollen, legen Sie den Seed fest.


A ndrey Dik #: Ich möchte ein Experiment durchführen, um die Ergebnisse desselben Neurons mit Gradienten- und klassischen Optimierungsalgorithmen zu vergleichen.

Es ist notwendig, nicht nur ein Modell zu vergleichen, sondern mindestens hundert - anhand einiger deskriptiver statistischer Kriterien. Nur die Wahrscheinlichkeit, die richtigen Einstellungen (Modelle) zu wählen, kann man anhand neuer Daten abschätzen...


A ndrey Dik #: Hat diese Frage belüftet, hat aber keine Forschung zu diesem Thema gefunden

Der Gradientenabstieg wird als effiziente Methode zur Ausnutzung von Rechenressourcen verwendet. Es gibt kompliziertere und schwerere Methoden, wie der Dozent in einem Video erwähnte, aber ich habe mich nicht daran erinnert, nur das Grundprinzip ist klar.

 
So werden Zweige gespammt....