Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2015

 
Maxim Dmitrievsky:

Wenn alle Chips ein- und ausgehen, gibt es weniger Neuronen in der verborgenen Schicht. Es komprimiert einfach die Informationen, indem es den Fehler in der Ausgabe minimiert. Der Input sollte (im Idealfall) dem Output entsprechen. Dann wird der zweite Teil von NS nach dem Training verworfen und man erhält am Ausgang komprimierte Merkmale, die der Anzahl der Neuronen in der versteckten Schicht entsprechen

Sie können wiederkehrende Schichten hinzufügen, usw.

google Autoencoder. und seine Varianten.

Ja, ich habe alles verstanden, danke, ich verstehe nur nicht, wie man ein Netz so trainieren kann, dass es mehrere Antworten auf eine einzige Beispielzeile gleichzeitig gibt. Es ist nicht klar, wie man das mit Bäumen macht...

 
Aleksey Vyazmikin:

Ja, das verstehe ich alles, danke, ich verstehe nur nicht, wie man das Netz so trainiert, dass es mehrere Antworten auf eine einzige Zeichenfolge gleichzeitig gibt. Was ist die Metrik dort, bei Bäumen ist es nicht klar, wie das gemacht werden könnte...

Ich bin kein Experte, aber erstens: Zersetzung, wenn ein Ereignis viele mögliche Ursachen hat. Danach erfolgt eine Neuzusammensetzung, bei der all diese möglichen Ursachen auf mögliche Einflüsse auf diese Ursachen analysiert werden. Das Ergebnis ist eine kleine Anzahl von Parametern, die bei der Steuerung eines Ereignisses beeinflusst werden können.

 
Aleksey Vyazmikin:

Ja, das verstehe ich alles, danke, ich verstehe nur nicht, wie man das Netz so trainiert, dass es mehrere Antworten auf eine einzige Zeichenfolge gleichzeitig gibt. Was ist da die Metrik, bei Bäumen ist es nicht klar, wie man so etwas machen könnte...

Es macht überhaupt keinen Sinn, zuerst einen Autoencoder oder nur einen tiefen NS zu verwenden. Man braucht sie, wenn man viele gleiche Aufgaben hat. Zum Beispiel, um Bilder usw. zu komprimieren und sie dann in anderen Programmen zu verwenden.

 
Alexej Tarabanow:

Ich bin kein Experte, aber zunächst einmal gibt es eine Zersetzung, bei der ein Ereignis eine Vielzahl möglicher Ursachen nach sich zieht. Anschließend erfolgt eine Neuzusammensetzung, bei der all diese möglichen Ursachen auf mögliche Einflüsse auf die Ursachen untersucht werden. Das Ergebnis ist eine kleine Anzahl von Parametern, die durch das Ereignis gesteuert werden können.

Nicht ganz - durch die Brechung der Daten in einem Neuron durch Gewichte in Funktionen werden die Werte zu einer einzigen Funktion zusammengefasst (ähnlich wie beim Fokussieren des Bildes). Und dann, wenn man diese Gewichte kennt, wird es wieder in Komponenten zerlegt, so wie ein Prisma einen Regenbogen zerlegt oder so. Ich verstehe das Verfahren, aber ich verstehe nicht, wie man es mit Bäumen macht.

 
Maxim Dmitrievsky:

Es macht überhaupt keinen Sinn, zuerst einen Auto-Encoder oder nur einen tiefen NS zu verwenden. Man braucht sie, wenn man viele gleiche Aufgaben hat. Zum Beispiel, um Bilder usw. zu komprimieren und sie dann als Einbettung in andere ns zu verwenden

Vielleicht ist es sinnvoll, genau diese "Flaschenhals"-Neuronen an Bäumen zu trainieren. D.h. reduzierte Anzahl von Prädiktoren.

 
Aleksey Vyazmikin:

Nicht ganz - dort werden durch die Brechung der Daten im Neuron durch Gewichte in den Funktionen die Werte auf eine einzige Funktion reduziert. Und dann, wenn man diese Gewichte kennt, zerlegt man sie wieder in Komponenten, so wie ein Prisma einen Regenbogen zerlegt. Ich verstehe das Verfahren, aber ich verstehe nicht, wie man es mit Bäumen macht.

Nein. Versuchen Sie zuerst die Zersetzung, dann werden Sie es verstehen.

Die Zersetzung folgt einfach einem Prinzip, die Verbindung einem anderen. Analyse und Synthese. Die Neuronen arbeiten hier wie dort auf die gleiche Weise, aber im ersten Fall wird das Ereignis zurückgestellt, im zweiten Fall wird es um die Faktoren herum gesammelt, die das Ereignis beeinflussen.

 
Aleksey Vyazmikin:

Es könnte sinnvoll sein, diese besonderen "Flaschenhals"-Neuronen an Bäumen zu trainieren. Das heißt, eine reduzierte Anzahl von Prädiktoren.

macht keinen Sinn

Kompression ist Kompression. Wenn das Modell bereits schlecht ist, wird es nichts bewirken. Und die Regularisierung hat ungefähr die gleiche f-Funktion.

 
Bei der Komprimierung der Eingabedaten kommt es zu einem Verlust. Wenn die Komprimierung nach der Fähigkeit beurteilt wird, dieselben Eingabedaten abzurufen, dann gehen gleichmäßig Informationen verloren, auch solche, die das Ziel gut vorhersagen würden.
Wenn wir nur komprimieren, um die Zielfunktion zu erhalten, ist dies die beste Option.
Ich denke, dass normales Lernen genau das tut.
Ich komme zu dem Schluss, dass eine reine Eingabekomprimierung die Qualität des nachfolgenden Lernens des Ziels auf den komprimierten Daten verschlechtert.
Aber man sollte lieber ein Experiment durchführen, anstatt aus der Theorie Schlüsse zu ziehen.

Obwohl man verstehen kann, warum Alexey nach einer Möglichkeit sucht, die Dimensionalität zu reduzieren - er verwendet Scaffolding und Boosting. In einem Baum werden die meisten der 3000 Eingänge möglicherweise überhaupt nicht verwendet. Wälder und Boosting sind besser, aber ich fürchte, es ist wenig hilfreich.
 
Maxim Dmitrievsky:

Es gibt keinen Grund

Kompression ist Kompression. Wenn das Modell bereits schlecht ist, wird es nichts bewirken. Und die Regularisierung tut mehr oder weniger das Gleiche.

elibrarius:
Bei der Komprimierung von Eingabedaten gibt es Verluste. Wenn die Komprimierung nach der Fähigkeit bewertet wird, dieselben Eingabedaten abzurufen, dann gehen einheitlich Informationen verloren, auch solche, die das Ziel gut vorhersagen würden.
Wenn wir nur komprimieren, um die Zielfunktion zu erhalten, ist dies die beste Option.
Ich denke, dass normales Lernen genau das tut.
Ich komme zu dem Schluss, dass eine reine Eingabekomprimierung die Qualität des nachfolgenden Lernens des Ziels auf den komprimierten Daten verschlechtert.
Aber man sollte lieber ein Experiment durchführen, anstatt aus der Theorie Schlüsse zu ziehen.

Obwohl man verstehen kann, warum Alexey nach einer Möglichkeit sucht, die Dimensionalität zu reduzieren - er verwendet Scaffolding und Boosting. In einem Baum werden die meisten der 3000 Eingänge möglicherweise überhaupt nicht verwendet. Wald und Boosting sind besser, aber ich fürchte, es nützt wenig.

Es gibt eine Reihe von Ideen, warum dies nützlich sein könnte:

1. Es können voneinander abhängige Prädiktoren ermittelt werden:

1.1. ein separates Modell mit ihnen erstellen und ihre Vorhersagekraft bewerten

1.2. sie aus der stichprobe ausschließen und ihre auswirkungen auf das ergebnis bewerten. wenn sie das ergebnis verbessern, die Schaffung ähnlicher prädiktoren erwägen

2. Verwendung eines Prädiktors anstelle einer Gruppe von Prädiktoren:

1. Dadurch wird die Wahrscheinlichkeit, dass sie bei der Erstellung des Modells zufällig ausgewählt wird, ausgeglichen.

2. Verkürzung der Trainingszeit durch Reduzierung der Dimensionalität

Ja, ich würde das gerne testen, aber ich kenne das Tool nicht, mit dem man ein solches Modell erstellen kann.


Übrigens ist mir eine Idee gekommen, warum man nicht gebrochene Funktionen (wie bei der Quantisierung - anstelle der Schrittlinie) im Training verwenden sollte, das würde es ermöglichen, eine Lücke in der Datengenauigkeit zu haben und das erneute Training zu reduzieren.

 
Aleksey Vyazmikin:

Ein Gedanke dazu ist, warum nicht gebrochene Funktionen (sozusagen mit Quantisierung - anstelle einer Stufenlinie) beim Training zu verwenden, das würde eine Rückwirkung auf die Datengenauigkeit ermöglichen und Übertraining reduzieren.

Da er nicht trainiert werden kann, würde der Löser in lokalen Minima stecken bleiben. Was die Ideen angeht - da kann man nichts rausholen, weil es eine Blackbox ist.
Grund der Beschwerde: