Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 189

 
SanSanych Fomenko:


In fast jedem Buch über Datamining werden die Verfahren zur Entfernung korrelierter Prädiktoren beschrieben.

Zusammenwirkende Prädiktoren sind nicht unbedingt korreliert... Sie interagieren auf Ziel....

Und das Vorhandensein von Interaktion führt zu Ergebnissen der Art:

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

Alle Prädiktoren sind signifikant (und ihre Interaktion). F-Statistiken sind fantastisch...

 
Alexey Burnakov:

Interagierende Prädiktoren korrelieren nicht unbedingt... Sie interagieren auf Ziel....

Und das Vorhandensein von Wechselwirkungen führt zu den Ergebnissen der Arten:

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

Alle Prädiktoren sind signifikant (und ihre Interaktion). F-Statistiken sind fantastisch...

Nun, vielleicht hatte ich einfach eine andere Vorstellung von der Bedeutung des Wortes "Interaktion".
 

Eidechse_:

Keine Daten...

Wenn es keine Daten gibt, gibt es auch nichts zu diskutieren.

Ruhe... du!

 
Eidechse_:
Yur, zumindest nicht dumm sein) Nur vergessen, wer Ihnen gesagt, in 9 y.y., dass Ihr Netzwerk nicht richtig konfiguriert ist, und mit einem polyanalyst kann die Formel ziehen))))
Es gibt keine Vorurteile und Geheimnisse, ich verwende Standard-DM-Tools, manchmal mit kleinen Änderungen. Wenn Sie nur an den Verweisen interessiert sind, hören Sie zu,
aber die Realitäten sind etwas anders... Das vorherige Experiment wurde mit echten Daten durchgeführt. Ich habe es mit einfachen künstlichen Daten gemacht. Der erste Satz wurde absolut anerkannt
richtig. Ich habe gerade ......... hinzugefügt. Die Antwort sollte 100% sein, aber jPrediction 11 ist so scharfsinnig "ii", dass sie es schafft, sich zu verraten))) Kurz gesagt: Feinabstimmung,

Das Gerät funktioniert noch nicht. Ich werde dir die Daten nicht geben, du gibst an, du wirst es selbst herausfinden... Version 20 vielleicht werde ich wieder schauen, wenn die "Werbung" wie heute sein wird)))


Ist Ihnen bewusst, dass mehrere Optimierungen immer zu unterschiedlichen Ergebnissen führen? Das ist Optimierung, wenn es immer zu der gleichen Antwort käme, wäre es sicherlich gut, aber es ist zu seltsam, versuchen Sie, ein paar Mal zu optimieren, ich bin sicher, dass Sie in 8 von 10 Fällen Ihre 100% bekommen. So ist das also....
 
SanSanych Fomenko:
Nun, vielleicht hatte ich einfach eine andere Vorstellung von der Bedeutung des Wortes "Interaktion".


Für die Behandlung von Wechselwirkungen in linearen Modellen gibt es klare Regeln. Sie sind ein wenig komplizierter als die lineare Kombinationsbehandlung:https://www.r-bloggers.com/interpreting-interaction-coefficient-in-r-part1-lm/

Aber man muss sich durch eine Vielzahl von Kombinationen wühlen, um sinnvolle Interaktionen zu finden. Das ist eine Peinlichkeit.

Interpreting interaction coefficient in R (Part1 lm)
Interpreting interaction coefficient in R (Part1 lm)
  • grumble10
  • www.r-bloggers.com
Interaction are the funny interesting part of ecology, the most fun during data analysis is when you try to understand and to derive explanations from the estimated coefficients of your model. However you do need to know what is behind these estimate, there is a mathematical foundation between them that you need to be aware of before being able...
 
Mihail Marchukajtes:
Ist Ihnen bewusst, dass mehrere Optimierungen immer zu unterschiedlichen Ergebnissen führen? Es ist die Optimierung, wenn es immer das gleiche Ergebnis geben würde, wäre es gut, aber es ist zu seltsam, versuchen Sie, mehrere Male zu optimieren, ich bin sicher, dass Sie Ihre 100% für 8 von 10 mal bekommen. So ist es wie diese....

Er weiß nicht einmal, dass die allgemeine Stichprobe vor dem Training nach dem Zufallsprinzip in Teile aufgeteilt wird: Einige Muster gehen in den Trainingsteil, andere in den Testteil. Und bei einer solchen Aufschlüsselung kann sich durchaus herausstellen, dass einige Muster, die zur Klärung der Muster notwendig sind, im Testteil überfüllt und im Trainingsteil nicht vertreten sind. Und da der Algorithmus nur auf dem Trainingsteil trainiert und keine telepathischen Fähigkeiten hat, um herauszufinden, was im Testteil steht, werden bei der Berechnung der Generalisierungsfähigkeit Fehler auftreten. Das heißt, es passiert nichts Überraschendes.

Wenn aber die Muster, die die Muster bestimmen sollen, gleichmäßig über verschiedene Teile der Stichprobe verteilt sind, ist die Lernfähigkeit höher als im oben beschriebenen Fall.

Mit anderen Worten: Es handelt sich um eine Einzelfallbetrachtung, und jede Zufälligkeit kann früher oder später ihre unerwünschten Seiten zeigen.

Es ist durchaus möglich, dass man eine Methode findet, bei der die allgemeine Stichprobe nicht zufällig, sondern deterministisch aufgeteilt wird? Die bisherige Erfahrung hat jedoch gezeigt, dass jeder Determinismus bei der Aufteilung von Stichproben mit Anpassungen und anschließendem Überlernen verbunden ist.

 
Yury Reshetov:

Es könnte durchaus möglich sein, eine Methode zu finden, mit der die allgemeine Stichprobe nicht nach dem Zufallsprinzip, sondern deterministisch aufgeteilt wird. Die bisherige Erfahrung hat jedoch gezeigt, dass jeglicher Determinismus bei der Aufteilung einer Stichprobe mit Anpassungen und späteren Umschulungen verbunden ist.

Vielleicht möchten Sie das Training mehrmals durchführen und die Stichprobe jedes Mal zufällig aufteilen? Aus diesem fertigen Satz trainierter Modelle können wir dann auswählen und allgemein bewerten, wie gut das Modell ist.
Wir können also die Wahrscheinlichkeit , ein zufällig angepasstes Modell zu erhalten, negieren, ohne dem Determinismus verfallen zu sein.

 
Andrej Dik:
Vielleicht müssen Sie das Training mehrmals durchführen und die Stichprobe jedes Mal zufällig aufteilen? Und schon kann man aus diesem fertigen Satz von trainierten Modellen auswählen und allgemein beurteilen, wie gut das Modell ist.
So können wir die Wahrscheinlichkeit, ein zufällig angepasstes Modell zu erhalten, auf Null reduzieren, ohne dem Determinismus verfallen zu sein.

Dies ist in jPrediction bereits implementiert, d.h. es werden mehrere unterschiedliche Probenpartitionen parallel auf verschiedenen CPU-Kernen berechnet (zwei binäre Klassifikatoren sind ein Kern pro freiem Kern). Der Prozessor ist zu 100 % ausgelastet. Das Problem ist, dass die Anzahl der Kerne in der CPU begrenzt ist, so dass die Wahrscheinlichkeit einer ungleichmäßigen Musterverteilung nur verringert werden kann, es aber sehr problematisch ist, sie zu minimieren. Es sei denn, Sie trainieren Muster auf Supercomputern und nicht auf PCs.

Der chinesische Supercomputer Tianhe-2 zum Beispiel hat 3 120 000 Rechenkerne, um Muster zu berechnen. Die Wahrscheinlichkeit einer ungleichmäßigen Verteilung der Muster über Teile der Stichprobe wäre vernachlässigbar. Wenn wir Muster auf einem 4-Kern-System berechnen (plus ein paar Kerne, die für andere Aufgaben reserviert sind), ist es nicht überraschend, dass wir früher oder später auf Unregelmäßigkeiten stoßen.

 
Ich erinnere Sie daran, dass mich noch niemand gefragt hat, warum ich das tue, aber ich mache die Ausgangsvariable gleich der Anzahl der Einsen und Nullen. Ich tue es, indem ich die Signale Gewinn von -10 Pips bis +50 Pips. Wenn die Anzahl der Einsen und Nullen gleich ist, wird das Modell nur selten in zwei Teile geteilt. Noch einmal: Es ist nicht wichtig, wie die Aufteilung erfolgt, sondern dass sie stabil ist.....
 
Yury Reshetov:

Dies ist in jPrediction bereits implementiert, d.h. es werden mehrere unterschiedliche Probenpartitionen parallel auf verschiedenen CPU-Kernen berechnet (zwei binäre Klassifikatoren sind ein Kern pro freiem Kern). Der Prozessor ist zu 100 % ausgelastet. Das Problem ist, dass die Anzahl der Kerne in der CPU begrenzt ist, so dass die Wahrscheinlichkeit einer ungleichmäßigen Musterverteilung nur verringert werden kann, es aber sehr problematisch ist, sie zu minimieren. Es sei denn, Sie trainieren Muster auf Supercomputern und nicht auf PCs.

Der chinesische Supercomputer Tianhe-2 zum Beispiel hat 3 120 000 Rechenkerne, um Muster zu berechnen. Die Wahrscheinlichkeit einer ungleichmäßigen Verteilung der Muster über Teile der Stichprobe wäre vernachlässigbar. Wenn Sie Muster auf einem 4-Kern-System berechnen (und ein paar Kerne für andere Aufgaben reservieren), ist es nicht überraschend, dass Sie früher oder später auf Unregelmäßigkeiten stoßen werden.

Ich meine, es ist eine nützliche Sache, das zu tun. Anstelle von 4 Partitionen, die offensichtlich nicht ausreichen, sollten Sie also 40 Partitionen einrichten. Bei 4 Kernen würde die Zählung 10 Mal länger dauern, aber ich nehme an, dass Zeit zugunsten der Robustheit geopfert werden kann.

"Wenn es möglich ist und wenn es etwas nützt, sollte es getan werden. (c) Papo Carlo Albertovich.

Grund der Beschwerde: