Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 91

 

ein Paket, das die vorhersagbaren und die nicht vorhersagbaren BPs auswählt, wenn ich das richtig verstehe

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Eidechse_:
Und alle, die kommen. Im z1-Archiv gibt es zwei Dateien train und test. Für Target Modell auf Train aufbauen, auf Test anwenden, Ergebnisse in % angeben (erfolgreich vorhergesagt)
der Fälle) für beide Stichproben (Zug = xx%, Test = xx%). Methoden und Modelle müssen nicht bekannt gegeben werden, nur Zahlen. Jede Datenmanipulation ist erlaubt
und Abbauverfahren.

1. Alle Ihre Prädiktoren haben keine Vorhersagekraft - sie sind ausnahmslos Rauschen.

2. Es wurden drei Modelle erstellt: rf, ada, SVM. Hier sind die Ergebnisse

rf

Anrufen:

randomForest(formula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


Typ des Zufallsforsts: Klassifizierung

Anzahl der Bäume: 500

Anzahl der Variablen, die bei jedem Split ausprobiert werden: 3


OOB-Schätzung der Fehlerquote: 49,71 %.

Verwirrungsmatrix:

[0, 0] (0, 1] class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

ada

Anrufen:

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0,01, minsplit = 20, xval = 10), iter = 50)


Verlust: exponentiell Methode: diskret Iteration: 50


Endgültige Konfusionsmatrix für Daten:

Endgültige Vorhersage

Wahrer Wert (0,1) [0,0]

(0,1] 303 37

[0,0] 29 331


Zugfehler: 0,094


Out-Of-Bag-Fehler: 0,157 Iteration= 50

SVM

Zusammenfassung des SVM-Modells (erstellt mit ksvm):


Support-Vektor-Maschine-Objekt der Klasse "ksvm"


SV-Typ: C-svc (Klassifizierung)

Parameter: Kosten C = 1


Gaußsche Radial-Basis-Kernel-Funktion.

Hyperparameter: sigma = 0,12775132444179


Anzahl der Stützvektoren : 662


Wert der Zielfunktion: -584,3646

Trainingsfehler : 0.358571

Einschließlich Wahrscheinlichkeitsmodell.


Zeitaufwand: 0,17 Sekunden.

Auf dem Testgerät (ich meine das Klappern, nicht Ihres)

Fehlermatrix für das Ada-Boost-Modell auf test.csv [validate] (Anzahl):


Vorhersage

Tatsächlich (0,1) [0,0]

[0,0] 33 40

(0,1] 35 42


Fehlermatrix für das Ada Boost-Modell auf test.csv [validate] (Proportionen):


Vorhersage

Tatsächlicher (0,1) [0,0] Fehler

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


Gesamtfehler: 50%, durchschnittlicher Klassenfehler: 50%


Rassel Zeitstempel: 2016-08-08 15:48:15 Benutzer

======================================================================

Fehlermatrix für das Random-Forest-Modell auf test.csv [validate] (Anzahl):


Vorhersage

Tatsächlich [0,0] (0,1]

[0,0] 44 29

(0,1] 44 33


Fehlermatrix für das Random Forest Modell auf test.csv [validate] (Proportionen):


Vorhersage

Tatsächlich [0,0] (0,1] Fehler

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


Gesamtfehler: 49 %, durchschnittlicher Klassenfehler: 48 %.


Rassel Zeitstempel: 2016-08-08 15:48:15 Benutzer

======================================================================

Fehlermatrix für das SVM-Modell auf test.csv [validate] (Anzahl):


Vorhersage

Tatsächlich [0,0] (0,1]

[0,0] 41 32

(0,1] 45 32


Fehlermatrix für das SVM-Modell auf test.csv [validate] (Proportionen):


Vorhersage

Tatsächlich [0,0] (0,1] Fehler

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


Gesamtfehler: 51%, Mittlerer Klassenfehler: 51%


Rassel Zeitstempel: 2016-08-08 15:48:15 Benutzer

ROC-Analyse für Randomforest

Bestätigt den oben genannten Sachverhalt.

Schlussfolgerung.

Ihr Satz von Prädiktoren ist hoffnungslos.

 
Alexey Burnakov: Wir trainieren also bis zum Umfallen mit dem besten Modell im Zug. Vielleicht zwei oder drei Modelle. Dann ihre einmalige Prüfung.
Ja, das ist genau das, was in den Bedingungen steht (ein Modell im Training erstellen, es im Test anwenden).
 
mytarmailS:

ein Paket, das BPs auswählen kann, die vorhergesagt werden können und welche nicht, wenn ich das richtig verstehe

Ich habe es gelesen, von der Beschreibung ist es ein sehr gutes Paket (ForeCA, es ist sogar in R Repository, keine Notwendigkeit, etwas von githab herunterladen). Das Hauptmerkmal ist die Bewertung der "Vorhersagbarkeit" der Daten.
Außerdem kann die Dimensionalität der Daten reduziert werden, was ebenfalls wichtig ist. Das heißt, dass dieses Paket aus den vorhandenen Prädiktoren zwei neue erstellt, und zwar mit überraschend guter Vorhersagbarkeit. Gleichzeitig wird dadurch der Müll usw. beseitigt. Erinnert mich an die Hauptkomponenten-Methode, aber anstelle von Komponenten wird es etwas Eigenes bilden.

Ganz einfach: Geben Sie diesem Paket eine Tabelle mit einer Vielzahl von Prädiktoren (Preise, Indikatoren, Deltas, Müll usw.). ForeCA wird eine neue Tabelle anstelle der ursprünglichen Tabelle ausgeben. Diese neue Tabelle wird zum Trainieren von Vorhersagemodellen (gbm, rf, nnet, etc.) verwendet.
Wenn auch etwas komplizierter, ist dies ein weiteres Paket für die nukleare Transformation von Daten, mit einer Ausrichtung auf den Aktienmarkt.

Das hört sich alles toll an, unkompliziert, sogar zu viel, das muss ich mir mal ansehen.

 
mytarmailS:

ein Paket, das die vorhersagbaren und die nicht vorhersagbaren BPs auswählt, wenn ich das richtig verstehe

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

Äußerst neugierig.

Das Paket ist installiert, die Dokumentation ist verfügbar.

Vielleicht probiert es jemand aus und veröffentlicht das Ergebnis?

 
Dr. Trader:

Ich habe es gelesen, von der Beschreibung ist es ein sehr gutes Paket (ForeCA, es ist sogar in R Repository, keine Notwendigkeit, etwas von githab herunterladen). Das Hauptmerkmal ist die Bewertung der "Vorhersagbarkeit" der Daten.
Außerdem kann die Dimensionalität der Daten reduziert werden, was ebenfalls wichtig ist. Das heißt, dass dieses Paket aus den vorhandenen Prädiktoren zwei neue erstellt, und zwar mit überraschend guter Vorhersagbarkeit. Gleichzeitig wird dadurch der Müll usw. beseitigt. Erinnert mich an die Hauptkomponenten-Methode, aber anstelle von Komponenten wird es etwas Eigenes bilden.

Ganz einfach: Geben Sie diesem Paket eine Tabelle mit einer Vielzahl von Prädiktoren (Preise, Indikatoren, Deltas, Müll usw.). ForeCA wird eine neue Tabelle anstelle der ursprünglichen Tabelle ausgeben. Diese neue Tabelle wird zum Trainieren von Vorhersagemodellen (gbm, rf, nnet, etc.) verwendet.
Wenn auch etwas komplizierter, ist dies ein weiteres Paket für die nukleare Transformation von Daten, mit einer Vorliebe für den Aktienmarkt.

Das klingt alles großartig, einfach, sogar zu großartig, ich werde es mir ansehen müssen.

Müsste man dafür nicht eine Vorauswahl treffen?

Leute, macht weiter!

 
SanSanych Fomenko:

Schlussfolgerung.

Ihr Satz von Prädiktoren ist hoffnungslos.

OK)))) aber lesen Sie die Bedingungen sorgfältig -
"post" Ergebnisse in % (erfolgreich vorhergesagte Fälle) für beide Stichproben (train = xx%, test = xx%). Es müssen keine Methoden und Modelle angegeben werden, nur Zahlen".
Wir warten auf weitere Ergebnisse. Ich frage mich, welche Schlussfolgerungen Mihail Marchukajtes ziehen wird.
 
Eidechse_:
OK)))) aber lesen Sie die Bedingungen sorgfältig -
"post" Ergebnisse in % (erfolgreich vorhergesagte Fälle) für beide Stichproben (train = xx%, test = xx%). Es müssen keine Methoden und Modelle angegeben werden, nur Zahlen".
Wir warten auf weitere Ergebnisse. Ich frage mich, welche Schlussfolgerungen Mihail Marchukajtes ziehen wird.

Test ist unnötig!

Das Modell kann nicht trainiert werden! Einen leeren Raum kann man nicht testen.

 
Lassen Sie es mich versuchen..... Gerade gesehen....
 
Dr. Trader:

Ich habe die Beschreibung gelesen und es klingt nach einem sehr guten Paket (ForeCA, ..............

Ich verstehe nicht, wie diese "Vorhersagbarkeit" berechnet wird und ob sie überhaupt Sinn macht, wenn das Ziel nicht berücksichtigt wird.