Wenn es sich um Cluster handelt, müssen Sie nur die Statistiken über die neuen Daten ausfegen. Wenn sie gleich sind, können Sie TC bauen.
Wenn die Cluster die gleichen sind, können Sie TCs bauen. Wenn sie gleich sind, können wir TC bauen.
Der Themenbereich der Cluster und Statistiken muss klar verstanden werden. Wenn sie bei allen Instrumenten von '70 bis '20 identisch ist, dann ist es möglich))
Die Catbust wird nicht helfen, das Problem ist die Größe der Daten, ich werde nicht einmal in der Lage sein, Traits zu erstellen, Sie werden nicht einmal zum Training kommen...
Machen Sie eine Stichprobe von 50k, lassen Sie es klein sein, lassen Sie es nicht ernsthaft sein, lassen Sie es eher möglich sein, zu übertrainieren, .... ..., ... Das Ziel ist es, einen Roboter für die Produktion zu schaffen, aber nur, um den Fehler durch gemeinsame Anstrengungen zu reduzieren, und dann könnten die gewonnenen Erkenntnisse auf jedes Werkzeug und jeden Markt angewendet werden, 50 K werden ausreichen, um zu sehen, welche Zeichen etwas bedeuten.
Okay, ich werde eine kleine Stichprobe machen.
Wenn man OHLK nicht kennt, braucht man es nicht zu schreiben, warum sollte man das ganze OHLK verschieben? Das macht niemand, man muss nur ZZ um einen Schritt verschieben, als ob man zum Lernen um einen Schritt in die Zukunft schaut und das ist alles. Haben Sie wenigstens einen Artikel von Vladimir Perervenko über deerelearning gelesen? Bitte lesen Sie ihn. Es ist sehr unangenehm, wenn sich optimale Aktionen mit Daten eingebürgert haben und jeder daran gewöhnt ist, und jemand versucht, das Gleiche zu tun, aber auf eine andere Art und Weise, es ist irgendwie sinnlos und ärgerlich und verursacht viele Fehler bei Leuten, die versuchen, mit den Daten eines solchen Autors zu arbeiten.
Ich lese seine Artikel, aber ich verstehe den R-Code nicht, so dass ich nicht wirklich alles verstehen kann.
Deshalb frage ich Sie, da Sie das Problem verstehen. Die Klassifizierung erfolgt auf dem Null-Balken, wenn nur der Eröffnungskurs bekannt ist. So wie ich es verstehe, verwenden Sie nicht den Eröffnungskurs des Null-Balkens, sondern nur die Informationen des ersten Balkens und später? Das Ziel bestimmt nämlich den ZZ-Vektor auf dem Nullbalken? Ich verstehe, dass der Vektor des nächsten Balkens vorhergesagt wurde - das ist aber nicht wesentlich, oder? Sonst muss ich wieder viel nacharbeiten - das ist anstrengend.
Ich habe nur eine fertige Lösung für die Erfassung von Daten und die Anwendung des Modells, kein Berechnungsmodell.
Wenn Sie nach all dem immer noch etwas tun wollen, habe ich folgende Anforderungen
1) die Daten 50-60k nicht mehr, vorzugsweise eine Datei, nur vereinbaren, dass die n der letzten Kerze wird der Test sein
2) Die Daten, vorzugsweise ohne Kleber, so dass nicht nur die neuesten Preise berücksichtigt werden können, sondern auch Unterstützung und Widerstand, was mit Kleber unmöglich ist
3) das Ziel sollte bereits in den Daten enthalten sein
4) Daten im Format Datum,Zeit,o,h,l,c, Ziel
Oder soll ich einen Datensatz erstellen?
Das können Sie von denen verlangen, die sich verpflichtet haben - also nicht von mir :) Lassen Sie uns einen Deal machen.
1. Wir nehmen 50 für das Training und weitere 50 für den Test (Stichproben außerhalb des Trainings).
2. ok.
3. ok.
4 OK.
Hinzugefügt: Es wurde festgestellt, dass die Si-3.20-Futures nicht genug normale Stäbe (22793) haben und man nicht kleben will.
Ich habe eine Probe des Bernsteins hinzugefügt - ich habe eine Genauigkeit von 67.
Die Klassifizierung erfolgt auf dem letzten Balken, wo die bekannte Klausel (d.h. eine vollwertige OHLS-Kerze), wir das ZZ-Zeichen einer zukünftigen Kerze vorhersagen. Warum die Kerze berücksichtigen, deren einzige bekannte Option ich nicht verstehen kann, was ist der Vorteil außer der Komplexität ? sowohl im Verständnis als auch in der Umsetzung, und wenn Sie verstehen, dass die Option[i] fast immer gleich der Klausel[i-1] ist, dann habe ich nur ein Fragezeichen für diesen Ansatz
Das können Sie von denen verlangen, die sich verpflichtet haben - also nicht von mir :) Lassen Sie uns zu einer Einigung kommen.
Ich verlange nichts von Ihnen persönlich.) Voraussetzung für die Stichprobe ist, dass die Stichprobe für alle gleich ist, damit etwas verglichen werden kann, oder? Ich denke, das ist offensichtlich.
Und danke fürs Zuhören )
Ich habe es zuerst ausprobiert, sozusagen "out of the box"...
Nur die letzten n Werte sind an der Vorhersage beteiligt, wie bei Ihnen, denn der Fehler ist derselbe.
Ich habe 217 Indikatoren, ich bin sicher, dass es einige Redundanzen gibt, aber ich bin zu faul, sie zu bereinigen.
Ich habe die DateiOHLC_Train.csv zum Trainieren und Validieren von insgesamt 54147
das Modell an den ersten 10k Beobachtungen getestet (um genau zu sein, 8k, die ersten 2k wurden nicht berücksichtigt, da die Indikatoren an ihnen berechnet wurden)
das Modell mit den verbleibenden 44k Daten getestet, so dass ich denke, dass es keine Nachschulung gibt. 5,5 mal trainieren 44/8 =5,5
Von den Modellen habe ich Boosting und Forrest ausprobiert, Boosting war nicht beeindruckt und ich habe bei Forrest aufgehört.
in der Ausbildung ein starkes Ungleichgewicht Klassen gesetzt, aber ich bin zu faul, um Schamanen
endgültiges Modell zu den aktuellen Merkmalen - Wald 200 Bäume
auf dem Tablett...
auf dem Prüfstand
Confusion Matrix and Statistics Reference Prediction 0 1 0 12449 5303 1 9260 17135 Accuracy : 0.6701 95% CI : (0.6657, 0.6745) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3381 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5734 Specificity : 0.7637 Pos Pred Value : 0.7013 Neg Pred Value : 0.6492 Prevalence : 0.4917 Detection Rate : 0.2820 Detection Prevalence : 0.4021 Balanced Accuracy : 0.6686 'Positive' Class : 0
Wie Sie sehen können, sind die Ergebnisse identisch mit den Ihren, und es werden nicht Millionen von Daten benötigt. 50k reichen aus, um ein Muster zu finden, wenn überhaupt.
Wir haben also die gleichen Ergebnisse, das ist unser Ausgangspunkt, jetzt muss dieser Fehler verbessert werden
)) Hohma ))
Alle so genannten Indikatoren für die technische Analyse wurden entfernt.
Es gibt 86 Indikatoren, nicht 217 wie im obigen Beispiel
Und die Qualität des Modells hat sich noch verbessert.)
Confusion Matrix and Statistics Reference Prediction 0 1 0 12769 5597 1 8940 16841 Accuracy : 0.6707 95% CI : (0.6663, 0.6751) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3396 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5882 Specificity : 0.7506 Pos Pred Value : 0.6953 Neg Pred Value : 0.6532 Prevalence : 0.4917 Detection Rate : 0.2892 Detection Prevalence : 0.4160 Balanced Accuracy : 0.6694 'Positive' Class : 0
Die Klassifizierung erfolgt auf der letzten Bar, wo die bekannte Klausel (die vollwertige OHLS Kerze), das Zeichen ZZ Zukunft Kerze vorherzusagen. Warum die Kerze berücksichtigen, deren einzige bekannte Option ich nicht verstehen kann, was ist der Vorteil außer der Komplexität? sowohl im Verständnis als auch in der Umsetzung, und wenn Sie verstehen, dass die Option[i] fast immer gleich der Klausel[i-1] ist, dann habe ich nur ein Fragezeichen für diesen Ansatz
Sie können es nicht verstehen, weil Sie Daten in R haben und das Terminal nicht weiß, wann OHLC auf dem aktuellen Balken gebildet wird, so dass Sie OHLC nur auf dem Null-Balken vom ersten Balken erhalten können. Nun Offen auf dem Nullbalken sind neue Zeitdaten - besonders relevant für große TFs, weil ich eine Klasse von gleichen Prädiktoren in meiner Stichprobe habe, die aber auf verschiedene TFs angewendet werden.
Ich habe das Beispiel in zwei Dateien aufgeteilt, die erste Datei für etwaige verdrehte Lernversuche und die zweite für die Überprüfung der Lernergebnisse.
Haben Sie nicht die Möglichkeit, das Modell zu speichern und es mit den neuen Daten zu testen? Wenn ja, überprüfen Sie es bitte, ich habe das Ergebnis für das Beispiel OHLC_Exam.csv angegeben
Können Sie diese beiden Dateien auf dieselbe Weise zurücksenden, wobei Sie Ihre Prädiktoren und die Spalte mit dem Klassifizierungsergebnis hinzufügen?
Was das Übertraining oder das Fehlen desselben betrifft.
Meiner Meinung nach ist das eine klare Überforderung.
Jepp... Bei neuen Daten ist alles noch trauriger (((.
Confusion Matrix and Statistics Reference Prediction 0 1 0 9215 5517 1 3654 7787 Accuracy : 0.6496 95% CI : (0.6438, 0.6554) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3007 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.7161 Specificity : 0.5853 Pos Pred Value : 0.6255 Neg Pred Value : 0.6806 Prevalence : 0.4917 Detection Rate : 0.3521 Detection Prevalence : 0.5629 Balanced Accuracy : 0.6507 'Positive' Class : 0
Hier sind die Dateien, verwenden Sie NICHT die ersten 2k Strings in der Schublade
im Test die ersten 100 Zeilen
UPD====
die Dateien nicht passen, senden Sie mir bitte eine E-Mail in Ihrem Posteingang
Jepp... Mit den neuen Daten ist alles noch trauriger (((
In der Anwendung sind keine Dateien vorhanden.
Ich habe die Stichprobenaufteilung für Training und Validierung geändert, für die Validierung habe ich alle 5 Zeilen genommen, was zu einem lustigen Diagramm führte
Für das Beispiel OHLC_Exam.csv Genauigkeit 0,63
Bei X verschlechtert jeder neue Baum das Ergebnis, was auf ein Übertraining aufgrund unzureichender Beispiele in der Stichprobe hinweist.Komprimieren Sie die Datei mit einer Zip-Datei.
Ja, ja, unsere Models sind übertrainiert...
Hier ist ein Link zum Herunterladen der Dateien, selbst die komprimierte Datei passt nicht ins Forum
https://dropmefiles.com.ua/56CDZB
Versuchen Sie das Modell auf meinen Schildern, ich frage mich, was Genauigkeit sein wird