Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 13

 
Evgeni Gavrilovi:

Ja, das ist er.

Hier steht

#include <MT4Orders.mqh>

#include <Trade\AccountInfo.mqh>

#include <cat_model.mqh>

und das Wichtigste ist, dass beim Laden der mqh direkt aus dem Jupyter-Notebook alles gut funktioniert, das hat mich überrascht

Ich sehe... nun, irgendetwas stimmt mit der Übertragung nach colab nicht... habe es mir noch nicht angesehen, ich bin mit einem anderen Artikel beschäftigt )
 
Maxim Dmitrievsky:
Ich sehe... nun, irgendetwas stimmt mit der Übertragung nach colab nicht... ich habe es mir noch nicht angesehen, ich bin mit einem anderen Artikel beschäftigt )

Ich habe eine Aufnahme meines Bildschirms gemacht, also lade ich in colab cat_model.mqh


 
Evgeni Gavrilovi:

Ich habe eine Aufnahme meines Bildschirms gemacht, und in colab lade ich cat_model.mqh.


Und wenn ich die Datei auf dem Computer und im Colab speichere, stimmen die Einstellungen von look_back und der Liste mit Masken überein? Sie sollten übereinstimmen, sonst wird die falsche Anzahl von Merkmalen im Modell gespeichert und es kommt zu einem Array-Überlauffehler wie bei Ihnen
 
Maxim Dmitrievsky:
Wenn Sie die Datei auf dem Computer und im Colab speichern, stimmen die Einstellungen von look_back und der Liste mit MAs überein? Sie sollten übereinstimmen, da sonst die falsche Anzahl von Merkmalen im Modell gespeichert wird und der Fehler auftritt, dass das Array überschritten wird, wie es bei Ihnen der Fall ist.

Ja, es ist eine perfekte Übereinstimmung.

die Sache ist, dass ohne get_prices Funktion der Datensatz mit einem Fehler, vielleicht ist das Problem in der Testdatei?

die Anzahl der Tage dort ist 2 mal mehr im Vergleich zu der Test-Datei, die Test-Datei hat die letzten 6 Monate und die Trayning-Datei hat nur die letzten 3 Monate.

 
Evgeni Gavrilovi:

Ja, es ist eine perfekte Übereinstimmung.

die Sache ist, dass ohne get_prices Funktion der Datensatz fehlschlägt, vielleicht ist das Problem in der Testdatei?

Die Anzahl der Tage ist 2 mal höher als in der Testdatei, die Testdatei hat die letzten 6 Monate, aber das Trayning hat nur die letzten 3 Monate.

Nein, ich denke, es liegt am Parser. Irgendwo ist die Anzahl der Merkmale falsch eingestellt, wenn das Modell gespeichert wird. D.h. es lernt eine Zahl, aber der Parser speichert eine andere. Wir werden es später herausfinden. Ich habe gerade keine Zeit zum Suchen.
 
Maxim Dmitrievsky:
Nein, ich denke, es liegt am Parser. Irgendwo ist die Anzahl der Features beim Speichern des Modells falsch eingestellt. D.h. es lernt eine Zahl, aber der Parser speichert eine andere. Wir werden es später herausfinden. Ich habe nur noch keine Zeit, mich darum zu kümmern.

OK)

 

Ich habe das Problem mit dem Laden von Daten in colab gelöst, indem ich alle Varianten gesucht habe.

Es ist notwendig, pr = pd.read_csv('file.csv', sep=';') direkt in die Funktion get_prices zu schreiben und dann diesen Wert zurückzugeben return pr.dropna()

 

Eingeschraubt in einen Zufallswald. Beginnt mit 10000 Proben und 100 Bäumen stabil zu arbeiten.

 
welimorn:

Eingeschraubt in einen Zufallswald. Beginnt mit 10000 Proben und 100 Bäumen stabil zu arbeiten.

Das ist ein seltsamer Ansatz. Zum Ausgleich von Klassen. Könnte man für unsere Zwecke ausspielen. Ist mir gerade aufgefallen.

https://towardsdatascience.com/augmenting-categorical-datasets-with-synthetic-data-for-machine-learning-a25095d6d7c8

Augmenting categorical datasets with synthetic data for machine learning.
Augmenting categorical datasets with synthetic data for machine learning.
  • Egor Korneev
  • towardsdatascience.com
Consider a hypothetical but common scenario. You need to build a classifier to assign a sample to a opulation group. You have a sizable training dataset of one million samples. It has been cleaned, prepared and labeled. The few continuous variables are already normalized, and categorical variables, representing the majority of features, are...
 
Maxim Dmitrievsky:

Karoch Ich weiß nicht, vielleicht habe ich eine falsche gmm ))) Aber ich sehe keinen Unterschied zwischen mit und ohne, meiner Meinung nach wird alles durch das Ziel entschieden und nichts anderes....


Ich habe insgesamt 60k Daten.

Ich nehme die ersten 10k und wähle zufällig 500 Punkte daraus.

Mit diesen trainiere ich das Modell entweder sofort oder ich trainiere den gmm und dann das Modell.

Ich teste es mit den restlichen 50k

Und auch auf die übliche Art und Weise kann man solche Modelle wie mit gmm finden , und mit der gleichen Häufigkeit sind sie genetisiert.

Zum Beispiel

Modell ohne gmm trainiert auf 500 Punkte, Test auf 50k.


=================================================================================================

Ich habe eine interessante Sache gesehen, über die man nachdenken sollte....

Es gibt so einen Standpunkt, dass der Markt in Zustände unterteilt werden sollte und in jedem Zustand der Strategie gehandelt werden sollte, aber alle mir bekannten Versuche waren erfolglos, entweder wird der Zustand nicht gesehen oder das Modell handelt schlecht, selbst in einer Art von einem" Zustand.

Aber bei diesem Ansatz kann man ganz klar sehen, welchen Markt das Modell "mag". und welchen es nicht mag.

Wahrscheinlich wegen der Renditen aus der Mashka als Zeichen, arbeitet das Modell besser in flach.