Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2800

 
mytarmailS #:

Die Besonderheit besteht darin, dass es ein starkes Ungleichgewicht zwischen den Klassen zu geben scheint. Wenn es bei 100 Beispielen 5 Markierungen für eine Klasse und 95 Markierungen für eine andere gibt, wie kann das Modell dann eine Wahrscheinlichkeit von mehr als 0,5 für die erste Klasse angeben? das ist keine Frage an das Modell, sondern an den Autor des Datensatzes.

Es gibt über 30% erste Klasse. Und, ja, es kann, ich sehe das Problem nicht. Es reicht aus, eine Liste zu finden, die mit größerer Wahrscheinlichkeit "1" als "0" vorhersagt, auch wenn das selten ist.

Außerdem verhindert niemand, dass der Datensatz durch das Ausbalancieren der Klassen verändert wird.
 
Aleksey Vyazmikin #:

Es sind über 30 % erste Klasse. Und, ja, vielleicht, ich sehe das Problem nicht. Es reicht aus, eine Regel zu finden, die mit größerer Wahrscheinlichkeit "1" als "0" vorhersagt, wenn auch selten.

Außerdem kann niemand den Datensatz ändern, indem er die Klassen ausgleicht.

Du hast dich über catbust beschwert, und catbust ist keine tree\rule\list.

 
Nur NS müssen ausgewuchtet werden. Holzmodelle müssen nicht ausgewuchtet werden.
 
mytarmailS #:

Sie haben sich über die Catbusters beschwert, und Catbusters sind kein Holz.

Die Beschwerde bezieht sich nicht auf den Algorithmus, er ist, was er ist, sondern auf die Tatsache, dass es besser ist, ihn mit bereits vorgekauten Daten zu füttern.

Früher verstand man es irgendwie...

Forum zum Thema Handel, automatisierte Handelssysteme und Testen von Handelsstrategien.

Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading

mytarmailS, 29.10.2016 11:22 Uhr.

hypothetische Situation....

Wir haben 100 potenzielle Prädiktoren, der Einfachheit halber lassen wir sie Indikatoren sein.

Stellen wir uns vor, dass wir zunächst wissen, dass es in all diesen Prädiktoren nur eine profitable Situation gibt, nämlich dann, wenn der RSI 90 überschritten hat und die Stochastik gerade unter Null gefallen ist (die Situation von der Obergrenze, natürlich), Diese Situation führt mit einer Wahrscheinlichkeit von 90 % zu einem Kursrückgang, alle anderen Prädiktoren sind völliges Rauschen, alle anderen Situationen in den Prädiktoren RSI und Stochastik sind ebenfalls völliges Rauschen, und es gibt Hunderte und Aberhunderte von verschiedenen Situationen....

Wir haben also etwa 0,01 % Nutzsignal zu 99,9 % Rauschen.

Nehmen wir an, dass Ihre Methode auf wundersame Weise alle 98 Prädiktoren aussortiert und nur zwei übrig bleiben - RSI und Stochastik.

Beim RSI gibt es Hunderte von Situationen: RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. und so Hunderte und Hunderte, in der Stochastik gibt es nicht weniger Situationen, die Arbeitssituation ist nur eine, da Sie MO trainieren, alle Preisbewegungen zu erkennen, wird MO Modelle bauen , die alle möglichen Situationen berücksichtigen, die es im RSI und in der Stochastik gibt, und die Wahrscheinlichkeit in diesen Situationen, dass sie funktionieren, ist fast Null, aber MO ist verpflichtet, sie zu berücksichtigen und einige Modelle auf ihnen zu bauen, trotz der Tatsache, dass es das wirkliche Rauschen ist, und diese eine Arbeitssituation wird einfach unter Hunderten von anderen Lösungen verloren gehen, das ist die Umschulung.....

Nun, wie haben Sie es letztendlich geschafft?


Begründen Sie, was Modelldarstellung und Zielproportionen damit zu tun haben. Ich sage, dass das Modell als modernisiertes Blatt dargestellt werden kann - eine Regel.

 
elibrarius #:
Nur NS müssen ausgeglichen werden. Baummodelle benötigen keinen Ausgleich.

Dies ist so für gute Daten, in jedem Fall Zähler innerhalb des Algorithmus arbeiten und Entscheidungen über die Anzahl der zugewiesenen Ziele zu machen...

 
Aleksey Vyazmikin #:

Die Besonderheit dabei ist, dass das CatBoost-Modell allen Beispielen eine Wahrscheinlichkeit von weniger als 0,5 zuordnet - es klassifiziert also nicht das Ziel "1", und was zwischen 0 und 0,5 liegt, ist auch nicht sehr gut verteilt.

Wenn wir 100 Beispiele für das Ziel haben, 5 Etiketten ("A") und 95 Etiketten ("B").

dann kann das Modell keine Wahrscheinlichkeit für die Bezeichnung "A" größer als 0,5 angeben.

Bei einigen einzelnen Regeln kann es das, aber der Beitrag sagt "catbust", und dies ist ein Modell (Summe von Regelvorhersagen), nicht eine einzelne Regel, und die Summe wird keine so hohe Wahrscheinlichkeit haben.


Selbst wenn das Modell sicher ist, dass es sich um die Marke "A" handelt. wird die Summe der Wahrscheinlichkeiten der Regeln von "A" von der Summe der Regeln von "B" überstimmt, weil die Regeln von "B" viel größer sein werden.

 
elibrarius #:
Nur NS müssen ausgewuchtet werden. Holzmodelle müssen nicht ausgewuchtet werden.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

wenn wir 5 Noten ("A") und 95 Noten ("B") pro 100 Beispiele des Ziels haben

dann kann das Modell keine Wahrscheinlichkeit für die Bezeichnung "A" von mehr als 0,5 liefern.

Bei einer einzelnen Regel kann es das, aber im Beitrag steht "catbust", und das ist ein Modell (Summe von Regelvorhersagen), nicht eine einzelne Regel, und die Summe wird keine so hohe Wahrscheinlichkeit haben.


Selbst wenn das Modell sicher ist, dass es sich um die Marke "A" handelt. wird die Summe der Wahrscheinlichkeit der Regeln der Marke "A" durch die Summe der Regeln von "B" überschätzt, weil die Regeln von "B" viel größer sind.

Es hängt alles von den Prädiktoren und der Anzahl der Bäume im Modell ab.

Ich bestehe nicht auf dem CatBoost-Modell für das Training.

 

https://www.mql5.com/ru/blogs/post/723619

77 von 16000 ist zu wenig. 77 Beispiele sind kaum repräsentativ.
Die einzige Möglichkeit besteht darin, den Baum sehr gründlich zu untersuchen.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

77 von 16000 ist zu wenig. 77 Beispiele sind kaum repräsentativ.
Die einzige Möglichkeit ist, den Baum sehr gründlich zu studieren.

Wie ist das Buch?
Grund der Beschwerde: