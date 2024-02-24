Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3332
Meine Herren! Verwechseln Sie nicht das Thema? Es wäre gut, 2-3 Seiten vom Offtopic zu säubern.
Der Artikel von Alexey wurde vor einer Stunde veröffentlicht, lesen Sie ihn.
Ich glaube, wir haben bereits von allen Seiten über seine Quantifizierung in seiner Zeit gesprochen. Ich kann dem, was ich vorhin gesagt habe, nur hinzufügen, dass ich mich für ihn freue, dass es ihm wenigstens 200 Dollar eingebracht hat.
Danke, es ist schön, sich über mein Einkommen zu freuen - das ist selten!
Der Artikel ist einleitend - Sie haben Recht, alles was ich dort geschrieben habe - denke ich, und so klar.
Der zweite Teil ist in der Moderation, er ist ein bisschen interessanter. Allerdings habe ich es im Moment aufgegeben, meine eigene Methode zu beschreiben, und bin auf eine vereinfachte Version gekommen, die einen kleinen Effekt auf Tests hatte. Sie wird im zweiten Teil beschrieben werden.
Dies ist jedoch der Fall, wenn neue Ideen nicht mehr als 5% des Textes einnehmen.
Kommen Sie wieder, um zu lesen und zu kommentieren, wenn Sie möchten.
Ich weiß nicht, welchen Diogenes Sie meinen, aber im Sinne des Trollens sind wir alle Kinder im Vergleich zu Diogenes von Sinope oder Diogenes von Laertes.
Wenn Sie sich die Daten meines Threads, meiner Registrierung auf der Ressource und des heutigen Threads ansehen, wird es klarer. Zwei Jahre nach der Registrierung gab es noch Hoffnung auf einen konstruktiven und nützlichen Dialog im Forum, und sechseinhalb Jahre später gibt es fast keine Hoffnung mehr. Nur so zum Spaß.
Warum zufällig?
Gehen Sie alle Punkte einer Klasse durch und messen Sie den Abstand zu allen Punkten der anderen Klasse, wobei Sie den Mindestabstand ermitteln.
Wenn Sie alles erhalten haben, sortieren Sie, löschen Sie bis zum benötigten Abstand, jeweils ein Paar. Wenn der gelöschte Punkt in einem anderen Paar verwendet wurde, finden Sie einen neuen Punkt mit einem neuen Mindestabstand, sortieren erneut und fahren fort.
Vielleicht fällt Ihnen eine bessere Methode ein. Vielleicht ohne Sortierung - einfach auf den gewünschten Abstand löschen.
Uff, ich verstehe es wohl nicht richtig:
Habe ich den Prototyp des Algorithmus richtig verstanden?
Ich komme mit einer solchen Verzögerung auf das Thema zurück, weil mich die Idee fasziniert, dass Blätter in CatBoost-Modellen und in anderen Baum-Ensembles in der Aktivierung stark korreliert sein können, was ihr Vertrauen während des Trainings verzerrt und zu einer Überschätzung des Blattwerts für das Modell als Ganzes führt.
1) Man kann auch eine Matrix verwenden, aber nicht notwendigerweise, sondern man muss sofort für jeden Punkt der Klasse 0 den nächstgelegenen Punkt der Klasse 1 finden, d.h. man erhält sofort Punkt 2.
3) nichts zählen und sich nicht auf Cluster beziehen, sondern nur Paare der nächstgelegenen Punkte entfernen. Wenn der Abstand kleiner als der Schwellenwert ist, würde der Schwellenwert in diesem Beispiel 0,6 betragen. Bei anderen Problemen werden wir ihn wahrscheinlich wählen müssen.
Wenn ein gelöschter Punkt der Klasse 1 mit einem anderen Punkt der Klasse 0 gepaart war, dann bleibt er ohne Paar, er muss einen neuen nächstgelegenen Punkt der Klasse 1 finden (wieder eine Berechnung machen oder eine Matrix verwenden, wie Sie in Punkt 1 vorgeschlagen haben, wenn der Speicherplatz ausreicht, ich denke, eine Matrix von 1 Million mal 1 Million wird in keinen Speicherplatz passen, bis zu 100 Tausend vielleicht).
4) nicht bis zum Rest, sondern bis zum Schwellenabstand. Wenn er sehr groß ist, dann bleiben nur Punkte von 1 der Klassen übrig, die ursprünglich mehr waren.
Aber wie ich schon schrieb, halte ich diese Rauschentfernung für keine gute Idee (siehe https://www.mql5.com/ru/forum/86386/page3324#comment_50171043). Es ist ja nicht so, dass man dieses Rauschen bei der Erstellung von Vorhersagen nicht entfernen kann. Der Baum selbst markiert verrauschte Blätter, indem er ihnen eine Wahrscheinlichkeit von etwa 50 % zuweist, und nimmt z. B. nicht verrauschte Blätter mit einer Wahrscheinlichkeit von >80 % für eine der Klassen (oder so viele, wie Sie für angemessen halten).
Mit Clustern hat das nichts zu tun. Es geht nur darum, die nächstgelegenen Punkte mit unterschiedlichen Klassen zu entfernen, die sich widersprechen, d. h. Rauschen. Und dann können Sie Clustering oder einen Baum verwenden - was immer Sie trainieren wollen.
.
Ich kriege das noch nicht ganz in meinen Kopf. Nun, es passiert alles in einem Raum - in der Metrik eines Prädiktors, aber wie berücksichtigt man die anderen?
Was die Vorhersage betrifft, so dachte ich an die Verwendung von zwei Modellen - eines, das erkennt, was weggefallen ist, oder bestätigt, dass die Daten in der "Klumpen"-Region liegen, und das andere, das bereits mit dem arbeitet, was übrig ist.
https://www.mql5.com/ru/articles/9138
Seit einem Jahr kümmert sich niemand mehr darum
Ich habe ein Dutzend oder zwanzig solcher Algorithmen geschrieben, einige davon sind gut etabliert. Der im Artikel beschriebene ist nicht der beste, was die Stabilität der Ergebnisse angeht, der erste Pfannkuchen.
Es gibt also nichts zu diskutieren, weil es noch nichts Besseres gibt.