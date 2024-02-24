Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3312
Können Sie mir bitte sagen, was kein Unsinn ist? Ich habe noch nie jemanden gesehen, der von sauberen Eingabedaten spricht. Aber ich höre im Forum ständig von Unsinn.
Was ist das? Wenn Sie von Müll sprechen, dann haben Sie keinen Müll gehabt, denn sonst gibt es nichts, womit Sie es vergleichen könnten.
Es ist eine gerichtete Bewegung, ein Vektor.
Aber es aus dem Müll herauszuholen, ist eine Herausforderung.
Ich würde zum Beispiel versuchen, meinen Indikator als Prädiktor in die Neuronen zu laden und versuchen, die Zeichen von Müll und Müllsammler zu identifizieren.
Lassen Sie mich meinen Standpunkt klarstellen.
Jeder MO-Algorithmus versucht, den Fehler zu reduzieren. Die Fehlerreduzierung ist bei Müll effektiver, weil "günstige" Werte für die Fehlerreduzierung im Müll viel häufiger vorkommen. Folglich ist es sicher, dass die "Wichtigkeit" der Prädiktoren für Müll höher ist als für NICHT-Müll. Aus diesem Grund gibt es eine Vorverarbeitung, die viel arbeitsintensiver ist als die eigentliche Modellanpassung.
In diesem künstlichen Beispiel, das wir betrachten (keine Marktdaten),
ist der U-Achsen-Chit kein Schrott und eignet sich sehr gut zur Definition von Klassen. Die X-Achse ist unsinnig, weil die beiden Klassen etwa gleichmäßig gemischt sind.
Der Baum wird die Daten leicht in 1 und 2 Beispiele aus dem Bild aufteilen, und zwar durch nur eine Aufteilung durch Y=0,5 mit absoluter Reinheit der Klassen, d.h. Klassenwahrscheinlichkeit =100%. Beim Testen der Aufteilung auf der X-Achse beträgt die Reinheit etwa 50%, der Algorithmus wählt die sauberere Aufteilung über Y. D.h. Ihre Aussage, dass eine unsaubere Aufteilung über X gewählt wird, ist in diesen Beispielen falsch.
Das 3. Beispiel ist etwas komplizierter. Das Blatt mit U<0,2 wird vom Algorithmus ausgewählt, da die Reinheit der Klasse = 100% ist, wird auch das Blatt U>0,8 ausgewählt.
Das Blatt von 0,2 bis 0,8 hat eine Reinheit von ca. 50%, d.h. es ist ungefähr so unsauber wie jeder Split auf der X-Achse.
Eine weitere Aufteilung macht keinen Sinn, da Sie Blätter mit einer Klassenwahrscheinlichkeit von 50% nicht verwenden werden.
Wenn Sie etwas Dummes tun und diesen Müllteil auf 1 Beispiel in einem Blatt aufteilen, dann werden Splits sowohl auf Y als auch auf X verwendet. Nun, wenn wir 1 Beispiel in einem Blatt haben, dann ist seine Reinheit natürlich = 100%. Aber das sind keine repräsentativen Blätter. Nur Anfänger werden das tun.
Die ersten 3 Blätter reichen aus, oder man kann aufhören, die Blätter zumindest durch 1-5-10% der Gesamtzahl der Beispiele im Blatt zu teilen. Und in diesem Beispiel verwenden Sie Blätter mit einer Reinheit von z.B. >90%, und das werden die ersten 2 Blätter sein: U<0,2 und U>0,8. Der Rest der Blätter wird 50% +-10% sein, wegen der ungleichmäßigen Mischung.
... Ich würde versuchen, meinen Indikator auf Neuronen als Prädiktoren zu laden und versuchen, die Zeichen von Müll und Aasfresser zu identifizieren
Und was hindert Sie daran, es zu versuchen?
Niemand weiß, was Müll ist und was nicht, das sind alles Hypothesen.
Wenn wir genau wüssten, was was ist, gäbe es keinen 3K-Seiten-Thread)).
Man geht einfach davon aus, dass das Überschreiten dieser und jener Grenzen "Unsinn" ist, und diese Grenzen sind ebenfalls hypothetisch. Deshalb ist der Ausdruck "Müll rein - Müll raus" nichts weiter als eine schöne Phrase, denn was für den einen Forscher Müll ist, ist für einen anderen Forscher kein Müll. Es ist wie mit Eliots Wellen.
Es ist nicht nötig, für alle zu unterschreiben.
Wahrscheinlich wissen Sie nicht, welche Beispiele "Unsinn" sind und welche nicht. Für Sie ist es ein hypothetisches Konzept. Wenn du wüsstest, was was ist, würdest du nicht in diesem Thread sitzen und tiefsinnige Verallgemeinerungen für alle schreiben.
Wann lernen Sie endlich die Grundlagen des Verteidigungsministeriums? Das ist eine rhetorische Frage.
Das ist der Zweck und das Ziel der IO - die Fliegen von den Koteletts zu trennen.
Wenn Sie es wissen, was machen Sie dann hier?
In der Physik werden die Signale, die das von uns benötigte Signal beeinflussen, in der Regel als Müll bezeichnet. Jedes Signal, jede Aktion, die durch irgendetwas verursacht wird, wird als Müll bezeichnet, weil sie nicht notwendig ist und keine korrekte Bewertung des vom Forscher benötigten Signals liefert. Und so gibt es in der Natur keinen Müll))))))))))
Hier, bei der Suche nach Preismustern, Ineffizienz oder etwas anderem, ist das zu bewertende Signal die Auswirkung einiger realer Ereignisse oder deren Gesamtheit auf den Preis. Und alle anderen Einflüsse sind Unsinn.
Kein Anspruch auf die Wahrheit der Beurteilung des Kurses))))
Wenn wir in die DSP-Theorie eintauchen, geht das so:
ein Nutzsignal ohne Müll ist zunächst bekannt (z. B. eine Trendlinie oder eine Kurve)
Beim nächsten Tick wird das Nutzsignal von der Gesamtmenge der Signale abgezogen, und die nicht benötigten Signale, d. h. der Müll, werden ermittelt.
Können Sie mir bitte sagen, was kein Unsinn ist? Ich habe noch nie jemanden gesehen, der von sauberen Eingabedaten spricht. Aber ich höre im Forum ständig von Unsinn.
Was ist das? Wenn Sie von Müll sprechen, dann haben Sie keinen Müll gehabt, denn sonst gibt es nichts, womit Sie es vergleichen könnten.
KEIN Quatsch ist ein Prädiktor, der mit einem Lehrer zusammenhängt oder von ihm beeinflusst wird. Hier ist ein Proxy-Paket voller Algorithmen, um Quatsch von NICHT-Quatsch zu unterscheiden. Übrigens ist es bei weitem nicht das einzige in R.
Zum Beispiel ist Mashka für Lehrerpreiserhöhungen Unsinn, ebenso wie alle Glättungsalgorithmen.
Wenn Sie die Auswahl von Merkmalen als Teil von Modellen meinen, bin ich völlig anderer Meinung, denn die Auswahl von Merkmalen als Teil von Modellen ist einfach nur Unsinn.