Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3312

 
Ivan Butko #:

Können Sie mir bitte sagen, was kein Unsinn ist? Ich habe noch nie jemanden gesehen, der von sauberen Eingabedaten spricht. Aber ich höre im Forum ständig von Unsinn.

Was ist das? Wenn Sie von Müll sprechen, dann haben Sie keinen Müll gehabt, denn sonst gibt es nichts, womit Sie es vergleichen könnten.

Es ist eine gerichtete Bewegung, ein Vektor.

Aber es aus dem Müll herauszuholen, ist eine Herausforderung.

Ich würde zum Beispiel versuchen, meinen Indikator als Prädiktor in die Neuronen zu laden und versuchen, die Zeichen von Müll und Müllsammler zu identifizieren.

 
СанСаныч Фоменко #:

Lassen Sie mich meinen Standpunkt klarstellen.

Jeder MO-Algorithmus versucht, den Fehler zu reduzieren. Die Fehlerreduzierung ist bei Müll effektiver, weil "günstige" Werte für die Fehlerreduzierung im Müll viel häufiger vorkommen. Folglich ist es sicher, dass die "Wichtigkeit" der Prädiktoren für Müll höher ist als für NICHT-Müll. Aus diesem Grund gibt es eine Vorverarbeitung, die viel arbeitsintensiver ist als die eigentliche Modellanpassung.

In diesem künstlichen Beispiel, das wir betrachten (keine Marktdaten),
ist der U-Achsen-Chit kein Schrott und eignet sich sehr gut zur Definition von Klassen. Die X-Achse ist unsinnig, weil die beiden Klassen etwa gleichmäßig gemischt sind.

Der Baum wird die Daten leicht in 1 und 2 Beispiele aus dem Bild aufteilen, und zwar durch nur eine Aufteilung durch Y=0,5 mit absoluter Reinheit der Klassen, d.h. Klassenwahrscheinlichkeit =100%. Beim Testen der Aufteilung auf der X-Achse beträgt die Reinheit etwa 50%, der Algorithmus wählt die sauberere Aufteilung über Y. D.h. Ihre Aussage, dass eine unsaubere Aufteilung über X gewählt wird, ist in diesen Beispielen falsch.

Das 3. Beispiel ist etwas komplizierter. Das Blatt mit U<0,2 wird vom Algorithmus ausgewählt, da die Reinheit der Klasse = 100% ist, wird auch das Blatt U>0,8 ausgewählt.
Das Blatt von 0,2 bis 0,8 hat eine Reinheit von ca. 50%, d.h. es ist ungefähr so unsauber wie jeder Split auf der X-Achse.
Eine weitere Aufteilung macht keinen Sinn, da Sie Blätter mit einer Klassenwahrscheinlichkeit von 50% nicht verwenden werden.
Wenn Sie etwas Dummes tun und diesen Müllteil auf 1 Beispiel in einem Blatt aufteilen, dann werden Splits sowohl auf Y als auch auf X verwendet. Nun, wenn wir 1 Beispiel in einem Blatt haben, dann ist seine Reinheit natürlich = 100%. Aber das sind keine repräsentativen Blätter. Nur Anfänger werden das tun.

Die ersten 3 Blätter reichen aus, oder man kann aufhören, die Blätter zumindest durch 1-5-10% der Gesamtzahl der Beispiele im Blatt zu teilen. Und in diesem Beispiel verwenden Sie Blätter mit einer Reinheit von z.B. >90%, und das werden die ersten 2 Blätter sein: U<0,2 und U>0,8. Der Rest der Blätter wird 50% +-10% sein, wegen der ungleichmäßigen Mischung.


 
Renat Akhtyamov #:

... Ich würde versuchen, meinen Indikator auf Neuronen als Prädiktoren zu laden und versuchen, die Zeichen von Müll und Aasfresser zu identifizieren

Und was hindert Sie daran, es zu versuchen?

 
Andrey Dik #:

Niemand weiß, was Müll ist und was nicht, das sind alles Hypothesen.

Wenn wir genau wüssten, was was ist, gäbe es keinen 3K-Seiten-Thread)).

Man geht einfach davon aus, dass das Überschreiten dieser und jener Grenzen "Unsinn" ist, und diese Grenzen sind ebenfalls hypothetisch. Deshalb ist der Ausdruck "Müll rein - Müll raus" nichts weiter als eine schöne Phrase, denn was für den einen Forscher Müll ist, ist für einen anderen Forscher kein Müll. Es ist wie mit Eliots Wellen.

Es ist nicht nötig, für alle zu unterschreiben.

Wahrscheinlich wissen Sie nicht, welche Beispiele "Unsinn" sind und welche nicht. Für Sie ist es ein hypothetisches Konzept. Wenn du wüsstest, was was ist, würdest du nicht in diesem Thread sitzen und tiefsinnige Verallgemeinerungen für alle schreiben.

Wann lernen Sie endlich die Grundlagen des Verteidigungsministeriums? Das ist eine rhetorische Frage.

 
Vladimir Perervenko #:

Sie müssen nicht für alle unterschreiben.

Wahrscheinlich wissen Sie nicht, welche Beispiele "Unsinn" sind und welche nicht. Für Sie ist das ein hypothetischer Begriff. Wenn du wüsstest, was was ist, würdest du nicht in diesem Thread sitzen und tiefgreifende Verallgemeinerungen für alle schreiben.

Wann werden Sie die Grundlagen des Verteidigungsministeriums lernen? Das ist eine rhetorische Frage.


Ihr Beitrag zeigt nicht, dass Sie wissen, was Unsinn ist und was nicht.
Außerdem, das ist das Lustige, wenn Sie wissen, was kein Müll ist, dann gibt es keine Notwendigkeit für MO.

Das ist der Zweck und das Ziel der IO - die Fliegen von den Koteletts zu trennen.

Wenn Sie es wissen, was machen Sie dann hier?

 

In der Physik werden die Signale, die das von uns benötigte Signal beeinflussen, in der Regel als Müll bezeichnet. Jedes Signal, jede Aktion, die durch irgendetwas verursacht wird, wird als Müll bezeichnet, weil sie nicht notwendig ist und keine korrekte Bewertung des vom Forscher benötigten Signals liefert. Und so gibt es in der Natur keinen Müll))))))))))

Hier, bei der Suche nach Preismustern, Ineffizienz oder etwas anderem, ist das zu bewertende Signal die Auswirkung einiger realer Ereignisse oder deren Gesamtheit auf den Preis. Und alle anderen Einflüsse sind Unsinn.

Kein Anspruch auf die Wahrheit der Beurteilung des Kurses))))

 
Valeriy Yastremskiy #:

In der Physik werden die Signale, die das von uns benötigte Signal beeinflussen, in der Regel als Müll bezeichnet. Jedes Signal, jede Aktion, die durch irgendetwas verursacht wird, wird als Müll bezeichnet, weil sie nicht notwendig ist und keine korrekte Bewertung des vom Forscher benötigten Signals liefert. Und so gibt es in der Natur keinen Müll))))))

Hier, bei der Suche nach Preismustern, Ineffizienz oder etwas anderem, ist das zu bewertende Signal die Auswirkung einiger realer Ereignisse oder deren Gesamtheit auf den Preis. Aber alle anderen Einflüsse sind Unfug.

Kein Anspruch auf die Wahrheit der Beurteilung des Kurses))))

Wenn wir in die DSP-Theorie eintauchen, geht das so:

ein Nutzsignal ohne Müll ist zunächst bekannt (z. B. eine Trendlinie oder eine Kurve)

Beim nächsten Tick wird das Nutzsignal von der Gesamtmenge der Signale abgezogen, und die nicht benötigten Signale, d. h. der Müll, werden ermittelt.

 
Die Verschmutzung von Merkmalen wird im Zusammenhang mit bestimmten Zielmerkmalen bewertet und umgekehrt. Besteht kein kausaler Zusammenhang, ist der Datensatz in seiner Gesamtheit oder einer seiner Komponenten vermüllt. Und oft sind es nicht die Merkmale, sondern die falsche Markierung.

Denn auch Unrat kann so aufgeteilt werden, dass er nützlich ist. Zum Beispiel nach Art oder Größe sortieren.
 
Ivan Butko #:

Können Sie mir bitte sagen, was kein Unsinn ist? Ich habe noch nie jemanden gesehen, der von sauberen Eingabedaten spricht. Aber ich höre im Forum ständig von Unsinn.

Was ist das? Wenn Sie von Müll sprechen, dann haben Sie keinen Müll gehabt, denn sonst gibt es nichts, womit Sie es vergleichen könnten.

KEIN Quatsch ist ein Prädiktor, der mit einem Lehrer zusammenhängt oder von ihm beeinflusst wird. Hier ist ein Proxy-Paket voller Algorithmen, um Quatsch von NICHT-Quatsch zu unterscheiden. Übrigens ist es bei weitem nicht das einzige in R.

Zum Beispiel ist Mashka für Lehrerpreiserhöhungen Unsinn, ebenso wie alle Glättungsalgorithmen.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
Bei der Vorverarbeitung geht es um Normalisierung, nicht um Müll.
Trümmer sind die Auswahl von Merkmalen und teilweise das Feature Engineering

Sanych, hören Sie auf, Leuten, die unreif sind, Unsinn zu erzählen.

Wenn Sie die Auswahl von Merkmalen als Teil von Modellen meinen, bin ich völlig anderer Meinung, denn die Auswahl von Merkmalen als Teil von Modellen ist einfach nur Unsinn.

Grund der Beschwerde: