Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3388

 
Maxim Dmitrievsky #:

Warum sind große Zahlen von Zeichen böse? Interessante Grafik aus einem Buch über Kozulu.

Wahrscheinlichkeit, dass das gleiche Beispiel in der Trainingsstichprobe gefunden wird, abhängig von der Anzahl der Merkmale.

Es ist nicht klar. Die Wahrscheinlichkeit, dass das gleiche Beispiel wie in der Trainingsstichprobe gefunden wird?

 
Aleksey Vyazmikin #:

Nichts ist klar. Wahrscheinlichkeit des Auffindens, wo ist das gleiche Beispiel wie in der Trainingsstichprobe?

die gleiche Zeile im Datensatz

wenn Sie nur 1.000 Zeilen haben

Grob gesagt, wenn Sie mehr als 18 Merkmale haben, trainieren Sie einen Klassifikator, sich jede Zeile zu merken, weil sie sich nicht einmal wiederholen

und bei kausalen Schlussfolgerungen kann man keine Beispiele vergleichen, um Statistiken zu berechnen.
 
Aleksey Vyazmikin #:

1. Wie kommt man zu dieser Matrix? Wie lauten die Zahlen dort?

2. Ich spreche von Regeln. Bei meinem Ansatz ist es egal, wie und wovon die Regel abgeleitet wird, aber wenn die Antwort einer anderen in der Trainingsstichprobe ähnlich ist, enthält sie keine zusätzlichen Informationen.

1. irgendwelche Merkmalswerte

2. Ich werde Sie überraschen, es interessiert niemanden, wie die Merkmale erstellt wurden, jeder bewertet die Merkmale allein auf der Grundlage der Antwort
 
Maxim Dmitrievsky #:

Warum sind große Zahlen von Zeichen böse? Interessante Grafik aus einem Buch über Kozulu.

Wahrscheinlichkeit, dass das gleiche Beispiel in der Trainingsstichprobe gefunden wird, abhängig von der Anzahl der Merkmale.

Wenn man mehr als 14 (und sogar 10) Merkmale hat, erhält man eine Menge Regeln, die man nicht ohne Verlust reduzieren kann.


Dies alles geschieht im Rahmen des Casual Framework.
Bei Modellen mit unstrukturierten Merkmalen (Text, Bilder).
Einige tausend Attribute sind die Norm.
 
mytarmailS #:
Das liegt alles im Bereich des Zufälligen...
In Modellen mit unstrukturierten Merkmalen (Text, Bilder).
Ein paar tausend Attribute sind normal.

Sie verwenden effiziente Komprimierungsalgorithmen innerhalb von Neuronics, wie z. B. sec2sec, das stimmt also auch.

 
Maxim Dmitrievsky #:

Es verwendet effiziente Komprimierungsalgorithmen innerhalb von Neuronics, wie sec2sec, und ist daher auch fair.

Wenn es um Text geht, wird in 95 % der Fälle die übliche Wortzählung verwendet, z. B. wie oft ein Wort in einer bestimmten Beobachtung vorkommt. 0, 1, 103..

Und damit die Merkmalsmatrix weniger Platz einnimmt, ist sie im Format einer "spärlichen Matrix" gehalten, was günstig ist, weil 95% der Matrixwerte Nullen sind.

Die Bilder sind Faltungen.

Und seq2seq ist exotisch für ein seltenes Problem.
 
mytarmailS #:
Wenn es sich um einen Text handelt, wird in 95 % der Fälle der übliche Wortzähler verwendet, z. B. - wie oft kommt ein Wort in dieser Beobachtung vor? 0, 1, 103..

Und damit die Merkmalsmatrix weniger belegt ist, wird sie im Format einer "dünnen Matrix" gehalten, was günstig ist, weil 95% der Matrixwerte Nullen sind
.

In den Bildern, die Faltung.

Und seq2seq ist exotisch für ein seltenes Problem.

Das sind unterschiedliche Architekturen, Schichtkuchen. Es ist schwer zu vergleichen. Wir sprechen über normale Klassifizierung oder Regression. In diesem Fall scheint es ein universelles Gesetz zu sein.

 
Maxim Dmitrievsky #:

Das sind andere Architekturen, Schichtkuchen. Es ist schwer zu vergleichen. Wir sprechen hier von gewöhnlicher Klassifizierung oder Regression. In diesem Fall sieht es wie ein universelles Gesetz aus.

Es ist alles das Gleiche.

Ich spreche nicht von Neuronen, sondern von der Struktur des Feedforward-Systems.

----------------------------------------------------------------------

Oh, ich erinnere mich, man nennt es eine Tasche voller Wörter.



Was ist neu, ungewohnt, unverständlich, kompliziert?


Die gleiche Zeichentabelle + eine beliebige MO


Wir arbeiten mit unstrukturierten Daten (Text) und übersetzen sie dann in eine Bag-of-Words-Struktur und dann in alles andere, was wir wollen

 
mytarmailS #:
Es ist alles das Gleiche.

Ich spreche nicht von Neuronen, sondern von der Struktur des Merkmals Futter.

----------------------------------------------------------------------

Oh, ich erinnere mich, man nennt es eine Tasche voller Wörter.



Was ist neu, ungewohnt, unverständlich, kompliziert?


Die gleiche Zeichentabelle + eine beliebige MO


Wir arbeiten mit unstrukturierten Daten (Text) und übersetzen sie dann in eine Bag-of-Words-Struktur und dann in alles andere, was wir wollen.

Dies ist ein anderes Thema. Unabhängig davon, wie man sie umwandelt, muss die Dimensionalität des Eingabevektors unter dem angegebenen Schwellenwert liegen, sonst kann man kein Muster erkennen. Bei kategorialen Mustern gibt es wahrscheinlich eine größere Grenze für die Vektorlänge. Berücksichtigen Sie außerdem die Abhängigkeit von der Anzahl der Zeilen. Bei großen Datenmengen kann die Anzahl der Merkmale größer sein.
 
Maxim Dmitrievsky #:
Das ist eine andere Sache. Unabhängig davon, wie man sie umwandelt, muss die Dimensionalität des Eingangsvektors unter dem angegebenen Schwellenwert liegen, sonst kann man kein Muster erkennen. Bei den kategorialen Verfahren gibt es wahrscheinlich eine größere Grenze für die Vektorlänge. Berücksichtigen Sie außerdem die Abhängigkeit von der Anzahl der Zeilen. Bei großen Datenmengen kann die Anzahl der Merkmale größer sein.
Was sonst noch)))
Die ganze Welt tut es und alle sind glücklich)
Grund der Beschwerde: