Was soll in den Eingang des neuronalen Netzes eingespeist werden? Ihre Ideen... - Seite 67

 

Wie funktionieren Bäume beim maschinellen Lernen?

Деревья в машинном обучении, в частности, решающие деревья, представляют собой структуру, которая используется для классификации и регрессии. Основная идея заключается в том, чтобы разбить набор данных на более мелкие подмножества, основываясь на значениях входных признаков. Вот основные моменты, как работают деревья:

### 1. Структура дерева
- **Вершины**: Каждая вершина дерева представляет собой узел, где происходит разделение данных.
- **Корень**: Это верхний узел дерева, откуда начинается процесс разделения.
- **Листовые узлы**: Узлы, которые не имеют дочерних узлов, представляют собой конечные результаты (классификация или предсказание).

### 2. Процесс построения дерева
- **Выбор признака**: На каждом узле выбирается признак, по которому будет происходить разделение. Выбор признака осуществляется на основе критерия, который позволяет максимизировать однородность подмножеств (например, критерий Джини или энтропия для классификации).
- **Разделение данных**: Данные делятся на две или более группы в зависимости от значения выбранного признака.
- **Рекурсия**: Процесс повторяется для каждой полученной группы, пока не будет достигнуто определенное условие остановки (например, максимальная глубина дерева или минимальное количество образцов в узле).

### 3. Оценка качества
- **Критерии**: Для оценки качества разделения используются различные метрики, такие как:
  - **Джини**: Мера, которая вычисляет вероятность неправильной классификации случайно выбранного элемента.
  - **Энтропия**: Мера неопределенности, которая показывает, насколько данные в узле разнородны.


### 4. Устойчивость к переобучению
- **Переобучение**: Деревья могут легко переобучаться, особенно если они слишком глубокие. Для борьбы с этим применяются методы, такие как обрезка (pruning), которая удаляет менее значимые узлы.
- **Регуляризация**: Установка ограничений на максимальную глубину дерева или минимальное количество образцов в узле также помогает избежать переобучения.

### 5. Применение
- **Классификация**: Деревья могут использоваться для классификации объектов на основе их признаков.
- **Регрессия**: Деревья могут предсказывать непрерывные значения, разбивая данные на подмножества и вычисляя среднее значение в каждом листовом узле.

### 6. Ансамблевые методы
- **Случайные леса**: Это метод, который объединяет множество деревьев для улучшения точности и устойчивости модели.
- **Градиентный бустинг**: Метод, который строит деревья последовательно, где каждое новое дерево исправляет ошибки предыдущих.

Деревья являются мощным инструментом в машинном обучении благодаря своей интерпретируемости и способности обрабатывать как числовые, так и категориальные данные.

Oben blau - Iterativität des Prozesses, grün - Bewertung des Prozesses.

Unten steht mehr über Iteration und Bewertung, ich bin zu faul, um Farben zu markieren.

Ist die Aufteilung in Blätter ein iterativer Prozess oder nicht?

Ja, die Aufteilung in Blätter beim Lösen von Bäumen ist ein iterativer Prozess.



Schauen wir uns genauer an, wie das geschieht: ### Partitionierungsprozess 1.

**Auswahl des Knotens für die Partitionierung**: - Beginnt an der Wurzel des Baums, wo sich alle Daten befinden. - An jedem Knoten wird ein Merkmal und ein Wert ausgewählt, nach dem partitioniert werden soll.

Dies geschieht anhand von Kriterien wie der Entropiereduktion oder dem Gini-Kriterium. 2.



**Datenpartitionierung**: - Die Daten werden je nach ausgewähltem Merkmal und dessen Wert in zwei oder mehr Gruppen aufgeteilt. - Jede Gruppe wird zu einem neuen Knoten (oder Teilbaum) für die weitere Partitionierung. 3.
**Rekursive Partitionierung**: - Der Vorgang wird für jeden neuen Knoten wiederholt.

Bei jedem Schritt wird ein neues Merkmal ausgewählt und die Daten werden erneut partitioniert. - Dies wird so lange fortgesetzt, bis eine Abbruchbedingung erreicht ist, z. B.: - Maximale Baumtiefe.





- Minimale Anzahl von Stichproben pro Knoten. - Keine sinnvolle Verbesserung der Partitionierungsqualität. ### Iterativer Charakter - **Iteration**:
Jeder Partitionierungsschritt ist eine Iteration, die zur Bildung neuer Knoten und Teilmengen von Daten führt. - **Rekursion**:





Der Partitionierungsprozess kann als rekursiv betrachtet werden, wobei jeder Knoten separat behandelt wird und derselbe Prozess für jeden Knoten wiederholt wird. ### Abschluss des Prozesses - Wenn eine der Stoppbedingungen erreicht ist, wird der Knoten zu einem Blattknoten und ein endgültiger Wert wird für ihn definiert (z. B. Klasse für Klassifizierung oder Mittelwert für Regression). Somit ist die Partitionierung in Blätter in Entscheidungsbäumen tatsächlich ein iterativer und rekursiver Prozess, der sukzessive Verfeinerungen ermöglicht.

Welches ist das Bewertungskriterium bei der Baumkonstruktion und welche Optimierungsalgorithmen werden bei diesem Prozess verwendet?

Bei der Erstellung von Entscheidungsbäumen werden mehrere Bewertungskriterien verwendet, um zu bestimmen, wie die Daten an den einzelnen Knoten am besten aufgeteilt werden können.



Zu den grundlegenden Kriterien gehören: ### Bewertungskriterien 1.

**Entropie**: - wird im ID3-Algorithmus verwendet - misst die Unsicherheit oder Zufälligkeit der Daten.
Je niedriger die Entropie, desto homogener sind die Daten - Formel:



\[ H(S) = -\sum_{i=1}^{C} p_i \log_2(p_i) \]wobei \( p_i \) die Wahrscheinlichkeit der Klasse \( i \) und \( C \) die Anzahl der Klassen ist.

2.

**Gini-Kriterium**: - Wird in CART (Klassifizierungs- und Regressionsbäume) verwendet - Misst die Wahrscheinlichkeit der Fehlklassifizierung eines zufällig ausgewählten Elements.





- Formel: \[ Gini(S) = 1 - \sum_{i=1}^{C} p_i^2 \] 3.



**Cross-Entropie (logarithmischer Verlust)**: - Wird in einigen Varianten von Entscheidungsbäumen verwendet, insbesondere für Klassifizierungsaufgaben - schätzt die Differenz zwischen vorhergesagten Wahrscheinlichkeiten und tatsächlichen Klassenbezeichnungen. 4.







**Mittelwert des quadratischen Fehlers (MSE)**: - Wird bei Regressionsproblemen verwendet - Schätzt den Mittelwert der Fehlerquadrate zwischen vorhergesagten und tatsächlichen Werten ### Optimierungsalgorithmen Verschiedene Optimierungsalgorithmen und -methoden werden auch bei der Konstruktion von Entscheidungsbäumen verwendet: 1.



**Der Greedy-Algorithmus**: - An jedem Knoten wird auf der Grundlage des gewählten Bewertungskriteriums das beste Merkmal und der beste Wert für die Partitionierung ausgewählt. - Dieser Prozess wird so lange fortgesetzt, bis die Haltebedingungen erreicht sind. 2.



**Baumbildung mit zufälligen Teilmengen**: - Der Random-Forest-Algorithmus verwendet eine "Bagging"-Methode, bei der mehrere Bäume auf zufälligen Teilmengen von Daten und Merkmalen aufgebaut werden. - Dies trägt dazu bei, Übertraining zu vermeiden und die Verallgemeinerbarkeit des Modells zu erhöhen. 3.



**Baumbeschneidung**: - Nachdem der Baum konstruiert wurde, kann ein Beschneidungsverfahren durchgeführt werden, um die Komplexität des Baums zu reduzieren und ein Übertraining zu verhindern. - Die Beschneidung kann auf der Grundlage einer Kreuzvalidierung oder anhand eines Kriteriums wie dem Fehler in der Validierungsmenge erfolgen. 4.


**Hyperparameter-Optimierung**: - Methoden wie Grid Search oder Random Search werden verwendet, um optimale Werte von Hyperparametern wie Baumtiefe, Mindestanzahl von Stichproben pro Knoten usw. zu finden.

Alles, was verneint wurde (Schätzung, Iterabilität, Vorhandensein eines Optimierungsalgorithmus), ist in der Baumkonstruktion vorhanden.


ZY. Artikel zum Thema #Bäume.

 


ChatGPT wird die Welt verlassen, ohne dass die Leute versuchen, die Dinge auf eigene Faust herauszufinden. Finden Sie den Code aus dem Artikel heraus. Und solche Fragen werden nicht auftauchen. Sie sind ein Programmierer und können es tun. Oder ist es das?

Hat der GPT-Chat den Platz einer Quelle des wahren Wissens eingenommen? Sie haben die Iterationin der Rekursion gesehen. Nein - es werden nicht alle Daten immer und immer wieder verarbeitet (wie beim Menschen, der iteriert, oder beim NS, der in jeder Lernepoche alle Gewichte neu berechnet). Aber jedes Mal, wenn der Datensatz z.B. in zwei Hälften geteilt wird, wird jede Hälfte in eine Hälfte geteilt und so weiter, bis es unmöglich ist, ihn zu teilen (1 Beispiel übrig oder alle Beispiele sind gleich). Auf diese Weise werden die Daten in einem Durchgang auf die Blätter verteilt. Das funktioniert sehr schnell.

Dabei wird die beste Aufteilung ausgewählt, aber die Daten selbst werden nicht ausgewertet. Genau das habe ich vorhin beschrieben. Sie wollen die Daten für den Datensatz auswerten, um die Merkfähigkeit zu erreichen.

 
Forester #:


ChatGPT wird die Welt verlassen, ohne dass die Leute versuchen, die Dinge auf eigene Faust herauszufinden. Finden Sie den Code aus dem Artikel heraus. Und solche Fragen werden nicht auftauchen. Sie sind ein Programmierer und können es tun. Oder ist es das?

Hat der GPT-Chat den Platz einer Quelle des wahren Wissens eingenommen? Sie haben die Iterationin der Rekursion gesehen. Nein - es werden nicht alle Daten immer und immer wieder verarbeitet (wie beim Menschen, der iteriert, oder beim NS, der in jeder Lernepoche alle Gewichte neu berechnet). Aber jedes Mal, wenn der Datensatz z.B. in zwei Hälften geteilt wird, wird jede Hälfte in eine Hälfte geteilt und so weiter, bis es unmöglich ist, ihn zu teilen (1 Beispiel übrig oder alle Beispiele sind gleich). Auf diese Weise werden die Daten in einem Durchgang auf die Blätter verteilt. Es funktioniert sehr schnell.

Dabei wird die beste Aufteilung ausgewählt, aber die Daten selbst werden nicht ausgewertet. Genau das habe ich vorhin beschrieben. Sie wollen die Daten für den Datensatz auswerten, um die Speicherung aufzurufen.

Sie haben keine Zeit, einen großen Beitrag manuell abzutippen, dafür ist gpt ganz gut.

Schauen Sie bitte genau hin, zumindest in den Code, den Sie mir zur Ansicht anbieten. Finden Sie heraus, wo die Iterationen sind, wo die Schätzung ist und wo der Optimierungsalgorithmus ist. Ihr Leugnen führt zu nichts.

Rekursion ist Iteration.

 
1) Sie werden die Werte des Datensatzes nicht normalisieren, so dass sie in ihrer Struktur den weiteren Eingaben ähneln 2) Selbst wenn Sie es schaffen, wird es sich um weißes Rauschen handeln, und kein neuronales Netz wird korrekt arbeiten 3) Nur ein Netz wie GPT mit Tausenden von Neuronen und Architekturen, die ausschließlich für den Handel entwickelt wurden, wird in der Lage sein, mehr oder weniger genaue Vorhersagen zu machen und sich an das weiße Rauschen anzupassen. Und das ist ein separater Server mit riesigen Kapazitäten.
 
Das ist richtig.
 
Forester #:

...



Tut.
 
Ich setze meine kreativen Experimente fort. Ich habe ein geistiges Bild gezeichnet, ich möchte versuchen, Kurswürfe zu erstellen und sie beim Handel zu verwenden. Jeder Wurf ist wie ein bestimmtes großes Muster, das bedingt in die Zukunft projiziert wird.

 
Ich sehe in diesem Thread eine Menge erfahrener Programmierer, zu denen ich aufschaue, also möchte ich niemandem auf die Füße treten.

Aus meiner persönlichen Erfahrung und Forschung scheinen einfache lineare Modelle immer besser abzuschneiden als neuronale Netze. Das mag daran liegen, dass Finanzdatensätze so verrauscht sind und neuronale Netze empfindlich auf Varianz in den Eingaben reagieren.

Die Leistung einer linearen Regression zu übertreffen, ist meiner Meinung nach beeindruckend (vorausgesetzt, man mischt die Trainings- und Testdatensätze nicht zufällig).

Ich möchte nicht pessimistisch klingen, aber alle Daten, die ich analysiert habe, stimmen mich nicht zuversichtlich, dass ein Deep Neural Network mit auch nur einer Billion Parametern ein lineares Modell übertreffen wird, selbst wenn man das Double-Descent-Phänomen berücksichtigt.

Ich denke im Allgemeinen, dass es entweder

1) ein Vorverarbeitungsschritt, den wir nicht erkannt haben
2) nützliche Daten, die wir übersehen
Oder
3) ein besseres Ziel, das wir mit größerer Genauigkeit vorhersagen können.

Ich würde mich gerne eines Besseren belehren lassen. Ich hoffe sogar, dass ich falsch liege und die wahre Lösung viel einfacher ist.
 



Da alle NS nur Kätzchen und Tumore erkennen und Dota spielen können, sind sie nicht in der Lage, eine Handelsstrategie zu erkennen, denn diese Aufgabe ist nichts für dumme Netze. Infolgedessen wird aus der "Verallgemeinerung" eine "Mittelwertbildung", wenn das Ergebnis der NS verschiedene Arten von Anpassungen mit verschiedenen Perversionen sind.










Stellt man eine Katze auf den Kopf, ist sie immer noch dieselbe Katze. Stellt man ein Preisdiagramm auf den Kopf, ist es kein KAUFEN mehr, sondern ein VERKAUFEN. Letztendlich bleibe ich bei meiner Meinung: Wenn man etwas anpassen will, sollte man es gezielt anpassen. 1. Entweder eine Q-Tabelle, in der jedes historische Muster auf der Grundlage von Statistiken als Kauf oder Verkauf eingestuft wird. 2. Oder wir filtern den Eingang (oder die Ausgangsnummer des NS) über den gesamten Bereich: einige Stellen - Signal zum Öffnen, einige - ignorieren.





Die zweite Option ist die einfachste Umsetzung des MLP-Ersatzes: Anstelle von Dutzenden und Hunderten von optimierbaren Parametern für die Gewichte kann man den Bereich der Arbeitszahl optimieren. Das habe ich getan, indem ich die Optimierung in ein heftiges Umlernen verwandelt habe, was manchmal dazu führt, dass etwas im Vorwärtsgang funktioniert. Und selbst in dieser Richtung ist es bereits möglich, zu arbeiten, zu wählen, weiter zu suchen.




 











Jüngste Beobachtungen: Es gibt zwei Arten von Eingabedaten: 1) Zeitliche Abfolge - homogene Eingabedaten in chronologischer Reihenfolge: Preise,Indikatorwerte, Muster. 2) Diverse - einzelne, aber diejüngsten Messwerte verschiedener Instrumente: Indikatoren, Muster.Die erste Variante ist die schlechteste. Je tiefer wir in die Geschichte eindringen, desto schlechter sind die Ergebnisse.




Es scheint ein Paradox zu sein, wenn wir es mit erfolgreichen Händlern vergleichen, die tief in die Geschichte blicken.Die zweite Variante ist die beste. Die erste Variante kann in keiner Weise trainiert werden.


Es scheint, dass mehr Chart - mehr Informationen - bessere Ergebnisse. Aber in der Praxis ist alles genau das Gegenteil. Weiter - meine hypothetische Begründung für dieses Phänomen:

Der Preis hat ein Muster. Objektiv, technisch - es ist die Volatilität. Ja, sie erlaubt es uns, mit Sicherheit anzunehmen, dass in 10 von 10 Fällen, in mindestens 10 Fällen der Preis nicht den 0-Wert erreichen wird. In 10 von 10 Fällen wird der Eurokurs in einem 5-Minuten-Balken 5000 Punkte nicht überschreiten.
Höhere Gewalt wird das absolute Bild ein wenig trüben, aber es gibt immer noch ein Zufallselement: In genau dieser Volatilität gibt es Bereiche, in denen der Preis frei wandern kann.



Und, der Preis während des Balkens liegt in dieser durchschnittlichen Spanne. Und hier können wir mit einiger Sicherheit sagen: der Preis auf der nächsten Kerze wird in der Spanne von jetzt bis jetzt liegen, leicht über dem aktuellen Hoch und leicht unter dem aktuellen Tief, weil der Preis dazu neigt, sich in die Richtung zu bewegen. Also, was, wenn wir 1 Balken zurückgehen? Welche Annahme wäre dann richtig?

Ja, in der Tat: Der Kurs hat nach 1 Balken bereits das Vierfache der möglichen Candlestick-Spanne. Und wenn wir 10 Balken zurückgehen? Wie hoch wird der Preis nach 10 Takten sein? Die Spanne der möglichen Werte erhöht sich um ein Vielfaches.




Und dieses Phänomen, denke ich, wirkt sich auf die offen gesagt beschissenen Ergebnisse des NS aus: Die Unfreiheit der Vorhersage aus der Vergangenheit überlagert die Gesamtleistung - sie verschlechtert sich. Dies wird durch die Regel der Praxis bestätigt: je mehr Eingaben - desto schlechter. Sie können es auch überprüfen: Geben Sie ein Paar frischer Eingaben separat ein und 10 vorherige - ebenfalls separat.


Die Ergebnisse der ersten Eingabe werden viel stabiler sein. Die jüngsten Eingaben werden von den veralteten im allgemeinen Kessel der Eingaben "in den Schatten gestellt", wo sie am häufigsten Übertraining und absolute Zufälligkeit auf dem Vorwärtsweg zeigen. Sie können parieren: niemand gibt nur die vergangenen Eingaben ein, sie bilden das ganze Muster im allgemeinen Kessel.

Aber die Statistik hat gezeigt, dass jedes einzelne Muster, das aus einer chronologischen Sequenz besteht, dazu neigt, 50/50 zu funktionieren.



Das heißt, dass sich der Kurs danach weiter so entwickelt, wie er will. Aber diezweite Variante ist eine Schönheit.



Diese Schönheit hat nicht nur die Haupteigenschaft des Prädikats - die Frische der Daten -, sondern kann auch die Funktionalität der Chronologie und der Muster potenziell realisieren: - die gesamte Chronologie des Charts kann durch eine einzige Zahl realisiert und zu einer einzigen Eingabe gemacht werden, zum Beispiel: das Verhältnis des aktuellen Preises zu den letzten N Candlesticks.


Oder die gleiche chronologische Sequenz, aber mit einer obligatorischen Beziehung zu den jüngsten Daten: wenn es sich um einen Preis handelt - dann die Reflexion des Inkrements des jüngsten Preises mit dem Rest. Und dann beginnt die "tote" unrentable Chronologie zum Leben zu erwachen.