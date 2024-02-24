L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3371
Stai fraintendendo la stufa. Sembra che non abbiate mai guardato il codice di costruzione dell'albero.... Non ci sono operazioni all'interno di una singola riga!!!, solo con gli insiemi (completi o in lotti).In breve:
Un insieme casuale/pieno di righe passato all'addestramento, viene ordinato uno per uno per ogni predittore/colonna. Vengono controllate diverse suddivisioni (media/percentile/random), vengono contate le statistiche per ciascuna di esse e viene selezionata la migliore suddivisione per l'intero insieme di righe, non per una/ogni riga come suggerito.
In base alla migliore suddivisione, l'insieme di stringhe viene diviso in due insiemi, poi ogni insieme viene ordinato di nuovo e viene selezionata la migliore suddivisione per ciascuna delle parti, ecc. fino a quando non viene raggiunta la regola di arresto (per profondità, numero di esempi per riga, ecc.)
Potete vedere maggiori dettagli nell'editor, avete il file:
\MQL5\Include\Math\Alglib\dataanalysis.mqh
Funzione ClassifierSplit() e quella da cui viene chiamata.
Lo capirete in un paio d'ore e non dovrete parlare della ricerca dei predittori da una riga.
1. Classe RegressionTree()
Avete ragione riguardo alle molte righe.
Torniamo all'inizio: cos'è un modello in una foresta casuale?
È un singolo albero. Ecco un esempio di uno di questi alberi da RF:
Totale righe = 166+185! Tutti non si adattavano
Ci sono 150 alberi di questo tipo nel mio modello
Consideriamo di nuovo il percorso che forma la foglia. Nel mio esempio precedente ci sono 5 spaccature. Non è forse una descrizione del modello di 2 vertici con un avvallamento? Descrizione.
7 spaccature possono descrivere testa spalle ecc.
Ogni foglia di un albero descrive un modello diverso.
La foresta è l'opinione della folla (derviews).
Il 1° albero dice: questa stringa cade nel mio 18° schema/foglia e la risposta = 1
2°: la stessa stringa cade nel mio 215 schema/foglia e dà risposta=0
3°: = 1
...
Facciamo la media e otteniamo l'opinione media di 150 alberi. Per esempio = 0,78. Ognuno aveva una foglia/modello attivato diverso.
Non sappiamo quante foglie.
Il numero di alberi è un parametro che può essere modificato per ottenere la dimensione minima del campione per l'addestramento.
Vediamo che 50 alberi sono sufficienti, quindi è conveniente considerare un albero come un pattern.
L'albero risponde a ogni situazione/linea con una foglia/modello. In altre situazioni la risposta sarà data da altre foglie/modelli.
Sembra che non solo la foglia, ma anche l'albero non risolva nulla.
Qui ho trovato la formula per il classificatore finale
Dove
Vale la pena notare che per il compito di classificazione si sceglie la soluzione a maggioranza, mentre per il compito di regressione si sceglie la soluzione in base alla media.
Perché non risolve? Contribuisce (1/150) alla risposta finale.
Da ogni albero una delle foglie/pattern attivati partecipa alla votazione (media).
La risposta della foresta è la media delle risposte di tutti gli alberi (o foglie/pattern attivati) - questa formula la conta. La maggioranza per la classificazione binaria sarà se la media è >0,5, allora 1, altrimenti 0.
Ma il confine di 0,5 non è probabilmente l'opzione migliore, se il pacchetto dà accesso al valore della media, si possono sperimentare diversi confini.
L'albero risponde a ogni situazione/linea con una foglia/modello. In altre situazioni la risposta sarà data da altre foglie/modelli.
Sembra che non solo la foglia, ma anche l'albero non risolva nulla.
Non solo una foglia ma tutti gli alberi sono responsabili di ogni situazione, solo che non tutti sono attivati, la somma delle previsioni di quelli che sono attivati è la previsione del modello....
Di cosa diavolo state parlando, esperti di modelli ad albero?
