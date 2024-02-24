L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3332
Signori! Non state confondendo l'argomento? Sarebbe bene ripulire 2-3 pagine dagli offtopic.
L'articolo di Alexey è stato pubblicato un'ora fa, leggetelo.
Credo che abbiamo già discusso della sua quantificazione nel tempo da tutti i punti di vista. Posso solo aggiungere a quello che ho detto prima che sono felice per lui che gli abbia portato almeno 200 dollari.
Grazie, è bello essere felici per le proprie entrate - è raro!
L'articolo è introduttivo - hai ragione, tutto quello che ho scritto lì - penso, e così chiaro.
La seconda parte è in moderazione, è un po' più interessante. Tuttavia, al momento ho rinunciato a descrivere il mio metodo e ho trovato una versione semplificata, che ha dato un piccolo effetto sui test. Verrà descritto nella seconda parte.
Tuttavia, questo è il caso in cui le nuove idee non occupano più del 5% del testo.
Tornate a leggere e a commentare se volete.
Non so a quale Diogene ti riferisci, ma nel senso di trollare siamo tutti bambini rispetto a Diogene di Sinope o Diogene di Laerte.
Se guardi le date del mio thread, la mia registrazione alla risorsa e quella di oggi, sarà più chiaro. Due anni dopo la registrazione c'era ancora speranza di un dialogo costruttivo e utile sul forum, e sei anni e mezzo dopo non c'è quasi più speranza. Solo per divertimento.
Perché a caso?
Si percorrono tutti i punti di una classe e si misura la distanza da tutti i punti dell'altra classe, prendendo la distanza minima.
Quando tutto è stato ottenuto, si ordina, si cancella fino alla distanza necessaria, una coppia alla volta. Se il punto cancellato è stato usato in un'altra coppia, si trova un nuovo punto con una nuova distanza minima, si ordina di nuovo e si continua.
Forse si può pensare a un modo migliore. Magari senza ordinare: basta cancellare fino alla distanza richiesta.
Credo di non aver capito bene:
Ho capito bene il prototipo dell'algoritmo?
Torno sull'argomento con questo ritardo perché sono un po' affascinato dall'idea che le foglie nei modelli CatBoost e in altri insiemi di alberi possano essere fortemente correlate nell'attivazione, il che distorce la loro fiducia durante l'addestramento, portando a una sovrastima del valore delle foglie per il modello nel suo complesso.
Torno sull'argomento con questo ritardo, perché sono un po' affascinato dall'idea che le foglie nei modelli CatBoost e in altri ensemble di alberi possano essere fortemente correlate nell'attivazione, il che distorce la loro fiducia durante l'addestramento, portando a una sovrastima del valore della foglia per il modello nel suo complesso.
1) Si può anche usare una matrice, ma non necessariamente, ma trovare immediatamente per ogni punto di classe 0 il punto più vicino di classe 1, cioè otteniamo subito il punto 2.
3) non contare nulla e non fare riferimento ai cluster, ma solo rimuovere le coppie di punti più vicini. Con una distanza inferiore alla soglia, in questo esempio la soglia sarebbe 0,6. In altri problemi probabilmente dovremo selezionarla.
Se un punto cancellato di 1 classe era accoppiato con un altro punto di 0 classe, allora rimane senza coppia, deve trovare un nuovo punto più vicino di 1 classe (ancora una volta fare un calcolo o usare una matrice, come suggerito al punto 1, se la memoria è sufficiente, penso che una matrice di 1milione per 1milione non entrerà in nessuna memoria, fino a 100mila forse).
4) non fino a quando rimane, ma fino alla distanza di soglia. Se è molto grande, rimarranno solo i punti di 1 delle classi che inizialmente erano di più.
Ma come ho scritto prima, non credo che questa rimozione del rumore sia una buona idea (vedi https://www.mql5.com/ru/forum/86386/page3324#comment_50171043). Non è che non si possa rimuovere il rumore quando si fanno le previsioni. L'albero stesso contrassegnerà le foglie rumorose dando loro una probabilità di circa il 50%, e prenderà ad esempio le foglie non rumorose con una probabilità di una delle classi >80% (o quante ne ritenete opportune).
I cluster non hanno nulla a che fare con questo. Si tratta solo di rimuovere i punti più vicini con classi diverse che si contraddicono a vicenda, ovvero il rumore. E poi si può usare il clustering, o l'albero - qualsiasi cosa si voglia addestrare.
Non riesco ancora a capire bene come funziona. Bene, tutto avviene in un unico spazio - nella metrica di un predittore, ma come prendere in considerazione gli altri?
Per quanto riguarda la previsione, pensavo di utilizzare due modelli: uno che rilevi ciò che è stato abbandonato o che confermi che i dati si trovano nella regione del "clumping", e l'altro che lavori già su ciò che è rimasto.
https://www.mql5.com/ru/articles/9138
Nessuno si preoccupa da un anno a questa parte
Ho scritto una dozzina o una ventina di algoritmi come questo, alcuni sono ben consolidati. Quello riportato nell'articolo non è il migliore in termini di stabilità dei risultati, il primo pancake.
Quindi non c'è nulla da discutere, perché non c'è ancora nulla di meglio.