L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3311
Chi ha provato il metodo del"Profilo di compattezza"?
L'obiettivo del metodo è eliminare gli esempi incoerenti dal campione, il che dovrebbe migliorare l'apprendimento e ridurre le dimensioni del modello se si utilizzano i metodi di apprendimento K nearest neighbour.
Non sono riuscito a trovare un'implementazione in python.....
Il lavoro è sperimentale. Ecco una citazione da http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf
Il lavoro è stato svolto nell'ambito dei progetti RFBR 05-01-00877, 05-07-90410 e del programma OMN RAS.
È improbabile che ogni esperimento sia stato creato a pacchetto.
Sì e l'esperimento è artificiale. Il rumore è stato aggiunto alla serie di dati chiaramente separati per classi. E la netta separazione è data solo da una caratteristica: l'asse delle Y. Se rimuoviamo il rumore (tutti i dati da 0,2 a 0,8), si scopre che rimangono solo esempi con una distanza da un'altra classe non inferiore a 0,6. Sto parlando della terza opzione più difficile dell'immagine:
Andare nella vita reale e aggiungere i 5000 predittori che saranno rumore a questa singola scheda di lavoro. Nel clustering si calcola la distanza totale tra i punti in questo spazio dimensionale di 5001. 0,6 non sarà mai trovato in questo caos.
Penso che qualsiasi classificatore lo farà meglio, lo stesso albero troverà questa singola caratteristica e la dividerà, prima attraverso 0,5 e poi raggiungerà spaccature di 0,2 e 0,8 seguite da foglie con il 100% di purezza.
Non lo farà mai. Qualsiasi MO non lo troverà. La spazzatura deve essere eliminata PRIMA di addestrare il modello. "Garbage in - rubbish out" è la legge della statistica.
Sto parlando di un esempio artificiale specifico su cui sono stati condotti esperimenti. Non si tratta di spazzatura in entrata e spazzatura in uscita. Ciò che è disseminato in quell'esempio è facile da eliminare.
Per chiarire il mio punto di vista.
Qualsiasi algoritmo di MO cerca di ridurre l'errore. La riduzione dell'errore è più efficace sulla spazzatura, perché è molto più probabile che abbia valori "convenienti" per la riduzione dell'errore. Di conseguenza, è certo che l'"importanza" dei predittori per la spazzatura sarà più alta che per la NON spazzatura. Per questo motivo esiste una preelaborazione, che richiede molto più lavoro dell'adattamento del modello stesso.
Mi dica, per favore, cosa non è spazzatura? Non ho mai visto nessuno parlare di dati di input puri. Ma sul forum sento parlare di spazzatura in continuazione.
Che cosa sono? Se si parla di spazzatura, allora non si è avuta spazzatura, altrimenti non c'è niente con cui confrontarla
Nessuno sa cosa sia spazzatura e cosa no, sono concetti ipotetici.
Se si sapesse esattamente cosa è cosa, non ci sarebbe un thread di 3.000 pagine.)))
Si fa semplicemente l'ipotesi che andare oltre tali limiti sia "spazzatura", anche questi limiti sono ipotetici. Ecco perché l'espressione "rubbish in - rubbish out" non è altro che una bella frase, ciò che è rubbish per un ricercatore non è rubbish per un altro ricercatore. È come le onde di Eliot.