L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3311

 
Aleksey Vyazmikin #:

Chi ha provato il metodo del"Profilo di compattezza"?

L'obiettivo del metodo è eliminare gli esempi incoerenti dal campione, il che dovrebbe migliorare l'apprendimento e ridurre le dimensioni del modello se si utilizzano i metodi di apprendimento K nearest neighbour.

Non sono riuscito a trovare un'implementazione in python.....

Lo stesso link parla di collegare il "profilo" alla validazione incrociata, per la quale potrebbe essere più facile trovare dei pacchetti.
 
Aleksey Vyazmikin #:

Chi ha provato il metodo del"Profilo di compattezza"?

L'obiettivo del metodo è eliminare gli esempi incoerenti dal campione, il che dovrebbe migliorare l'apprendimento e ridurre le dimensioni del modello se si utilizzano i metodi di apprendimento K nearest neighbour.

Non sono riuscito a trovare un'implementazione in python.....

Il lavoro è sperimentale. Ecco una citazione da http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Il lavoro è stato svolto nell'ambito dei progetti RFBR 05-01-00877, 05-07-90410 e del programma OMN RAS.

È improbabile che ogni esperimento sia stato creato a pacchetto.

Sì e l'esperimento è artificiale. Il rumore è stato aggiunto alla serie di dati chiaramente separati per classi. E la netta separazione è data solo da una caratteristica: l'asse delle Y. Se rimuoviamo il rumore (tutti i dati da 0,2 a 0,8), si scopre che rimangono solo esempi con una distanza da un'altra classe non inferiore a 0,6. Sto parlando della terza opzione più difficile dell'immagine:


Andare nella vita reale e aggiungere i 5000 predittori che saranno rumore a questa singola scheda di lavoro. Nel clustering si calcola la distanza totale tra i punti in questo spazio dimensionale di 5001. 0,6 non sarà mai trovato in questo caos.

Penso che qualsiasi classificatore lo farà meglio, lo stesso albero troverà questa singola caratteristica e la dividerà, prima attraverso 0,5 e poi raggiungerà spaccature di 0,2 e 0,8 seguite da foglie con il 100% di purezza.

 
Aleksey Vyazmikin #:

Chi ha provato il metodo del"Profilo di compattezza"?

L'obiettivo del metodo è eliminare gli esempi incoerenti dal campione, il che dovrebbe migliorare l'apprendimento e ridurre le dimensioni del modello se si utilizzano i metodi di apprendimento K nearest neighbour.

Non sono riuscito a trovare un'implementazione in python....

Uno degli articoli di Vladimir Perervenko descriveva tale metodo, e c'era un esempio con codice, ovviamente
 
Forester #:

Il lavoro è sperimentale. Ecco una citazione da http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

È improbabile che ogni esperimento sia stato creato come un pacchetto.

Oh, e l'esperimento è artificiale. Il rumore è stato aggiunto alla serie di dati chiaramente separati per classi. E la chiara separazione è solo per una caratteristica: l'asse Y. Se rimuoviamo il rumore (tutti i dati da 0,2 a 0,8), si scopre che rimangono solo gli esempi con una distanza da un'altra classe non inferiore a 0,6. Intendo la terza variante più complicata dell'immagine:


Andate nella vita reale e aggiungete i vostri 5000 predittori che saranno rumore a questa singola scheda di lavoro. Nel clustering si calcola la distanza totale tra i punti in questo spazio dimensionale di 5001. 0,6 non sarà mai trovato in questo caos.

Penso che qualsiasi classificatore lo farà meglio, lo stesso albero troverà questa singola caratteristica e la dividerà, prima attraverso 0,5 e poi raggiungerà spaccature di 0,2 e 0,8 seguite da foglie con il 100% di purezza.

Non lo farà mai. Qualsiasi MO non lo troverà. La spazzatura deve essere eliminata PRIMA di addestrare il modello. "Garbage in - rubbish out" è la legge della statistica.

 
СанСаныч Фоменко #:

Non lo farà mai. Qualsiasi IO non lo troverà. Bisogna eliminare la spazzatura PRIMA di addestrare il modello. "Garbage in, rubbish out" è la legge della statistica.

Sto parlando di un esempio artificiale specifico su cui sono stati condotti esperimenti. Non si tratta di spazzatura in entrata e spazzatura in uscita. Ciò che è disseminato in quell'esempio è facile da eliminare.

 
È proprio questo che gli ottimizzatori non riescono a capire. È attraverso la semplificazione che si può migliorare la stabilità, non attraverso la ricerca di un massimo globale.
L'esempio più semplice è SVM, con una determinata distanza tra i vettori di supporto. L'albero incrociato è ancora più flessibile. E qui si vedrà, e poi si può entrare in matstat per un mezzo foglio.
Se non puoi entrare in kozul dall'inizio, puoi pensare a questo livello per cominciare.

Offtopic: hai giocato a starfield? Besdazd sa come creare atmosfere. È immersivo.
 
Forester #:

Sto parlando dello specifico esempio artificiale su cui sono stati condotti gli esperimenti. Non si tratta di un'entrata e di un'uscita di rifiuti. Ciò che è noto in questo esempio è facile da tagliare.

Per chiarire il mio punto di vista.

Qualsiasi algoritmo di MO cerca di ridurre l'errore. La riduzione dell'errore è più efficace sulla spazzatura, perché è molto più probabile che abbia valori "convenienti" per la riduzione dell'errore. Di conseguenza, è certo che l'"importanza" dei predittori per la spazzatura sarà più alta che per la NON spazzatura. Per questo motivo esiste una preelaborazione, che richiede molto più lavoro dell'adattamento del modello stesso.

 
СанСаныч Фоменко #:

Permettetemi di chiarire il mio punto di vista.

Qualsiasi algoritmo MO cerca di ridurre l'errore. La riduzione dell'errore è più efficace nella spazzatura, perché i valori "convenienti" per la riduzione dell'errore sono molto più comuni nella spazzatura. Di conseguenza, è certo che l'"importanza" dei predittori per la spazzatura sarà più alta che per la NON spazzatura. Per questo motivo esiste la preelaborazione, che richiede molto più lavoro dell'adattamento del modello stesso.

Mi dica, per favore, cosa non è spazzatura? Non ho mai visto nessuno parlare di dati di input puri. Ma sul forum sento parlare di spazzatura in continuazione.

Che cosa sono? Se si parla di spazzatura, allora non si è avuta spazzatura, altrimenti non c'è niente con cui confrontarla

 
СанСаныч Фоменко #:

Permettetemi di chiarire il mio punto di vista.

Qualsiasi algoritmo MO cerca di ridurre l'errore. La riduzione dell'errore è più efficace nella spazzatura, perché i valori "convenienti" per la riduzione dell'errore sono molto più comuni nella spazzatura. Di conseguenza, è certo che l'"importanza" dei predittori per la spazzatura sarà più alta che per la NON spazzatura. Per questo motivo esiste la preelaborazione, che richiede molta più manodopera dell'adattamento effettivo del modello.

La preelaborazione riguarda la normalizzazione, non i rifiuti.
I detriti sono la selezione delle caratteristiche e in parte l'ingegneria delle caratteristiche.

Sanych, smetti di immettere spazzatura nell'input di persone immature.
 
Ivan Butko #:

Potete dirmi per favore cosa non è spazzatura? Non ho mai visto nessuno parlare di dati di input puliti. Ma sento parlare di spazzatura in continuazione sul forum.

Che cosa sono? Se si parla di spazzatura, allora non si è avuta spazzatura, altrimenti non c'è niente con cui confrontarla

Nessuno sa cosa sia spazzatura e cosa no, sono concetti ipotetici.

Se si sapesse esattamente cosa è cosa, non ci sarebbe un thread di 3.000 pagine.)))

Si fa semplicemente l'ipotesi che andare oltre tali limiti sia "spazzatura", anche questi limiti sono ipotetici. Ecco perché l'espressione "rubbish in - rubbish out" non è altro che una bella frase, ciò che è rubbish per un ricercatore non è rubbish per un altro ricercatore. È come le onde di Eliot.

Motivazione: