L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 364

 
Vladimir Perervenko:

Guarda qui.

Quando si valuta l'importanza dei predittori, è importante ricordare che si tratta di una quantità complessa, non determinata dai soli criteri di informazione. e


A mio modo di pensare, l'importanza del predittore determinata sia con mezzi integrati nell'algoritmo di base che con mezzi separati, non risolve il problema, perché questa importanza è in realtà la frequenza di utilizzo del predittore per la classificazione. Se i predittori includono gli anelli di Saturno, i fondi di caffè, l'algoritmo userà anche questi predittori.


Ho scritto molte volte su questo thread e su altri thread che i predittori devono "relazionarsi" alla variabile obiettivo.

Vi faccio di nuovo un esempio.

La variabile obiettivo è maschio/femmina

Predittore: abbigliamento.

Per i paesi con costumi rigidi, se il predittore consiste in pantaloni e gonne, si divide in due sottoinsiemi non sovrapposti, ognuno dei quali identifica in modo univoco la variabile target, cioè l'errore di classificazione è zero.

Se cominciamo a includere nel predittore l'abbigliamento unisex o in stile scozzese, allora c'è una sovrapposizione, che è ciò che determina l'errore di classificazione. Non c'è modo di sbarazzarsi di questo errore in linea di principio.


Questi non sono solo i miei pensieri, ma in questo thread ho dato riferimenti a pubblicazioni con pensieri simili.

 
SanSanych Fomenko:


Per quanto mi riguarda, l'importanza dei predittori, determinata con mezzi incorporati nell'algoritmo di base o con mezzi separati, non risolve il problema, perché questa importanza è in realtà la frequenza di utilizzo di un predittatore nella classificazione. Se i predittori includono gli anelli di Saturno, i fondi di caffè, l'algoritmo userà anche questi predittori.


Ho scritto molte volte su questo thread e su altri thread che i predittori devono "relazionarsi" alla variabile obiettivo.

Vi farò di nuovo un esempio.

La variabile obiettivo è maschio/femmina

Predittore: abbigliamento.

Per i paesi con costumi rigidi, se il predittore consiste in pantaloni e gonne, si divide in due sottoinsiemi non sovrapposti, ognuno dei quali identifica in modo univoco la variabile target, cioè l'errore di classificazione è zero.

Se cominciamo a includere nel predittore l'abbigliamento unisex o in stile scozzese, c'è una sovrapposizione, che determinerà l'errore di classificazione. Non c'è modo di sbarazzarsi di questo errore in linea di principio.


Questi non sono solo i miei pensieri, ma in questo thread ho fornito link a pubblicazioni con pensieri simili.

La verità è una, ci sono un milione di strade per raggiungerla.

Ognuno ha diritto alla propria strada. La cosa principale è che non deve portare a un vicolo cieco.

Buona fortuna

 
Maxim Dmitrievsky:


Ma credo che sia possibile fare un buon dispositivo auto-ottimizzante che non funzionerà perfettamente per sempre, ma occasionalmente darà

Ma è chiaro che non sarà su indicatori standard e un'uscita a zig zag :) A me sembra addirittura un gioco da ragazzi, solo come esempio, se non altro.

Lo spero anch'io, ma sono lontano dalle illusioni, che avevo 3 anni fa, che può essere fatto configurando una dozzina di parametri, classificatori di biblioteca popolare. Si è rivelato molto non banale e lento, soprattutto la sera dopo il lavoro(((

ZZ è un brutto bersaglio, sono completamente d'accordo.

 
Vladimir Perervenko:

Quando si valuta l'importanza dei predittori, è importante ricordare...

... l'importanza dei predittori può essere determinata dai loro pesi nel primo strato

elibrario:

l'algoritmo per calcolare l'importanza in questa funzione

Lo faccio in due passi, prima mi occupo di caratteristiche PCA linearmente correlate, per esempio, e poi costruisco un ricco modello non lineare, per esempio foresta o XGB, passo attraverso le caratteristiche (PCA compressa) e schianto quelle senza le quali il calibro diminuisce meno
 

Installato Open R, installato tutti i pacchetti, VS 2017 si blocca ancora quando si crea un progetto R

I progetti Python funzionano bene

Ha eliminato R Studio e R 3.4, lasciando solo Open R, e funziona) A quanto pare, sono in conflitto.

E non ha senso in R Studio, è lo stesso


 
Avrebbe senso costruire una correlazione tra le variabili di input e l'obiettivo prima dell'allenamento? E rimuovere i più non correlati, per accelerare il calcolo e aumentare il grado di apprendimento?
 
elibrario:
Ha senso costruire una correlazione tra le variabili di input e l'obiettivo prima dell'allenamento? E rimuovere i più non correlati, per accelerare il calcolo e aumentare il grado di apprendimento?
In realtà, dovresti rimuovere gli ingressi correlati :) Se avete input correlati all'obiettivo, allora è un graal e non avete bisogno di NS)))
 
Una volta c'è un software interessante su internet. Voi fate mentalmente un puzzle di un personaggio popolare o di una personalità e il computer, facendovi domande specifiche, può prevedere il vostro pensiero con alta probabilità. È così che dovrebbe funzionare una rete neurale. Il giusto interrogatorio. È qui che si trova il mistero.
 
elibrario:
Avrebbe senso costruire una correlazione tra le variabili di input e l'obiettivo prima dell'allenamento? E rimuovere i più non correlati, per accelerare il calcolo e aumentare il grado di apprendimento?

Non è la correlazione delle variabili con l'obiettivo che deve essere controllata (dovrebbe esserlo), ma la mancanza di correlazione tra le variabili che non dovrebbe esserlo (multicollinearità).
 
Dmitry:

Non dovremmo controllare la correlazione delle variabili con l'obiettivo (dovrebbe esserci), ma dovremmo controllare l'assenza di correlazione tra le variabili - non dovrebbe esserci (multicollinearità).

Ho già fatto la rimozione degli ingressi correlati, mi sto solo chiedendo come altro migliorare gli ingressi.

Quindi, sono d'accordo con te che ci dovrebbe essere una correlazione con l'obiettivo, è per questo che voglio rimuovere ulteriormente gli input più non correlati con l'obiettivo, per esempio con Kcorr<0,5 o 0,3. Questo dovrebbe accelerare il processo di apprendimento senza influenzare troppo la qualità. Ma c'è il presupposto che dovrò rimuovere tutti gli input )))

Sugli input utilizzati (presi a caso dagli indicatori tecnici), finora non ho trovato alcuna correlazione con l'obiettivo, errore di apprendimento = 0,44, cioè quasi una moneta. Beh, l'equilibrio sta scendendo.