L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 86

 
Mihail Marchukajtes:

Beh, diciamo che l'ha mescolato e dimezzato, allora il numero di entrambe le classi sarà lo stesso nei campioni di allenamento e di prova, no?

Se il numero di esempi di entrambe le classi non era lo stesso nel campione, allora non saranno gli stessi nella parte di test. Solo gli esempi della classe meno rappresentativa saranno dimezzati: metà di essi saranno nella parte di allenamento e l'altra metà nella parte di test. Nella parte didattica ci saranno esattamente tanti esempi della classe più rappresentativa quanti di quella meno rappresentativa. E gli esempi rimanenti della classe più rappresentativa, che non sono inclusi nella parte di allenamento, saranno inclusi nella parte di test.

Il punto è che nelle versioni precedenti non c'era alcun bilanciamento. Il campione è stato mescolato da MSRP e banalmente diviso in due parti: metà del campione va alla parte di allenamento, e l'altra metà alla parte di test. Poi mi sono imbattuto in un campione in cui gli esempi di entrambe le classi erano altamente sbilanciati. Era abbastanza ovvio che la classe più rappresentativa aveva ottimi risultati sulla generalizzabilità, mentre la classe poco rappresentativa era sotto lo zoccolo. Ho dovuto aggiungere il bilanciamento all'algoritmo separatore per sbarazzarmi di questi outlier.

 
No... è OK.... falso allarme :-)
 
SanSanych Fomenko:
Il modello viene riqualificato perché la lista dei predittori non è stata pulita dai predittori di rumore. Questo è un esempio di formazione ed è fatto come tale deliberatamente. Ecco perché lo dico con fiducia.

Ci ho pensato un po'.
La foresta ricorda i dati, questo è un fatto, e con più alberi avrà più "capacità di memoria" per ricordare. Ma se anche con un numero abbastanza grande di alberi non può ancora raggiungere il 100% di precisione, allora significa che ci sono esempi incoerenti nei dati di allenamento. Ci sono alcuni insiemi di esempi di allenamento, dove i valori dei predittori sono esattamente gli stessi, ma hanno classi diverse. Tali dati non possono mai essere previsti al 100%, anche con dati di allenamento. Quindi, il modello non può nemmeno imparare completamente, gli mancano solo i dati e quindi ha meno possibilità di riqualificarsi.
L'incoerenza negli esempi di allenamento non è nemmeno causata da un errore, ma dalla rimozione di un predittore che permetterebbe una precisione del 100%. Ma senza di esso le previsioni sui nuovi dati saranno migliori.
Regola molto interessante, possiamo usarla per fare qualche semplice metodo per la pre-stima del set di predittori per scartare alcuni set prima dell'allenamento e della crossvalidazione dei modelli.

 

Ciao!

1) Qualcuno ha provato qualcuno di questi? Qualche risultato?

2) Qualcuno ha provato a testare le strategie direttamente in R? Ho bisogno di simulare il trading in R-ka abbastanza primitivo, ma ci sono stop e altre piccole cose, esiste uno strumento che lo renda il più semplice e veloce possibile?

 
Yury Reshetov:

Dove trovo i volumi reali come dati storici? MetaTrader fornisce solo un misuratore di tick, che si chiama "volumi". Inoltre, i valori di questi contatori possono differire di ordini di grandezza in diverse cucine.

...

Ivolumi delle zecche differiscono non solo in diverse cucine, ma anche in una sola. A volte si può vedere un passo, qui c'era un flusso denso, poi bam è andato un flusso rado.

Questo è dovuto a un cambio di filtro di tek all'interno del dilling.

Domanda interessante: c'è una correlazione tra i volumi reali e i volumi in tick, e c'è una correlazione tra i volumi in tick e la dimensione della barra.

 
Nikolay Demko:

Questo significa che c'è una correlazione tra i volumi reali e le dimensioni delle barre?

naturalmente
 
mytarmailS:
naturalmente
Qual è la collocazione tra volume e barra. Il volume può essere alto e manca il corpo della candela, quindi è lo stesso sull'oborod. Il volume è piccolo e la candela è andata su.... tutto dipende dalle condizioni di mercato al momento del mercato....
 
Mihail Marchukajtes:
Qual è il significato della correlazione tra il volume e la barra. Il volume può essere alto e il corpo della candela è assente, lo stesso vale per la barra. Il volume è piccolo e la candela è cresciuta.... tutto dipende dalle condizioni di mercato al momento del mercato....

:)

Pensavo che stessimo parlando di mercati altamente liquidi, che sono i mercati dei futures e delle valute, non credo che qualcuno stia commerciando sanzioni.

http://prntscr.com/c10p51

La Fig. mostra la correlazione in una finestra scorrevole di 100, volatilità contro volume, come ricordo, un valore superiore a 0,6 è considerato una correlazione positiva significativa

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

Forse qualcuno sarà interessato, ho trovato un pacchetto che può simulare il trading e costruire sistemi di trading chiamato quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

Lo ripubblicherò, forse è solo volato.

e un altro link utilehttp://www.r-programming.org/papers

o nessuno è interessato a questi pacchetti? se no, perché? sono curioso di sapere come e dove le persone testano i loro modelli

 
mytarmailS:

Lo ripubblicherò, forse è solo volato

e un altro link utilehttp://www.r-programming.org/papers

o nessuno è interessato a questi pacchetti? se no, perché? sono curioso di sapere come e dove le persone testano i loro modelli

Tutti i pacchetti (modelli) possono essere divisi in due categorie:

  • buono in linea di principio
  • non buono in linea di principio

Le prestazioni di quei pacchetti che sono "fondamentalmente buoni" sono circa le stesse, le differenze non sono sostanziali.

Il problema non è il modello, ma l'insieme dei predittori e il loro precondizionamento. Se prendiamo un certo insieme di predittori, la possibilità di costruire un modello NON sovrallenato, così come la grandezza dell'errore è poco dipendente dal cambiamento del modello. Quindi si dovrebbe prendere il modello più semplice e veloce tra quelli che "in linea di principio si adattano".

PS.

Dalla mia esperienza personale. A me oltre il 75% dell'input di lavoro nella costruzione di TS - è la selezione dei predittori, se a tutti riesce a trovare un tale insieme per una particolare variabile target.

Motivazione: