L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 496

 
Ildottor Trader:

La foresta può estrapolare? Sì.
Lo fa bene? No.


Cosa è buono e cosa è cattivo?

Avete un'analisi comparativa dei diversi modelli? E dall'inizio: con l'idoneità di particolari predittori per un particolare obiettivo, con l'idoneità di un particolare insieme di predittori per un particolare modello, e poi la valutazione con un'esecuzione obbligatoria su un file al di fuori dei file di allenamento? Con la giustificazione che i modelli non sono sovrallenati.


Con tutto questo sarà possibile giudicare cosa è buono e cosa è cattivo per un particolare insieme di predittori e di obiettivi. Allo stesso tempo si dovrebbe capire che è probabile che ci sia un diverso insieme di predittori e un obiettivo che darà un risultato diverso.


Per il mio caso particolare, ho fatto tale lavoro. Ho postato il risultato diverse volte su questo thread. Ordine dei modelli, in ordine decrescente: ada, rf, SVM. Il peggiore è NS, ma è una versione antica, non ho usato quelle moderne. Tutto questo è soggetto alle condizioni di cui sopra.

 
Ildottor Trader:

Ecco un esempio interessante, l'ho postato in questo thread qualche tempo fa.
L'estrapolazione in questo caso sarebbe prevedere al di fuori della "nuvola di punti noti"

Se i punti noti sono ben raggruppati, possiamo vedere che l'estrapolazione non è un problema per la maggior parte dei modelli.
Ma se i punti noti fossero disposti in modo più casuale, senza cluster evidenti, allora la previsione stessa sarebbe peggiore e l'estrapolazione non sarebbe credibile.

È tutta una questione di predittori, se metti della spazzatura nel modello non puoi davvero estrapolare bene.
E non farei mai trading su dati finanziari utilizzando l'estrapolazione.


L'estrapolazione è una previsione su punti sconosciuti, se i punti sono al di fuori del massimo e del minimo del campione di allenamento, allora RF produrrà sempre il massimo e il minimo dal campione allenato

sei solo confuso con l'approssimazione mb?

 
Ildottor Trader:

Ecco un esempio interessante, l'ho postato in questo thread qualche tempo fa.
L'estrapolazione sarebbe prevedere al di fuori della "nuvola di punti noti".

Se i punti noti sono ben raggruppati, allora possiamo vedere che l'estrapolazione non è un problema per la maggior parte dei modelli.
Ma se i punti noti fossero disposti in modo più casuale, senza cluster evidenti, allora la previsione stessa sarebbe peggiore e l'estrapolazione non sarebbe credibile.

È tutta una questione di predittori, se metti della spazzatura nel modello non puoi davvero estrapolare bene.
E non farei mai trading su dati finanziari utilizzando l'estrapolazione.


La questione della fiducia nelle statistiche in generale è filosofica.

Ecco la classificazione.

La nozione stessa di estrapolazione si applica ad essa? Non per me. La classificazione trova dei modelli e poi cerca di distribuire i nuovi dati secondo questi modelli.


Estrapolazione in modelli analitici che hanno qualche funzione in forma analitica.


E ARIMA? C'è un'estrapolazione? Dipende da cosa. Il modello stesso prende le ultime battute, di solito una sola. Ma la selezione dei parametri richiede migliaia di barre. Questo mille è estrapolato e quello che era nell'ultimo calcolo non lo è.


Non credo che l'estrapolazione nel suo senso matematico sia applicabile ai mercati finanziari.

 
SanSanych Fomenko:

La questione della fiducia nelle statistiche in generale è filosofica.

Ecco la classificazione.

La nozione stessa di estrapolazione si applica ad essa? Non per me. La classificazione trova dei modelli e poi cerca di distribuire i nuovi dati secondo questi modelli.


Estrapolazione in modelli analitici che hanno qualche funzione in forma analitica.


E ARIMA? C'è un'estrapolazione? Dipende da cosa. Il modello stesso prende le ultime battute, di solito una sola. Ma la selezione dei parametri richiede migliaia di barre. Questo mille è estrapolato e quello che era nell'ultimo calcolo non lo è.


Non credo che l'estrapolazione nel suo senso matematico sia applicabile ai mercati finanziari.


L'estrapolazione in MO è la capacità di un modello di lavorare su nuovi dati, ed è un tipo speciale di approssimazione. Su un campione di allenamento il tuo modello APPROFONDISCE, su nuovi dati non presenti nel campione di allenamento EXTRAPOLISCE.

Ecco perché ho fatto un esempio con la regressione lineare rispetto a XGboost, che non hai letto attentamente, la regressione lineare estrapola perfettamente, mentre tutto ciò che riguarda gli alberi decisionali NON può estrapolare a causa della struttura degli alberi decisionali

 

Laregressione lineare in generale esiste e in particolare estrapola SOLO su serie stazionarie con residui normalmente distribuiti dal modello. Ci sono un gran numero di limitazioni alla sua applicazione che rendono questo tipo di modello inutile per le serie finanziarie.

O si entra nell'APPLICABILITÀ dei modelli ai suoi dati specifici, allora si tratta di modellazione, in tutti gli altri casi è un gioco di numeri.

Un numero enorme di post in questo thread sono giochi di numeri, dato che non viene data alcuna prova per dimostrare il contrario.

 
SanSanych Fomenko:

Laregressione lineare in generale esiste e in particolare estrapola SOLO su serie stazionarie con residui normalmente distribuiti dal modello. Ci sono un gran numero di limitazioni alla sua applicazione che rendono questo tipo di modello inutile per le serie finanziarie.

O si entra nell'APPLICABILITÀ dei modelli ai suoi dati specifici, allora si tratta di modellazione, in tutti gli altri casi è un gioco di numeri.

Un numero enorme di post in questo thread è un gioco di numeri, dato che non viene data alcuna prova per dimostrare il contrario.


Cosa c'entra la regressione lineare? La domanda era come usare correttamente l'impalcatura per evitare di fare errori stupidi, come pensare di poter EXTRAPOLISH.

Si alimenta la foresta come una serie temporale sotto forma di quotazioni, e il modello predirà solo il valore massimo e minimo della serie studiata, se va oltre l'intervallo

 
Aliosha:

Che pasticcio, signori...

un po' di informazioni da KO:


Nei mercati finanziari, l'estrapolazione/interpolazione è applicabile e molto richiesta.


Se è "applicabile e richiesto", allora perché non hai fatto un TS di successo in tutti questi anni?

P.S. Sento abbaiare un gatto... Bene, credo che Alyosha abbia scritto di nuovo qualcosa!

 
Aliosha:

Che pasticcio, signori...

un po' di informazioni da KO:

Estrapolazione e interpolazione nel contesto del MO sono la stessa cosa! In entrambi i casi hai bisogno di ottenereil valore (int, float[]) di un punto che NON è lo stesso del punto nel dataset di allenamento. Riserve sulla posizione del punto nell'iperspazio, rispetto a una nuvola di punti di formazione, è IMPOSSIBILE, poiché tutto dipende dalle caratteristiche, la struttura dello spazio delle caratteristiche, in una proiezione sarà un punto "fuori" la nuvola di formazione, in un altro "dentro" non è importante, ha senso solo ciò che non è in formazione, punto.

Per riassumere: se il punto non è nel set di dati di addestramento, il risultato della sua classificazione o regressione, sarà sia estrapolazione che interpolazione, a seconda dell'interpretazione finale del risultato da parte del soggetto, ma per l'algoritmo MO, QUESTA È LA STESSA COSA.

Forest estrapola - grande! Nelle mani giuste, meglio e ordini di grandezza più veloce di NS.

Nei mercati finanziari, l'estrapolazione/interpolazione è applicabile e molto richiesta.


Un consiglio a parte per Maxim: una persona intelligente si sbaglia più spesso di uno stupido, perché fa molte più prove, ma solo lo stupido è emotivamente attaccato al suo punto di vista ed è difficile per lui separarsene. Scegli chi sei)))


Ok, dammi un esempio di almeno 1 articolo con un esempio che mostri come l'impalcatura estrapola bene. Non ne ho trovato nessuno.

che a mio parere non è grande.

e come farai a sapere quando il punto è dentro e quando è fuori dalla nuvola, quando hai un sacco di caratteristiche diverse, e come è importante quando la gamma di valori del bersaglio in formazione, quando tutti gli alberi sono costruiti allora il bersaglio non può MAI lasciare questa gamma


 
Maxim Dmitrievsky:

la regressione lineare è eccellente nell'estrapolazione, mentre qualsiasi cosa con gli alberi decisionali NON PUÒ estrapolare

L'estrapolazione comporta la previsione di nuovi dati oltre i valori del predittore conosciuti durante l'addestramento.

Ecco un pezzo di una vecchia immagine, tutto il verde sfumato è l'estrapolazione, e l'immagine mostra che la foresta può farlo, altrimenti sarebbe colorata di bianco (come nel caso di alcuni modelli SVM)


Sia la foresta che la rete neurale e il modello lineare possono estrapolare. Se si vuole predire lontano dai valori conosciuti, allora tutti questi modelli daranno una predizione e tutti hanno un qualche tipo di algoritmo per questi casi.

Ma perché pensi che se un modello lineare estrapola usando la formula y=ax+b lo farà perfettamente ma se la foresta lo fa usando il vicino conosciuto più vicino è inutile? Entrambi questi algoritmi hanno il diritto di esistere. Come ha detto SanSanych - per ogni set di predittori e obiettivi di condurre ricerche e confrontare i modelli, solo allora si può dire se il modello fa estrapolazione perfettamente.
Ciò che è scritto negli articoli sull'hubra - si applica anche a predittori e obiettivi specifici, non è la verità che funziona per tutti i casi, è uno studio specifico per un caso particolare.

 
Ildottor Trader:

L'estrapolazione implica la previsione di nuovi dati oltre i valori dei predittori conosciuti durante l'allenamento.

Ecco un pezzo di una vecchia immagine, tutto ciò che è ombreggiato in verde è estrapolazione, e a giudicare dall'immagine la foresta può farlo, altrimenti tutto sarebbe colorato in bianco (come nel caso di alcuni modelli SVM)


Sia la foresta che la rete neurale e il modello lineare possono estrapolare. Se si danno dati lontani dai valori noti per una predizione, tutti questi modelli daranno una predizione, hanno tutti degli algoritmi per questi casi.

Ma perché pensi che se un modello lineare estrapola usando la formula y=ax+b allora lo fa perfettamente, ma se la foresta lo fa usando il vicino conosciuto più vicino allora non può fare nulla? Entrambi questi algoritmi hanno il diritto di esistere. Come ha detto SanSanych - per ogni set di predittori e obiettivi da ricercare e confrontare i modelli, solo allora si può dire se il modello fa estrapolazione perfettamente.
Ciò che è scritto negli articoli su hubra - si applica anche a predittori e obiettivi specifici, non è una verità che funziona per tutti i casi, è un caso di studio specifico.


Basta fare uno studio sugli alberi.


Motivazione: