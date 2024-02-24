L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3254
sarebbe efficiente leggere l'SQL?
mai nella mia vita
....
Prova apache Arrow o DuckDB.
ma comunque la RAM è il modo più veloce.
.....
Il problema in sé è risolto attraverso G... brutto, il tuo problema è la matrice cor. che non è necessaria.
Esiste una funzione di calcolo della doppia correlazione in alglib. Credo che basti cambiare tutte le variabili in char/uchar e tutto funzionerà. Ci sono decine di altre funzioni usate che dovrebbero essere rifatte. E da CMatrixDouble dovremmo passare ad array dinamici o a qualcos'altro.
//| INPUT PARAMETERS: |
//| X - array[N,M], sample matrix: |
//| * J-th column corresponds to J-th variable |
//| * I-th row corresponds to I-th observation |
//| N - N>=0, number of observations: |
//| * if given, only leading N rows of X are used |
//| * if not given, automatically determined from input |
//| size |
//| M - M>0, number of variables: |
//| * if given, only leading M columns of X are used |
//| * if not given, automatically determined from input |
//| size |
//| OUTPUT PARAMETERS: |
//| C - array[M,M], correlation matrix (zero if N=0 or N=1) |
//+------------------------------------------------------------------+
static bool CBaseStat::PearsonCorrM(const CMatrixDouble &cx,const int n,
const int m,CMatrixDouble &c)
E se avete un programma fatto in casa, dovrete fare anche la quantizzazione, se non avete un pacchetto già pronto che la faccia.
Credo di essere stupido... è molto veloce calcolare con Nampai) è lungo e richiede molta memoria calcolare con Panda. Ricontrollerò tutto più tardi.
nessun modello, i modelli sono ricercati dalla matrice di corr.
Forse c'è qualcosa che non capisco.
Pattern = un insieme di campioni con un'elevata correlazione tra loro.
Ci possono essere molti pattern di questo tipo nell'intero set di dati, ciascuno con un numero diverso di coincidenze nella storia.
Senza una matrice, non si troverà nulla, oppure si sceglierà una parte frammentata di essa, e io sto contando tutte le possibili varianti.Quindi bisogna prendere ogni riga e calcolare la correlazione con tutte le altre righe, ottenendo così una matrice.
In generale, è simile al clustering.
Qui la somiglianza degli esempi è massimizzata.
.
La classificazione/regressione ad albero massimizza la somiglianza futura di questi esempi. Peggiora la somiglianza passata.
Anche io ho fatto una cosa simile molto tempo fa, ora con i nuovi pensieri la sto rifacendo
Abbiamo dei dati tridimensionali.
Una riga è un'osservazione, una colonna è un tratto.
La prima riga è il dato più recente.
Possiamo calcolare la correlazione dell'ultima riga con ciascuna delle altre righe.
E otteniamo questo "modello di somiglianza" tra l'ultima riga/corrente e la storia.
È possibile eseguire il clustering e ottenere qualcosa di simile.
Ma non capisco perché dobbiamo contare l' intera matrice di correlazione se ci serve solo lo stato delle cose rispetto all'ultima riga corrente non capisco.
Qual è la profondità di pensiero qui?
Abbiamo bisogno di tutti i pattern o di quello che corrisponde alla situazione attuale e all'ultima osservazione?
Non c'è una situazione attuale, è solo una ricerca storica.
Poi si ordinano i modelli in base alle proprie metriche, quindi si cuciono i migliori nel bot.
devi ancora esaminarli tutti e scegliere i migliori da verificare con i nuovi dati.#32456