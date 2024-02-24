L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3388

Maxim Dmitrievsky #:

Perché un gran numero di segni è malvagio? Un grafico interessante tratto da un libro su Kozulu.

Probabilità di trovare lo stesso esempio nel campione di addestramento, a seconda del numero di caratteristiche.

Non è chiaro. Probabilità di trovare lo stesso esempio del campione di addestramento?

Aleksey Vyazmikin #:

Nulla è chiaro. Probabilità di trovare dove si trova lo stesso esempio del campione di allenamento?

la stessa riga nel dataset

se si hanno solo 1.000 righe

In linea di massima, se si hanno più di 18 caratteristiche, si sta addestrando un classificatore a ricordare ogni riga, perché non si ripetono neppure

e nell'inferenza causale non è possibile abbinare gli esempi per calcolare le statistiche.
 
Aleksey Vyazmikin #:

1. Come si ottiene questa matrice? Quali sono i numeri presenti?

2. Sto parlando di regole. Nel mio approccio non mi interessa come e da cosa deriva la regola, ma se la risposta è simile a un'altra nel campione di addestramento, non porta informazioni aggiuntive.

1. qualsiasi valore di caratteristica

2. Vi sorprenderò: a nessuno interessa come sono state create le caratteristiche, tutti valutano le caratteristiche in base alla sola risposta.
 
Maxim Dmitrievsky #:

Se si hanno più di 14 (e anche 10) caratteristiche, si ottengono molte regole che non possono essere ridotte senza perdite.


Tutto questo all'interno di un modello casuale.
Nei modelli con caratteristiche non strutturate (testo, immagini).
Qualche migliaio di attributi è la norma.
All'interno di neuronics si utilizzano algoritmi di compressione efficienti, come sec2sec, quindi anche questo è vero.

 
Maxim Dmitrievsky #:

Utilizza algoritmi di compressione efficienti all'interno di neuronics, come sec2sec, quindi è anche corretto.

Se parliamo di testo, nel 95% dei casi utilizza il consueto conteggio delle parole: quante volte una parola si è presentata in una determinata osservazione? 0, 1, 103..

Per fare in modo che la matrice delle caratteristiche occupi meno spazio, viene mantenuta nel formato di "matrice rada", che è favorevole perché il 95% dei valori della matrice sono zeri.

Le immagini sono di convoluzione.

E seq2seq è esotico per un problema raro.
Sono architetture diverse, torte a strati. È difficile fare un confronto. Stiamo parlando di una normale classificazione o regressione. In questo caso sembra una legge universale.

 
Maxim Dmitrievsky #:

Si tratta di altre architetture, di torte a strati. È difficile fare un confronto. Stiamo parlando di classificazione o regressione ordinaria. In questo caso, sembra una legge universale.

È tutta la stessa cosa.

Non sto parlando di neuroni, ma della struttura del feedforward.

----------------------------------------------------------------------

Oh, mi ricordo, si chiama "bagaglio di parole".



Cosa c'è di nuovo, di sconosciuto, di incomprensibile, di complicato?


La stessa tabella di segni + qualsiasi MO


Si tratta di lavorare con dati non strutturati (testo) per poi tradurli in una struttura di parole e poi in qualsiasi altra cosa si voglia.

Questo è un argomento diverso. Indipendentemente dalla trasformazione, la dimensionalità del vettore di input deve essere inferiore alla soglia specificata, altrimenti non sarà possibile determinare un modello. Quelli categorici hanno probabilmente un limite maggiore alla lunghezza del vettore. Inoltre, bisogna considerare la dipendenza dal numero di righe. Su dati enormi, il numero di caratteristiche può essere maggiore.
 
Maxim Dmitrievsky #:
Che altro)))
Tutto il mondo lo fa e tutti sono felici))
