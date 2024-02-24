L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3388
Perché un gran numero di segni è malvagio? Un grafico interessante tratto da un libro su Kozulu.
Probabilità di trovare lo stesso esempio nel campione di addestramento, a seconda del numero di caratteristiche.
Non è chiaro. Probabilità di trovare lo stesso esempio del campione di addestramento?
Nulla è chiaro. Probabilità di trovare dove si trova lo stesso esempio del campione di allenamento?
la stessa riga nel dataset
se si hanno solo 1.000 righe
In linea di massima, se si hanno più di 18 caratteristiche, si sta addestrando un classificatore a ricordare ogni riga, perché non si ripetono neppuree nell'inferenza causale non è possibile abbinare gli esempi per calcolare le statistiche.
1. Come si ottiene questa matrice? Quali sono i numeri presenti?
2. Sto parlando di regole. Nel mio approccio non mi interessa come e da cosa deriva la regola, ma se la risposta è simile a un'altra nel campione di addestramento, non porta informazioni aggiuntive.
Se si hanno più di 14 (e anche 10) caratteristiche, si ottengono molte regole che non possono essere ridotte senza perdite.
Tutto ciò rientra nel campo dell'occasionalità...
All'interno di neuronics si utilizzano algoritmi di compressione efficienti, come sec2sec, quindi anche questo è vero.
Se parliamo di testo, nel 95% dei casi viene utilizzato il consueto contatore di parole, come ad esempio: quante volte una parola si è presentata in questa osservazione? 0, 1, 103..
.
Sono architetture diverse, torte a strati. È difficile fare un confronto. Stiamo parlando di una normale classificazione o regressione. In questo caso sembra una legge universale.
Oh, mi ricordo, si chiama "bagaglio di parole".
Cosa c'è di nuovo, di sconosciuto, di incomprensibile, di complicato?
La stessa tabella di segni + qualsiasi MO
Si tratta di lavorare con dati non strutturati (testo) per poi tradurli in una struttura di parole e poi in qualsiasi altra cosa si voglia.
È tutto uguale.
La questione è diversa. Indipendentemente dalla loro trasformazione, la dimensionalità del vettore di ingresso deve essere inferiore alla soglia specificata, altrimenti non è possibile rilevare un modello. Quelli categorici hanno probabilmente un limite maggiore alla lunghezza del vettore. Inoltre, bisogna tenere conto della dipendenza dal numero di righe. Su dati enormi, il numero di caratteristiche può essere maggiore.