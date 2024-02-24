L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2788
Si verificano molte incongruenze, compresa la rimozione degli outlier. Di solito ammontano al 10% della dimensione del set di dati, secondo diversi calcoli. Eliminato e cosa, e come scambierà il modello quando l'outlier viene catturato? )
Non si può fare nulla così, dopo aver letto libri di testo e articoli: questa è una fase separata e si chiama apprendimento. Senza una conoscenza sistematica della statistica non c'è nulla da fare nel MOE.
È sempre necessario fare, cercando di raggiungere l'obiettivo.
Se prendiamo un obiettivo intermedio - la massima capacità predittiva del predittore, allora:
1. È obbligatorio rimuovere gli outlier. Se i valori superiori allo 0,5% del quantile sono considerati outlier, gli outlier sono inferiori all'1%. A proposito, questa è la percentuale di stop attivati in futuro. Sviluppiamo il sistema di trading da soli, abbiamo limitazioni digitali.
2. La pre-elaborazione è obbligatoria, ma anche in questo caso dipende dal tipo di elaborazione. Se stiamo parlando della capacità predittiva del predittore, allora non è possibile correggere le pendenze che aumentano la capacità predittiva. Questo è un esempio. In generale, si prende un algoritmo di pre-elaborazione e si valuta il suo effetto sulla capacità predittiva. La risposta in questo caso è.
3. Tenere sempre presente il significato di MO, che a mio avviso è la ricerca di alcuni modelli. Ovviamente in RF. quale numero di pattern è contenuto, ad esempio, in 5000 barre? Oppure a partire da quale valore della finestra l'aumento del numero di pattern non riduce l'errore? Oppure, per una finestra fissa, a partire da quale valore del numero di pattern l'errore smette di diminuire?
Risposte per RF.
1. Non ha senso aumentare la finestra oltre i 1500 bar.
2. La relazione tra l'errore e il numero di modelli (alberi) è chiaramente visibile sul grafico:
Minimo 50. Generalmente da 100 a 200. Il grafico non cambia quando si aumenta la finestra fino a 5000.
È sempre necessario formulare chiaramente l'obiettivo e il criterio per raggiungerlo. Tutto il resto è bla bla.
Ho rilevato le emissioni attraverso la foresta di isolamento, le ho eliminate e il risultato dell'addestramento non è cambiato. Ho provato ad allenarmi sulle emissioni: nessun risultato. Ho l'impressione che al modello (catbust) non interessino le emissioni. Come se fossero ben riconosciute attraverso la ricerca di anomalie, ma la loro rimozione non è necessaria.
Gli outlier influenzano fortemente il potere predittivo e la stabilità del potere predittivo influenza la stabilità dell'errore di previsione.
E per il modello stesso, dipende dal modello, soprattutto se il campione di addestramento è ottenuto dal campione.
Mi è venuta in mente l'idea di un albero decisionale locale. Si tratta di un analogo di KNN o di una regressione locale (potenzialmente adatta anche alla non stazionarietà). L'idea è quella di dividere in caselle solo la casella che contiene il punto di interesse (fino ad almeno un determinato numero di punti K), senza preoccuparsi del resto delle caselle. Può essere migliore di KNN o della regressione locale se i confini tra le classi sono netti e il punto è vicino a tale confine.
Mi chiedo se questo approccio abbia senso.
Mi sembra che stiate confrontando cose incomparabili : la scalatura è una scalatura (anche multidimensionale, se volete, purché la distanza vi vada bene), e il filtraggio del rumore si può fare con le derivate (1a e 2a).-- Oppure passate alle matrici vettoriali in modo completamente non supervisionato, invece di dimostrare la significatività delle differenze di classe (etichettate) attraverso le matrici di covarianza dei dati etichettati e sfruttare ulteriormente la significatività confermata per la classificazione del soggetto di vostro interesse...
le ipotesi, signori, le ipotesi non sono un modo di calcolare, ma un oggetto di prova (o di confutazione)....
Non ho capito nulla, ma molto interessante.
qual è il valore R2 tra il vostro metodo per determinare la capacità predittiva e l'importanza delle caratteristiche dalla foresta casuale?
Ciao a tutti.
Ho una domanda: è realistico usare un hash come predittore?
Per esempio
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k
dove l'obiettivo è
1,04.
Ha senso convertirlo in qualche modo in un numero o in un'altra forma?
Quindi è un numero in notazione a 256 voci (se la stringa è codificata ANSI). Dato che gli hash hanno una lunghezza fissa, è comunque possibile rappresentarli come vettori di numeri da 0 a 255.
Vuoi craccare bitcoin?)
Cavolo,come ti rilassa il tipo di stringa che ti fa dimenticare la codifica ANSI.
No, non bitcoin, lotterie online :))))
Spiegato più volte.