Dalla teoria alla pratica. Parte 2
Aleksey Nikolayev, 2021.05.05 22:38
In parole povere, la miscelazione indebolisce la dipendenza ma non la elimina completamente.
Infatti, la dipendenza probabilistica è la parte più importante del teorema in termini di applicazioni pratiche.
Quando ho guardato un corso teorico su youtube al MIT per ingegneri, era tutto su questo.
Intendi il coefficiente di determinazione r2?
O qualcos'altro per dipendenza di probabilità?
Prendo in considerazione r2 in tempo reale, per stimare la "forza di influenza" della variabile x su y
sorprendentemente su alcune serie di valute, si mantiene abbastanza costantemente a valori elevati
La sola probabilità non è sufficiente? Se è la teoria della probabilità...
Volevo chiarire quale criterio di valutazione era inteso in questo contesto.
Se la correlazione convenzionale, poi con r2 hanno una differenza di calcolo, corrispondentemente diverse stime.
In statistica, di solito raccomandano di usare r2 come più affidabile.
e letteralmente dieci minuti dopo
La dipendenza dalla probabilità (stocastica) è uno dei concetti più importanti per i teorici e i matematici. Il concetto è definito (tramite la probabilità condizionata) prima per gli eventi casuali, e poi trasferito alle variabili casuali, sotto forma di una distribuzione condizionata. La dipendenza è la non conformità della distribuzione condizionata con la distribuzione incondizionata, mentre l'indipendenza è la loro coincidenza. Una spiegazione popolare della dipendenza è - Sapere che valore ha un c.c. porta informazioni sul valore dell'altro c.c. La dipendenza si trova tra i suoi due stati estremi - l'indipendenza e la rigida connessione funzionale.
Il senso generale è che iniziamo sempre con una distribuzione congiunta di variabili casuali, sulla base della quale si costruiscono tutti i tipi di metriche di dipendenza specifiche. Queste possono essere copule, entropia reciproca, correlazione, ecc.
Correlazione, R2, ecc. sono ragionevolmente applicabili solo quando la distribuzione congiunta è normale multivariata. In pratica, si applicano anche (per semplicità) quando la normalità non è certa, ma allora la loro utilità è determinata solo dall'esperienza.
Ah questa è una distribuzione complicata, me ne dimentico sempre ))
Quindi tutti i modelli statistici richiedono questo criterio?
E siccome non c'è normalità nelle serie dei prezzi, inizia la tortura di preparare i dati,
per avvicinarli in qualche modo a una distribuzione normale, senza perdere le proprietà originali.
Da questo segue il problema di come preparare questi dati.
La standardizzazione, il cusum, la derivazione, ecc. come la intendo io non porta a risultati di qualità.
Quindi iniziano a dimagrire o qualcosa del genere. Quali sono i metodi in generale?
Così ancora una volta arrivo alla conclusione che la preparazione dei dati qualitativi per i modelli statistici è un enorme argomento di studio.
Ho cercato tutorial su questo argomento, ma non ho trovato nulla, bigdata, MO, neuronka sono ovunque, ma come preparare i dati qualitativi per loro, per qualche motivo non è divulgato.
Non riesco a capire la seguente anomalia, perché questo accade.
Ho calcolato un modello ortogonale, che dovrebbe essere migliore del MNC.
Ho ottenuto i coefficienti di partenza.
Poi i parametri del modello (coefficienti) sono aggiustati dall'algoritmo mediano, cioè una sorta di robustezza contro gli outlier.
Il modello descrive qualitativamente la serie iniziale.
In blu - serie originale.
Il grigio è il modello.
Ma su una delle sezioni della storia, osservo una divergenza che converge ulteriormente a quella esatta come nello screenshot qui sopra
Non riesco a vedere la verità, perché succede? E cosa vi contribuisce?
I coefficienti sono ricalcolati ad ogni passo e dovrebbero adattarsi (x) a (y)
È un errore di adattamento? Capisco che ci possa essere un errore in uno o due o anche tre passi di calcolo,
ma sembra strano che l'errore debba durare così a lungo. Forse non è un errore di montaggio? È qualcos'altro?
Posso solo consigliare di trovare qualche pacchetto statistico che implementi il tuo modello (o simile ad esso) e vedere come si comporta con i tuoi dati. Questo può aiutarvi a capire se il problema è un modello difettoso o un errore di implementazione.
Poiché non c'è normalità nelle serie dei prezzi, il tortuoso compito di preparare i dati,
, è quello di approssimare in qualche modo una distribuzione normale senza perdere le proprietà originali.
Grazie per l'idea, non ci avevo pensato.
Logaritmo degli incrementi - non va bene?
Sì, questo è fondamentalmente quello che sto facendo come opzione più o meno buona.
Su un altro modello simile a volte osservo anche piccole divergenze, come la divergenza.
Ma non così prolungato come nello screenshot qui sopra, ma abbastanza breve. Mi sono chiesto perché succede così.
Ho provato questo modello e ho visto una divergenza ancora più prolungata.
Quindi non capisco da dove viene questa divergenza. Un modello non corretto o dati sorgente di bassa qualità.
Non capisco la logica delle azioni.
O dovrei aggiustare i dati iniziali approssimativamente al normale,
o dovrei spalare diversi modelli.
Ma provate a scrivere prima questo modello, non è così facile da controllare e buttare via ))
