L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3353

 
Maxim Dmitrievsky #:
Il pensiero batch è in corso. Queste non sono probabilità, sono chiamate così a causa del loess fi utilizzato, per stimare la probabilità.

Come ottenere le probabilità della classe reale?

Non c'è altro modo di pensare! Utilizziamo algoritmi di MO già pronti, accompagnati da una serie di funzioni aggiuntive. Tutto l'insieme è chiamato "pacchetto".

Cosa sono le"probabilità di classe reali"? Ad esempio, la funzione

predict(object, newdata, type = c("vector", "probs", "both","F"))
restituisce le "stime delle classi di probabilità". L'algoritmo non può contenere altre probabilità oltre alle "stime ".



 

Non litigate, ragazzi, vi stiamo leggendo.

aprite le serrature ;)


 
СанСаныч Фоменко #:

Non c'è altro modo di pensare! Utilizziamo algoritmi di MO già pronti, accompagnati da una serie di funzioni aggiuntive. Tutto l'insieme è chiamato "pacchetto".

Cosa sono le"probabilità di classe reale"? Ad esempio, la funzione

restituisce"stime della classe di probabilità". L'algoritmo non può contenere altre probabilità oltre alle "stime".
La domanda non è su cosa può contenere. Si tratta di come ottenere probabilità di classe affidabili. In modo da poter essere sicuri che con una probabilità di classe di 0,8, l'80% dei casi sia stato previsto correttamente. E si potrebbe utilizzare una soglia, ad esempio. Nella maggior parte dei casi, ripeto, i risultati dei classificatori non lo fanno. Sovrastimano o sottostimano "per design". Ecco perché la soglia non funziona. Le probabilità reali si hanno quando non sovrastimano né sottostimano.

Lei ha già dimostrato di non saperlo. Quindi c'è ancora molto da imparare. Quindi "dobbiamo padroneggiare tutti i MOE" e liberarci del pensiero batch.
 

Sembra che non si tratti della stima puntuale della probabilità, ma della sua stima per intervallo. Per matstat, questo è un approccio comune - non solo ottenere una specifica stima numerica della probabilità, ma anche ottenere un intervallo in cui il valore vero di questa probabilità stimata cade con una data precisione (probabilità). Qui c'è qualche difficoltà di comprensione, perché il concetto di probabilità partecipa a due ipostasi diverse - sia il valore stimato stesso che l'accuratezza della sua stima. E si tratta di probabilità molto diverse)

Anche se non ho studiato in dettaglio la previsione conforme, potrei sbagliarmi.

 
Maxim Dmitrievsky #:
La domanda non riguarda ciò che può fare. Si tratta di come ottenere probabilità di classe affidabili. In modo da essere sicuri che con una probabilità di classe di 0,8, l'80% dei casi sia previsto correttamente. Si può utilizzare una soglia, ad esempio. L'output del classificatore non è vero nella maggior parte dei casi, lo ripeto ancora una volta. O sovrastimano o sottostimano "by design". Ecco perché la soglia non funziona. Le probabilità reali si hanno quando non sovrastimano né sottostimano.

La cifra di 0,8 citata è una delle probabilità di classe. Ecco un istogramma delle probabilità di classe.


Io la vedo esattamente così e in nessun altro modo, perché se fosse altrimenti, significherebbe sovrallenamento. Per me, a una soglia fissa, la mancata corrispondenza dell'errore di predizione su OOV e OOS e sul file VNE è il principale segno di sovrallenamento. La soglia funziona bene. E le "probabilità reali" appartengono al regno di una certa finzione che non ha nulla a che fare con il codice e la terminologia reali utilizzati in questo caso.

 
СанСаныч Фоменко #:

Il valore di 0,8 indicato è uno dei valori di probabilità della classe.


Io ho fatto esattamente così e in nessun altro modo, perché se è diverso, significa sovrallenamento. Per me, a una soglia fissa, la mancata corrispondenza dell'errore di previsione su OOV e OOS e sul file VNE è il principale segno di sovrallenamento. La soglia funziona bene. E le "probabilità reali" appartengono a un'immaginazione che non ha nulla a che fare con il codice del mondo reale e con la terminologia utilizzata.

Come hai fatto a capire che la tua soglia funziona perfettamente?
Per te è una fantasia, per qualcun altro è un luogo comune.
 
Aleksey Nikolayev #:

Sembra che non si tratti della stima puntuale della probabilità, ma della sua stima per intervallo. Per matstat, questo è un approccio comune - non solo ottenere una specifica stima numerica della probabilità, ma anche ottenere un intervallo in cui il valore vero di questa probabilità stimata cade con una data precisione (probabilità). Qui c'è qualche difficoltà di comprensione, perché il concetto di probabilità partecipa a due ipostasi diverse - sia il valore stimato stesso che l'accuratezza della sua stima. E si tratta di probabilità molto diverse)

Anche se non ho approfondito la previsione conforme e potrei sbagliarmi.

Stiamo parlando di un approccio leggermente diverso, prima che qualcuno lo cerchi su Google :)
 
Maxim Dmitrievsky #:
Come vi siete accorti che la vostra soglia funzionava perfettamente?
Per voi è fantastico, per altri è banale.
Errore di previsione della corrispondenza su OOV e OOS e sul file INE
 
СанСаныч Фоменко #:
Errore di previsione della corrispondenza su ALE e OOS e sul file SNE
Come si è capito che il classificatore fornisce le probabilità corrette? Non solo i valori nell'intervallo. State leggendo quello che vi viene scritto?

Se impostate una soglia di 0,8, l'80% delle operazioni sarà redditizio? E se è 0,51?

È quasi certo che non sarà così. Date un'occhiata.
 
Maxim Dmitrievsky #:
Come si è capito che il classificatore fornisce le probabilità corrette? Non solo i valori dell'intervallo. State leggendo quello che vi viene scritto?

Le probabilità dei modelli sono date dalle statistiche sul campione di addestramento.

Di conseguenza, senza un campione rappresentativo non sono accurate, quindi fattene una ragione :)

O capisci in cosa consiste il modello e ripesi le foglie secondo l'algoritmo che hai ideato...

Motivazione: