L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1194

 
E poi l'algoritmo di apprendimento è progettato per suddividere i logloss per 0,5 - quindi è abbastanza logico che ci sia un cluster maggiore.
 
Aleksey Vyazmikin:
E poi l'algoritmo di apprendimento è affilato per abbattere i logloss di 0,5 - quindi è abbastanza logico che il cluster sia quello principale lì.

Il logloss è quasi inutile da guardare, è una metrica irrilevante in termini di ripartizione delle classi

 
Maxim Dmitrievsky:

Più alta è la probabilità dell'evento, più accurato è il segnale, in un certo senso viene anche dalla definizione :) 2 la gobba non sarà su dati rumorosi, ma il modello dovrebbe almeno catturare i valori estremi in misura adeguata, altrimenti non è mai sicuro degli input

Penso che non sia così semplice, bisogna considerare la funzione di apprendimento... poiché la probabilità è generalmente calcolata dopo i suoi valori (nell'algoritmo del modello così).

Finora i fatti mi dicono che il modello spalmato non è proprio sicuro, e non ho ancora incontrato un guasto al centro...

Maxim Dmitrievsky:

Guardare il logloss è quasi inutile, è una metrica poco importante in termini di suddivisione in classi

C'è una discesa a gradiente in corso...
 
Aleksey Vyazmikin:

Non credo che sia così chiaro, bisogna considerare la funzione di apprendimento... perché la probabilità è generalmente calcolata dopo i suoi valori.

Finora i fatti mi dicono che il modello spalmato non è proprio sicuro, e non ho ancora incontrato un guasto al centro...

Non capisco la terminologia, cos'è la funzione di apprendimento? C'è una softmax alla fine o cosa?

Non conosco il fallimento, ma il modello insicuro non funzionerà con i nuovi dati, mentre il modello spalmato sì, se si imposta la soglia di probabilità

 
Maxim Dmitrievsky:

Non capisco la terminologia, cos'è la funzione di apprendimento? C'è una softmax alla fine o cosa?

Lì, il modello è valutato da logloss e tutto il gradient boosting è volto a migliorare le prestazioni di questa funzione. Il modello stesso produce valori che devono essere trasformati attraverso una funzione logistica. Ecco perché suppongo che non sia tutto così semplice in questo metodo con probabilità...

 
Aleksey Vyazmikin:

Lì, il modello è valutato da logloss e tutte le azioni di gradient boosting sono volte a migliorare le prestazioni di questa funzione. Il modello stesso produce valori che devono essere trasformati attraverso una funzione logistica. Ecco perché presumo che non sia tutto così semplice in questo metodo con probabilità...

Ci sono min e max f-ioni, saranno sicuramente ai margini di logit... Se non ci sono, allora è underrun o qualcos'altro (lo ottengo ogni volta che sono underrun, come avere pochi neuroni o alberi) ed è un grande errore di classificazione e logloss

 
Maxim Dmitrievsky:

Ci sono min e max f-ioni, saranno sempre sui bordi del logit... se non ci sono, è un underfitting o qualsiasi altra cosa (l'ho sempre quando sono underfitting, per esempio pochi neuroni o alberi) e un grande errore di classificazione e logloss

Si tratta di quei coefficienti che il modello emette https://en.wikipedia.org/wiki/Logit - non è una distribuzione lineare.

Mi sembra che l'undertraining sia meglio dell'overtraining, soprattutto se ci si concentra sulla classe 1 e si prende una grande percentuale di obiettivi classificati correttamente che colpiscono la classificazione, e poi si possono combinare i modelli limitando il loro campo di applicazione.

Logit - Wikipedia
Logit - Wikipedia
  • en.wikipedia.org
In deep learning, the term logits layer is popularly used for the last neuron layer of neural network for classification task which produces raw prediction values as real numbers ranging from [3]. If p is a probability, then is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e. logit ⁡ ( p ) = log ⁡...
 
Aleksey Vyazmikin:

Si tratta di quei coefficienti che il modello dà https://en.wikipedia.org/wiki/Logit - non è una distribuzione lineare.

Mi sembra che l'undertraining sia meglio dell'overtraining, soprattutto se ci concentriamo sulla classe 1 e prendiamo una grande percentuale di obiettivi classificati correttamente che rientrano nella classificazione, e poi possiamo combinare i modelli, limitando il campo della loro applicazione.

in breve... lo ripeto: dovremmo insegnare correttamente in modo da evitare l'affollamento (overfitting) e tagliare le code (underfitting)

La curva rossa mi sembra più o meno normale

e la sottoformazione non è niente di niente... nelle vicinanze di 0,5

Il bias può essere tirato fuori da Bayes, dalle probabilità condizionali, mentre il modello è in esecuzione. Non ho capito esattamente come, ma c'è un potere inconoscibile, intuitivamente.

I modelli bayesiani sono in grado di apprendere... e se si mettesse un suggerimento bayesiano sul modello in modo che non si riaddestri troppo spesso... Non l'ho ancora capito.

 
Maxim Dmitrievsky:

Lo dirò di nuovo: bisogna insegnare normalmente in modo che non ci siano urti (overfit) e code tagliate (underfit).

la curva rossa mi sembra più o meno normale

e l'underfitting non è niente di niente... nelle vicinanze di 0,5

Il bias può essere tirato fuori da Bayes, dalle probabilità condizionali, mentre il modello è in esecuzione. Non ho capito esattamente come, ma c'è un potere inconoscibile, intuitivamente.

I modelli bayesiani sono in grado di riqualificarsi... e se si mettesse una punta bayesiana sul modello in modo da non dover riqualificare spesso... non ci ho ancora pensato.

Sì, anche a me piace di più quello rosso - come la distribuzione normale e tutto il resto, ma finora su 512 modelli questa distribuzione perde l'occhio... Presto ci saranno molti modelli dell'ordine di 100000 - vedrò cosa mostrano... la teoria e la pratica a volte non vanno d'accordo - bisogna adattarsi, o si potrebbero mettere i denti sullo scaffale così...

Catbust è solo bayesiano e supporta il preapprendimento, ma non so - aggiungendo alberi all'infinito - sembra adatto...

 
Maxim Dmitrievsky:

Aggiungere alberi è un po' strano, senza riorganizzare l'intera struttura... o forse è ok, è difficile da dire... per qualche piccola prospettiva, sembra ok, solo per spostare il centro della mb

E in quale altro modo si può prendere la mano - nel boosting, come ho capito è l'unica opzione. Si potrebbe naturalmente buttare via l'ultimo terzo del modello - un terzo degli alberi - e vedere cosa viene fuori quando si inseriscono nuovi dati. Ma, sto pensando di annullare le foglie con "probabilità" insignificanti - pulire dal rumore per così dire. In generale penso all'automazione degli insiemi di raccolta di modelli, trovato un buon intervallo di capacità predittiva del modello - classificazione tagliata su di esso (per esempio da 0.7 a 0.8) e messo in bianco per le combinazioni tra altri modelli.

Motivazione: