C'è uno schema nel caos? Proviamo a trovarlo! Apprendimento automatico sull'esempio di un campione specifico. - pagina 19

 

Il profitto è pari al delta del movimento del prezzo da un certo punto in poi.

Non mi sorprende ancora nulla.

Abbiamo già superato le code lunghe ....

 
Renat Akhtyamov #:

Il profitto è pari al delta del movimento del prezzo da un certo punto in poi.

Non mi sorprende ancora nulla.

Abbiamo già superato le code lunghe ....

Perché l'hai appena scritto? Beh giusto, non puoi usare nessun argomento per segnare i tuoi pensieri nei margini....

 
Aleksey Vyazmikin #:

La Figura 13 mostra che vengono utilizzati quasi tutti i predittori disponibili, tranne uno, ma dubito che sia questa la radice del problema. Quindi non è tanto l'utilizzo, ma la sequenza di utilizzo nella costruzione del modello?

Sì, è così. Se si addestrano due modelli con gli stessi predittori, ma uno ha il primo split su un predittatore e l'altro sull'altro, l'intero albero sottostante per ogni variante sarà molto diverso.

L'altra domanda è: perché il bousting sullo stesso set di dati rende diversi i primi split? Il coefficiente per il numero di colonne è pari a 1 come nella foresta? Nella foresta è per la casualità. Ma credo che dovrebbe essere ==1.
Allora un'altra opzione: diversi Seed per i modelli? Prova con lo stesso, se il risultato è lo stesso, allora penso che sia molto grave che il seme possa rendere un modello redditizio non redditizio.

 
A proposito, cosa significa randomizzare in Cutbust Seed?
 
Aleksey Vyazmikin #:

Perché l'hai appena scritto? Beh, giusto, non puoi usare un argomento qualsiasi per segnare i tuoi pensieri nei margini....

sui tuoi grafici

 
elibrarius #:

Sì, è così. Se si addestrano due modelli con gli stessi predittori, ma uno ha il primo split in base a un predittatore e l'altro in base a un altro, l'intero albero sottostante di ciascuna variante sarà molto diverso.

Ciò dimostra ancora una volta che il metodo greed è difettoso nella selezione delle suddivisioni. L'ho sperimentato io stesso mentre selezionavo le foglie e sono giunto alla stessa conclusione.

elibrarius #:

La domanda è diversa: perché il bousting con lo stesso set di dati rende diversi i primi split? Il coefficiente per il numero di colonne è pari a 1 come in forest? In forest è per la casualità. Ma credo che dovrebbe essere ==1.

A quanto ho capito, c'è un analogo qui per selezionare una parte delle colonne per la valutazione, ma io ho impostato di forzarle tutte.

elibrarius #:

Quindi un'altra opzione: diversi Seed per i modelli? Prova con lo stesso, se il risultato è lo stesso, penso che sia molto brutto che il seme possa rendere un modello redditizio non redditizio.

Il seme fissa il risultato, cioè tutto sarà uguale.

elibrarius #:
A proposito, in cosa Cutbust randomizza Seed?

Da quello che ho capito, imposta il contatore del generatore di numeri casuali a un certo valore, e questo generatore viene usato almeno come scrivono "c'è una randomizzazione della metrica con cui viene scelto il miglior albero." e in un certo senso usa il generatore di numeri casuali più un coefficiente, che, da quello che ho capito, viene preso dal parametro --random-strength (per me è 1).

Ecco la formula:

Punteggio += random_strength * Rand (0, lenofgrad * q)

q è un moltiplicatore che diminuisce all'aumentare dell'iterazione. Pertanto, il random diminuisce verso la fine.

"

Ma scrivono anche che un sottocampione può essere usato per costruire un albero, ma io uso la modalità per l'applicazione completa del campione "--boosting-type Plain".


C'è anche un effetto del genere, se rimuovo le colonne dopo l'addestramento, che non utilizzano il modello, allora non posso ottenere il modello con lo stesso Seme - che non è chiaro.

 
Renat Akhtyamov #:

i vostri grafici sono scritti

Come si applica a questi grafici la frase " Il profitto è uguale al delta del movimento del prezzo da un certo punto in poi". " ?

E questa frase poi "Le code lunghe le abbiamo già superate ...." devo dedurre che ti offro una qualche forma di formazione? Ma io non lo faccio, e le code sono di solito utilizzate qui sul forum quando si modella la densità di distribuzione della variazione dei prezzi - non è affatto quello che ho sull'istogramma. E qui non dovremmo parlare di rischi, ma del fatto che è più difficile costruire un modello per caso che non se si comprende la struttura della significatività dei predittori e la loro dipendenza.

 
Aleksey Vyazmikin #:

In che modo " il profitto è uguale al delta del movimento del prezzo da un certo punto in poi " si riferisce a questi grafici. " ?

E questa frase poi "Le code lunghe le abbiamo già superate ...." devo dedurre che ti sto offrendo una qualche forma di formazione? Ma io non lo faccio, e le code sono di solito utilizzate qui sul forum quando si modella la densità di distribuzione della variazione dei prezzi - non è affatto quello che ho sull'istogramma. E qui non dovremmo parlare di rischi, ma del fatto che è più difficile costruire un modello per caso che non se si comprende la struttura della significatività dei predittori e la loro dipendenza.

Stavo rispondendo al fatto che esiste un modello nel caos.

è proprio questo tipo di istogrammi, non importa con quale logica/approccio/formula/teoria ecc. Hai applicato e non troverai altri modelli

 
Aleksey Vyazmikin #:

Il che dimostra ancora una volta che il metodo dell'avidità di selezionare gli spacchi è difettoso. L'ho sperimentato io stesso nella selezione delle foglie e sono giunto alla stessa conclusione.

E senza l'avidità? Potreste calcolarne un altro per ogni spacco e selezionarne un paio in una volta, ma nel vostro caso la durata dei calcoli aumenterà di oltre 5000 volte. È più facile fare una media di cento modelli.

A quanto ho capito, esiste un analogo per la selezione di una parte delle colonne per la stima, ma io ho forzato l'uso di tutte.

Ma dicono anche che un sottocampione può essere usato per costruire un albero, ma io uso la modalità per l'applicazione completa del campione "--boosting-type Plain".

Per ridurre l'influenza della casualità è giusto. Altrimenti è necessario fare una media di 20-100 modelli come nella foresta.

Aleksey Vyazmikin #:

Da quello che ho capito, imposta il contatore del generatore casuale a un certo valore, ma questo generatore viene usato almeno come scrivono "c'è una randomizzazione della metrica, con la quale viene scelto l'albero migliore." e in un certo senso usa un generatore casuale più un coefficiente, che, da quello che ho capito, viene preso dal parametro --random-strength (io ho 1).

Ecco la formula:

Punteggio += random_strength * Rand (0, lenofgrad * q)

q è un moltiplicatore che diminuisce all'aumentare dell'iterazione. Pertanto, il random diminuisce verso la fine.

In altre parole, si scopre che gli alberi di raffinazione potrebbero non essere i migliori, ma casualmente peggiori.
Da qui la diffusione dei modelli da prugna a redditizi.
A giudicare dai grafici di distribuzione, ci sono più modelli che prosciugano, cioè se facciamo una media, il risultato medio non sarà redditizio.



Dovrei provare con random-strength = 0? Si spera che le modifiche del seme smettano di cambiare il modello dopo questo tentativo, magari creando un modello con alberi di affinamento migliori piuttosto che con alberi casualmente cattivi. Se il modello migliore sarà quello di prugna, allora cercare su questi dati tra 10000 modelli casuali il migliore è la strada per la prugna reale.

O ancora una media di alcuni modelli selezionati a caso, come nella foresta. Perché il migliore può essere riqualificato.

 
Renat Akhtyamov #:

Stavo rispondendo al fatto che c'è uno schema nel caos.

sono proprio questo tipo di istogrammi, indipendentemente dalla logica/approccio/formula/teoria, ecc. che si applica. Hai applicato e non troverai altri modelli.

Come fai a dire che c'è un modello, ma non lo troverai? O la regolarità è nella casualità?

Motivazione: