L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1308

 
elibrario:

Le ISO non vengono rilasciate per tutto). In questo caso, si potrebbe essere guidati da ciò che i patti del Ministero della Difesa chiamano la 2a sezione.

Nel catbusto che state usando, anche se dice test, scrivono nella spiegazione che è usato per la validazione. In altri pacchetti XGBoost, Darch - scrivono la convalida.

Inizialmente c'era un test e un training set, il metodo di crossvalidazione è apparso e tale campione è stato chiamato campione di validazione (è effettivamente utilizzato per il cross-training e il test). Ora c'è un boosting, che ha bisogno di un campione per fermare l'addestramento - si chiama campione di prova, ed è una validazione a causa del suo utilizzo per testare i risultati dell'addestramento, ma non c'è addestramento su di esso, a differenza della crossvalidazione.

Il mio punto è che il campionamento può essere usato in modo diverso nei diversi metodi di allenamento. La convalida è più un'azione che un tipo di campionamento...

 
Vladimir Perervenko:

Il set di convalida è coinvolto nell'addestramento. Viene utilizzato per impostare i parametri del modello durante l'allenamento. Alcuni pacchetti non richiedono il set di convalida, in questo caso il set di allenamento è diviso in train/valid in qualche proporzione nella funzione fit(). Ma è meglio specificarlo da soli.

La suite di test è usata per controllare la qualità del modello addestrato e questi dati non dovrebbero essere visti dal modello durante l'addestramento.

Quindi sono cose diverse tutte uguali, non c'è bisogno di confondersi.

Buona fortuna

Ok, così sia. Non ho statistiche sulle dichiarazioni di centinaia di persone che partecipano alla creazione di diversi metodi di IR, non c'è desiderio di contestare, poiché inizialmente ho parlato di quanto sia conveniente per me dividere i concetti nella mia mente, e se non è conveniente per gli altri, allora lasciatemi stare con i miei concetti.

 
Aleksey Vyazmikin:

OK, così sia. Non ho statistiche sulle dichiarazioni di centinaia di persone coinvolte nella creazione di diversi metodi di MO, non ho voglia di discutere, dato che all'inizio ho parlato di come mi trovo bene a dividere i concetti nella mia mente, e se gli altri non si trovano bene con questo, allora lasciatemi stare con i miei concetti.

Sì, l'argomento è già abbastanza spammato, e ora ognuno deve inventare la propria terminologia:)

Anche se specificamente sul nome dei campioni di dati, penso che non abbia senso discutere perché ci sono tutti i tipi di metodi per la loro formazione e uso, ed essenziale, IMHO, rimane solo un fatto - se questi dati hanno partecipato (In-Sample) o non hanno partecipato (Out-Of-Sample), nel processo di apprendimento.
Perché tutti i campioni IS sono utilizzati in un modo o nell'altro per adattare il modello, e OOS solo per valutarne la qualità.


E per non essere ambiguo, penso che sarebbe logico presentare i risultati nella solita forma di tester, dove tutti i campioni che sono stati utilizzati in formazione - IS da rappresentare come un backtest, e OOS come un forward.

 
Ivan Negreshniy:

Sì, l'argomento è già abbastanza ingombrante, e ora ognuno deve inventare la propria terminologia:)

Anche se specificamente sul nome dei campioni di dati, penso che non abbia senso discutere perché ci sono tutti i tipi di metodi per la loro formazione e uso, ed essenziale, IMHO, rimane solo un fatto - se questi dati hanno partecipato o meno (In-Sample), nel processo di apprendimento (Out-Of-Sample).
Perché tutti i campioni IS sono utilizzati in un modo o nell'altro per adattare il modello, e OOS solo per valutarne la qualità.


E per una chiara comprensione, penso che sarebbe logico presentare i risultati in forma familiare per il tester, dove tutti i campioni che sono stati utilizzati nella formazione - IS dovrebbero essere presentati come un backtest, e OOS come un forward.


È meglio mostrare grafici separati, perché il campione che non ha partecipato alla formazione è di solito molto più piccolo di quello che ha partecipato e visivamente nulla è chiaro su un grafico così rotto, questo è per me personalmente.

 
A proposito, Catbust ha la convalida incrociata - quindi non ha bisogno della chiave "test", ma usa un singolo campione, che è suddiviso in diversi modi.
 
Aleksey Vyazmikin:
A proposito, Catbust ha la convalida incrociata - quindi non ha bisogno della chiave "test", ma usa un singolo campione che è suddiviso in diversi modi.

Gli scienziati lavorano con queste cose, ma non capiscono cosa succede nelle reti neurali, tanto meno nelle foreste, come e perché le cose sono esattamente come sono, dove le cose cambiano in quale momento e perché, possiamo solo fidarci della loro autorità e applicare i loro modelli, confidando in un potere superiore.

 
Kesha Rutov:

Gli scienziati lavorano con queste cose, ma non capiscono cosa succede nelle reti neurali, figuriamoci nelle foreste, come e perché le cose sono come sono, dove le cose cambiano in quale momento e perché, dobbiamo solo fidarci della loro autorità e applicare i loro modelli, confidando in un potere superiore.

Foreste/alberi con cui chiaramente non hai avuto a che fare. Le loro soluzioni sono facilmente interpretabili dall'uomo. Qualsiasi articolo di base sull'algoritmo dell'albero in un paio di pagine ve lo spiegherebbe.
 
Aleksey Vyazmikin:

OK, così sia. Non ho statistiche sulle dichiarazioni di centinaia di individui coinvolti nella creazione di diversi metodi di MoD, nessun desiderio di discutere, come ho originariamente parlato di come sono a mio agio a separare i concetti nella mia mente, e se gli altri non sono a loro agio, allora lasciatemi stare con i miei concetti.

La testardaggine ha un significato simile alla cocciutaggine. Spero che vi aiutino a raggiungere un'implementazione di successo delle vostre idee in MO. Queste sono qualità utili per i ricercatori. ;-)

PS Ho pensato a un nome per il tuo sistema di selezione delle foglie: "Herbarium" - aggiungi alla tua collezione di metodi da alberi, foreste, ceppi, giungle.
 
elibrario:

PS Ho pensato a un nome per il tuo sistema di selezione delle foglie: 'Herbarium' - aggiungi alla tua collezione di metodi da alberi, foreste, ceppi, giungle.

))) Lo chiamerei Lumberjack o Sawmill.

 
Kesha Rutov:

Gli scienziati lavorano con queste cose, ma non capiscono cosa succede nelle reti neurali, figuriamoci nelle foreste, come e per quale motivo tutto è esattamente come è, dove cosa cambia in quale momento e perché, possiamo solo fidarci della loro autorità e applicare i loro modelli, confidando in un potere superiore.

Sono in parte d'accordo, questa è l'era dell'informatica veloce, e mentre la gente faceva i calcoli su carta prima di avere accesso a un computer, ora il volume delle informazioni e i metodi per elaborarle sono così grandi che spesso è più opportuno concentrarsi sul risultato piuttosto che sul processo.

Motivazione: