L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 385

 
Maxim Dmitrievsky:


Ho capito che è un fondo di copertura, se ti iscrivi, cosa otterrai?

Sto correndo con diversi modelli, finora lo stesso di voi ha ottenuto 0,5

Beh, 0,5 e 0,513 è diverso, ovviamente non tanto per il trading, ma comunque. Si chiamano hedge-funds, non so quale sia la loro struttura legale, in America non esiste formalmente questo tipo di organizzazione, ma potrei sbagliarmi. Se ti registri puoi partecipare a predire il mercato una settimana in anticipo, su tali set di dati, qualcuno riesce a raccogliere >$10k su di esso, ma personalmente conosco quelli che hanno guadagnato solo un paio di centinaia di sterline)))
 
Aliosha:
Beh, 0,5 e 0,513 è diverso, ovviamente non è molto per il trading, ma comunque. Si fanno chiamare hedge-fund, non so quale sia la loro struttura legale, in America non esiste formalmente questo tipo di organizzazione, ma potrei sbagliarmi. Se ti registri puoi partecipare a predire il mercato una settimana in anticipo, su tali set di dati, qualcuno riesce a raccogliere >$10k su di esso, ma personalmente conosco quelli che hanno guadagnato solo un paio di centinaia di sterline)))


Quindi come funziona? Loro lanciano il dataset, io devo addestrare la rete su di esso e poi cosa? Penso che abbia un trucco, devi fare una selezione delle caratteristiche)

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


Cioè come funziona? Loro lanciano un set di dati, io devo addestrare la rete su di esso e poi cosa? Penso che abbia un trucco, devo fare una selezione delle caratteristiche)

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Entra e leggi i manubri, sono lunghi mezza pagina. Basta scaricare il set, insegnarglielo, eseguirlo su un test e inviarglielo, c'è un esempio di come dovrebbe essere il risultato, quindi gli id e i nomi delle colonne dovrebbero essere come i loro.
 
Aliosha:
Iscriviti e leggi gli albi, c'è mezza pagina lì. Basta scaricare il set, impararlo, eseguirlo su un test e inviarlo a loro, c'è un esempio di come dovrebbe essere il risultato, quindi gli id e i nomi delle colonne dovrebbero essere come i loro.

Sì, ci proverò più tardi... in breve, questo set di dati è senza speranza, nessun modello )
 

numerai ha cambiato le regole un paio di volte quest'anno.

Una volta era semplice e buono - addestrare un modello su una tabella di treno, controllare l'errore sulla tabella di test, inviare le previsioni, loro le estrapolano alla loro tabella di test nascosta, contare l'errore su di essa. Vince chi ha meno errori sulla tabella nascosta. Era molto buono e corretto che l'errore sul dataset di prova coincidesse davvero con quello sul loro dataset nascosto, in modo da poter controllare il proprio modello.

Poi hanno cambiato qualcosa, e l'errore sul set di dati di prova ha cessato di essere correlato all'errore sul loro set di dati di controllo nascosto. Tutti i leader dall'alto sono scomparsi, solo le persone casuali che sono state abbastanza fortunate da far entrare il loro modello nel loro tavolo di controllo nascosto vincono. Imho il fallimento da parte di numerai, della spazzatura casuale e non un concorso.

Poi hanno visto che tutte le persone adeguate si sono allontanate dal loro concorso casuale, hanno capito il loro errore e hanno cambiato qualcosa. Ora le previsioni sono valutate secondo diversi criteri. Quello che mi fa incazzare di più è il criterio di "unicità", se qualcuno ha inviato risultati simili prima, allora il tuo sarà rifiutato come plagio. Cioè, se diverse persone usano lo stesso quadro per creare un modello, allora quello che si è svegliato prima e ha inviato una previsione otterrà i soldi.
L'accuratezza del modello è ora completamente inutile nel calcolo dei profitti. Puoi ottenere l'errore 0, essere al 1° posto nella top e non guadagnare nulla, perché la top mostra il risultato sui dati di prova che si danno da scaricare, la top non mostra più il risultato della loro tabella di validazione nascosta.
L'attuale iterazione del loro concorso è imho senza senso, nessuna trasparenza, tutto è incasinato. Aspettando che cambino di nuovo qualcosa nel concorso, si spera che sia di nuovo adeguato.

 
Maxim Dmitrievsky:

Sì, ci proverò più tardi... insomma questo dataset è senza speranza, non c'è alcun modello)
Prova questa tabella. Addestrare il modello solo su quelle righe in cui data_type=="validation". Questi sono i dati utilizzati per valutare il modello ed entrare nel top. Se raggiungi il 100% di precisione, sarai al primo posto nella classifica. Ma non riceverai un premio in denaro per un simile imbroglio.
File:
 
Ildottor Trader:
Prova questa tabella. Addestrare il modello solo su quelle righe in cui data_type=="validation". Questi sono i dati che vengono utilizzati per valutare il modello e arrivare al top. Se raggiungi il 100% di precisione, sarai al primo posto nella classifica. Ma non ti daranno un premio in denaro per questo imbroglio.

Oh, bene, lo proverò domani... ottimo per fare pratica)
 
Ildottor Trader:
Prova questa tabella. Addestrare il modello solo su quelle righe in cui data_type=="validation". Questi sono i dati che vengono utilizzati per valutare il modello e arrivare al top. Se raggiungi il 100% di precisione, sarai al primo posto nella classifica. Ma non riceverai un premio in denaro per un simile imbroglio.


di nuovo 0,5



 

È importante capire come i risultati sui set di dati di allenamento e di valutazione coincidono. Vedo un dataset diviso lì, per logica (forse mi sbaglio) i dati sono divisi casualmente in due gruppi, il primo gruppo è addestrato dal modello, il secondo gruppo è solo predetto e valutato dal modello.

Quale sarà il risultato se si predicono gli stessi dati su cui è stato addestrato?
E poi prevedere i dati su cui non è stato addestrato, e confrontare la precisione del modello in entrambi i casi.

Se su dati addestrati predice con il 100% di precisione, e su dati stimati - 50% - allora il modello è troppo sovrallenato, è cattivo.

 
Ildottor Trader:

È importante capire come i risultati sui set di dati di allenamento e di valutazione coincidono. Vedo un dataset diviso lì, per logica (forse mi sbaglio) i dati sono divisi casualmente in due gruppi, il primo gruppo è addestrato dal modello, il secondo gruppo è solo predetto e valutato dal modello.

Quale sarà il risultato se prevedo gli stessi dati che sono stati usati per l'addestramento?
E poi prevedere i dati che non sono stati utilizzati per l'addestramento e confrontare l'accuratezza del modello in entrambi i casi.

Se su dati addestrati predice con il 100% di precisione, e su dati stimati - 50% - allora il modello è troppo sovrallenato, è cattivo.


Anch'io ho imparato il 50% delle previsioni. Ho rimosso la data di divisione e ho presentato lo stesso set come test.

Beh, in primo luogo l'insieme è molto grande, in secondo luogo non conosciamo la natura delle caratteristiche e i modelli lineari come vettori e Forest non si adattano qui, ovviamente, abbiamo bisogno di fare una non-griglia complessa, forse questa è la ragione. Non sono ancora sicuro di come modificare la rete neurale in questo studio per renderla più complessa, per esempio la convoluzione per cercare di fare

Da questo: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

Sono ancora nuovo alle griglie ... )