L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2113

 
Maxim Dmitrievsky:


Mi piace di più Near-Miss (dalle foto)

Le foto sono belle - ma bisogna provare.

 
Aleksey Vyazmikin:

Devo averla cambiata male - sta combattendo.

Per favore, controllate cosa c'è che non va.

non è X, y ma dati_X, dati_y

se si usa il sottocampionamento (diminuendo il numero di campioni della classe maggiore), è meglio raccogliere molti dati, altrimenti l'output sarà troppo piccolo (per la dimensione della classe minore)

 
Maxim Dmitrievsky:

non è X, y è data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

Aleksey ... )))

il set di dati dovrebbe essere caricato e tutti i passaggi dovrebbero essere eseguiti in un computer portatile. Quello che c'è stampato ora è un'informazione memorizzata, questi oggetti non esistono più

 
Maxim Dmitrievsky:

Alexei... )))

Il set di dati deve essere caricato e tutti i passi del portatile devono essere fatti. Quello che c'è stampato ora è un'informazione memorizzata, questi oggetti non esistono più

E l'archivio può essere scaricato e decompresso lì?

 
Aleksey Vyazmikin:

L'archivio può essere scaricato e decompresso lì?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python Sono al telefono. Se non funzionerà domani lo farà. Puoi anche scaricare l'archivio su Google disk una volta e poi copiarlo su GoogleClub. Se hai una cattiva connessione a Internet. Si possono aprire le zip in una volta sola.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. E salvahttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python Sono al telefono. Se non riesco a venire domani Puoi anche scaricare l'archivio su google disk una volta e poi copiarlo su google colab. Se hai una cattiva connessione a Internet. Si possono aprire le zip in una volta sola.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. E salvahttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Niente ha funzionato finora - proverò di nuovo domani.

 
Aleksey Vyazmikin:

Non ha funzionato finora - proverò di nuovo domani.

leggere

dati = pd.read_csv('exam.zip', sep=';')

scrivere

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


ha aggiornato il portatile

 
Maxim Dmitrievsky:

leggere

dati = pd.read_csv('exam.zip', sep=';')

scrivere

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


computer portatile aggiornato

Grazie! Tutto ha funzionato.

Penso di avere ragione - solo treno trasformare, perché su test va solo il controllo - così ho fatto, ma il risultato è molto strano - logloss errore supera 1 su campione di prova e cresce - come può essere - sono scioccato.

 

Maxim, come si imposta questa cosa?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

Cos'è id_tl?