Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2113

 
Maxim Dmitrievsky:


Me gusta más Near-Miss (por las fotos)

Las fotos son bonitas, pero hay que probarlas.

 
Aleksey Vyazmikin:

Debo haberlo cambiado mal - está luchando.

Por favor, compruebe lo que está mal.

no es X, y sino datos_X, datos_y

si utiliza el submuestreo (disminución del número de muestras de la clase principal), será mejor que recoja muchos datos, de lo contrario el resultado será demasiado pequeño (por el tamaño de la clase menor)

 
Maxim Dmitrievsky:

no es X, y es data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

Aleksey ... )))

El conjunto de datos debe ser cargado y todos los pasos en portátil. Lo que se imprime allí ahora es información almacenada, estos objetos ya no existen

 
Maxim Dmitrievsky:

Alexei... )))

Hay que cargar el conjunto de datos y realizar todos los pasos del portátil. Lo que está impreso allí ahora es información almacenada, estos objetos ya no existen

¿Y el archivo se puede descargar y descomprimir allí?

 
Aleksey Vyazmikin:

¿Se puede descargar y descomprimir el archivo allí?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python Estoy en mi teléfono. Si no funciona mañana lo hará. También puedes descargar el archivo en el disco de Google una vez y luego copiarlo en GoogleClub. Si tienes una mala conexión a Internet. Puede abrir cremalleras a la vez.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. Y ahorrahttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python Estoy en mi teléfono. Si no puedo hacerlo mañana. También puedes descargar el archivo en google disk una vez y luego copiarlo en google colab. Si tienes una mala conexión a Internet. Puede abrir cremalleras a la vez.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. Y ahorrahttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

De momento no ha funcionado nada, mañana lo volveré a intentar.

 
Aleksey Vyazmikin:

De momento no ha funcionado - lo intentaré de nuevo mañana.

leer

datos = pd.read_csv('examen.zip', sep=';')

escribir

to_save.to_csv('oversamled_exam.zip', sep =';',

compresión=dict(method='zip', archive_name='exam.csv'))


actualizó el portátil

 
Maxim Dmitrievsky:

leer

datos = pd.read_csv('examen.zip', sep=';')

escribir

to_save.to_csv('oversamled_exam.zip', sep =';',

compresión=dict(method='zip', archive_name='exam.csv'))


portátil actualizado

Gracias. Todo salió bien.

Creo que lo tengo bien - sólo entrenar transformar, porque en la prueba sólo va el control - así lo hice, pero el resultado es muy extraño - error logloss supera 1 en la muestra de prueba y crece - ¿cómo puede ser - Estoy sorprendido.

 

Maxim, ¿cómo se configura esta cosa?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

¿Qué es id_tl?

Razón de la queja: