Discusión sobre el artículo "Gradient boosting (CatBoost) en las tareas de construcción de sistemas comerciales. Un enfoque ingenuo"

Forester 2020.11.04 10:49 #1

No hay necesidad de mezclar aquí

train_X, test_X, train_y, test_y = train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)

Según la ayuda de https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

shuffle bool, por defecto=True

Si barajar o no los datos antes de dividir. Si shuffle=False entonces stratify debe ser None.

Los datos se barajan antes de la división, es decir, algunos ejemplos de la prueba se incluirán en el tren.

En general, me gustó el artículo, muestra que es bastante fácil de implementar y utilizar la IA en el comercio.

sklearn.model_selection.train_test_split — scikit-learn 0.23.2 documentation

scikit-learn.org

*arrays , **options ¶ Quick utility that wraps input validation and and application to input data into a single call for splitting (and optionally subsampling) data in a oneliner. Parameters *arrays Allowed inputs are lists, numpy arrays, scipy-sparse matrices or pandas dataframes. test_size If float, should be between 0.0 and 1.0 and represent...

Aprendizaje automático en el FOREX - Tendencias, previsiones EURUSD - Tendencias, previsiones

Forester 2020.11.04 10:52 #2

¿Puedes hacer el último gráfico del artículo pero sin mezclar?
Supongo que la validación empeoraría y la prueba con datos desconocidos podría mejorar.

Maxim Dmitrievsky 2020.11.04 11:01 #3

elibrarius:

No hay necesidad de revolver aquí

Según la ayuda https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

Los datos se mezclan antes de la división, es decir, algunos ejemplos de la prueba se incluirán en el tren.

En general, me gustó el artículo, muestra que es bastante fácil de implementar y utilizar la IA en el comercio.

Yo lo hago a propósito para igualar un poco las muestras. Sin mezclar la prueba sale peor, pero casi no tiene efecto en los nuevos datos. Mostraré ejemplos más adelante.

El probador de MT4 Aprendizaje automático en el GAZPROM está en llamas

Stanislav Korotky 2020.11.04 13:00 #4

Eso es lo que no entiendo:

if dataset['close'][i] >= (dataset['close'][i + rand]):
            labels.append(1.0)
        elif dataset['close'][i] <= (dataset['close'][i + rand]):
            labels.append(0.0)              
        else:
            labels.append(0.0)

Las condiciones que nunca funcionarán están marcadas en rojo.

Maxim Dmitrievsky 2020.11.04 13:03 #5

Stanislav Korotky:

Eso es lo que no entiendo:

Las condiciones que nunca funcionarán están marcadas en rojo.

Aquí no pasa nada, he cambiado las condiciones y sigo teniendo artefactos.

Zeke Yaeger 2020.11.04 21:48 #6

Maxim mil gracias por compartir este tipo de artículos...
Sobre todo por la importación del modelo python en mql5.
Porque no soy un experto en ALGLIB pero creo firmemente que XGBoost CATBoost y Pytorch son de lejos superiores para hacer machine y deep learning.

Aprendizaje automático en el Discusión sobre el artículo Discusión sobre el artículo

Aleksandr Masterskikh 2020.11.04 21:50 #7

Un trabajo muy interesante. Gracias al autor.

Stanislav Korotky 2020.11.05 11:43 #8

Hay una pregunta relacionada con el artículo no directamente, pero indirectamente, a través de la dependencia de CatBoost.

¿Puede alguien explicar con los dedos cómo dentro de CatBoost (o más generalizado - en el árbol de decisión boosting gradiente basado en histograma) se realiza la separación por característica (variable de entrada) sobre la base del histograma? Está claro que para cada bin (barra del histograma) se calcula la estadística: el número total de aciertos de vectores con un valor en el rango del bin y su desglose por pertenencia a clases de salida (en este caso, dos). Y teniendo un histograma con estas estadísticas, ¿cómo elegir una división para crear el siguiente nivel de árbol?

Aprendizaje automático en el Algoritmo para combinar rangos una estrategia de negociación

Aleksey Vyazmikin 2020.11.05 12:01 #9

Stanislav Korotky:

Había una pregunta relacionada con el artículo, no directamente, sino indirectamente a través de la dependencia de CatBoost.

¿Puede alguien explicar con los dedos cómo dentro de CatBoost (o más generalizado - en el árbol de decisión boosting gradiente basado en histograma) se realiza la separación por característica (variable de entrada) sobre la base del histograma? Está claro que para cada bin (barra del histograma) se calcula la estadística: el número total de aciertos de vectores con un valor en el rango del bin y su desglose por pertenencia a clases de salida (en este caso, dos). Y teniendo un histograma con estas estadísticas, ¿cómo elegir una división para crear el árbol del siguiente nivel?

Los árboles se construyen independientemente unos de otros, y luego se hace el recuento en las hojas (enumeración por predictores no cuantificados) de forma que se reduzca el error de gradiente.

Al seleccionar los predictores para la construcción del árbol y las divisiones del árbol, se utilizan coeficientes aleatorios, lo que permite, en teoría, aumentar la exhaustividad (Recall) y evitar el sobreentrenamiento.

Aprendizaje automático en el Buscando patrones Discusión sobre el artículo

Maxim Dmitrievsky 2020.11.05 12:09 #10

Stanislav Korotky:

Había una pregunta relacionada con el artículo, no directamente, sino indirectamente a través de la dependencia de CatBoost.

¿Puede alguien explicar con los dedos cómo dentro de CatBoost (o más generalizado - en el árbol de decisión boosting gradiente basado en histograma) se realiza la separación por característica (variable de entrada) sobre la base del histograma? Está claro que para cada bin (barra del histograma) se calcula la estadística: el número total de aciertos de vectores con un valor en el rango del bin y su desglose por pertenencia a clases de salida (en este caso, dos). Y teniendo un histograma con estas estadísticas, ¿cómo elegir una división para crear el árbol del siguiente nivel?

Es mejor preguntar a los desarrolladores