Discusión sobre el artículo "Evaluación y selección de variables en modelos de aprendizaje de máquinas" - página 2

 

Alexey Oreshkin:

...y ahí está..... ni siquiera es interesante hablar con esa gente.

Mutuamente, es decir, no hay interés en comunicarse con los lamers, que todavía tienen el woz, porque no pueden ofrecer nada más que correr alrededor de todos los temas, despotricar e imponer su opinión de mente pequeña que supuestamente "nada funciona". Es mucho más interesante comunicarse con aquellos que ofrecen soluciones a los problemas de "cambiar el vagón" en la dirección correcta sobre la base de la experiencia personal, y no sobre la base de la opinión sin fundamento.
 

El artículo es interesante. Gracias al autor por su duro trabajo. Estaría bien demostrar los métodos descritos en un ejemplo concreto. Sugiero tal ejemplo: predecir el S&P500 para dos trimestres por delante. He estado haciendo esto durante mucho tiempo y discutir mis resultados en otro hilo. Tengo mi propia metodología para seleccionar los datos de entrada y normalizarlos. Todo está descrito allí. Te daré a ti y a todos los demás un archivo con todos los datos económicos trimestrales desde 1960. También puedo dar las medias trimestrales del S&P500 para el mismo periodo.

Tarea:

1. Seleccione los datos de entrada. Puede elegir tanto datos económicos como todos los indicadores conocidos de la propia serie de precios del S&P500.

2. 2. Normalice los datos.

3. Cree y entrene un modelo para predecir los valores trimestrales del S&P500 en el intervalo comprendido entre 1960 y 1999, ambos inclusive. El inicio del historial de entrenamiento puede elegirse cualquiera.

4. Muestre el comportamiento del modelo fuera del historial de entrenamiento, en el intervalo 2000-hoy.

5. 5. Muestre el error de predicción a dos trimestres vista en el intervalo de entrenamiento y fuera de él. El error sobre datos normalizados se calcula de la siguiente manera:

Err = SQRT { SUMA(Predicción[i] - Valor real[i])^2 / SUMA(Valor real[i])^2 }

Calcular el error de predicción de esta forma tiene mucho sentido. La metodología generalmente aceptada para calcular el error del modelo se basa en RMS:

RMS_error_del_modelo = SUM(Predicción[i] - Valor real[i])^2

Las predicciones banales se basan en el supuesto de que el valor no normalizado de la variable predicha será igual a su último valor conocido. Cuando se normaliza con respecto al último valor conocido, una predicción trivial es simplemente 0. Por lo tanto, el RMS de las predicciones normalizadas triviales es:

RMS_ trivial = SUM(0 - Valor real[i])^2 = SUM(Valor real[i])^2

La fórmula propuesta para calcular el error de predicción Err es simplemente la raíz cuadrada de la relación SCO_model/SCO_basic. Si Err > 1, entonces el modelo construido es peor que las predicciones triviales.

Si le interesa mi sugerencia, publicaré aquí las tablas de indicadores económicos y del S&P500. Los detalles del modelo, la normalización de datos y la selección de datos no me interesan. Me interesan los resultados de las predicciones en el tramo no entrenado 2000 - hoy (gráfico de valores reales y valores predichos y error de predicción calculado por mi fórmula Err).

 
Vladimir:

El artículo es interesante. Gracias al autor por su duro trabajo. Estaría bien demostrar los métodos descritos en un ejemplo concreto. Sugiero tal ejemplo: predecir el S&P500 para dos trimestres por delante. He estado haciendo esto durante mucho tiempo y discutir mis resultados en otro hilo. Tengo mi propia metodología para seleccionar los datos de entrada y normalizarlos. Todo está descrito allí. Te daré a ti y a todos los demás un archivo con todos los datos económicos trimestrales desde 1960. También puedo dar las medias trimestrales del S&P500 para el mismo periodo.

Tarea:

1. Seleccione los datos de entrada. Puede elegir tanto datos económicos como todos los indicadores conocidos de la propia serie de precios del S&P500.

2. 2. Normalice los datos.

3. Cree y entrene un modelo para predecir los valores trimestrales del S&P500 en el intervalo comprendido entre 1960 y 1999, ambos inclusive. El inicio del historial de entrenamiento puede elegirse cualquiera.

4. Muestre el comportamiento del modelo fuera del historial de entrenamiento, en el intervalo 2000-hoy.

5. 5. Muestre el error de predicción a dos trimestres vista en el intervalo de entrenamiento y fuera de él. El error sobre datos normalizados se calcula de la siguiente manera:

Err = SQRT { SUMA(Predicción[i] - Valor real[i])^2 / SUMA(Valor real[i])^2 }

Calcular el error de predicción de esta forma tiene mucho sentido. La metodología generalmente aceptada para calcular el error del modelo se basa en RMS:

RMS_error_del_modelo = SUM(Predicción[i] - Valor real[i])^2

Las predicciones banales se basan en el supuesto de que el valor no normalizado de la variable predicha será igual a su último valor conocido. Cuando se normaliza con respecto al último valor conocido, una predicción trivial es simplemente 0. Por lo tanto, el RMS de las predicciones normalizadas triviales es:

RMS_ trivial = SUM(0 - Valor real[i])^2 = SUM(Valor real[i])^2

La fórmula propuesta para calcular el error de predicción Err es simplemente la raíz cuadrada de la relación SCO_model/SCO_basic. Si Err > 1, entonces el modelo construido es peor que las predicciones triviales.

Si le interesa mi sugerencia, publicaré aquí las tablas de indicadores económicos y del S&P500. Los detalles del modelo, la normalización de los datos y la selección de datos no me interesan. Me interesan los resultados de las predicciones en el tramo no entrenado 2000 - hoy (gráfico de valores reales y valores predichos y error de predicción calculado por mi fórmula Err).

Todo lo que describes es una predicción de regresión, es decir, se predice un determinado valor con un intervalo de confianza especificado

No entiendo el valor práctico de este tipo de predicciones en el trading. Y he aquí por qué.

El terminal admite órdenes de compra/venta. Se trata de una variable puramente nominal que toma valores cualitativos.

Recordará que también existen órdenes limitadas. Pero también se basan en órdenes de compra/venta.

Si predecimos el valor en lugar de compra/venta, resulta que el error de predicción puede cubrir el último valor de la variable predicha y no es posible determinar el tipo de orden de compra/venta.

PS. Los modelos de regresión de aprendizaje automático se utilizan ampliamente en economía, en casi todas las empresas, por ejemplo, en la previsión del volumen de ventas. En los mercados de divisas cuando se cubren los riesgos cambiarios (componentes para las divisas, y ventas para los rublos). ¿Pero en el trading?

 
СанСаныч Фоменко:

Todo lo que has descrito es una predicción de regresión, es decir, se predice algún valor con un intervalo de confianza dado

No entiendo el valor práctico de tales predicciones en el comercio. Y he aquí por qué.

El terminal admite órdenes de compra/venta. Se trata de una variable puramente nominal que toma valores cualitativos.

Recordará que también existen órdenes limitadas. Pero también se basan en órdenes de compra/venta.

Si predecimos el valor en lugar de comprar/vender, resulta que el error de predicción puede cubrir el último valor de la variable predicha y no es posible determinar el tipo de orden de compra/venta.

PS. Los modelos de regresión de aprendizaje automático se utilizan ampliamente en economía, en casi todas las empresas, por ejemplo, en la previsión del volumen de ventas. En los mercados de divisas cuando se cubren los riesgos cambiarios (componentes para las divisas, y ventas para los rublos). ¿Pero en el trading?

Si las señales de salida son comprar o vender, ¿cómo evaluamos la importancia o idoneidad de las entradas según este artículo? ¿Cómo cuantificamos el éxito del modelo? ¿En función de los beneficios? ¿En función de la reducción? ¿PF? He visto este tipo de modelos aquí muchas veces, no voy a señalar a nadie, los autores se reconocerán a sí mismos. La elección de los indicadores de comercio como una función de destino para evaluar los insumos y el modelo está cargada con el hecho de que en lugar de elegir los insumos y el modelo correcto, los creadores comienzan la química con diferentes formas de medir el éxito y terminan con EAs-supervisores/slivators. Hay muchas oportunidades creativas para el autoengaño.
 
Vladimir:
Si la salida indica compra o venta, ¿cómo evaluamos entonces la importancia o idoneidad de las entradas según este artículo? ¿Cómo cuantificamos el éxito del modelo? ¿En función de los beneficios? ¿En función de la reducción? ¿PF? He visto este tipo de modelos aquí muchas veces, no voy a señalar a nadie, los autores se reconocerán a sí mismos. La elección de los indicadores de comercio como una función de destino para evaluar los insumos y el modelo está cargada con el hecho de que en lugar de elegir los insumos adecuados y el modelo, los creadores comienzan la química con diferentes formas de medir el éxito y terminan con EAs-versores/slivators. Hay muchas oportunidades creativas para el autoengaño.

La regresión tiene sus estimaciones y la clasificación también.

La forma más obvia de evaluar el rendimiento de los modelos de clasificación es el porcentaje de clases de hechos y predicciones que coinciden (porcentaje de compra/venta predicha correctamente). Este artículo utiliza métodos más informativos para evaluar el rendimiento de los modelos de clasificación. No sólo se utilizan las herramientas, sino que se especifican las herramientas.

PS.

ROC es el más común.

 
Yury Reshetov:

¿Dónde ha visto la regresión? El artículo trata de la clasificación binaria:

Respondí Vladimir
 
СанСаныч Фоменко:

La regresión tiene sus propias estimaciones, y la clasificación, las suyas.

La forma más obvia de evaluar el rendimiento de los modelos de clasificación es el porcentaje de coincidencia de las clases de hechos y predicciones (porcentaje de compra/venta predicha correctamente). Este artículo utiliza métodos más informativos para evaluar el rendimiento de los modelos de clasificación. No sólo se utilizan las herramientas, sino que se especifican las herramientas.

PS.

ROC es el más común.

Por clasificación te refieres a la clasificación de las barras en COMPRAR, VENDER, MANTENER, ¿verdad? Dicha clasificación es errónea en principio, ya que es incoherente. Por ejemplo, puede clasificar una barra como COMPRA incluso si el precio bajó después de ella y luego argumentar que la señal era correcta porque debería haberse sentado fuera de la caída hasta que obtuvo un beneficio. La misma barra puede ser clasificada como VENTA porque el precio bajó. La misma barra puede clasificarse como MANTENER si el precio después de esa barra fluctúa en el corredor menos que el beneficio esperado. Así que tenemos ambigüedad. Con esta clasificación tenemos que añadir condiciones adicionales, por ejemplo, cuánto drawdown vamos a permitir, cuánto tiempo vamos a esperar hasta obtener beneficios, cuál es el objetivo de beneficios, qué hacemos al cierre de la sesión (¿esperamos al lunes?).

Es mucho más fácil clasificar las barras por la dirección esperada del movimiento del precio en esta barra: al alza o a la baja. En mi ejemplo de predicción del S&P500 descrito anteriormente, en lugar de predecir el movimiento cuantitativo del precio para dos trimestres por delante, podemos limitarnos a predecir la dirección del movimiento del precio. Esto será inequívoco y el error puede calcularse como % de acierto al adivinar la dirección del movimiento.

Mi sugerencia anterior sigue siendo válida, pero me parece que los escritores de artículos aquí seguirán describiendo métodos y directrices para el uso de algunas herramientas en lugar de demostrar estas herramientas en ejemplos concretos. Todo esto es teoría, y el dinero se gana escribiendo artículos y libros, no utilizando estas herramientas en el trading. El argumento sobre la utilidad práctica de los artículos no es nuevo aquí.

 
Vladimir:

Por clasificación te refieres a la clasificación de las barras en COMPRAR, VENDER, MANTENER, ¿verdad? Dicha clasificación es errónea en principio, ya que es incoherente. Por ejemplo, usted puede clasificar una barra como COMPRA incluso si el precio bajó después de ella y luego argumentar que la señal era correcta porque usted debería haberse sentado fuera de la caída hasta que obtuvo un beneficio. La misma barra puede ser clasificada como VENTA porque el precio bajó. La misma barra puede clasificarse como MANTENER si el precio después de esa barra fluctúa en el corredor menos que el beneficio esperado. Así que tenemos ambigüedad. Con esta clasificación tenemos que añadir condiciones adicionales, por ejemplo, cuánto drawdown vamos a permitir, cuánto tiempo vamos a esperar hasta obtener beneficios, cuál es el objetivo de beneficios, qué hacemos al cierre de la sesión (¿esperamos al lunes?).

Es mucho más fácil clasificar las barras por la dirección prevista del movimiento del precio en esa barra: al alza o a la baja. En mi ejemplo de predicción del S&P500 descrito anteriormente, en lugar de predecir el movimiento cuantitativo del precio para dos trimestres por delante, podemos limitarnos a predecir la dirección del movimiento del precio. Esto será inequívoco y el error puede calcularse como % de acierto al adivinar la dirección del movimiento.

Mi sugerencia anterior sigue siendo válida, pero me parece que los escritores de artículos aquí seguirán describiendo métodos y directrices para el uso de algunas herramientas en lugar de demostrar estas herramientas en ejemplos concretos. Todo esto es teoría, y el dinero se gana escribiendo artículos y libros, no utilizando estas herramientas en el trading. El argumento sobre la utilidad práctica de los artículos no es nuevo aquí.

1. Si de pequeño te hubieran enseñado a leer libros y artículos, habrías entendido que lo que yo y el autor del artículo escribimos y lo que tú escribiste trata de lo mismo.

2. Si de pequeño te hubieran inculcado el hábito de respetar a las demás personas, no te habrías permitido escribir o escribir "pijadas".

Que tengas suerte en aprender a leer.

 
Vladimir:

Por clasificación te refieres a la clasificación de las barras en COMPRAR, VENDER, MANTENER, ¿verdad? Dicha clasificación es errónea en principio, ya que es incoherente. Por ejemplo, usted puede clasificar una barra como COMPRA incluso si el precio bajó después de ella y luego argumentar que la señal era correcta porque usted debería haberse sentado fuera de la caída hasta que obtuvo un beneficio. La misma barra puede ser clasificada como VENTA porque el precio bajó. La misma barra puede clasificarse como MANTENER si el precio después de esa barra fluctúa en el corredor menos que el beneficio esperado. Así que tenemos ambigüedad. Con esta clasificación tenemos que añadir condiciones adicionales, por ejemplo, cuánto drawdown vamos a permitir, cuánto tiempo vamos a esperar hasta obtener beneficios, cuál es el objetivo de beneficios, qué hacemos al cierre de la sesión (¿esperamos al lunes?).

Es mucho más fácil clasificar las barras por la dirección prevista del movimiento del precio en esa barra: al alza o a la baja. En mi ejemplo de predicción del S&P500 descrito anteriormente, en lugar de predecir el movimiento cuantitativo del precio para dos trimestres por delante, podemos limitarnos a predecir la dirección del movimiento del precio. Esto será inequívoco y el error puede calcularse como % de acierto al adivinar la dirección del movimiento.

Mi sugerencia anterior sigue siendo válida, pero me parece que los escritores de artículos aquí seguirán describiendo métodos y directrices para el uso de algunas herramientas en lugar de demostrar estas herramientas en ejemplos concretos. Todo esto es teoría, y el dinero se gana escribiendo artículos y libros, no utilizando estas herramientas en el trading. El argumento sobre la utilidad práctica de los artículos no es nuevo aquí.

En primer lugar, la definición de Clasificación se da a nivel de jardín de infancia. Luego se habla de que se genera incertidumbre(!?) Y termina como siempre: "¿Dónde está la llave del piso donde está el dinero?".

Necesitas más formación teórica. Estudiar, estudiar y volver a estudiar... Ya sabes.

Y sé más modesto.

PD. Pon tu propuesta en Freelance. Consigue un producto real.

 
СанСаныч Фоменко:
Estaba respondiendo a Vladimir.
Perdóneme.