Predicción de mercado basada en indicadores macroeconómicos - página 9

 
transcendreamer:


Sigo sin estar de acuerdo: la regresión funciona bien con cualquier dato, no necesariamente mejor que otros métodos, pero sí lo suficientemente bien, especialmente si se tiene en cuenta su extrema falta de demanda de recursos informáticos


La regresión NO funciona con cualquier dato. Esto es especialmente cierto para la regresión lineal, que se menciona al principio de este hilo.

El problema de la aplicación de la regresión lineal puede dividirse en dos niveles.

1. Estimación primaria de los coeficientes de regresión. Exactamente, EVALUACIÓN. Si escribimos y=a+inx, aquí no hay precisión, ya que la regresión no es una ecuación y la entrada correcta y ~ a+inx, donde el signo de tilde subraya que los coeficientes no son constantes, sino estimaciones de variables aleatorias con cierta precisión, y por tanto no se pueden sumar, como sugieres en tu post.

En consecuencia, al utilizar cualquier paquete de ajuste de regresión, cada coeficiente se empareja con algún conjunto de números que caracterizan el valor del coeficiente especificado como una variable aleatoria. El resultado total aparece en la columna de la extrema derecha en forma de asteriscos. Tres asteriscos significan que se puede tomar el valor de un coeficiente como una constante, o más bien como una estimación de un valor aleatorio con un pequeño error y una pequeña dispersión. Si no hay asteriscos, el valor dado no es nada y no se puede utilizar de ninguna manera.

Pero este no es todo el problema. Y los principales problemas son los siguientes.

2. la regresión lineal es aplicable SÓLO a datos estacionarios, es decir, que tienen mo y varianza aproximadamente constantes. La transformación que mencionas, que lleva a la eliminación de la tendencia, es el intento de llevarla a una forma estacionaria. Todo esto se generaliza en forma de modelos ARIMA, pero existen tales series financieras, y son la mayoría, cuando los modelos ARIMA no resuelven los problemas.

Si no se distinguen todas estas sutilezas, los resultados obtenidos con la regresión lineal son un juego de números vacío.

 
faa1947:

La regresión NO funciona con cualquier dato. Esto es especialmente cierto para la regresión lineal, que se menciona al principio de este hilo.

El problema de la aplicación de la regresión lineal puede dividirse en dos niveles.

1. Estimación primaria de los coeficientes de regresión. Exactamente, EVALUACIÓN. Si escribimos y=a+inx, ya no es exacto, porque la regresión no es una ecuación y la entrada correcta y ~ a+inx, donde el signo de tilde subraya que los coeficientes no son constantes, sino estimaciones de variables aleatorias con cierta precisión, y por tanto no podemos sumarlos, como sugieres en tu post.

En consecuencia, al utilizar cualquier paquete de ajuste de regresión, cada coeficiente se empareja con algún conjunto de números que caracterizan el valor del coeficiente especificado como una variable aleatoria. El resultado total aparece en la columna de la extrema derecha en forma de asteriscos. Tres asteriscos significan que se puede considerar el valor del coeficiente como una constante, o más bien como una estimación de un valor aleatorio con un pequeño error y una pequeña dispersión. Si no hay asteriscos, el valor dado no es nada y no se puede utilizar de ninguna manera.

Pero este no es todo el problema. Y los principales problemas son los siguientes.

2. la regresión lineal es aplicable SÓLO a datos estacionarios, es decir, que tienen mo y varianza aproximadamente constantes. La transformación que mencionas, que lleva a la eliminación de la tendencia, es precisamente el intento de llevarla a una forma estacionaria. Todo esto se generaliza en forma de modelos ARIMA, pero existen tales series financieras, y son la mayoría, cuando los modelos ARIMA no resuelven los problemas.

Si no se distinguen todas estas sutilezas, los resultados obtenidos con la regresión lineal son un juego de números vacío.

a mí me funciona bien )))) y sólo es una regresión lineal

Sumar los coeficientes es un método burdo, estoy de acuerdo.

He intentado analizar la significación de los coeficientes y el análisis de la varianza, pero en la práctica me parece de poca utilidad

es mucho más fácil y cómodo ver cómo se comporta la curva final y cómo se aproximan los valores teóricos a los datos originales visualmente en el gráfico

por eso tomo el vector solución tal cual, y para la mayoría de los casos es suficiente

si se ajusta a los datos, todo está bien.

He probado otras soluciones mejores, otros métodos - el resultado no es muy diferente al de la regresión

he observado que algunos coeficientes pueden flotar dentro de ciertos límites, y esto no afecta mucho a la curva final

Pero esto tampoco es un problema, estos coeficientes serán inestables de todos modos, cambiarán gradualmente con el tiempo, por lo que no tiene sentido evaluarlos

sobre la estacionariedad: por supuesto que no existe en el mercado, ¿qué hacer entonces?

probablemente no sea académico hacerlo como lo hago yo.

pero entonces, ¿qué tomar como sustituto?

 
transcendreamer:

.....

pero entonces, ¿a qué hay que sustituir?

Usted se ha limitado a la regresión lineal, pero podría plantear la pregunta de la siguiente manera: elija el tipo de regresión más adecuado en función de las tareas que se realicen. Puedes pensar en todas las grandes regresiones (no sólo las lineales) como un montón de cajas negras y concentrarte en problemas significativos para evaluar los resultados obtenidos.

Para salir de una regresión lineal como de los pantalones cortos hay que pasar mucho tiempo.

A continuación, decida el tipo de lo que va a predecir, es decir: va a predecir el valor, como el precio de un par de divisas, o va a predecir la dirección del precio, algún tipo de característica cualitativa de "largo-corto" u otras órdenes del terminal.

Ahora tienes que decidir algún tipo de inversión de tiempo.

En un primer momento recomiendo Rattle como puerta de entrada al mundo de más de 100 modelos. A juzgar por el nivel de su razonamiento sobre la regresión lineal es un día o dos de su tiempo. Al final tienes 6 tipos de modelos, uno de ellos casi tu favorito, sólo llamado "lineal generalizado", pero los otros son mucho más interesantes, con los que realmente puedes hacer modelos de predicción.

 
faa1947:

Usted se ha limitado a la regresión lineal, pero podría plantear la pregunta de la siguiente manera: elija el tipo de regresión más adecuado en función de las tareas que se realicen. Puedes pensar en todas las grandes regresiones (no sólo las lineales) como un montón de cajas negras y concentrarte en los problemas significativos de la evaluación de los resultados.

Para salir de una regresión lineal como de los pantalones cortos hay que pasar mucho tiempo.

A continuación, decida el tipo de lo que va a predecir, es decir: va a predecir el valor, como el precio de un par de divisas, o va a predecir la dirección del precio, algún tipo de característica cualitativa de "largo-corto" u otras órdenes del terminal.

Ahora tienes que decidir algún tipo de inversión de tiempo.

En un primer momento recomiendo Rattle como puerta de entrada al mundo de los más de 100 modelos. A juzgar por el nivel de su razonamiento sobre la regresión lineal es un día o dos de su tiempo. Al final tienes 6 tipos de modelos, uno de ellos casi tu favorito, sólo llamado "lineal generalizado", pero los otros son mucho más interesantes, con los que realmente puedes hacer modelos de predicción.

desgraciadamente, como he dicho, otros optimizadores no han mostrado resultados significativamente mejores en comparación con la regresión lineal

Tal vez en algunas aplicaciones científicas puedan dar una ventaja, pero en el comercio la predicción precisa es una ilusión.

La GLM se desarrolló para los seguros, si no me equivoco, la SVM y la ADA tienen un enfoque demasiado estrecho, la regresión logística no es adecuada por razones obvias

las redes neuronales y los bosques aleatorios son versátiles y más ventajosos porque evitan el problema de la raíz cero y se puede especificar cualquier función objetivo

pero es un verdadero rompecabezas ahí fuera, al menos para mí, un humanitario.

el método de componentes principales fue un descubrimiento para mí, pero no he podido aplicarlo a mi problema (carteras)

los bosques aleatorios son definitivamente dignos de atención y pienso probarlos después de algún tiempo, pero no espero mucho efecto.

Lástima que no hay GA en el traqueteo, o no podría encontrar uno

 

Yo no llamaría "cursi" a la regresión lineal. Y no hay que suponer que no he probado un montón de otros modelos.

Todo el mundo sabe que cualquier modelo no lineal y = f(x1,x2,...) puede descomponerse en una serie de Taylor:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Los versados en matemáticas saben que se trata de una descomposición de la función f(x1,x2,...) en bases polinómicas (más exactamente monomiales) x, x^2, x^3 etc. Una regresión lineal sólo conserva los términos lineales de esta expansión, por lo que es una aproximación de primer orden. Las bases no lineales pueden elegirse entre varios polinomios conocidos, por ejemplo, Chebyshev, Hermite, Legendre, etc. Pero el método correcto de selección de polinomios es la descomposición QR o, en un caso más general, la selección de polinomios ortogonales teniendo en cuenta las propiedades estadísticas de las entradas x1, x2, ... Las redes neuronales tratan de hacer la misma descomposición pero sobre funciones exp de las entradas según el teorema de Kolmogorov. Se trata de una descomposición bastante inconveniente, ya que las funciones exponenciales de las entradas no son ortogonales entre sí, lo que conduce a muchos problemas numéricos y variantes de solución. En cualquier caso, todas estas descomposiciones de nuestra función no lineal tendrán un modelo lineal como aproximación de primer orden. Por lo tanto, si una aproximación lineal (regresión) no nos da el resultado esperado, no tiene sentido ir a grados más altos de no linealidad. Incluso la regresión lineal puede ser resuelta por diferentes métodos (RMS, MNM, y otras funciones de error arbitrarias), los cuales he probado todos.

Por cierto, todos los modelos econométricos ARMA, ARIMA y otros son casos individuales del modelo anterior y[n] = f(x1[n-d1],x2[n-d2],...) donde algunas entradas son salidas retrasadas, es decir, y[n-1], y[n-2], de ahí el nombre de modelos "autorregresivos". Aunque no es saludable resolver los modelos autorregresivos por los métodos RMS o MMC porque los coeficientes obtenidos conducen a modelos oscilantes. Necesitamos Burg, Covarianza Modificada, etc. Pero hace tiempo que pasé este capítulo "autorregresivo" y no quiero volver. Aunque mi modelo de mercado permite la selección de una salida retrasada como una de las entradas. Pero hasta ahora nunca ha elegido esa entrada "autorregresiva", lo que significa que los indicadores económicos son más adecuados para predecir el precio que el propio precio en el pasado (que constituye la base de la gran mayoría de los métodos de los operadores basados en el análisis tecnológico)

 
faa1947:

Tengo una sugerencia.

Suelta el archivo tsv.con los nombres de las columnas. Especifique qué (cuáles) columnas deben utilizarse como variables de destino. Naturalmente, la fila de la tabla debe referirse a un punto en el tiempo.

Lo ejecutaré en Rattle y con su permiso publicaré aquí el resultado de 6 modelos muy decentes.


Sugerencia aceptada. Especifique un formato de archivo de datos aceptable. ¿Servirá la alfombra? Son muchos datos, el CSV se comerá todo el disco. MAT sólo 6MB.

Pero tengo una condición: las previsiones se hacen para el periodo comprendido entre 2000 y 2015, pero sólo sobre la base de los datos disponibles antes de la fecha prevista. Es decir, si se hace una previsión para el primer trimestre del 2000, se opera con datos hasta el primer trimestre del 2000. Seleccionar los predictores de todos los datos disponibles, incluidos los de 2015, y luego utilizarlos para predecir el primer trimestre de 2000, aunque los coeficientes del modelo se calculen a partir de datos anteriores al primer trimestre de 2000, es mirar hacia adelante. He tenido este error en el pasado y mi modelo ha tenido predicciones asombrosamente precisas. En resumen, mi condición es que se seleccionen los predictores y que el propio modelo predictivo se calcule a partir de los datos ANTES de la fecha prevista.

 
gpwr:

Oferta aceptada. Especifique un formato de archivo de datos aceptable. ¿Está bien la alfombra? Demasiados datos, el CSV se comerá todo el disco. MAT sólo 6MB.


El primer problema es el archivo. Tendremos que pensarlo. Estoy seguro de que MAT toma R - R y MATLAB son muy amigables, pero no sé cómo hacerlo. Cuando me prepare, te escribiré.

 
gpwr:

Yo no llamaría "cursi" a la regresión lineal.



"Lamentable" para los datos no estacionarios.

Y para resumir mis mensajes: la herramienta tiene que ajustarse al problema.

En el caso de las regresiones, el problema subyacente es la no estacionariedad de las series financieras. Por lo tanto, a la hora de elegir un conjunto de herramientas hay que fijarse en cómo la herramienta elegida resuelve el problema de la no estacionariedad. Mi mencionado ARIMA resuelve el problema de la no estacionariedad hasta cierto punto, pero nunca he oído que las series de Taylor resuelvan el problema de la no estacionariedad. En el marco de las regresiones, ARIMA no es la única herramienta, aunque todavía se utiliza en las estructuras gubernamentales de Estados Unidos y no es la más avanzada. De los más conocidos, mencionaré a ARCH con un montón de modificaciones.

El resultado de la no estacionariedad es el sobreajuste del modelo. Se manifiesta en el hecho de que se puede construir un modelo con una precisión extraordinaria, pero no funciona fuera de la muestra de entrenamiento, y a escondidas: luego funciona, luego no. Sus palabras sobre la superioridad de los modelos simples sobre los complejos es un hecho bien conocido y se basa en que un modelo complejo es mucho más fácil de sobreajustar que uno simple.

 
gpwr:

Yo no llamaría "cursi" a la regresión lineal. Y no hay que suponer que no he probado un montón de otros modelos.

Todo el mundo sabe que cualquier modelo no lineal y = f(x1,x2,...) puede descomponerse en una serie de Taylor:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Los versados en matemáticas saben que se trata de una descomposición de la función f(x1,x2,...) en bases polinómicas (más exactamente monomiales) x, x^2, x^3 etc. Una regresión lineal sólo conserva los términos lineales de esta expansión, por lo que es una aproximación de primer orden. Las bases no lineales pueden elegirse entre varios polinomios conocidos, por ejemplo, Chebyshev, Hermite, Legendre, etc. Pero el método correcto de selección de polinomios es la descomposición QR o, en un caso más general, la selección de polinomios ortogonales teniendo en cuenta las propiedades estadísticas de las entradas x1, x2, ... Las redes neuronales tratan de hacer la misma descomposición pero sobre funciones exp de las entradas según el teorema de Kolmogorov. Se trata de una descomposición bastante inconveniente, ya que las funciones exponenciales de las entradas no son ortogonales entre sí, lo que conduce a muchos problemas numéricos y variantes de solución. En cualquier caso, todas estas descomposiciones de nuestra función no lineal tendrán un modelo lineal como aproximación de primer orden. Por lo tanto, si una aproximación lineal (regresión) no nos da el resultado esperado, no tiene sentido ir a grados más altos de no linealidad. Incluso la regresión lineal puede ser resuelta por diferentes métodos (RMS, MNM, y otras funciones de error arbitrarias), los cuales he probado todos.

Por cierto, todos los modelos econométricos ARMA, ARIMA y otros son casos individuales del modelo anterior y[n] = f(x1[n-d1],x2[n-d2],...) donde algunas entradas son salidas retrasadas, es decir, y[n-1], y[n-2], de ahí el nombre de modelos "autorregresivos". Aunque no es saludable resolver los modelos autorregresivos por los métodos RMS o MMC porque los coeficientes obtenidos conducen a modelos oscilantes. Necesitamos Burg, Covarianza Modificada, etc. Pero hace tiempo que pasé este capítulo "autorregresivo" y no quiero volver. Aunque mi modelo de mercado permite la selección de una salida retrasada como una de las entradas. Pero hasta ahora nunca ha elegido esa entrada "autorregresiva", lo que significa que los indicadores económicos son más adecuados para predecir el precio que el propio precio en el pasado (que es la base de la gran mayoría de los métodos de los operadores basados en el análisis técnico)

Supongo que eso es lo que quería decir ))))

Construyo una regresión sobre el conjunto de datos y obtengo modelos "más o menos", y otros métodos casi siempre dan modelos "más o menos" también

y si una regresión lineal da un modelo "más o menos", entonces noto que otros métodos pueden mejorarlo un poco

 
Sería útil dar una definición clara, o al menos una aclaración de lo que se entiende por "previsión", "predicción", etc. ¿Cuál es el horizonte de una "previsión"? Sin esto, las "previsiones" no tienen sentido. Porque, en función del horizonte, una misma "previsión" puede ser correcta para un horizonte e incorrecta para otro. Además, estas parcelas pueden alternarse muchas veces.
Razón de la queja: