Estadística de la dependencia entre comillas (teoría de la información, correlación y otros métodos de selección de características) - página 31

 
Avals: No es necesario predecir todo el tiempo :) Sólo en momentos discretos.

Y más a menudo el sistema debería decir: "vamos a sentarnos en la valla, tengo una crisis del modelo del universo". Supongo que ésta es una cualidad útil de cualquier sistema de negociación inteligente, que refleja la realidad caótica del mercado: sólo permite echar un ligero vistazo al futuro en determinados momentos.

Cándido: En general, a juzgar por el hecho de que los posts siguen colgados en el aire, mi tiempo en este hilo se ha ido o no ha llegado todavía :). Probablemente sea el momento de que la fuente descanse :).

Probablemente todavía no :).

Y sinceramente no iba a activar el tema todavía, pero después de que surgiera, supuse que habría sobre este desarrollo. Pero no me arrepiento, ya que la discusión ha aclarado algunas cosas.

Cándido: He asumido desde el principio que la metodología detecta cualquier dependencia, tanto útil para la previsión como inútil. En cuanto a la volatilidad, hay pruebas definitivas que apoyan esta suposición.

La volatilidad es un jugador serio en este Juego de la Información, pero creo que todavía no es el rey y dios.

 

Voy a seguir con el tema, más bien para los estetas. Tal vez sea el fin del tema. O tal vez se abra otro.

Publicaré los resultados de mis experimentos.

 

Un gráfico que muestra la cantidad de información mutua en los rezagos de 1 a 250 para la barra cero (más precisamente, los incrementos de precio p[0] - p[1]) para EURUSD D1.




A continuación, vamos a intentar mantener la volatilidad original de la serie (conservando los módulos de los incrementos) pero mezclando los signos de los incrementos. Obtenemos.



Un gráfico similar y la suma de información recíproca es muy parecida. Significa que la eliminación del signo del gradiente no afectó a la información mutua. Para confirmar la insignificancia del signo, probemos lo siguiente. Dejemos la secuencia de signos de los incrementos como en el formato original pero mezclemos los módulos de los incrementos habiendo roto la estructura de la volatilidad. Ahora sí.




El gráfico tiene un aspecto diferente. La suma ha disminuido considerablemente. Por lo tanto, habiendo eliminado la volatilidad, con la presencia de la secuencia original de signos de incremento tenemos mucha menos información sobre la barra cero.


Ahora vamos a mezclar tanto los signos de incremento como la secuencia del módulo de incremento, es decir, vamos a eliminar la volatilidad y la secuencia de signos que tienen lugar en la serie original.




Obtenemos aproximadamente lo mismo, incluso la suma es mayor. Suponemos que la serie sin volatilidad es casi igual a una serie completamente aleatoria (que, sin embargo, tiene la ley de distribución conservada).


Para no realizar múltiples realizaciones para cada experimento, vamos a realizar la prueba estadística de la hipótesis sobre la diferencia entre los valores obtenidos de información mutua para diferentes series.

Prueba de Kolmogorov-Smirnov para la información mutua de la serie original y la serie con volatilidad preservada. p > 0,1. Se rechaza la hipótesis de la diferencia.

Para las series originales y las series con signo conservado de los incrementos: p < 0,01. Se confirma la hipótesis de la diferencia.

Prueba para la serie con el signo retenido y la serie aleatoria. p < 0,1. Un resultado ambiguo, pero la suma de la información mutua para la serie aleatoria es aún mayor, por lo que me inclino a aceptar la hipótesis de una diferencia, o al menos de la no superioridad sobre la serie aleatoria.

Conclusión: esta metodología, trabajando con incrementos de precios de cierre, permite detectar dependencias de volatilidad de precios, mientras que las dependencias de signos de incrementos no son detectables, si es que lo son en algún sentido. Es imposible predecir la dirección del movimiento de los precios con esta metodología.

 

He estado fuera del tema durante el último mes: he estado muy ocupado con otras cosas, así que no he tenido tiempo para ello.

En principio, estoy de acuerdo con el veredicto. Pero sólo sobre los días. Ya sospeché y conté antes (y no sólo yo) que hay mucho más caos en días que en plazos más cortos.

También hay que tener en cuenta que no se han filtrado los bares con excesiva información. Sospecho que afecta en gran medida al resultado.

En resumen, la selección de los datos que posiblemente se proporcionarán a la entrada de la red neuronal debería plantearse con mucha más seriedad. Así que resulta que para beneficiarse de la red neuronal, hay que alimentarla con manjares de primera calidad extremadamente libres de suciedad. Y ahora mismo no se trata de un manjar, sino de un esturión estrellado no capturado.

 
Mathemat:

He estado fuera del tema durante el último mes: he estado muy ocupado con otras cosas, así que no he tenido tiempo para ello.

En principio, estoy de acuerdo con el veredicto. Pero sólo sobre los días. Ya sospeché y conté antes (y no sólo yo) que hay mucho más caos en días que en plazos más cortos.

También hay que tener en cuenta que no se han filtrado los bares con excesiva información. Sospecho que afecta en gran medida al resultado.

En resumen, la selección de los datos que posiblemente se proporcionarán a la entrada de la red neuronal debería plantearse con mucha más seriedad. Así que resulta que para beneficiarse de la red neuronal, hay que alimentarla con manjares de primera calidad extremadamente libres de suciedad. Y ahora mismo sigue sin ser un manjar, sino un esturión estrellado no capturado.

Alexei, en primer lugar, me alegro de verte en el hilo. Estoy de acuerdo con su opinión. También he oído y pensado en el gran volumen de caos de los diarios. Mi opinión es la siguiente: en los TF grandes la función de la serie temporal no es tan suave como en los de 1 y 5 minutos, y menos aún en los ticks. Si uno aprende a predecir con varias barras de antelación en TFs pequeños, habrá poder. Por supuesto, también puedo calcular la información mutua por minutos, será aún más interesante. Puede que lo haga también para las garrapatas, lo sacaré de la página de Gain Capital. Pero el problema de utilizar la información del conjunto de barras no está resuelto, estoy atascado en eso. Lo siento.

Estoy totalmente de acuerdo en que no se ha cogido la "estrella". Y el problema de la información redundante es importante en este sentido. Si tomamos la información en barras específicas, planteamos fundamentalmente la cuestión de la importancia de cada desfase tomado.

En definitiva, pero nos vemos en el aire de nuevo.

 
alexeymosc: Por supuesto, puedo calcular la información recíproca para los minutos también, incluso sería interesante. También puedo hacerlo para las garrapatas, las cogeré de la web de Gain Capital.

Para los minutos, y mucho menos para los ticks, probablemente sea demasiado derrochador en términos de tiempo y uso de los recursos del PC. Cuento con coger los relojes y contarlos. Ya veremos.

El problema más grave no está en la superficie, sino en el interior: la historia pasada no es una constante para el DC. Las barras aparecen y desaparecen todo el tiempo. Y los cambios locales de la historia pasada pueden afectar seriamente al resultado (o más bien a la Matriz). Me siento extremadamente incómodo con esto. Estoy buscando una manera de resolver el problema de la permanencia de la historia y, al mismo tiempo, reducir el número de cálculos en un orden de magnitud.

 
alexeymosc:

Alexei, en primer lugar, me alegro de verte en el hilo. Estoy de acuerdo con su opinión. También he escuchado y pensado en la gran cantidad de caos que hay en los días. Mi opinión es la siguiente: en los TF grandes la función de la serie temporal no es tan suave como en los minutos y los cinco minutos, y menos aún en los ticks. Si uno aprende a predecir con varias barras de antelación en TFs pequeños, habrá poder. Por supuesto, también puedo calcular la información mutua por minutos, será aún más interesante. Puede que lo haga también para las garrapatas, lo sacaré de la página de Gain Capital. Pero el problema de utilizar la información del conjunto de barras no está resuelto, estoy atascado en eso. Lo siento.

Estoy totalmente de acuerdo en que no se ha cogido la "estrella". Y el problema de la información redundante es importante en este sentido. Si tomamos la información en barras específicas, planteamos fundamentalmente la cuestión de la importancia de cada desfase tomado.

En definitiva, pero nos vemos en el aire de nuevo.

Quizás en TFs grandes la función de serie temporal no es tan suave como en minutos y cinco minutos, y aún más en ticks, pero es más predecible. En TFs más pequeños, especialmente en minutos, la función de serie temporal revela un patrón, según entiendo, en unos cientos o incluso miles de barras, mientras que en diez (-s) barras la proporción de componentes aleatorios de un posible patrón general es muy alta.
 
yosuf:
Tal vez en los marcos temporales grandes la función de las series temporales no sea tan suave como en los de 1 y 5 minutos, y menos aún en los ticks, pero es más predecible. En los marcos temporales más pequeños, especialmente en los de 1 minuto, la función de las series temporales muestra regularidad dentro de varios cientos o incluso miles de barras, mientras que dentro de decenas (-s) de barras la proporción de componentes aleatorios de un posible patrón general es muy alta.

Estoy de acuerdo, Yusuf. También existe esa opinión. Por eso tomé las barras diarias, por cierto. Pero, curiosamente, la suma de la información mutua para el mismo número de rezagos es mayor para las barras horarias que para las diurnas. Aunque sea sobre todo volatilidad, pero un hecho es un hecho. Así que quizás los plazos más pequeños sean más adecuados para un modelo de predicción concreto.

 
Mathemat:

Para los minutos, y mucho menos para los ticks, probablemente sea demasiado derrochador en términos de tiempo y uso de los recursos del PC. Cuento con coger los relojes y contarlos. Ya veremos.

El problema más grave no está en la superficie, sino en el interior: la historia pasada no es una constante para el DC. Las barras aparecen y desaparecen todo el tiempo. Y los cambios locales de la historia pasada pueden afectar seriamente al resultado (o más bien a la Matriz). Me siento extremadamente incómodo con esto. Estoy buscando una forma de resolver el problema de la constancia de la historia y, al mismo tiempo, reducir el número de cálculos en un orden de magnitud.

Este es un punto muy bueno. Aunque yo mismo no he escarbado en el problema de las barras volátiles en la historia, pero el punto es claro para mí, Alexey. Creo que deberíamos medir sobre alguna señal derivada de la serie temporal, en lugar de sobre la propia serie temporal. Tal vez tenga sentido tomar el precio medio ponderado dentro del marco temporal, los picos se suavizarán. Por cierto, lo hice una vez: tomé la media ponderada del precio intradía calculada por el cierre horario (de hecho, es MA con un período de 24, pero para el cálculo tomamos los valores de esta onda, espaciados 24 pasos). Y calculé la información mutua. Me sorprendió. El retardo 1 mostró la máxima información, mientras que los demás retardo mostraron 10 veces o más información. Una fuerte diferencia con respecto a la serie de precios diaria original...
 
Usted es consciente del impacto de la agrupación de la volatilidad en los plazos inferiores y, sin embargo, saca cualquier conclusión de que los plazos supuestamente superiores son más ruidosos. La única base para esto es su creencia. Si realmente quieres comparar diferentes escalas de tiempo, entonces no las compares directamente, sino sus residuos de los efectos de la volatilidad, de lo contrario todo se parece a una creencia propia.
Razón de la queja: