Estadística de la dependencia entre comillas (teoría de la información, correlación y otros métodos de selección de características)

 

¡Buenas tardes!

He decidido desarrollar ligeramente el tema tocado por Alexey (Mathemat) en uno de los hilos del foro.

He intentado buscar dependencias en las cotizaciones de un instrumento financiero utilizando métodos estadísticos. Para empezar, tomé el índice Dow Jones Industrial, datos diarios, y transformé una serie de series en una serie de incrementos porcentuales.

El artículo está en realidad aquí: http: //habrahabr.ru/blogs/data_mining/127394/

Me gustaría continuar para las cotizaciones de FX, voy a publicar los resultados aquí.

 

Bravo, Alexey, no esperaba que fueras tú quien sorprendiera a tu tocayo (perdóname por Dios, pero aún me hago una idea del nivel medio de madurez de nuestro foro).

Me alegro de que vayas por el mismo camino que yo, hasta la información mutua I() y la estimación aproximada en centésimas. Es cierto, no he utilizado la prueba de Kolmogorov-Smirnov. Y no tardé días, sino horas (hay más datos y las conclusiones son más fiables). И... He discretizado los incrementos de una manera ligeramente diferente.

Es realmente un poco caro para un hubr, supongo. Sólo son informáticos, aunque muy inteligentes :) (Mira el comentario de Cher, que obtuvo una puntuación de +3, es decir, la máxima).

Tengo un par de preguntas para usted - le escribiré en persona un poco más tarde. Y aquí, por ahora, observaré: de repente surgirá otro entendido...

 

Alexey, gracias... Me alegro de que te haya gustado, de hecho, al final me animé con la idea después de leer el resumen de los resultados de tu investigación.

Por supuesto, se podrían cambiar algunos aspectos específicos de la investigación. Yo mismo he pensado durante mucho tiempo cómo discretizar mejor los valores, y me he detenido en una forma tan sencilla como el redondeo.

Y ya he hecho el análisis para el EURUSD H1 también. Tomó una cotización de Alpari por 10 años (64500 barras). Aquí está:

Y con flechas he marcado los desfases semanales: de alguna manera destacan, en mi opinión.

Y este es el aspecto de la función de autocorrelación en esta serie:

En definitiva, se observa una estricta ciclicidad de 24 horas. Esto también se puede discutir.

Por cierto, aquí también he redondeado los incrementos a 10 puntos (debido a esto la entropía de los datos resultó ser de unos 2,5 Bits). Además, no podría atravesar más variables, por ejemplo, en el caso de bucear en un año de historia. Excel se cuelga del ordenador, engullendo 4 GB de RAM. No podía hacerlo físicamente, aunque el pensamiento estaba ciertamente allí.

 

Por cierto, el chi-cuadrado da aproximadamente la misma imagen: con un retraso creciente en algún lugar cada 24 barras hay un pico decente del valor del criterio.

P.D. Me gustaría destacar que el ACF aquí no se calcula por un número de retornos, sino por el flujo de información promediado, entregado por las cotizaciones pasadas a la barra cero. Si tomamos una barra de cero específica para los cálculos, el flujo de información hacia ella se calculará de forma diferente.

 
alexeymosc:

Se puede concluir que en los datos de finanzas naturales (al menos para el índice DJI) existen relaciones arbitrarias estadísticamente significativas entre los incrementos de las cotizaciones. Es decir, una serie de datos de este tipo no puede considerarse aleatoria. Teóricamente, hay espacio para predecir los valores futuros de una serie de este tipo, por ejemplo, mediante redes neuronales.

El hecho de que se haya encontrado una relación puede explicarse por el conocido hecho de que la volatilidad depende de los valores anteriores. Incluso se puede ver a simple vista por su gráfico de incrementos. Existen modelos teóricos que describen la dependencia de la volatilidad, como el ARCH/GARCH.

Por eso los ciclos de 24 horas se forman dentro de un día - el buey en el mercado de divisas tiene un comportamiento cíclico estacionario:

Simplemente tiene que ver con los horarios de apertura y cierre de los distintos centros financieros. La actividad comercial cambia. Si se utiliza una moneda como fuente de datos)), entonces se empieza a lanzar más a menudo y luego menos a la vez.

Además, existe un ciclo de voltaje semanal, pero es menos pronunciado que el de los mercados bursátiles. Sólo un desfase de 5 en incrementos diarios ;)

Así que no es un argumento para predecir la dirección de los cambios de cotización (que es lo que nos interesa). La comparación debe hacerse con una serie aleatoria generada a partir de la volatilidad real (por ejemplo, el volumen de ticks). Es decir, la dependencia de la dispersión en la distribución durante la generación. Por lo demás, muchas pruebas estadísticas determinan exactamente la dependencia de la volatilidad, no la varianza de los incrementos

 
alexeymosc:

En general, es visible un ciclo estricto de 24 horas. Esto también se puede discutir.

¿Qué hay que discutir? Es un hecho conocido desde hace tiempo, la ciclicidad intradía. Lo han señalado incluso personas que no entienden nada de matemáticas, pero que sí entienden de mercado. Además, existe una ciclicidad incluso dentro de las sesiones de negociación de determinados parqués. No se acerca a la comprensión de lo que debe hacerse, per se. Sin embargo, se puede extraer un poco de ventaja.
 
Avals:

Por lo demás, muchas pruebas estadísticas determinan exactamente la dependencia de la volatilidad, en lugar de las correcciones de los incrementos


Y esto es correcto. Yo mismo llegué a la conclusión, sólo que no publiqué aquí todos mis pensamientos.
 
Mathemat:

Por cierto, el chi-cuadrado da aproximadamente la misma imagen: con un retraso creciente en algún lugar cada 24 barras hay un pico decente del valor del criterio.

P.D. Me gustaría destacar que el ACF aquí no se calcula por un número de retornos, sino por el flujo de información promediado, entregado por las cotizaciones pasadas a la barra cero. Si tomamos una barra cero específica para los cálculos, el flujo de información hacia ella se calculará de forma diferente.


Sí, el histograma se calcula por los valores de la información mutua y sólo lo puse para confirmar la idea de la ciclicidad.
 
HideYourRichess:
¿Qué hay que discutir? Es un hecho conocido desde hace tiempo, la ciclicidad intradía. Lo han señalado incluso personas que no entienden nada de matemáticas, pero que sí entienden de mercado. Además, existe una ciclicidad incluso dentro de las sesiones de negociación de determinados parqués. No se acerca a la comprensión de lo que debe hacerse, per se. Sin embargo, se puede extraer un poco de ventaja.

Lo entiendo. Deberíamos tomar el plazo de un día o más.
 
alexeymosc:

No entiendo de dónde viene esta belleza cíclica.

Aquí está el resultado de los últimos 100 días.

Gráfico inicial:


Parece que hay una tendencia al principio, o una tendencia lateral del todo. Vamos a comprobarlo con la Cerveza Asada.

Parece ridículo, pero la probabilidad de que la distribución sea normal es del 80%.

Veamos la autocorrelación:



¿Dónde está la ciclicidad? No lo veo, pero veo la tendencia. Mientras haya una tendencia, todo razonamiento estadístico es irrelevante. Hagamos un alisado Hodrick-Prescott. Resultado:


Tenga en cuenta la lambda antiteórica. Ahora veamos el residuo, que aquí se llama Ciclo:

El residuo del alisado HP es, bueno, bastante normal.

No hay tendencias. Tal vez exista una ciclicidad (3 - 13,14), pero esto requiere pruebas más serias.


 

En primer lugar, la ciclicidad no está en el gráfico diario, sino en el gráfico horario. Por cierto, yo escribí allí.

Y para los gráficos diarios el resultado no será cíclico, tienes razón.