Matstat Econometría Matan

 
Bienvenidos todos los gurús de la estadística matemática, la econometría y el análisis matemático.
Un hilo para el diálogo constructivo, sobre diversos temas de los campos científicos mencionados.
¡La comunicación adecuada es bienvenida!
 

Foro sobre trading, sistemas de trading automatizados y pruebas de estrategias de trading

De la teoría a la práctica. Parte 2

Aleksey Nikolayev, 2021.05.05 22:38

A grandes rasgos, la mezcla debilita la dependencia pero no la elimina por completo.
De hecho, la dependencia probabilística es la parte más importante del teorema en términos de aplicaciones prácticas.
Cuando vi un curso de teorización en el MIT para ingenieros en youtube se hablaba de ello.


¿Se refiere al coeficiente de determinación r2?
¿O algo más por dependencia de la probabilidad?

Tengo en cuenta r2 en tiempo real, para estimar la "fuerza de influencia" de la variable x en y
sorprendentemente en algunas series de divisas, se mantiene bastante consistente en valores altos

r2

 
¿No es suficiente la probabilidad? Si esta es la teoría de la probabilidad...
 
Dmitry Fedoseev:
¿No es suficiente con la probabilidad? Si se trata de la teoría de la probabilidad...

Quería aclarar a qué criterio de evaluación se refería en este contexto.
Si la correlación es convencional, entonces con r2 tienen una diferencia en el cálculo, correspondiendo diferentes estimaciones.
En estadística, suelen recomendar el uso de r2 como más fiable.

r

y literalmente diez minutos después

rr

 
Roman:

¿Se refiere al coeficiente de determinación r2?
¿O se refiere a otra cosa con la dependencia de la probabilidad?

La dependencia probabilística (estocástica) es uno de los conceptos más importantes en la teorización y el matstat. El concepto se define (a través de la probabilidad condicional) primero para los sucesos aleatorios, y luego se transfiere a las variables aleatorias, en forma de distribución condicional. La dependencia es la no conformidad de la distribución condicional con la distribución incondicional, mientras que la independencia es su coincidencia. Una explicación popular de la dependencia es - Saber qué valor tiene un c.c. conlleva información sobre el valor del otro c.c. La dependencia se encuentra entre sus dos estados extremos: la independencia y la conexión funcional rígida.

El sentido general es que siempre se parte de una distribución conjunta de variables aleatorias, a partir de la cual se construyen todo tipo de métricas de dependencia específicas. Pueden ser cópulas, entropía mutua, correlación, etc.

La correlación, la R2, etc. sólo son razonablemente aplicables cuando la distribución conjunta es normal multivariante. En la práctica, también se aplican (por su sencillez) cuando la normalidad no es segura, pero entonces su utilidad sólo la determina la experiencia.

 
Aleksey Nikolayev:

La probabilidad (estocasticidad) es uno de los conceptos más importantes en la teorización y el matstat. El concepto se define (a través de la probabilidad condicional) primero para los sucesos aleatorios, y luego se traslada a las variables aleatorias, en forma de distribución condicional. La dependencia es la no conformidad de la distribución condicional con la distribución incondicional, mientras que la independencia es su coincidencia. Una explicación popular de la dependencia es - Saber qué valor tiene un c.c. conlleva información sobre el valor del otro c.c. La dependencia se encuentra entre sus dos estados extremos: la independencia y la conexión funcional rígida.

El sentido general es que siempre se parte de una distribución conjunta de variables aleatorias, a partir de la cual se construyen todo tipo de métricas de dependencia específicas. Pueden ser cópulas, entropía mutua, correlación, etc.

La correlación, la R2, etc. sólo son razonablemente aplicables cuando la distribución conjunta es normal multivariante. En la práctica, también se aplican (por simplicidad) cuando no hay certeza de la normalidad, pero entonces su utilidad sólo viene determinada por la experiencia.

Ah, esta es una distribución complicada, siempre me olvido de ella ))
¿Entonces todos los modelos estadísticos requieren este criterio?
Y como no hay normalidad en las series de precios, comienza la tortura de preparar los datos,
para acercarlos de alguna manera a una distribución normal, sin perder las propiedades originales.

De ahí se deriva el problema de cómo preparar estos datos.
La normalización, el cusum, la derivación, etc., tal y como yo lo entiendo, no conduce a resultados de calidad.
Entonces empiezan a adelgazar o algo así. ¿Qué métodos hay en general?

Así que de nuevo llego a la conclusión de que la preparación de los datos cualitativos para los modelos estadísticos es un gran tema de estudio.
He buscado tutoriales sobre este tema, pero no he encontrado nada, bigdata, MO, neuronka están por todas partes, pero cómo preparar los datos cualitativos para ellos, por alguna razón no se da a conocer.

 

No puedo entender la siguiente anomalía, por qué sucede esto.
He calculado un modelo ortogonal, que se supone que es mejor que el MNC.
Tengo los coeficientes de partida.
A continuación, los parámetros del modelo (coeficientes) se ajustan mediante el algoritmo de la mediana, es decir, una especie de robustez frente a los valores atípicos.
El modelo describe cualitativamente la serie inicial.

En azul - serie original.
El gris es el modelo.

p1

Pero en una de las secciones de la historia, observo una divergencia que además converge a la exacta como en la captura de pantalla anterior

p2


No puedo ver la verdad, ¿por qué sucede? ¿Qué contribuye a ello?
Los coeficientes se recalculan en cada paso y deberían ajustar (x) a (y)
¿Es un error de ajuste? Entiendo que puede haber un error en uno o dos o incluso tres pasos de cálculo,
pero parece extraño que el error dure tanto tiempo. ¿Tal vez no sea un error de ajuste? ¿Es algo más?

 
Roman:

No puedo entender la siguiente anomalía, por qué sucede esto.
He calculado un modelo ortogonal, que se supone que es mejor que el MNC.
Tengo los coeficientes de partida.
A continuación, los parámetros del modelo (coeficientes) se ajustan mediante el algoritmo de la mediana, es decir, una especie de robustez frente a los valores atípicos.
El modelo describe cualitativamente la serie inicial.

En azul - serie original.
El gris es el modelo.



Pero en una de las secciones de la historia, observo una divergencia que además converge a la exacta como en la captura de pantalla anterior


No puedo ver la verdad, ¿por qué sucede? ¿Y qué contribuye a ello?
Los coeficientes se recalculan en cada paso y deberían ajustar (x) a (y)
¿Es un error de ajuste? Entiendo que puede haber un error en uno o dos o incluso tres pasos de cálculo,
pero parece extraño que el error dure tanto tiempo. ¿Tal vez no sea un error de ajuste? ¿Es otra cosa?

Lo único que puedo aconsejar es que busques algún paquete estadístico que implemente tu modelo (o similar) y veas cómo se comporta con tus datos. Esto puede ayudarle a entender si el problema es un modelo defectuoso o un error de implementación.

 
Roman:

Dado que no existe normalidad en las series de precios, la tortuosa tarea de preparar los datos,
, consiste en acercarlos a una distribución normal, sin perder las propiedades originales.

¿Los incrementos logarítmicos no funcionarían?
 
Aleksey Nikolayev:

Lo único que puedo sugerir es que busques un paquete estadístico que implemente tu modelo (o uno similar) y veas cómo se comporta con tus datos. Puede ayudar a entender si el problema es un modelo defectuoso o un error de implementación.

Gracias por la idea, no me había dado cuenta.

 
secret:
¿Logarizar los incrementos no va a funcionar?

Sí, eso es básicamente lo que estoy haciendo como una opción más o menos buena.
En otro modelo similar también observo a veces pequeñas divergencias, como la divergencia.
Pero no tan prolongado como en la captura de pantalla de arriba, sino bastante efímero. Me hizo preguntarme por qué sucede así.
He probado este modelo y he visto una divergencia aún más prolongada.

Así que no entiendo de dónde viene esta divergencia. No es un modelo correcto o los datos de origen son de baja calidad.
No entiendo la lógica de las acciones.
O bien debo ajustar los datos iniciales aproximadamente a la normalidad,
o bien debo palear diferentes modelos.
Pero trata de escribir este modelo primero, no es tan fácil de comprobar y tirar ))

Razón de la queja: