Discusión sobre el artículo "Aprendizaje automático y Data Science (Parte 29): Consejos esenciales para seleccionar los mejores datos de divisas para el entrenamiento de IA"

 

Artículo publicado Aprendizaje automático y Data Science (Parte 29): Consejos esenciales para seleccionar los mejores datos de divisas para el entrenamiento de IA:

En este artículo, profundizamos en los aspectos cruciales de la elección de los datos de Forex más relevantes y de alta calidad para mejorar el rendimiento de los modelos de IA.

Con todos los datos e información comercial como indicadores (hay más de 36 indicadores incorporados en MetaTrader 5), pares de símbolos (hay más de 100 símbolos) que también se pueden utilizar como datos para estrategias de correlación, también hay noticias que son datos valiosos para los traders, etc. El punto que intento plantear es que existe abundante información que los traders pueden utilizar en el trading manual o cuando intentan construir modelos de Inteligencia Artificial para ayudarnos a tomar decisiones comerciales inteligentes en nuestros robots comerciales.

De toda la información que tenemos a mano, tiene que haber alguna mala (eso es de sentido común). No todos los indicadores, datos, estrategia, etc. son útiles para un determinado símbolo de trading, estrategia o situación. ¿Cómo determinamos la información correcta para los modelos comerciales y de aprendizaje automático para lograr la máxima eficiencia y rentabilidad? Aquí es donde la selección de características entra en juego. 

Autor: Omega J Msigwa

 
Gracias por su artículo claro y bien escrito, es exactamente lo que estaba tratando de entender y estaba trabajando para comprobar las correlaciones a mí mismo. Gracias también por el archivo de python, ya que hace una plantilla fácil para mí adaptar. Espero que después de algún análisis voy a decir gracias por abrir los ojos a lo que es posible
 
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
Matar los datos del mercado. Este es un enfoque clásico de la llamada "limpieza de datos" gratuita, basada en un sesgo que toma sus raíces directamente del aprendizaje estacionario.

Aquí, por ejemplo, en este artículo https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
demuestran que OHLC no son sólo cuatro números, sino un único objeto topológico.

Si dejamos sólo Close, perdemos información sobre la volatilidad dentro de la barra. Una alta correlación del 99% es "ruido" para la regresión lineal, pero ese 1% de diferencia es una "señal" para el trader (longitud de la sombra, fuerza de la ruptura). Eliminar los precios "correlacionados" convierte un gráfico de velas en un gráfico lineal, destruyendo la esencia misma del análisis de velas.


"El coeficiente de correlación ... sólo evalúa relaciones lineales entre variables numéricas".

El propio autor admite las limitaciones del método, pero sigue sugiriendo su uso para la selección de características.
El mercado no es lineal. El mismo artículo introduce el concepto de limitaciones estructurales (High Close). La correlación de Pearson no contempla estas limitaciones. Si seguimos la lógica del primer artículo y eliminamos el Alto/Bajo "redundante", el modelo deja de comprender los límites de los valores aceptables. Como resultado, obtenemos un algoritmo que no entiende la diferencia entre un "mercado tranquilo" y un "mercado con enormes colas" si sus precios de apertura coinciden.


"Al reducir la dimensionalidad... simplificamos el modelo y reducimos el coste computacional".

Esto es "ahorrar en coincidencias".
Se pueden transformar los datos (Unconstrained Transformation) en lugar de "tirar" los datos para simplificarlos. En lugar de eliminar Máximo y Mínimo por su correlación con Apertura, debe transformarlos en valores relativos (dispersión de velas, posición cercana respecto a los extremos). Así, la dimensionalidad sigue siendo la misma (o ligeramente menor), pero la informatividad (geometría) sigue siendo del 100%, y el problema de la correlación desaparece.

A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
  • 2024.03.05
  • link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...