Discussão do artigo "Ciência de dados e aprendizado de máquina (Parte 29): Como selecionar os melhores dados de Forex para treinar IA"

 

Novo artigo Ciência de dados e aprendizado de máquina (Parte 29): Como selecionar os melhores dados de Forex para treinar IA foi publicado:

Neste artigo, analisamos em detalhes os aspectos importantes para a escolha dos dados mais relevantes e de qualidade do mercado Forex e para melhorar o desempenho dos modelos de inteligência artificial.

No trading, há uma enorme quantidade de dados e informações disponíveis: indicadores (o MetaTrader 5 possui mais de 36 indicadores embutidos), símbolos de negociação (mais de 100), que podem ser usados em estratégias de correlação, notícias financeiras e outras informações. Ou seja, os traders têm à disposição um grande volume de dados tanto para o trading manual quanto para a construção de modelos de inteligência artificial que auxiliam na tomada de decisões mais fundamentadas.

No entanto, entre todas as informações disponíveis, inevitavelmente há dados de baixa qualidade ou irrelevantes. Nem todos os indicadores, estratégias ou dados são aplicáveis a um determinado símbolo de negociação, estratégia ou situação de mercado. Como identificar os dados mais valiosos para o trading e para a construção de modelos de aprendizado de máquina, de modo a alcançar a máxima eficiência e lucratividade? É aqui que entra a seleção de características.


Autor: Omega J Msigwa

 
Obrigado por seu artigo claro e bem escrito. É exatamente o que eu estava tentando entender e estava trabalhando para verificar as correlações por conta própria. Agradeço também pelo arquivo python, pois ele é um modelo fácil de adaptar para mim. Espero que, após algumas análises, eu possa dizer obrigado por abrir meus olhos para o que é possível
 
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
Matar os dados de mercado. Essa é uma abordagem clássica da chamada "limpeza de dados" gratuita, baseada em um viés que tem suas raízes diretamente no aprendizado estacionário.

Aqui, por exemplo, neste artigo https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
eles provam que o OHLC não é apenas quatro números, mas um único objeto topológico.

Se deixarmos apenas o Close, perderemos informações sobre a volatilidade dentro da barra. Uma correlação alta de 99% é "ruído" para a regressão linear, mas essa diferença de 1% é um "sinal" para o trader (comprimento da sombra, força do rompimento). A remoção dos preços "correlacionados" transforma um gráfico de candlestick em um gráfico linear, destruindo a própria essência da análise de candlestick.


"O coeficiente de correlação ... avalia apenas relações lineares entre variáveis numéricas."

O próprio autor admite as limitações do método, mas ainda sugere usá-lo para a seleção de características.
O mercado não é linear. O mesmo artigo introduz o conceito de limitações estruturais (High Close). A correlação de Pearson não vê essas restrições. Se seguirmos a lógica do primeiro artigo e removermos o High/Low "redundante", o modelo deixará de entender os limites dos valores aceitáveis. Como resultado, temos um algoritmo que não entende a diferença entre um "mercado calmo" e um "mercado com caudas enormes" se seus preços de abertura coincidirem.


"Ao reduzir a dimensionalidade... simplificamos o modelo e reduzimos o custo computacional."

Isso é "economizar em correspondências".
Você pode transformar os dados (Unconstrained Transformation) em vez de "jogar fora" os dados para simplificá-los. Em vez de remover High e Low por causa de sua correlação com Open, você deve transformá-los em valores relativos (propagação da vela, posição próxima em relação aos extremos). Assim, a dimensionalidade permanece a mesma (ou um pouco menor), mas a informatividade (geometria) permanece 100% e o problema de correlação desaparece.

A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
  • 2024.03.05
  • link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...