
Ciência de dados e aprendizado de máquina (Parte 29): Como selecionar os melhores dados de Forex para treinar IA
Seções
- Introdução
- Seleção de características
- Importância da seleção de características para modelos de IA
- Métodos de filtragem
Matriz de correlação
Testes estatísticos
— Teste qui-quadrado
— Teste ANOVA - Métodos de seleção por invólucro
Eliminação recursiva de características (RFE)
Seleção sequencial de características (SFS) - Métodos embutidos
Regressão LASSO
Métodos baseados em árvores de decisão - Métodos de redução de dimensionalidade
- Considerações finais
Introdução
No trading, há uma enorme quantidade de dados e informações disponíveis: indicadores (o MetaTrader 5 possui mais de 36 indicadores embutidos), símbolos de negociação (mais de 100), que podem ser usados em estratégias de correlação, notícias financeiras e outras informações. Ou seja, os traders têm à disposição um grande volume de dados tanto para o trading manual quanto para a construção de modelos de inteligência artificial que auxiliam na tomada de decisões mais fundamentadas.
No entanto, entre todas as informações disponíveis, inevitavelmente há dados de baixa qualidade ou irrelevantes. Nem todos os indicadores, estratégias ou dados são aplicáveis a um determinado símbolo de negociação, estratégia ou situação de mercado. Como identificar os dados mais valiosos para o trading e para a construção de modelos de aprendizado de máquina, de modo a alcançar a máxima eficiência e lucratividade? É aqui que entra a seleção de características.
Seleção de características
A seleção de características é o processo de identificação e escolha de um subconjunto das mais significativas do conjunto de dados original para a construção do modelo. Esse processo permite identificar as informações mais úteis para o aprendizado de máquina e eliminar aquelas que são desnecessárias ou redundantes.
A seleção de características desempenha um papel essencial na criação de um modelo de aprendizado de máquina eficiente por diversos motivos.
Importância da seleção de características para modelos de IA
- Redução de dimensionalidade
Ao removemos características irrelevantes ou redundantes, simplificamos o modelo e reduzimos os custos computacionais. - Aumento do desempenho
Focando nas características mais significativas, é possível melhorar a precisão e o poder preditivo do modelo. - Melhoria da interpretabilidade
Modelos com menos características são mais fáceis de analisar e interpretar. - Filtragem de ruído
Ao eliminarmos dados de baixa relevância, podemos evitar o sobreajuste, que frequentemente ocorre devido ao excesso de características irrelevantes.
Agora que entendemos a importância da seleção de características, vamos analisar as diferentes metodologias que especialistas em dados e aprendizado de máquina utilizam para encontrar as melhores características para modelos de IA.
Neste artigo, trabalharemos com o mesmo conjunto de dados mencionado anteriormente (recomendo que você o leia, caso ainda não o tenha feito). Esse conjunto contém 28 variáveis.
Dessas 28 variáveis, precisamos destacar as mais relevantes para as colunas "TARGET_OPEN" (valores de preço de abertura da próxima vela) e "TARGET_CLOSE" (valores de preço de fechamento da próxima vela), descartando os dados menos significativos.
Os métodos de seleção de características podem ser divididos em três categorias principais: métodos de filtragem, métodos de invólucro e métodos embutidos. Vamos analisar cada um deles em detalhes.
Métodos de filtragem
Os métodos de filtragem avaliam as características independentemente do modelo de aprendizado de máquina utilizado. Entre eles, a matriz de correlação e os testes estatísticos são amplamente usados.
Matriz de correlação
A matriz de correlação é uma tabela que exibe os coeficientes de correlação entre diferentes variáveis.
O coeficiente de correlação é uma medida estatística que indica a força e a direção da relação entre duas variáveis. Ele varia de -1 a 1:
Um valor de 1 indica uma correlação positiva perfeita (o aumento de uma variável acompanha um aumento proporcional da outra).
Um valor de 0 indica ausência de correlação (as variáveis não estão relacionadas).
Um valor de -1 indica uma correlação negativa perfeita (o aumento de uma variável acompanha uma redução proporcional da outra).
Traduzido do Inglês pela MetaQuotes Ltd.
Artigo original: https://www.mql5.com/en/articles/15482
Aviso: Todos os direitos sobre esses materiais pertencem à MetaQuotes Ltd. É proibida a reimpressão total ou parcial.
Esse artigo foi escrito por um usuário do site e reflete seu ponto de vista pessoal. A MetaQuotes Ltd. não se responsabiliza pela precisão das informações apresentadas nem pelas possíveis consequências decorrentes do uso das soluções, estratégias ou recomendações descritas.






- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso