Discussão do artigo "Aplicação de métodos de ensemble para tarefas de classificação em MQL5"

 

Novo artigo Aplicação de métodos de ensemble para tarefas de classificação em MQL5 foi publicado:

Neste artigo, apresentamos a implementação de vários classificadores em ensemble na linguagem MQL5 e analisamos sua eficiência em diferentes situações.

Os ensembles de classificadores discutidos neste artigo operam com base em certas suposições sobre seus modelos componentes. Primeiramente, supõe-se que esses modelos são treinados em dados com classes-alvo mutuamente exclusivas e exaustivas, de modo que cada exemplo pertença apenas a uma classe. Quando a opção "nenhum dos anteriores" é necessária, ela deve ser tratada como uma classe separada ou gerenciada por meio de métodos numéricos de combinação com um limiar de pertencimento definido. Além disso, quando um vetor de entrada com preditores é fornecido, espera-se que os modelos componentes produzam N saídas, onde N representa o número de classes. Essas saídas podem ser valores de probabilidade ou classificações de confiança, que indicam a probabilidade de pertencimento a cada classe. Também podem ser decisões binárias, quando uma saída é igual a 1.0 (true) e as demais a 0.0 (false), ou ainda saídas inteiras de 1 a N, refletindo a probabilidade relativa de pertencimento a cada classe.

Alguns dos métodos de ensemble que analisaremos apresentam vantagens significativas quando utilizam classificadores componentes capazes de produzir saídas ranqueadas. Modelos que conseguem estimar com precisão as probabilidades de pertencimento às classes costumam ser altamente valorizados, mas existe um risco considerável em interpretar suas saídas como probabilidades quando, na verdade, elas não o são. Quando há incerteza sobre o que exatamente as saídas de um modelo representam, pode ser útil convertê-las em rankings. A utilidade das informações baseadas em rankings aumenta à medida que o número de classes cresce. Em classificações binárias, os rankings não acrescentam informação adicional e seu valor em tarefas de três classes é relativamente limitado. No entanto, em cenários com um grande número de classes, a capacidade de interpretar alternativas secundárias de escolha do modelo se torna extremamente valiosa, especialmente quando as previsões individuais estão associadas a um alto grau de incerteza. As máquinas de vetores de suporte (SVM), por exemplo, podem ser aprimoradas para fornecer não apenas classificações binárias, mas também as distâncias entre as fronteiras de decisão de cada classe, oferecendo informações mais detalhadas sobre a confiabilidade das previsões.



Autor: Francis Dube