Discussão do artigo "Interpretação de modelos: Compreensão mais profunda dos modelos de aprendizado de máquina"

 

Novo artigo Interpretação de modelos: Compreensão mais profunda dos modelos de aprendizado de máquina foi publicado:

O aprendizado de máquina é uma área fascinante e essencial para todos, independentemente da experiência que possuam. Neste artigo, vamos mergulhar nos detalhes dos mecanismos que fundamentam os modelos desenvolvidos, desvendaremos o intricado universo das características, das previsões e das soluções robustas, e alcançaremos uma interpretação cristalina dos modelos. Descubra como “fazer concessões”, aprimorar previsões, priorizar a importância dos parâmetros e fazer escolhas assertivas. Este texto servirá de guia para você aprimorar a eficácia dos modelos de aprendizado de máquina e maximizar os benefícios das metodologias aplicadas.

Neste artigo, exploramos a aplicação de um modelo de árvore com gradiente reforçado (gradient boosted tree model), especificamente usando a biblioteca Python CatBoost, para análises de regressão de preços. Desde o início, notamos um problema significativo que exige um exame mais detalhado do modelo. Antes de explorar técnicas de interpretação para nosso modelo "caixa preta", é necessário entender as limitações desse tipo de modelo e por que há a necessidade de explicadores (explainers) "caixa preta" nesse cenário.

As árvores de gradiente reforçado são eficazes em tarefas de classificação, mas encontram barreiras significativas em regressões específicas de séries temporais. Essas árvores, que são modelos de aprendizado de máquina, segmentam os dados de entrada em grupos conforme o valor alvo. O algoritmo, então, determina o valor médio do alvo para cada grupo e utiliza esses valores médios para prever resultados futuros. É importante notar que esses valores médios, definidos durante o processo de treinamento, não se alteram a menos que um novo treinamento seja executado. Essa característica estática representa uma limitação crítica, visto que árvores de gradiente aumentado muitas vezes falham em extrapolar novas tendências de forma acurada. Frequentemente, ao se depararem com novos dados fora da faixa de treinamento, essas árvores tendem a replicar previsões anteriores, apoiando-se em médias de grupos já conhecidos, o que pode não corresponder com precisão às tendências reais fora do alcance do treinamento.

Adicionalmente, o modelo presume que características similares resultam em valores alvo semelhantes, o que é contraditório com o que observamos nos mercados de títulos financeiros. Nos mercados, é comum modelos de preços aparentemente similares resultarem em desfechos distintos, o que desafia a premissa do modelo de dados homogeneamente agrupados. Essa contradição introduz um viés no modelo.

Autor: Gamuchirai Zororo Ndawana

Razão: