Discussão do artigo "Redes neurais de maneira fácil (Parte 65): aprendizado supervisionado ponderado por distância (DWSL)"

MetaQuotes 2024.05.02 08:19

Novo artigo Redes neurais de maneira fácil (Parte 65): aprendizado supervisionado ponderado por distância (DWSL) foi publicado:

Neste artigo, convido você a conhecer um algoritmo interessante que se situa na interseção entre os métodos de aprendizado supervisionado e de reforço.

Os métodos de clonagem de comportamento, em grande parte baseados nos princípios do aprendizado supervisionado, demonstram resultados bastante bons. No entanto, seu principal problema permanece na busca de exemplos ideais para imitação, que muitas vezes são muito difíceis de coletar. Por sua vez, os métodos de aprendizado por reforço podem trabalhar com dados de entrada subótimos. Eles também encontram políticas subótimas para alcançar os objetivos estabelecidos. Entretanto, ao buscar a política ótima, frequentemente enfrentamos o problema de otimização, que é mais grave em ambientes de alta dimensionalidade e estocásticos.

Para superar a lacuna entre essas duas abordagens, foi proposto o método Distance Weighted Supervised Learning (DWSL), apresentado no artigo "Distance Weighted Supervised Learning for Offline Interaction Data". Este é um algoritmo de aprendizado off-line supervisionado para políticas direcionadas. Teoricamente, converge para a política ótima com uma margem de retorno mínima no nível das trajetórias da amostra de treinamento. Exemplos práticos dos autores demonstram a superioridade do método proposto sobre os algoritmos de aprendizado por imitação e por reforço. Convido você a dar uma olhada mais de perto no DWSL. E a avaliar de forma prática seus pontos fortes e fracos na solução de nossas tarefas.

Autor: Dmitriy Gizlyk

Novo comentário