Discussão do artigo "Redes neurais de maneira fácil (Parte 67): Aprendendo com experiências passadas para resolver novos problemas"

 

Novo artigo Redes neurais de maneira fácil (Parte 67): Aprendendo com experiências passadas para resolver novos problemas foi publicado:

Neste artigo, continuaremos a falar sobre métodos de coleta de dados em uma amostra de treinamento. É claro que o processo de aprendizado requer constante interação com o ambiente. Mas as situações podem variar.

O aprendizado por reforço é baseado na maximização da recompensa obtida do ambiente durante a interação com ele. É claro que o processo de aprendizado requer constante interação com o ambiente. Mas as situações podem variar. Ao resolver algumas tarefas podem surgir certas restrições durante essa interação com o ambiente. Nessas situações, os algoritmos de aprendizado por reforço off-line vêm em nosso auxílio. Eles permitem treinar modelos em um arquivo limitado de trajetórias coletadas durante interações prévias com o ambiente quando ele estava acessível.

Naturalmente, o aprendizado por reforço off-line tem suas desvantagens. Especificamente, o problema de estudar o ambiente se torna ainda mais complicado devido à limitação da amostra de treinamento, que simplesmente não pode abranger toda a complexidade do ambiente. Isso é especialmente problemático em ambientes estocásticos complexos. Um dos métodos de resolver esse problema (ExORL) foi introduzido no artigo anterior.

No entanto, às vezes as restrições na interação com o ambiente podem ser bastante críticas. O processo de pesquisa do ambiente pode ser acompanhado por recompensas positivas e negativas. As recompensas negativas podem ser altamente indesejáveis e estar associadas a perdas financeiras ou outros tipos de perdas que você não pode aceitar. Mas os problemas raramente surgem do nada. Na maioria das vezes, otimizamos um processo existente. E na nossa "era da tecnologia da informação", quase sempre é possível encontrar experiências de interação com o ambiente estudado durante a resolução de problemas semelhantes ao que enfrentamos. É possível usar dados de interações reais com o ambiente, que podem cobrir de alguma forma o espaço necessário de ações e estados. Os experimentos com o uso dessa experiência para resolver novos problemas ao controlar robôs reais são discutidos no artigo "Real World Offline Reinforcement Learning with Realistic Data Source". Os autores do artigo propõem um novo framework de treinamento de modelos chamado Real-ORL.

Autor: Dmitriy Gizlyk

Razão: