Discussão do artigo "Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC)"

 

Novo artigo Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC) foi publicado:

O aprendizado contrastivo é um método de aprendizado de representação sem supervisão. Seu objetivo é ensinar o modelo a identificar semelhanças e diferenças nos conjuntos de dados. Neste artigo, discutiremos o uso de abordagens de aprendizado contrastivo para explorar diferentes habilidades do Ator.

O algoritmo de Controle Intrínseco Contrastivo começa com o treinamento do Agente em um ambiente usando feedback e obtenção de trajetórias de estados e ações. Em seguida, é realizado o treinamento de representações usando Contrastive Predictive Coding (CPC), motivando o Agente a extrair características chave dos estados e ações. São formadas representações que consideram dependências entre estados consecutivos.

Um papel importante é desempenhado pela recompensa interna, determinando quais estratégias comportamentais devem ser maximizadas. No CIC, a entropia das transições entre estados é maximizada, promovendo a diversidade de comportamento do Agente. Isso permite que o Agente explore e crie diversas estratégias comportamentais.

Após a formação de habilidades e estratégias diversas, o algoritmo CIC usa o Discriminador para especificar as representações de habilidades. O Discriminador visa garantir que os estados sejam previsíveis e estáveis. Assim, o Agente aprende a "utilizar" habilidades em situações previsíveis.

A combinação da exploração motivada por recompensas internas e o uso de habilidades para ações previsíveis cria uma abordagem equilibrada para o desenvolvimento de estratégias diversas e eficazes.

Consequentemente, o algoritmo de Codificação Preditiva Contrastiva estimula o Agente a descobrir e assimilar uma ampla gama de estratégias comportamentais, garantindo ao mesmo tempo um treinamento estável. A seguir, apresenta-se uma visualização autoral do algoritmo.

Visualização autoral do algoritmo

Autor: Dmitriy Gizlyk

Razão: