Discussão do artigo "Redes neurais de maneira fácil (Parte 26): aprendizado por reforço"

 

Novo artigo Redes neurais de maneira fácil (Parte 26): aprendizado por reforço foi publicado:

Continuamos a estudar métodos de aprendizado de máquina. Com este artigo, começamos outro grande tópico chamado aprendizado por reforço. Essa abordagem permite que os modelos estabeleçam certas estratégias para resolver as tarefas. E esperamos que essa propriedade inerente ao aprendizado de reforço abra novos horizontes para a construção de estratégias de negociação.

m nossas vidas, olhamos ao redor, avaliamos objetos pelo toque, ouvimos sons. Ou seja, através de nossos sentidos, avaliamos nosso mundo a cada momento. Em nossas mentes, fixamos seu estado.

Da mesma forma, o ambiente (environment) gera seu estado (state), que é avaliado pelo agente (agent).

Da mesma forma que agimos de acordo com nossa visão de mundo, o agente (agente) realiza a ação (action) ditada por sua estratégia (policy - política).

O ambiente muda com um certo grau de probabilidade como resultado do impacto sobre ele. Quando isso acontece, para cada ação, o agente (agent) recebe uma determinada recompensa (rewards) do ambiente (enviroment). Neste caso, a recompensa (rewards) pode ser tanto positiva quanto negativa. É pelo tamanho da recompensa que o agente (agent) pode avaliar a utilidade da ação.

Aprendizado por reforço

Autor: Dmitriy Gizlyk