Discussão do artigo "Redes neurais de maneira fácil (Parte 41): Modelos Hierárquicos"

 

Novo artigo Redes neurais de maneira fácil (Parte 41): Modelos Hierárquicos foi publicado:

Este artigo descreve modelos hierárquicos de aprendizado que propõem uma abordagem eficaz para resolver tarefas complexas de aprendizado de máquina. Os modelos hierárquicos consistem em vários níveis, cada um responsável por aspectos diferentes da tarefa.

O algoritmo Scheduled Auxiliary Control (SAC-X) é um método de aprendizado por reforço que utiliza uma estrutura hierárquica para tomada de decisões e representa uma nova abordagem para resolver problemas com recompensas esparsas. Ele se baseia em quatro princípios fundamentais:

  1. Cada par de estado-ação é acompanhado por um vetor de recompensas, composto por recompensas externas (geralmente esparsas) e recompensas internas auxiliares (também geralmente esparsas).
  2. Cada entrada de recompensa é atribuída a uma política chamada de intenção, que é treinada para maximizar a recompensa acumulada correspondente.
  3. Há um planejador de alto nível que escolhe e executa intenções individuais com o objetivo de melhorar o desempenho do agente nas tarefas externas.
  4. O aprendizado ocorre fora das políticas (de forma assíncrona em relação à execução das políticas), e a experiência entre intenções é compartilhada para o uso eficiente das informações.

O algoritmo SAC-X utiliza esses princípios para resolver eficazmente problemas com recompensas esparsas. Vetores de recompensas permitem o aprendizado em diferentes aspectos da tarefa e a criação de várias intenções, cada uma maximizando sua própria recompensa. O planejador coordena a execução das intenções, selecionando a estratégia ótima para alcançar as metas externas. O treinamento ocorre fora da política, permitindo o uso de experiência de várias intenções para um aprendizado eficaz.

Essa abordagem permite que o agente resolva eficazmente problemas com recompensas esparsas, aprendendo com recompensas internas e externas. O uso do planejador também facilita a coordenação de ações e envolve a troca de experiências entre as intenções, contribuindo para a utilização eficiente de informações e aumentando o desempenho geral do agente.


O SAC-X proporciona um aprendizado mais eficiente e flexível do agente em ambientes com recompensas esparsas. Sua característica fundamental é o uso de recompensas internas auxiliares, que ajudam a superar a escassez de recompensas e facilitam o treinamento em tarefas com recompensas baixas.

Durante o treinamento do SAC-X, cada intenção possui sua própria política que maximiza a recompensa auxiliar correspondente. Um planejador determina quais intenções serão escolhidas e executadas a qualquer momento. Isso permite ao agente aprender em diversos aspectos da tarefa e usar efetivamente as informações disponíveis para alcançar resultados ótimos.

Autor: Dmitriy Gizlyk

 

O consultor abriu uma compra e adicionou em cada candle. Já vi isso em algum lugar antes.

O Actor tem um erro negativo ou é apenas um hífen?

 
Prezado Dmitriy Gizlyk. Uma vez você nos prometeu traduzir o Fractal_LSTM para multithreading. Você poderia fazer a gentileza de encontrar tempo para isso? Eu ainda entendo alguma coisa nesse nível, mas mais adiante sou um fracasso total. E, nesse caso, é improvável que a solução puramente mecânica seja bem-sucedida. Acredito que muitos dos presentes aqui ficarão gratos a você. Afinal de contas, este não é um fórum para programadores.
 
star-ik #:
Prezado Dmitriy Gizlyk. Uma vez você nos prometeu traduzir o Fractal_LSTM para multithreading. Você poderia fazer a gentileza de encontrar tempo para isso? Eu ainda entendo alguma coisa nesse nível, mas mais adiante sou um fracasso total. E, nesse caso, é improvável que a solução puramente mecânica seja bem-sucedida. Acredito que muitos dos presentes aqui ficarão gratos a você. Este não é um fórum para programadores.

A implementação da camada LSTM em OpenCL está descrita no artigo"Neural Networks - it's easy (Part 22): Aprendizagem sem um professor de modelos recorrentes"

Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
  • www.mql5.com
Мы продолжаем рассмотрение алгоритмов обучения без учителя. И сейчас я предлагаю обсудить особенности использования автоэнкодеров для обучения рекуррентных моделей.
 
Dmitriy Gizlyk #:

A camada LSTM na implementação do OpenCL é descrita no artigo"Neural Networks are Simple (Part 22): Aprendizagem sem um professor de modelos recorrentes"

Esse é um daqueles EAs que ainda não consegui negociar. É por isso que eu gostaria de ver o multithreading especificamente no EA da Parte 4 (treinamento com um professor). Ou este (22), mas com alguma função de negociação.