Discussão do artigo "Redes neurais de maneira fácil (Parte 44): Explorando habilidades de forma dinâmica"

 

Novo artigo Redes neurais de maneira fácil (Parte 44): Explorando habilidades de forma dinâmica foi publicado:

No artigo anterior, apresentamos o método DIAYN, que oferece um algoritmo para aprender uma variedade de habilidades. O uso das habilidades adquiridas pode ser usado para diversas tarefas. Mas essas habilidades podem ser bastante imprevisíveis, o que pode dificultar seu uso. Neste artigo, veremos um algoritmo para ensinar habilidades previsíveis.

Explorar uma variedade de comportamentos individuais e suas interações com o ambiente permite usar o controle baseado em modelo para planejar no espaço comportamental, em vez do espaço de ações. Nesse sentido, a questão principal é como podemos obter tais comportamentos, considerando que eles podem ser aleatórios e imprevisíveis? O método Dynamics-Aware Discovery of Skills (DADS) propõe um sistema de aprendizado por reforço não supervisionado para aprender habilidades de baixo nível, com o objetivo explícito de facilitar o controle baseado em modelo.

As habilidades adquiridas usando DADS são diretamente otimizadas para previsibilidade, fornecendo uma base sólida para o desenvolvimento de modelos de previsão. A característica fundamental das habilidades é que elas são adquiridas inteiramente por meio de exploração autônoma. Isso significa que o repertório de habilidades e seu modelo preditivo são desenvolvidos antes da formulação da tarefa e do design da função de recompensa. Assim, com quantidade suficiente de dados, é possível compreender de forma abrangente o ambiente e desenvolver habilidades de comportamento nele.

Assim como no método DIAYN, o algoritmo DADS usa duas modelos durante o processo de treinamento: o modelo de habilidades (agente) e o discriminador (modelo de dinâmica das habilidades).


O treinamento dos modelos é realizado de forma sequencial e iterativa. Primeiro, o discriminador é treinado para prever os estados futuros com base no estado atual e na habilidade utilizada. Para isso, o modelo do agente recebe como entrada o estado atual e um vetor de identificação da habilidade. O agente gera uma ação que é executada no ambiente. Como resultado da execução da ação, o agente passa para um novo estado no ambiente.

Autor: Dmitriy Gizlyk

 
Em todos os anteriores, recebo este erro:

2024.01.13 00:07:45.142 tester stopped because OnInit returns non-zero code 1

ao declarar o testador de estratégia.

Pesquisei muito, preciso criar o arquivo sozinho? e, se sim, onde devo fazer isso?
 
Dirar Alzoubi testador de estratégia.

Pesquisei muito, preciso criar o arquivo sozinho? e, se sim, onde devo fazer isso?

Olá, o que é o erro de retorno do EA?
Primeiro, você deve executar o Research.mq5 no testador de estratégia. Em seguida, executar o Study.mq5 no modo real.