Discussão do artigo "Redes neurais de maneira fácil (Parte 40): Abordagens para usar Go-Explore em uma grande quantidade de dados"

 

Novo artigo Redes neurais de maneira fácil (Parte 40): Abordagens para usar Go-Explore em uma grande quantidade de dados foi publicado:

Neste artigo, discutiremos a aplicação do algoritmo Go-Explore ao longo de um período de treinamento prolongado, uma vez que uma estratégia de seleção aleatória de ações pode não levar a uma passagem lucrativa à medida que o tempo de treinamento aumenta.

Com o aumento do período de treinamento do algoritmo Go-Explore, surgem desafios específicos que podem dificultar sua utilização. Alguns deles incluem:

  1. Problema da Maldição da Dimensionalidade: Com o aumento do período de treinamento, o número de estados que o agente pode visitar cresce exponencialmente, tornando a tarefa de encontrar uma estratégia ótima mais complexa.

  2. Alteração no Ambiente: Com o aumento do período de treinamento, podem ocorrer mudanças no ambiente circundante que podem afetar os resultados do treinamento do agente. Isso pode fazer com que uma estratégia anteriormente bem-sucedida se torne ineficaz ou até impossível.

  3. Complexidade na Escolha de Ações: À medida que o período de treinamento aumenta, o agente pode precisar considerar um contexto mais amplo da tarefa para tomar decisões fundamentadas. Isso pode complicar a tarefa de escolher a ação ótima e exigir métodos de otimização do algoritmo mais complexos.

  4. Aumento do Tempo de Treinamento: Com o aumento do período de treinamento, o tempo necessário para coletar dados suficientes e treinar o modelo também aumenta. Isso pode reduzir a eficácia e a rapidez do treinamento do agente.

Com o aumento do período de treinamento, pode surgir o problema do aumento da dimensionalidade do espaço de estados a ser explorado. Isso pode levar ao problema da "maldição da dimensionalidade", onde o número de estados possíveis aumenta exponencialmente com o aumento da dimensionalidade. Isso torna a exploração do espaço de estados mais difícil e pode fazer com que o algoritmo gaste muito tempo explorando estados irrelevantes.

Para avaliar a qualidade e eficácia do modelo treinado, realizamos testes usando conjuntos de dados de treinamento e teste. É importante observar que nosso modelo conseguiu gerar lucro com dados históricos da primeira semana de maio de 2023, que não estavam incluídos no conjunto de treinamento, mas imediatamente o seguiram.

Amostra de teste (maio de 2023) Amostra de teste (maio de 2023)

Autor: Dmitriy Gizlyk