Discussão do artigo "Redes neurais de maneira fácil (Parte 97): Treinamento do modelo usando o MSFformer"

MetaQuotes 2024.11.19 09:42

Novo artigo Redes neurais de maneira fácil (Parte 97): Treinamento do modelo usando o MSFformer foi publicado:

Ao estudar diferentes arquiteturas de construção de modelos, temos dado pouca atenção ao processo de treinamento dos modelos. Neste artigo, tentarei preencher essa lacuna.

A coleção inicial do conjunto de treinamento oferece ao modelo uma primeira impressão do ambiente. Mas o mundo dos mercados financeiros é tão multifacetado que nenhum conjunto de treinamento pode replicá-lo completamente. Além disso, as correlações que o modelo constrói entre os indicadores analisados e as negociações lucrativas podem ser falsas ou incompletas, pois a amostra de treinamento apresentada pode não conter exemplos que revelem essas discrepâncias. Por isso, durante o treinamento, será necessário refinar o conjunto de treinamento. Desta vez, a abordagem para coletar informações adicionais será diferente.

A questão é que, neste estágio, precisamos otimizar a política aprendida do Ator. Para isso, precisamos de dados suficientemente próximos da trajetória da política atual do Ator, que permitam entender a direção do vetor de mudança na recompensa ao desviar ligeiramente as ações da política atual. Com essas informações, podemos aumentar a lucratividade da política atual, movendo-nos na direção que maximiza a recompensa.

Aqui também há opções. Os métodos podem variar dependendo de vários fatores, incluindo a arquitetura do modelo. Por exemplo, ao usar uma política estocástica, podemos simplesmente executar várias passagens do Ator com a política atual no testador de estratégias. A cabeça estocástica fará o trabalho por nós. A dispersão das ações aleatórias do Ator cobrirá o espaço de ações que nos interessa, permitindo que o modelo seja refinado com os dados atualizados. No caso de uma política estrita do Ator, em que o modelo estabelece ligações diretas entre o estado do ambiente e a ação, podemos adicionar algum ruído às ações do Agente para criar uma nuvem de ações ao redor da política atual do Ator.

Em ambos os casos, o modo de otimização lenta do testador de estratégias é útil para coletar dados adicionais para o conjunto de treinamento.

Autor: Dmitriy Gizlyk

Novo comentário