Discussão do artigo "Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC)"

 

Novo artigo Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC) foi publicado:

O aprendizado contrastivo é um método de aprendizado de representação sem supervisão. Seu objetivo é ensinar o modelo a identificar semelhanças e diferenças nos conjuntos de dados. Neste artigo, discutiremos o uso de abordagens de aprendizado contrastivo para explorar diferentes habilidades do Ator.

O algoritmo de Controle Intrínseco Contrastivo começa com o treinamento do Agente em um ambiente usando feedback e obtenção de trajetórias de estados e ações. Em seguida, é realizado o treinamento de representações usando Contrastive Predictive Coding (CPC), motivando o Agente a extrair características chave dos estados e ações. São formadas representações que consideram dependências entre estados consecutivos.

Um papel importante é desempenhado pela recompensa interna, determinando quais estratégias comportamentais devem ser maximizadas. No CIC, a entropia das transições entre estados é maximizada, promovendo a diversidade de comportamento do Agente. Isso permite que o Agente explore e crie diversas estratégias comportamentais.

Após a formação de habilidades e estratégias diversas, o algoritmo CIC usa o Discriminador para especificar as representações de habilidades. O Discriminador visa garantir que os estados sejam previsíveis e estáveis. Assim, o Agente aprende a "utilizar" habilidades em situações previsíveis.

A combinação da exploração motivada por recompensas internas e o uso de habilidades para ações previsíveis cria uma abordagem equilibrada para o desenvolvimento de estratégias diversas e eficazes.

Consequentemente, o algoritmo de Codificação Preditiva Contrastiva estimula o Agente a descobrir e assimilar uma ampla gama de estratégias comportamentais, garantindo ao mesmo tempo um treinamento estável. A seguir, apresenta-se uma visualização autoral do algoritmo.

Visualização autoral do algoritmo

Autor: Dmitriy Gizlyk

 
Olá. Não consigo obter um resultado positivo na pesquisa. Uma linha reta é desenhada. Parece que há uma limitação de resultados no código.
Arquivos anexados:
 
star-ik #:
Olá. Não consigo obter um resultado positivo na pesquisa. Uma linha reta é desenhada. Parece que há uma limitação nos resultados do código.

Em que estágio? Na primeira execução com parâmetros aleatórios? Depois de executar o Pretrain? Ou Finetune?

 
Em todos os estágios, não saio no lado positivo.
 
star-ik #:
Em todos os estágios, não saio no lado positivo.

Nos primeiros estágios, há o pré-treinamento, que consiste em explorar o ambiente e aprender as habilidades do Ator. Nenhuma recompensa externa é usada aqui. Treinamos o Ator para desenvolver várias habilidades. Por isso, não esperamos passagens positivas. A recompensa externa é usada somente no último estágio do Finetune, quando treinamos o Planejador para gerenciar as habilidades do Ator para a tarefa em questão. E os resultados dependem diretamente da integridade das duas primeiras iterações.

 
Quais são as taxas de erro aceitáveis do Finetune? E quando o arquivo será gravado na pasta Tester?
 
Eu tenho a Pesquisa, estou no lado positivo.
 
Olá novamente. Não consigo entender um ponto. Qual é o objetivo de definir o take profit se ele for arrastado? Isso nunca funcionará dessa forma.
 
star-ik #:
Olá novamente. Não consigo entender um ponto. Qual é o objetivo de definir o take profit se ele for arrastado? Isso nunca funcionará dessa forma.

Antes de tudo, é uma ferramenta de gerenciamento de risco. É uma defesa contra grandes movimentos bruscos. Além disso, treinamos o modelo. Teoricamente, o stop loss e o take profit não precisam ser maiores do que o tamanho do candle. No processo de treinamento, procuramos a estratégia mais lucrativa.

 
Outra pergunta. Após a Pesquisa ter ido para o lado positivo, posso executar o restante repetidamente com esses dados? O problema é que ele volta para o lado negativo novamente e estraga as estatísticas.
 
Dimitri, você já publicou um novo artigo e talvez não volte mais aqui. Mas tentarei lhe fazer uma pergunta. Por favor, diga-me: seu Expert Advisor executou negociações em ambas as direções? Por alguma razão, só tenho uma compra. Vale a pena continuar me torturando com isso?