Discussão do artigo "Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC)"
Em todos os estágios, não saio no lado positivo.
Nos primeiros estágios, há o pré-treinamento, que consiste em explorar o ambiente e aprender as habilidades do Ator. Nenhuma recompensa externa é usada aqui. Treinamos o Ator para desenvolver várias habilidades. Por isso, não esperamos passagens positivas. A recompensa externa é usada somente no último estágio do Finetune, quando treinamos o Planejador para gerenciar as habilidades do Ator para a tarefa em questão. E os resultados dependem diretamente da integridade das duas primeiras iterações.
Olá novamente. Não consigo entender um ponto. Qual é o objetivo de definir o take profit se ele for arrastado? Isso nunca funcionará dessa forma.
Antes de tudo, é uma ferramenta de gerenciamento de risco. É uma defesa contra grandes movimentos bruscos. Além disso, treinamos o modelo. Teoricamente, o stop loss e o take profit não precisam ser maiores do que o tamanho do candle. No processo de treinamento, procuramos a estratégia mais lucrativa.
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso
Novo artigo Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC) foi publicado:
O aprendizado contrastivo é um método de aprendizado de representação sem supervisão. Seu objetivo é ensinar o modelo a identificar semelhanças e diferenças nos conjuntos de dados. Neste artigo, discutiremos o uso de abordagens de aprendizado contrastivo para explorar diferentes habilidades do Ator.
O algoritmo de Controle Intrínseco Contrastivo começa com o treinamento do Agente em um ambiente usando feedback e obtenção de trajetórias de estados e ações. Em seguida, é realizado o treinamento de representações usando Contrastive Predictive Coding (CPC), motivando o Agente a extrair características chave dos estados e ações. São formadas representações que consideram dependências entre estados consecutivos.
Um papel importante é desempenhado pela recompensa interna, determinando quais estratégias comportamentais devem ser maximizadas. No CIC, a entropia das transições entre estados é maximizada, promovendo a diversidade de comportamento do Agente. Isso permite que o Agente explore e crie diversas estratégias comportamentais.
Após a formação de habilidades e estratégias diversas, o algoritmo CIC usa o Discriminador para especificar as representações de habilidades. O Discriminador visa garantir que os estados sejam previsíveis e estáveis. Assim, o Agente aprende a "utilizar" habilidades em situações previsíveis.
A combinação da exploração motivada por recompensas internas e o uso de habilidades para ações previsíveis cria uma abordagem equilibrada para o desenvolvimento de estratégias diversas e eficazes.
Consequentemente, o algoritmo de Codificação Preditiva Contrastiva estimula o Agente a descobrir e assimilar uma ampla gama de estratégias comportamentais, garantindo ao mesmo tempo um treinamento estável. A seguir, apresenta-se uma visualização autoral do algoritmo.
Autor: Dmitriy Gizlyk