Discussão do artigo "Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC)"

MetaQuotes 2024.02.09 13:30

Novo artigo Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC) foi publicado:

O aprendizado contrastivo é um método de aprendizado de representação sem supervisão. Seu objetivo é ensinar o modelo a identificar semelhanças e diferenças nos conjuntos de dados. Neste artigo, discutiremos o uso de abordagens de aprendizado contrastivo para explorar diferentes habilidades do Ator.

O algoritmo de Controle Intrínseco Contrastivo começa com o treinamento do Agente em um ambiente usando feedback e obtenção de trajetórias de estados e ações. Em seguida, é realizado o treinamento de representações usando Contrastive Predictive Coding (CPC), motivando o Agente a extrair características chave dos estados e ações. São formadas representações que consideram dependências entre estados consecutivos.

Um papel importante é desempenhado pela recompensa interna, determinando quais estratégias comportamentais devem ser maximizadas. No CIC, a entropia das transições entre estados é maximizada, promovendo a diversidade de comportamento do Agente. Isso permite que o Agente explore e crie diversas estratégias comportamentais.

Após a formação de habilidades e estratégias diversas, o algoritmo CIC usa o Discriminador para especificar as representações de habilidades. O Discriminador visa garantir que os estados sejam previsíveis e estáveis. Assim, o Agente aprende a "utilizar" habilidades em situações previsíveis.

A combinação da exploração motivada por recompensas internas e o uso de habilidades para ações previsíveis cria uma abordagem equilibrada para o desenvolvimento de estratégias diversas e eficazes.

Consequentemente, o algoritmo de Codificação Preditiva Contrastiva estimula o Agente a descobrir e assimilar uma ampla gama de estratégias comportamentais, garantindo ao mesmo tempo um treinamento estável. A seguir, apresenta-se uma visualização autoral do algoritmo.

Visualização autoral do algoritmo

Autor: Dmitriy Gizlyk

star-ik 2023.08.26 09:13 #1

Olá. Não consigo obter um resultado positivo na pesquisa. Uma linha reta é desenhada. Parece que há uma limitação de resultados no código.

Arquivos anexados:

2023-08-26_14-08-26.png 147 kb

Dmitriy Gizlyk 2023.08.26 12:16 #2

star-ik #:
Olá. Não consigo obter um resultado positivo na pesquisa. Uma linha reta é desenhada. Parece que há uma limitação nos resultados do código.

Em que estágio? Na primeira execução com parâmetros aleatórios? Depois de executar o Pretrain? Ou Finetune?

star-ik 2023.08.26 13:17 #3

Em todos os estágios, não saio no lado positivo.

Dmitriy Gizlyk 2023.08.26 13:36 #4

star-ik #:
Em todos os estágios, não saio no lado positivo.

Nos primeiros estágios, há o pré-treinamento, que consiste em explorar o ambiente e aprender as habilidades do Ator. Nenhuma recompensa externa é usada aqui. Treinamos o Ator para desenvolver várias habilidades. Por isso, não esperamos passagens positivas. A recompensa externa é usada somente no último estágio do Finetune, quando treinamos o Planejador para gerenciar as habilidades do Ator para a tarefa em questão. E os resultados dependem diretamente da integridade das duas primeiras iterações.

Discussão do artigo "Redes Discussão do artigo "Redes Discussão do artigo "Redes

star-ik 2023.08.26 13:47 #5

Quais são as taxas de erro aceitáveis do Finetune? E quando o arquivo será gravado na pasta Tester?

star-ik 2023.08.26 21:12 #6

Eu tenho a Pesquisa, estou no lado positivo.

star-ik 2023.08.29 03:18 #7

Olá novamente. Não consigo entender um ponto. Qual é o objetivo de definir o take profit se ele for arrastado? Isso nunca funcionará dessa forma.

Dmitriy Gizlyk 2023.08.29 10:01 #8

star-ik #:
Olá novamente. Não consigo entender um ponto. Qual é o objetivo de definir o take profit se ele for arrastado? Isso nunca funcionará dessa forma.

Antes de tudo, é uma ferramenta de gerenciamento de risco. É uma defesa contra grandes movimentos bruscos. Além disso, treinamos o modelo. Teoricamente, o stop loss e o take profit não precisam ser maiores do que o tamanho do candle. No processo de treinamento, procuramos a estratégia mais lucrativa.

Como é determinada a rentabilidade 43! Existe um padrão para

star-ik 2023.08.29 12:17 #9

Outra pergunta. Após a Pesquisa ter ido para o lado positivo, posso executar o restante repetidamente com esses dados? O problema é que ele volta para o lado negativo novamente e estraga as estatísticas.

star-ik 2023.09.02 15:59 #10

Dimitri, você já publicou um novo artigo e talvez não volte mais aqui. Mas tentarei lhe fazer uma pergunta. Por favor, diga-me: seu Expert Advisor executou negociações em ambas as direções? Por alguma razão, só tenho uma compra. Vale a pena continuar me torturando com isso?

Não procurando investidores ou Aprendizado de máquina no Por que negociar sem

1 2

Novo comentário