Discussão do artigo "Redes neurais de maneira fácil (Parte 57): Stochastic Marginal Actor-Critic (SMAC)"
Dmitry, obrigado por seu trabalho árduo. Tudo está funcionando.
Coletei exemplos com o Expert Advisor Research por 100 passagens, treinei o modelo com o Expert Advisor Study e testei com o Test. Em seguida, coleto 50 passagens novamente, treino por 10.000 iterações e testo novamente.
E assim por diante, até que o modelo aprenda. Exceto pelo fato de que, até o momento, o Test constantemente apresenta resultados diferentes após o ciclo e nem sempre positivos. Executei um ciclo, 2 a 3 testes e os resultados são diferentes.
Em que ciclo o resultado se tornará estável? Ou é um trabalho sem fim e o resultado sempre será diferente?
Muito obrigado!
E assim por diante, até que o modelo aprenda. Exceto pelo fato de que, até o momento, o teste fornece constantemente resultados diferentes após o ciclo e nem sempre positivos. Ou seja, eu executo um ciclo, 2 ou 3 testes e os resultados são diferentes.
Em que ciclo o resultado se tornará estável? Ou é um trabalho sem fim e o resultado sempre será diferente?
Muito obrigado!
O Expert Advisor treina um modelo com uma política estocástica. Isso significa que o modelo aprende as probabilidades de maximizar as recompensas por tomar determinadas ações em determinados estados do sistema. À medida que ele interage com o ambiente, as ações são amostradas com as probabilidades aprendidas. No estágio inicial, as probabilidades de todas as ações são as mesmas e o modelo seleciona uma ação aleatoriamente. No processo de aprendizado, as probabilidades mudarão e a escolha das ações será mais consciente.
Dmitry, olá. Quantos ciclos foram necessários, como o Nikolay descreveu acima, para obter um resultado positivo estável?
E outra coisa interessante é que, se um Expert Advisor aprender para o período atual e se, por exemplo, em um mês ele precisar ser treinado novamente levando em conta os novos dados, ele será treinado novamente por completo ou antes de aprender? O processo de treinamento será comparável ao inicial ou muito mais curto e rápido? E também, se tivermos treinado um modelo em EURUSD, para trabalhar com GBPUSD ele será retreinado tanto quanto o inicial ou será mais rápido apenas antes do treinamento? Essa pergunta não se refere a esse seu artigo específico, mas a todos os seus Expert Advisors que trabalham com o princípio do aprendizado por reforço.
Bom dia.
Dimitri, obrigado por seu trabalho.
Gostaria de esclarecer a todos...
O que Dimitri está postando não é um "Graal".
É um exemplo clássico de um problema acadêmico, que implica a preparação para atividades de pesquisa científica de natureza teórica e metodológica.
E todo mundo quer ver um resultado positivo em sua conta, aqui e agora....
Dmitry nos ensina a resolver o (nosso/meu/seu/seu) problema por meio de todos os métodos apresentados por Dmitry.
A Popular AI (GPT) tem mais de 700 milhões de parâmetros!!!! Quanto custa essa IA?
Se você quiser obter um bom resultado, troque ideias (adicione parâmetros), forneça resultados de testes etc.
Crie uma sala de bate-papo separada e "obtenha" o resultado lá. Você pode se gabar aqui :-), mostrando assim a eficácia do trabalho de Dmitry...
Crie uma sala de bate-papo separada e "obtenha" o resultado lá. Você pode se gabar aqui :-), mostrando assim a eficácia do trabalho de Dmitry...
Amigo, ninguém está esperando o graal aqui! Eu só gostaria de ver que o que Dmitriy apresenta realmente funciona. Não pelas palavras de Dmitry em seus artigos (todos os artigos dele têm resultados quase positivos), mas em meu computador. Baixei o Expert Advisor dele a partir deste artigo e já fiz 63 ciclos de treinamento (coleta de dados -> treinamento). E ele ainda está perdendo dinheiro. Durante todos os 63 ciclos, houve apenas algumas coletas de dados, quando, de 50 novos exemplos, havia de 5 a 6 positivos. Todo o resto é negativo. Como posso ver que ele realmente funciona?
Perguntei a Dmitriy na postagem acima e ele não respondeu nada. O mesmo problema em outros artigos - nenhum resultado, não importa o quanto você treine.....
Amigo, se você obteve um resultado estável, então escreva quantos ciclos fez antes do resultado estável, por exemplo, neste artigo? Se for necessário alterar, o que alterar para ver o resultado em seu computador, apenas no testador? Não é um graal, mas pelo menos para ver se funciona...?
Crie um CHAT separado e "obtenha" o resultado lá. Você pode se gabar aqui :-), mostrando assim a eficácia do trabalho de Dmitry...
Aqui estão os parâmetros: (com base em Dmitry e em algumas pesquisas.)
#include "FQF.mqh"
O tamanho da mensagem não deve exceder 64.000 caracteres
===CORTEI AS ÚLTIMAS PARTES porque os comentários são limitados a 64000 caracteres, mas você sabe o que fazer... =)
O comprimento da mensagem não deve exceder 64.000 caracteres
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso
Novo artigo Redes neurais de maneira fácil (Parte 57): Stochastic Marginal Actor-Critic (SMAC) foi publicado:
Apresentamos um algoritmo relativamente novo, o Stochastic Marginal Actor-Critic (SMAC), que permite a construção de políticas de variáveis latentes no contexto da maximização da entropia.
Quanto construímos um sistema de negociação automatizado, desenvolvemos algoritmos para uma tomada de decisão consistente. Os métodos de aprendizado por reforço procuram lidar com essas tarefas. Um dos principais problemas do aprendizado por reforço é o processo de exploração, quando o Agente aprende a interagir com o ambiente. Neste contexto, o princípio da máxima entropia é comumente usado para motivar o Agente a realizar ações com o mais alto grau de aleatoriedade. Entretanto, na prática, esses algoritmos treinam Agentes simples que só aprendem mudanças locais em torno de uma única ação. Isso se deve à necessidade de calcular a entropia da política do Agente e usá-la como parte do objetivo do aprendizado.
Paralelamente, um enfoque relativamente simples para aumentar a expressividade da política do Ator consiste em usar variáveis latentes, que oferecem ao Agente seu próprio procedimento de inferência para modelar a estocasticidade nas observações, no ambiente e nas recompensas desconhecidas.
A introdução de variáveis latentes na política do Agente permite abranger uma variedade maior de cenários compatíveis com o histórico de observações. É importante notar aqui que as políticas com variáveis latentes não admitem uma expressão simples para determinar sua entropia. A estimativa ingênua da entropia pode acarretar falhas catastróficas na otimização da política. Além disso, as atualizações estocásticas com alta variação para maximizar a entropia não distinguem imediatamente entre efeitos aleatórios locais e exploração multimodal.
Uma das soluções para essas limitações das políticas com variáveis latentes foi proposta no artigo "Latent State Marginalization as a Low-cost Approach for Improving Exploration". Nele, os autores propõem um algoritmo de otimização de política simples, mas eficaz, que é capaz de proporcionar uma exploração mais eficiente e estável tanto em ambientes totalmente observáveis quanto em ambientes parcialmente observáveis.
Autor: Dmitriy Gizlyk