Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2812

 
Maxim Dmitrievsky #:

Isso foi discutido aqui há mais de um ano, quando eu estava escrevendo algoritmos de RL.

Ainda não quero voltar atrás, e nem eu.
Não estou na posição de rótulos, mas na posição de, por exemplo, algumas políticas muito complexas e multidetalhadas do comportamento do agente.
 
mytarmailS #:
Não estou falando da posição dos rótulos, mas da posição de, por exemplo, algumas políticas muito complexas de várias etapas do comportamento do agente
Você está confuso com a RL tabular, em que as direções das transições de um estado para outro são otimizadas em tabelas, que são políticas. Essas tabelas foram posteriormente substituídas por redes neurais. Isso ocorre quando há muitos estados do agente, por exemplo, em jogos. Você tem apenas 2-3 estados de compra/venda, etc. Em seguida, você otimiza as transições para esses estados por meio de uma função de recompensa, por exemplo, por meio da amostragem de negociações com alguma condição de lucratividade, e as políticas são otimizadas por meio de NS. Uma política é a relação entre o ambiente e o estado para o qual você deseja fazer a transição. Por exemplo, a relação dos valores do indicador com a direção das negociações.

Não faz sentido fazer uma passagem múltipla de 100500 transições pela tabela quando o NS já aproximou tudo e mostrou o erro de suas ações. Isso é necessário se você precisar pular primeiro, depois atirar, recarregar, coletar o saque, correr para o outro lado, etc. Isso significa realizar muitas ações, e você tem apenas 2 ou 3. Embora o chefe seja o chefe :)

Esqueci de acrescentar que lá o agente também afeta o ambiente, altera-o e o ambiente no agente. É por isso que você precisa aprender milhares de repetições para passar por todas as combinações. Em nosso caso, não é assim, o ambiente não muda, portanto, podemos fazer isso em uma única vez. Em um cenário como esse, o aprendizado por reforço perde totalmente o significado de aprendizado por reforço. Você pode encontrar o caminho mais curto para a meta em uma única passagem.
 
O esquema de solução é simples: é feito o pré-processamento do conjunto de dados. Sua análise padrão é feita. Do restante, cada entrada é considerada uma variável-alvo, e a saída em cada ML é considerada uma ficção. A previsão de cada entrada é avaliada, e as "previsíveis" ruins são descartadas. Bem, as entradas que passam pelo filtro são incluídas no modelo de trabalho pela previsão de saída no ML. Eu descartaria os chips que não afetam a previsão dessa forma.
 
Maxim Dmitrievsky #:
Isso ocorre quando há muitos estados de agente, por exemplo, em jogos. Você tem apenas 2-3 estados de compra/venda etc.

Não, é tão primitivo, caso contrário não haveria essa direção.


O estado não é uma compra/venda, a compra/venda é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva, como comprar/vender, ela pode ser o raciocínio do agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar agora a [i] e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas, se o preço cair ainda mais, reverterei, caso contrário, continuarei comprando [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da poziya consciente....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos uma função Q, ou seja, o agente leva para o raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

 
peregrinus_vik #:
O esquema de solução é simples.

)))) sim, claro...

Tenho medo daqueles que dizem "é simples".

 
mytarmailS #:

Não, é tão primitivo, caso contrário, não teria essa direção...


O estado não é um by\sel, by\sel é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva como um byte, pode ser o pensamento de um agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar a [i] agora e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas se o preço cair ainda mais, reverterei, caso contrário, manterei a compra [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da posição realizada....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos a função Q, ou seja, o agente usa para raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

Concordo, comprar, vender e não negociar não é um estado. Há um grande número de estados. ))))))

 
Valeriy Yastremskiy #:

Concordo que comprar, vender e não negociar não são estados. Há um grande número de estados. )))))

Não há muitos estados (se for um cluster).

Há um grande número de opções para raciocinar sobre ações futuras.

Mas o raciocínio é necessário para encontrar as ações mais corretas em cada estado e, além disso, elas devem ser revisadas a cada candle.

 
mytarmailS #:

Não, é tão primitivo, caso contrário, não teria essa direção...


O estado não é um by\sel, by\sel é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva como um byte, pode ser o pensamento de um agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar a [i] agora e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas se o preço cair ainda mais, reverterei, caso contrário, manterei a compra [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da posição realizada....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos a função Q, ou seja, o agente usa para raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

Quando você começa a ver as coisas corretamente, o fator surpresa desaparece.

Você está descrevendo a política de um agente, uma abordagem multifacetada. Eu escrevi tudo sobre isso. Estou escrevendo em linguagem de nerd para fazer sentido e me esqueci.

Exatamente, é tão primitivo.

Há uma aqui que estava espumando pela boca sobre agentes antes de ser banida).

 
Valeriy Yastremskiy #:

Concordo que comprar, vender e não negociar não são estados. Há uma série de estados. ))))

Estados de agente ou estados de ação. Sugiro que você passe alguns meses lendo livros para entender o que escreveu e chegue às mesmas conclusões: sem a reação do ambiente às ações do agente, não há nada a ser otimizado, isso é feito de uma só vez.

Há estados do ambiente, estados do agente, matrizes de transições (políticas) do agente de um estado para outro, levando em conta as mudanças no ambiente. Seu ambiente é estático, ele não muda devido às ações do agente. Ou seja, você só precisa definir a matriz das ações do agente em um ambiente estático, ou seja, os alvos. A marcação dos alvos é feita em uma única passagem.
 
Maxim Dmitrievsky #:
Estados ou ações do agente. Sugiro que você passe alguns meses lendo livros para entender o que escreveu e chegue às mesmas conclusões: sem a reação do ambiente às ações do agente, não há nada a ser otimizado, isso é feito de uma só vez.

Há estados do ambiente, estados do agente, matrizes de transições (políticas) do agente de um estado para outro, levando em conta as mudanças no ambiente. Seu ambiente é estático, ele não muda devido às ações do agente. Ou seja, você só precisa definir a matriz das ações do agente em um ambiente estático, ou seja, os alvos. A marcação dos alvos é feita em uma única passagem.
Se eu quiser penalizar o agente por negociações não lucrativas...
A meta é "negociar o que você quiser, mas sem perder negociações, e estar no mercado".

Como você descreve isso com marcações?
Razão: