Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3336

[Excluído]  
СанСаныч Фоменко #:

Os rótulos (professor, variável-alvo) NÃO podem ser lixo por definição.

Sanych, não se envergonhe

Você ainda nem começou a estudar para expressar sua opinião.

 

Outro fato engraçado: eu estava pensando que, aparentemente, isso é apenas o retreinamento, e decidi ver em quais índices ocorreu a mudança de classe - pensei que, perto do final, isso é apenas uma boa ilustração do retreinamento.

De fato, o resultado foi o seguinte


Na amostra de teste

Acontece que essas primeiras mil planilhas (na próxima sequência de adição ao modelo) são, em sua maioria, instáveis!

Surpreso.

Na amostra do exame

 
Aleksey Vyazmikin #:

Outro fato interessante: eu estava pensando que, aparentemente, isso é apenas o retreinamento, e decidi ver em quais índices ocorreu a mudança de classe - achei que estava perto do final e que isso é apenas uma boa ilustração do retreinamento.

Na verdade, o resultado foi o seguinte


Na amostra de teste

Acontece que são as primeiras mil folhas (na próxima sequência de adição ao modelo) que são mais instáveis!

Surpreso.

Em uma amostra

Você está contando por busting, certo? Nesse caso, somente a primeira árvore é treinada nos rótulos do professor original.
Para todas as outras árvores, o professor é o erro de previsão, ou seja, (Y - Pred). E mesmo com eta = 0,1... 0,001, a influência das folhas dessas árvores é insignificante, elas apenas corrigem. O que você demonstrou (sua insignificância).
 

GPT para ensinar)

Ok, vamos adicionar o indicador Envelopes à nossa análise. O indicador Envelopes representa linhas acima e abaixo de uma média móvel. Geralmente, elas estão a uma distância percentual fixa dessa média móvel.

  1. Envelopes para o último mês (novembro de 2023):

    • Vamos escolher uma distância percentual da média móvel.
    • Vamos calcular as linhas superior e inferior dos envelopes.
  2. Tendência geral usando RSI, Bandas de Bollinger e Envelopes:

    • Vamos comparar os sinais obtidos de diferentes indicadores.

Além disso, considere que os sinais de diferentes indicadores podem ser conflitantes e é importante analisá-los em conjunto.

Vamos continuar com os cálculos e a análise.

[Excluído]  
Yuriy Vasilyev indicador Envelopes à nossa análise. O indicador Envelopes representa linhas acima e abaixo de uma média móvel. Geralmente, elas estão a uma distância percentual fixa dessa média móvel.
  1. Envelopes do último mês (novembro de 2023):

    • Vamos escolher uma distância percentual da média móvel.
    • Vamos calcular as linhas superior e inferior dos envelopes.
  2. Tendência geral usando RSI, Bandas de Bollinger e Envelopes:

    • Vamos comparar os sinais obtidos de diferentes indicadores.

Além disso, vamos levar em conta que os sinais de diferentes indicadores podem ser conflitantes, e é importante analisá-los em conjunto.

Vamos continuar com os cálculos e a análise.

Você já tentou enviar preços para obter uma previsão? Esse tipo de coisa é praticado no mercado, alguém vazou o algoritmo, aparentemente
 
Forester #:
Você está contando o boosting, não é?

Tem toda a razão, estamos falando do CatBoost!

Forester #:
Lá, somente a primeira árvore é treinada pelos rótulos do professor inicial.
Para todas as outras árvores, o professor é o erro de previsão, ou seja, (Y - Pred).

De fato, é isso que a teoria sugere.

Forester #:
Sim, também com o coeficiente eta = 0,1... 0,001

O coeficiente da "taxa de aprendizado", pelo menos no CatBoost, é fixo para todas as árvores.

Forester #:
A influência das folhas dessas árvores é insignificante, elas apenas corrigem. Foi isso que você mostrou (a insignificância).

Você pode realmente explicar como os coeficientes das folhas são organizados no CatBoost?

Há pontos que não entendo bem.

No entanto, demonstrei uma mudança de "classe" nas folhas, ou seja, na verdade 40% das folhas pareciam puxar os totais de forma errada nos novos dados.

 
Aleksey Vyazmikin #:

Você pode explicar como os coeficientes são organizados nas folhas do CatBoost?

Gostaria que eu vasculhasse o código do CatBoost e lhe desse a resposta exata? Eu só procuro o que me interessa. Não uso o CatBoost.
É a primeira vez que ouço falar em coeficientes de folha - o que são?

Tutorial e código simples de boost aqui https://habr.com/ru/companies/vk/articles/438562/
Пишем XGBoost с нуля — часть 2: градиентный бустинг
Пишем XGBoost с нуля — часть 2: градиентный бустинг
  • 2019.02.07
  • habr.com
Всем привет! В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение...
 
Aleksey Vyazmikin #:

Relato que em um teste de amostra separado - 7467, e no exame - 7177, mas não há um pequeno número de folhas sem nenhuma ativação - não contei de uma vez.


Esta é a distribuição das folhas que mudaram de classe por seu valor para a amostra de teste


e este é o exame.

E esta é a divisão em classes - há três delas, a terceira é "-1" - sem ativação.


Para o trem de amostra


Para a amostra de teste


Para amostra de exame

Em geral, podemos ver que os pesos das folhas não correspondem mais à lógica da classe - abaixo está o gráfico da amostra de teste - não há um vetor claro.


Em geral, esse método se aproxima de qualquer coisa, mas não garante a qualidade dos preditores.

Em geral, presumo que as "barras" distintas no gráfico acima são folhas muito semelhantes por local e frequência de ativação.


É difícil discutir o que você não sabe. Portanto, só posso ficar feliz com seu sucesso. Se eu tivesse um método assim, eu o usaria :)

Meu método ainda não apresenta resultados tão qualitativos, mas é bastante semelhante.

Você já se perguntou por que isso acontece?

[Excluído]  

Velocidade de teste do modelo exportado para o código ingênuo (catbust)

EURUSD,H1: total time from login to stop testing 0:00:04.143 (including 0:00:00.031 for history data synchronization)

E exportado para o ONNX

EURUSD,H1: total time from login to stop testing 0:00:09.539 (including 0:00:00.025 for history data synchronization)

Os componentes internos das duas versões do bot são quase semelhantes e os resultados são os mesmos.

 
Forester #:
Gostaria que eu examinasse o código catbust para você e lhe desse uma resposta exata? Eu só pesquiso o que me interessa. Não uso o catbust.

Presumi que você soubesse, mas não sabe - não pensei em sobrecarregá-lo.

Forester #:
É a primeira vez que ouço falar de coeficientes de folha - o que são?

Valores de folha que são somados para formar a coordenada Y de uma função.


Maior ou igual a 0,5 em X significa que a classe padrão é "1" no CatBoost.