Discussão do artigo "Testador rápido de estratégias de trading em Python usando Numba" - página 3

 
Maxim Dmitrievsky #:

Retreinamento rigoroso do modelo básico, como no artigo. Duas versões antes e depois:

Otimizar agora não mais sl/tp, mas entradas por meta_labels (trade/not trade):

Parece uma otimização por ruído
[Excluído]  
Ivan Butko #:
Parece otimização de ruído

Otimização por faixas de volatilidade. Onde negociar e onde não negociar.

 
Maxim Dmitrievsky #:

Otimização por faixas de volatilidade.

Como esse parâmetro é calculado?

Onde negociar e onde não negociar.

É pesquisado um intervalo de valores de volatilidade ou vários intervalos?

[Excluído]  
fxsaber #:

Como esse parâmetro é calculado?

É pesquisado um único intervalo de valores de volatilidade ou vários intervalos?

Um intervalo de largura fixa. Ou seja, a otimização dos limites do intervalo.

Em seguida, é salva uma matriz com as melhores variantes, como no otimizador MT5, que você pode escolher.

Há até mesmo um filtro para o número mínimo de negociações.

[Excluído]  

Se você for bem versado em estatística, a questão é qual é a melhor:

  • Otimização do TS com um número n de parâmetros no gráfico
  • Construir um modelo básico retreinado (uma determinada base generalizada de negócios) e, em seguida, procurar intervalos em que ele seja robusto.
  • Ambas as opções são de ajuste de curva
[Excluído]  
Maxim Dmitrievsky #:

Se houver algum estatístico bem versado, a questão é qual é o melhor:

  • Otimização do TS com um número n de parâmetros no gráfico
  • Construir um modelo básico retreinado (uma determinada base generalizada de negócios) e, em seguida, procurar intervalos em que ele seja robusto.
  • Ambas as opções são de ajuste de curva

Resposta do Claude. Os outros modelos responderam de forma francamente ruim (exceto o gpt-o1, que eu não tenho):

De um ponto de vista estatístico matemático, vamos analisar as duas abordagens:


1. otimização com n parâmetros:

- Prós:

* Pesquisa direta de parâmetros ideais

* Possibilidade de definir restrições específicas

- Desvantagens:

* Problema da "maldição da dimensionalidade" quando n é grande

* Alto risco de excesso de treinamento

* Dificuldade de validar os resultados


2. Criação de um modelo com treinamento excessivo seguido pela busca de intervalos robustos:

- Prós:

* Melhor compreensão dos padrões estáveis.

* Capacidade de identificar dependências realmente estáveis

* Validação mais confiável dos resultados

- Desvantagens:

* Dificuldade em definir critérios de robustez

* Risco de perder interações não lineares importantes.


Do ponto de vista da matstat, a segunda abordagem é preferível pelos seguintes motivos:


1. Significância estatística:

- Permite uma melhor avaliação da importância estatística dos padrões encontrados

- Oferece a oportunidade de aplicar métodos de teste de hipóteses


2. Resiliência dos resultados:

- Os intervalos robustos são, por definição, mais resistentes a mudanças nas condições de mercado

- Reduz o risco de viés de bisbilhotagem de dados


3. Generalização:

- Лучше работает principle of parsimony ([бритва Оккама](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0))

- Maior probabilidade de descobrir padrões que realmente funcionam


4. Controle da aprendizagem excessiva:

- Separação explícita em uma fase de construção de modelo e uma fase de extração de área estável

- Возможность применения [кросс-валидации](https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%BE%D1%81%D1%81-%D0%B2%D0%B0%D0%BB%D0%B8%D0%B4%D0%B0%D1%86%D0%B8%D1%8F)


Em geral, a segunda abordagem é mais sólida do ponto de vista científico e mais bem alinhada com os princípios da inferência estatística, embora exija uma metodologia mais rigorosa.

[Excluído]  
Alexei Nikolaev seria um bom tema :)
 
Maxim Dmitrievsky #:

Construção de um modelo superajustado seguido pela busca de intervalos robustos

Vamos imaginar que as citações consistem em pequenos intervalos com padrões e grandes intervalos de ruído. Treinar todos eles juntos é uma detecção de padrão muito fraca. Portanto, mesmo que você encontre esses intervalos mais tarde, haverá um modelo de baixa qualidade - longe de ser o ideal, como se o modelo tivesse sido criado com base nesses intervalos.


Portanto, é melhor procurar os intervalos primeiro e depois treinar com eles. Essa é a terceira opção.

[Excluído]  
fxsaber #:

Vamos imaginar que as citações consistem em pequenos intervalos com padrões e grandes intervalos de ruído. Treinar todos eles juntos é uma detecção muito fraca de regularidades. Portanto, mesmo que você encontre esses intervalos mais tarde, haverá um padrão ruim lá.

Aceito, bastante fundamentado :)
 
Maxim Dmitrievsky #:

Resposta de Claude.

Do ponto de vista do matstat, a segunda abordagem é preferível

Tem havido muita discussão sobre "razoabilidade". Nem sequer me ocorreu perguntar.