Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2730

 
Aleksey Nikolayev #:

Aqui, aparentemente, você está falando de amostras multivariadas (cada elemento é uma linha de uma tabela, um vetor), enquanto os critérios de homogeneidade em seus três links são sobre amostras numéricas. Os critérios de homogeneidade multivariada no matstat são um tema à parte e não estão muito claros para mim.

Cada preditor separadamente é uma amostra numérica, então por que não avaliá-los separadamente e calcular a média dos resultados? Se houver dinâmica de deterioração na maioria dos preditores, a amostra será redundante.

Aleksey Nikolayev #:

Parece a tarefa de buscar a detecção de muitos pontos de alteração. Novamente, acontece que precisamos trabalhar com um caso multivariado (vetor), o que complica muito as coisas.

Bem, e em geral, não gosto da dependência de quais atributos são escolhidos para o estudo. Se usarmos conjuntos diferentes deles, os resultados podem ser diferentes.

Talvez devêssemos encontrar as variantes que fornecerão os melhores resultados em termos de identificação do pertencimento dos segmentos a um determinado grupo e da eficiência do treinamento em uma população agrupada.

 
Aleksey Vyazmikin #:

Você só pode misturar dentro de uma amostra; se misturar duas amostras, estará negando que o mercado está mudando.

Você não consegue ver a lógica novamente?
Não faz sentido comparar séries para determinar a duração ideal da amostra de treinamento, porque o mercado está mudando

Você pode misturá-las a qualquer momento, isso não mudará nada.
 
Maxim Dmitrievsky #:
Você não consegue ver a lógica novamente?
Não faz sentido comparar séries para determinar a duração ideal da amostra de treinamento, porque o mercado está mudando

Você pode misturar em qualquer ponto, isso não mudará nada

Como você pode provar que o mercado está mudando? Quanto tempo leva esse processo? Ou ele está mudando constantemente?

 
Aleksey Vyazmikin #:

Como você pode comprovar a capacidade de mudança do mercado? Quanto tempo leva esse processo? Ou ele está mudando constantemente?

É isso aí, o delicioso argumentador está pronto.
No mínimo, não estacionariedade. Em constante mudança, às vezes parando para fumar um cigarro.
 
Maxim Dmitrievsky #:
É isso aí, o delicioso argumentador está em ação.
No mínimo instável. Em constante mudança, às vezes parando para fumar um cigarro.

E qual tamanho de amostra deve ser usado para determinar a estacionariedade/não estacionariedade?

De acordo com você, um padrão não vive mais do que o tempo de vida da mudança da amostra, mas e se eu tiver um padrão em minha amostra que se repete por 8 anos? O que é isso, uma anomalia, ou os padrões não estão todos mudando ou os padrões identificados em uma pequena área estão errados e se devem a outros fatores?

 
Aleksey Vyazmikin #:

Cada preditor individualmente é uma amostra numérica, então por que não estimá-los individualmente e calcular a média do resultado?

Isso só funciona no caso de recursos independentes e, como eles são contados pelo mesmo preço, não é possível. No caso de dependência, tudo é muito mais complicado - podemos usar as cópulas como exemplo, em que as distribuições univariadas são sempre uniformes, mas as distribuições bivariadas podem ser muito diferentes.

Aleksey Vyazmikin #:

Talvez devêssemos encontrar as variantes que fornecerão os melhores resultados em termos de identificação do pertencimento dos segmentos a um grupo específico e da eficiência do treinamento em uma população agrupada.

Você tem apetite por cálculos de enumeração pesados) Teremos que adicionar (à quantidade já considerável de enumeração) a enumeração por tipos de recursos e, provavelmente, por parâmetros de recursos.

No entanto, parece-me que há um grão racional em sua abordagem, há algo em que pensar.

 
Aleksey Vyazmikin #:

Não escrevi que a ideia é comparar amostras (treinamento e aplicação), que, se sua teoria estiver correta, a amostra deixará de ser semelhante à medida que aumentar, e para entender isso precisamos de critérios para avaliar essa mudança, que são derivados dos métodos de avaliação da semelhança?

Talvez, em vez de critérios estatísticos de homogeneidade da amostra, você deva apenas observar a alteração da importância do recurso do modelo na dinâmica (em uma janela deslizante).

Se houver uma grande discrepância entre o estado atual e o estado anterior, isso significa que já estamos em uma amostra diferente.....

Prós:
1. você não precisa programar testes estatísticos. Tests, tudo está pronto para ser usado.
2. Ele leva em conta não apenas a mudança no tempo da amostra, mas também a mudança na amostra de destino, o que, na minha opinião, não é menos importante.

 
Aleksey Vyazmikin #:

E qual tamanho de amostra deve ser usado para determinar a estacionariedade/não estacionariedade?

De acordo com você, um padrão não vive mais do que o tempo de vida de uma mudança de amostra, mas e se eu tiver um padrão em minha amostra que se repete por 8 anos? O que é isso, uma anomalia ou os padrões não estão todos mudando ou os padrões identificados em uma pequena área estão errados e se devem a outros fatores?

Eu diria que não mais do que o tempo de vida de uma tendência específica em uma escala de tempo arbitrária
Mas essa é uma descrição vaga.

Do ponto ao ponto de bifurcação.
 

Modelos diferentes, mas semelhantes, diferentes e não semelhantes, como eles se diferenciam? O ponto de bifurcação não levará necessariamente a uma alteração do modelo. É possível marcar visualmente as mesmas áreas manualmente, mas não há parte preditiva no final; o objetivo é encontrar o comprimento mínimo da amostra, o que confirma o estado ou a conformidade do modelo.

Complexidade do modelo, aqui, é claro, também há uma contradição: um modelo simples não descreverá uma seção longa suficientemente necessária, mas será repetido; um modelo complexo pode descrever uma seção suficientemente necessária em comprimento, mas pode ser único. Como sempre, algo no meio é necessário))))))

 
Valeriy Yastremskiy encontrar o comprimento mínimo da amostra que confirme o estado ou o ajuste do modelo.

Complexidade do modelo, aqui, é claro, também há uma contradição: um modelo simples não descreverá uma seção longa suficientemente necessária, mas será repetido; um modelo complexo pode descrever uma seção suficientemente necessária em comprimento, mas pode ser único. Como sempre, algo no meio é necessário))))))

Em geral, os diferentes modelos diferem em suas implementações de aleatoriedade (randomness) e são semelhantes pelo mesmo motivo

Especialmente quando dezenas e centenas de recursos são usados. Alguns deles funcionam no forward, outros não. Mas não há como selecioná-los.

Somente com a ajuda de uma boa usina de moonshine, como sugerido acima.
Razão: