Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1308

 
elibrarius:

ISO não é liberado para tudo). Neste caso, você pode seguir o que os pactos de MoD chamam a 2ª seção.

No catbust que você está usando, mesmo que diga teste, eles escrevem na explicação de que é usado para validação. Em outros pacotes XGBoost, Darch - eles escrevem validação.

Inicialmente, havia um conjunto de teste e treinamento, surgiu o método de validação cruzada e tal amostra foi chamada de amostra de validação (na verdade é usada para validação cruzada de treinamento e teste). Agora há um impulso, que precisa de uma amostra para parar o treino - chama-se teste, e também é validado devido à sua utilização para testar os resultados do treino, mas não aprende, ao contrário do que acontece com a validação cruzada.

Meu ponto é que a amostragem pode ser usada de forma diferente em diferentes métodos de treinamento. A validação é mais uma ação do que um tipo de amostragem...

 
Vladimir Perervenko:

O conjunto de validação está envolvido na formação. É usado para definir os parâmetros do modelo durante o treinamento. Alguns pacotes não requerem conjunto de validação, neste caso o conjunto de treinamento é dividido em trem/valídeo em alguma proporção na função fit(). Mas é melhor ser você a especificá-lo.

O conjunto de testes é usado para verificar a qualidade do modelo treinado e estes dados não devem ser vistos pelo modelo durante o treinamento.

Então estas ainda são coisas diferentes, não é preciso ficar confuso.

Boa sorte.

Está bem, assim seja. Não tenho estatísticas sobre declarações de centenas de pessoas participantes na criação de diferentes métodos de RI, não há desejo de disputar, pois inicialmente falei sobre o quão conveniente para mim dividir conceitos em minha mente, e se não é conveniente para os outros, então deixe-me ficar sozinho com meus conceitos.

 
Aleksey Vyazmikin:

Está bem, assim seja. Não tenho estatísticas sobre as declarações de centenas de pessoas envolvidas na criação de diferentes métodos de MO, não tenho vontade de argumentar, pois originalmente falei sobre como me sinto confortável em separar conceitos em minha mente, e se outros não se sentem confortáveis, então deixe-me ficar sozinho com meus conceitos.

Sim, o tema já é bastante spammed, e agora todos têm de inventar e possuir terminologia:)

Embora especificamente sobre o nome das amostras de dados, penso que não vale a pena argumentar porque existem todos os tipos de métodos para a sua formação e utilização, e essencial, IMHO, permanece apenas um facto - se estes dados participaram (In-Sample) ou não (Out-Of-Sample), no processo de aprendizagem.
Porque todas as amostras IS são utilizadas de uma forma ou de outra para se adequar ao modelo, e o OOS apenas para avaliar a sua qualidade.


E para ser inequívoco, penso que seria lógico apresentar os resultados na forma habitual de testador, onde todas as amostras que foram usadas no treino - É para representar como um backtest, e OOS como um forward.

 
Ivan Negreshniy:

Sim, o tema já está bastante desordenado, e agora cada um tem de inventar a sua própria terminologia:)

Embora especificamente sobre o nome das amostras de dados, penso que não vale a pena argumentar porque existem todos os tipos de métodos para a sua formação e utilização, e essencial, IMHO, permanece apenas um facto - se estes dados participaram ou não (In-Sample), no processo de aprendizagem (Out-Of-Sample).
Porque todas as amostras IS são utilizadas de uma forma ou de outra para se adequar ao modelo, e o OOS apenas para avaliar a sua qualidade.


E para uma compreensão clara, penso que seria lógico apresentar resultados de forma familiar para o testador, onde todas as amostras que foram usadas no treinamento - IS devem ser apresentadas como um backtest, e OOS como um forward.


É melhor mostrar gráficos separados, porque a amostra que não participou do treinamento é geralmente muito menor do que a que participou e visualmente nada está claro em um gráfico tão quebrado, isso é para mim pessoalmente.

 
A propósito, Catbust tem validação cruzada - então ele não precisa da chave "teste", mas usa uma única amostra, que é decomposta de maneiras diferentes.
 
Aleksey Vyazmikin:
A propósito, Catbust tem validação cruzada - então ele não precisa da chave "teste", mas usa uma única amostra que é decomposta de diferentes maneiras.

Os cientistas trabalham com tais coisas, mas não compreendem o que acontece nas redes neurais, muito menos nas florestas, como e porque as coisas são exatamente como são, onde as coisas mudam em que momento e porquê, só podemos confiar na sua autoridade e aplicar os seus modelos, confiando num poder superior.

 
Kesha Rutov:

Os cientistas trabalham com tais coisas, mas não compreendem o que acontece nas redes neurais, muito menos nas florestas, como e porquê as coisas são como são, onde as coisas mudam em que momento e porquê, só temos de confiar na sua autoridade e aplicar os seus modelos, confiando num poder superior.

Florestas/árvores com as quais você claramente não lidou. As suas soluções são facilmente interpretadas pelos humanos. Qualquer artigo básico sobre algoritmo de árvore em algumas páginas explicá-lo-ia a si.
 
Aleksey Vyazmikin:

Está bem, assim seja. Não tenho estatísticas sobre as declarações de centenas de indivíduos envolvidos na criação de diferentes métodos de MoD, não tenho vontade de argumentar, pois originalmente falei sobre como me sinto confortável em separar conceitos na minha mente, e se outros não se sentem confortáveis, então deixem-me ficar sozinho com os meus conceitos.

A teimosia é próxima em significado de teimosia. Espero que eles o ajudem a alcançar uma implementação bem sucedida das suas ideias no MO. Estas são qualidades úteis para os investigadores. ;-)

PS Pensou num nome para o seu sistema de selecção de folhas: "Herbário" - junte à sua colecção de métodos de árvores, florestas, cotos, selvas.
 
elibrarius:

PS Pensou num nome para o seu sistema de selecção de folhas: 'Herbário' - junte à sua colecção de métodos de árvores, florestas, cotos, selvas.

))) Eu chamar-lhe-ia Lumberjack ou Sawmill.

 
Kesha Rutov:

Os cientistas trabalham com essas coisas, mas não compreendem o que acontece nas redes neurais, muito menos nas florestas, como e por que razão tudo está exatamente como está, onde o que muda em que momento e por que, só podemos confiar na sua autoridade e aplicar seus modelos, confiando em um poder superior.

Concordo em parte, esta é a era da computação rápida e, enquanto as pessoas costumavam fazer cálculos em papel antes de terem acesso a um computador, agora o volume de informação e os métodos de processamento são tão grandes que muitas vezes é mais apropriado concentrar-se no resultado do que no processo.

Razão: