Discussão do artigo "Florestas Aleatórias na Previsão das Tendências" - página 13

 

Esse modelo é muito fácil de prever, mas na prática há muitos problemas com ele.

1. como o sinal de ziguezague é escolhido como alvo, uma das variáveis mais simples pode ser prevista a partir dele, por exemplo, a classificação do PRICE nos últimos 20 ciclos; obviamente, a partir do design do alvo, o sinal de ziguezague é ascendente quando moverank_price_20 =1 e moverank_price_20 >1 quando Há mais de 90% de probabilidade de que o sinal do ziguezague seja descendente; muitas variáveis desse tipo podem ser construídas a partir disso, portanto, é fácil ter sucesso na previsão do modelo; mas uma condição a priori aqui é que você precisa saber que esse ponto é o ponto do ziguezague. Se forem outros pontos no tempo, mas não o ponto do ziguezague, as variáveis acima não existirão na capacidade de previsão.

2) Portanto, haverá um grande problema na aplicação, porque você não sabe qual é o ponto inicial do ziguezague, portanto, terá que calcular todos os dados; nesse momento, moverank_price_20 =1, não acha que esse é o ponto inicial do ziguezague e, portanto, não pode prever a mudança do ponto depois que a tendência for de alta.

3) Portanto, é difícil trabalhar com o método de definição de metas do ziguezague.

 
Você poderia me dizer o que colocar lá no Windows? Em russo, se puder, porque algo aqui está bagunçado https://rattle.togaware.com/rattle-install-mswindows.html.
 

Há uma tabela no artigo



01MeanDecreaseAccuracy (redução média da precisão) MeanDecreaseGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Mas nada é dito sobre o que os números significam por si mesmos, sua relação com outros números é compreensível - melhor - melhor, mas os valores em si, o que deveriam ser e do que dependem? Aqui no artigo, o valor máximo de MeanDecreaseGini é 321,86, e eu tenho 1876 - isso depende do número de preditores ou o quê? E tenho um MeanDecreaseAccuracy de 140,22 - como interpreto isso? Talvez eu devesse simplesmente converter todos os valores em uma porcentagem do maior valor?

 
Aleksey Vyazmikin:

Há uma tabela no artigo



01MeanDecreaseAccuracy (redução média da precisão) MeanDecreaseGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Mas nada é dito sobre o que os números significam por si mesmos, sua relação com outros números é compreensível - melhor é melhor, mas os valores em si devem ser o que e do que eles dependem? Aqui no artigo, o valor máximo de MeanDecreaseGini é 321,86, e eu tenho 1876 - isso depende do número de preditores ou o quê? E tenho um MeanDecreaseAccuracy de 140,22 - como interpreto isso? Talvez eu devesse simplesmente converter todos os valores em uma porcentagem do valor mais alto?

Essa é a estatística interna do uso de preditores durante a criação de várias árvores, todas juntas chamadas randoForest. A comparação de modelos diferentes não faz sentido algum. Não consegui comparar nem mesmo dentro do mesmo modelo. Se você quiser selecionar preditores, precisará usar outras ferramentas. Escrevi muitas vezes no tópico de aprendizado de máquina e não sou o único.

 
СанСаныч Фоменко:

Essa é a estatística interna do uso de preditores ao criar várias árvores, todas juntas chamadas randoForest. A comparação de modelos diferentes não faz sentido algum. Não consegui comparar nem mesmo dentro do mesmo modelo. Se você quiser selecionar preditores, precisará usar outras ferramentas. Escrevi muitas vezes no tópico de aprendizado de máquina e não sou o único.

Entendo, ou seja, é um estimador dentro de um modelo, mas não absoluto....

Talvez, é claro, e escrevi no fórum, mas esse volume para lidar com.... - Li metade do fórum em meu leitor. Se você puder me indicar a direção certa, ficarei grato.

 
Aleksey Vyazmikin:

Entendo, ou seja, é um estimador dentro do modelo, mas não absoluto....

Talvez, é claro, e escrevi no fórum, mas esse volume para dar conta... - Eu leio metade do fórum em meu leitor. Se você se interessar, ficarei grato.

1. Não tenho uma resposta curta, pois se trata de um setor inteiro, chamado datamining, que é comparável à modelagem

2. O esquema padrão para modelos de classificação de datamining é o seguinte:

  • definir uma variável-alvo
  • procurar preditores para ESSA variável-alvo.
  • Determinar a capacidade de previsão dos preditores, ou seja, parte do preditor deve prever uma classe, a outra parte deve prever outra classe; quanto menor a sobreposição, melhores são os preditores
  • usamos os pacotes para determinar a importância dos preditores. Há muitos deles, e eu encadeio o arquivo com uma visão geral

3. Ajuste o modelo na primeira metade do arquivo, de preferência com validação cruzada

4. Verificar a segunda metade do arquivo. Os resultados devem coincidir


Para tudo isso, você precisa de muitas ferramentas DONE. A melhor é o caret. Ela tem tudo o que você precisa. Mas não o suficiente.


PS.

Este é o R. Fora dele, você não pode ir além de balbucios inarticulados de bebês.

Arquivos anexados:
 
СанСаныч Фоменко:

1. Não tenho uma resposta curta, pois há todo um setor chamado datamining, que é comparável à modelagem

2. O esquema padrão para modelos de classificação de datamining é o seguinte:

  • definir uma variável-alvo
  • encontrar preditores para ESSA variável-alvo
  • Determinar a capacidade de previsão dos preditores, ou seja, parte do preditor deve prever uma classe, a outra parte deve prever outra classe; quanto menor a sobreposição, melhores são os preditores
  • Usamos os pacotes para determinar a importância dos preditores. Há muitos deles, e estou anexando um arquivo com uma visão geral

3. Ajustar o modelo na primeira metade do arquivo, de preferência com validação cruzada

4. Verificar a segunda metade do arquivo. Os resultados devem corresponder


Para tudo isso, você precisa de várias ferramentas DONE. A melhor é a caret. Ela tem tudo o que é necessário. Mas não o suficiente.


PS.

Esse é o R. Fora isso, não dá para ir além de balbucios inarticulados de bebês.

Obrigado, vou continuar procurando!

 
Instalei o RStudio, baixei o pacote Boruta, mas como ativá-lo, como trabalhar com ele?
 
Aleksey Vyazmikin:
Instalei o RStudio, baixei o pacote Boruta, mas como ativá-lo, como trabalhar com ele?

Leia a documentação, sempre para todos os pacotes. No RStudio, abra a guia Packages (Pacotes), digite o nome do pacote na busca e clique no nome do pacote que aparecer, a Ajuda será aberta. Ou melhor, aqui pelo nome do pacote, pode haver links para materiais relacionados.

Se estiver interessado em ideologia, você encontrará um link para um artigo teórico nas funções incluídas no pacote.

CRAN Packages By Name
  • cran.r-project.org
The package will formally test two curves represented by discrete data sets to be statistically equal or not when the errors of the two curves were assumed either equal or not using the tube formula to calculate the tail probabilities
 
СанСаныч Фоменко:

Leia a documentação, sempre para todos os pacotes. No RStudio, abra a guia Packages (Pacotes), digite o nome do pacote na pesquisa e clique no nome do pacote que aparecer, a Ajuda será aberta. Ou melhor, clique aqui no nome do pacote, pois pode haver links para materiais relacionados.

Se a ideologia for interessante, haverá um link para o artigo teórico nas funções que estão incluídas no pacote.

Obrigado!

Então, abri o pdf com a descrição e aqui as configurações estão confusas - são necessárias tantas coisas que não sei o que metade delas significa.

Existe algo mais simples, mesmo que menos confiável, e de preferência com GUI?

Em geral, seria muito útil que você criasse artigos sobre esse tópico, com detalhes de onde e como!