Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2944

 
Aleksey Vyazmikin #:

É difícil dizer :) A matemática pode ser vista neste vídeo

Não, está em branco. Esqueci de mencionar que se trata de busting.

 
Stanislav Korotky #:

Explique como a fórmula a seguir é obtida no algoritmo de classificação em árvores(você pode criar um link para o PDF):


Em todos os materiais que encontrei na Internet, a fórmula é simplesmente "tirada do teto" por mágica.

Se estiver resumindo por classes, o denominador é o índice de Gini ou a pureza do nó. Quanto menor ele for, melhor. No numerador está o número de linhas na planilha.

Quanto maior for o critério, melhor - as classes são separadas de forma mais limpa, mas sem cortar excessivamente as planilhas.

O índice de Gini parece ter sido escolhido por ser considerado mais sensível do que a taxa de erro de classificação.

 
Aleksey Nikolayev #:

Se resumido por classe, o denominador é o índice de Gini ou a pureza do nó. Quanto menor ele for, melhor. O numerador é o número de linhas na planilha.

Quanto maior o critério, melhor - as classes são separadas de forma mais limpa, mas sem fragmentação excessiva da planilha.

O índice de Gini parece ter sido escolhido por ser considerado mais sensível do que a taxa de erro de classificação.

Não, resumindo os registros que atingiram o nó. A pergunta não é sobre a medida de informatividade. Trata-se da transferência de "resíduos" entre árvores - há um recálculo constante de probabilidade para logit e vice-versa.

 
Stanislav Korotky #:

Não, resumindo pelos registros que atingiram o nó. A pergunta não está relacionada à medida de informatividade. Trata-se da transferência de "resíduos" entre árvores - há um recálculo constante de probabilidade para logit e vice-versa.

E como a frequência pode ser contada para um registro em geral? Para uma classe, está claro como.

 
Stanislav Korotky #:

Não, resumindo pelos registros que atingiram o nó. A pergunta não está relacionada à medida de informatividade. Trata-se da transferência de "resíduos" entre árvores - há um recálculo constante de probabilidade para logit e vice-versa.

Ou se trata de classificação por regressão logística? De qualquer forma, uma fórmula extraída de algum lugar não é suficiente, você precisa do texto inteiro.

 
Aleksey Nikolayev #:

Ou estamos falando de classificação por regressão logística? De qualquer forma, uma fórmula extraída de algum lugar não é suficiente, você precisa do texto inteiro.

Função logit no sentido de ln(odds). Você precisa dela para traduzir a região de valores de probabilidade [0,1] para mais ou menos infinito - caso contrário, não será possível treinar por gradiente.

Por exemplo, aqui está o texto - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

E aqui está o vídeo - https://www.youtube.com/watch?v=hjxgoUJ_va8.

PS. IMHO, tanto lá quanto cá há erros no material.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Se resumido por classe, o denominador é o índice de Gini ou a pureza do nó. Quanto menor ele for, melhor. O numerador é o número de linhas na planilha.

Quanto maior o critério, melhor - as classes são separadas de forma mais limpa, mas sem fragmentação excessiva da planilha.

O índice de Gini parece ter sido escolhido por ser considerado mais sensível do que a taxa de erro de classificação.

Oh!
Finalmente alguém sabe sobre o índice de Gini.... Eu pesquisei em 18, o código para ele. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

Função logit no sentido de ln(odds). É necessário traduzir a região dos valores de probabilidade [0,1] para mais ou menos infinito; caso contrário, não será possível treinar por gradiente.

Sim, ela é usada para regressão logística quando você está procurando a probabilidade (função logit dela) de pertencer a uma classe.

Parece que o autor quer apresentar os aspectos internos do bousting de uma forma popular, mas ele adotou uma variante muito complicada do problema. Ele mistura regressão logit, árvores e bousting, que não são fáceis de entender por si só. A essência do bousting não pode ser declarada logicamente sem o funcan. Para entender a essência da regressão logit, você precisa de um teórico (distribuição binomial, provavelmente).

 
Forester #:
Oh!
Finalmente alguém sabe sobre o índice de Gini... Em 18, eu estava procurando o código para ele. h ttps:// www.mql5.com/ru/blogs/post/723619

Há também o coeficiente de Gini. Ele também é usado no MOE, mas isso é diferente).

 
Stanislav Korotky #:

Explique como a fórmula a seguir é obtida no algoritmo de classificação em árvores com bousting(você pode criar um link para o PDF):


Em todos os materiais que encontrei na Internet, a fórmula é simplesmente "tirada do teto" por mágica.

De onde você tirou a fórmula? A julgar pela agricultura coletiva usual "do teto", provavelmente do soviético.

Você precisa usar matemática profissional, para a qual existem algoritmos bem estabelecidos.

O R tem um grande número de modelos de madeira, e a diferença entre a linguagem R profissional e muitas outras é a referência obrigatória aos autores do algoritmo e à publicação correspondente. Em uma rápida olhada, não consigo me lembrar de nenhuma função mais ou menos complexa dos pacotes do R que não tenha as referências correspondentes.


Esqueça tudo, menos o R. Atualmente, ele é o único ambiente profissional para cálculos estatísticos.

Razão: