Discussão do artigo "Gradient Boosting (CatBoost) no desenvolvimento de sistemas de negociação. Uma abordagem ingênua"

Stanislav Korotky 2020.11.05 13:52 #11

Maxim Dmitrievsky:

É melhor perguntar aos desenvolvedores

Não gosto de vídeos porque, para obter uma resposta a uma pergunta específica, é preciso ouvir muitas bobagens, e não há certeza de que a resposta será realmente encontrada. É claro que eu leio a documentação introdutória textual dos desenvolvedores, mas essa mesma nuance sobre a escolha da divisão com base no histograma eles elegantemente "pularam", embora todo o resto seja bastante completo.

Como você trabalha com O meu CD tem Ajuda na codificação

Boris Egorov 2020.11.05 13:54 #12

Bom artigo .... certamente

Stanislav Korotky 2020.11.05 13:57 #13

Aleksey Vyazmikin:

As árvores são construídas independentemente umas das outras e, em seguida, a contagem é feita nas folhas (enumerando os preditores detrendidos) de forma que o erro de gradiente seja reduzido.

Ao selecionar preditores para a construção e divisão de árvores, são usados coeficientes aleatórios, o que possibilita, em teoria, aumentar a integridade (Recall) e evitar o treinamento excessivo.

Nada disso responde à pergunta de forma alguma.

Por exemplo, há uma página - https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus

Nela há a frase:

A busca pela melhor divisão agora é apenas um cálculo de histogramas, mostrado na figura 6.

É aí que surge a pergunta: o cálculo dos histogramas é claro, mas como chegar à "melhor divisão" depois disso? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.

CatBoost Enables Fast Gradient Boosting on Decision Trees Using GPUs

catboost.ai

Machine Learning techniques are widely used today for many different tasks. Different types of data require different methods. Yandex relies on Gradient Boosting to power many of our market-leading products and services including search, music streaming, ride-hailing, self-driving cars, weather prediction, machine translation, and our...

Você deve sempre definir Inscrição para o Campeonato Aprendizado de máquina no

Denis Kirichenko 2020.11.05 14:06 #14

Não tenho nada contra outros autores de artigos sobre o MoD, mas, na minha opinião, o autor deste artigo apresenta o material como em um bom livro didático, que você precisa ler e ter o desejo de ler.... Respeito e respeito.

Discussão do artigo "Avaliação Valores ótimos de pedidos Experiência

Aleksei Kuznetsov 2020.11.05 14:35 #15

Stanislav Korotky:

Nada disso responde à pergunta de forma alguma.

Por exemplo, há uma página - https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus

Ela diz:

É aqui que surge a pergunta: o cálculo do histograma é claro, mas como chegar à "melhor divisão" depois dele? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.

Ao dividir os dados por coluna, calculamos o quanto o bloco à direita e à esquerda ficou mais limpo de impurezas de outra classe.

De todas as divisões em todas as colunas, é escolhida a que oferece a melhor pureza. (Às vezes chamada de redução de impureza.)

Há diferentes fórmulas de limpeza/impureza, uma que melhora a limpeza em ambos os blocos de uma só vez e outra que busca um bloco o mais limpo possível.

A divisão mais limpa ocorre quando apenas exemplos de uma classe são deixados à esquerda e a outra à direita.

Discussão do artigo "Indicador Aprendizado de máquina no [ARQUIVO!] Qualquer pergunta de

Rorschach 2020.11.05 15:07 #16

Como a amostragem aleatória é melhor do que uma constante?

[Excluído] 2020.11.05 18:04 #17

Rorschach:
Como a amostragem aleatória é melhor do que uma constante?

Você pode obter um número diferente de negociações, diferentes combinações de negociações ao longo do tempo.

Originalmente, fiz isso por força bruta.

Rorschach 2020.11.05 19:18 #18

Engraçado, pensei que, se a expectativa fosse tão baixa, seria um graal de teste. Eu o executei no Saber, em um símbolo personalizado, quase o mesmo resultado.

Verifiquei o 17, com tendência de alta semelhante, e está drenando.

É uma peça de sorte da história ou você pode obter essa imagem para os últimos anos também? Sei que está perdendo no teste, mas lá era um mercado completamente diferente.

Tendência e níveis Quaisquer perguntas de recém-chegados :)) Tentativa número 2.

Aleksey Vyazmikin 2020.11.06 00:00 #19

Stanislav Korotky:

É aqui que surge a pergunta: o cálculo do histograma é claro, mas como chegar à "melhor divisão" depois dele? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.

Presumo que temos um cálculo para cada divisão e, em seguida, há uma soma dos intervalos, e obtemos uma matriz da qual o maior valor é selecionado - a precisão da divisão.

Em geral, o código deles é aberto; se você entender bem o C++, poderá informar os detalhes a todos os interessados!

Como minimizar a correlação Quaisquer perguntas de recém-chegados [ARQUIVO!] Qualquer pergunta de

Aleksey Vyazmikin 2020.11.06 00:03 #20

Maxim, obrigado pelo artigo!

A validação cruzada tem algum efeito?

Você já tentou obter retornos diferentes de uma centena de misturas de períodos diferentes?

Discussão do artigo "Gradient Boosting (CatBoost) no desenvolvimento de sistemas de negociação. Uma abordagem ingênua" - página 2