Discussão do artigo "Algoritmo de aprendizado de máquina CatBoost da Yandex sem conhecimento prévio de Python ou R" - página 7

 
Aleksey Vyazmikin:

Olá.

Se estivermos falando de substituir um indicador, é possível treiná-lo, mas se estivermos falando de prever extremos, é muito mais difícil, mas o algoritmo CatBoost permite que você faça isso, se houver preditores correspondentes.

Boa observação sobre os preditores.... :)
Até o momento, ninguém resolveu esse problema...
Ou resolveram, mas não falam nada sobre a solução.
 

Muito obrigado por compartilhar esse excelente artigo e os códigos de amostra, mas estou tendo problemas ao executar o arquivo "_01_Train_All.bat",

com a captura de tela abaixo:

Files in the folder:


Você poderia me ajudar a descobrir onde está o problema ou se há alguma etapa mal configurada?

Muito obrigado por seu gentil apoio!

 
Di Wan:

Muito obrigado por compartilhar esse excelente artigo e os códigos de amostra, mas estou tendo problemas ao executar o arquivo "_01_Train_All.bat",

com o scrrenshot abaixo:

Files in the folder:


Você poderia me ajudar a descobrir onde está o problema ou se há alguma etapa mal configurada?

Muito obrigado por seu gentil apoio!

Você precisa abrir os arquivos exam.csv/test.csv/train.csv em um leitor de arquivos (por exemplo, EditPad Lite). Por meio da pesquisa, localize e substitua "inf" por 0, como uma alternativa ao infinito. Infelizmente, em alguns indicadores, é possível obter resultados não numéricos, mas isso é raro.
 

Para aqueles que não entenderam alguns dos pontos descritos sobre configuração e lançamento, apresentados no artigo, decidi fazer um vídeo sobre o exemplo do EURUSD - assista com legendas(!).


 

Grande quantidade de trabalho e tempo gasto. É hora de começar a usar linguagens especializadas (R/Python/Julia, etc.). Elas proporcionam uma liberdade de escolha incomparavelmente maior e uma economia de tempo considerável no desenvolvimento.

Caso contrário, boa sorte em sua difícil escolha.

 
Vladimir Perervenko #:

Grande quantidade de trabalho e tempo gasto. É hora de começar a usar linguagens especializadas (R/Python/Julia, etc.). Elas proporcionam uma liberdade de escolha incomparavelmente maior e uma economia de tempo considerável no desenvolvimento.

Caso contrário, boa sorte em sua difícil escolha.

De fato, a quantidade de trabalho já foi muito grande e, como agora está tudo automatizado, o tempo para aprender tudo não é muito grande e você não precisa aprender uma linguagem adicional (R/Python/Julia etc.) e gastar anos de sua vida com isso, mas já usar a poderosa ferramenta disponível para MO. De qualquer forma, conhecer uma linguagem é muito pouco para obter resultados - você precisa ser capaz de usar seu potencial, suas bibliotecas e ter a educação adequada. No meu caso, é mais conveniente para mim ter minha própria ideia e fazer tudo do jeito que eu vejo, e talvez isso já tenha sido inventado antes de mim, mas eu simplesmente não sei. Além disso, o processo de aprendizado em si será mais rápido sem o JA e é fácil transferi-lo para outros computadores para a enumeração paralela de dados sem organizar uma infraestrutura complexa - basta dividir o arquivo bat no número necessário de partes, de acordo com o número de máquinas, e não instalar pacotes e configurações de aprendizado em todos os lugares - isso economiza muito tempo.

Como resultado, para experimentos, com conhecimento profundo do conjunto de ferramentas analíticas e educação adequada, o NPS será o mais adequado, e para pipeline, rápido e estável, meu método será melhor.

 

Alexei, muito obrigado pelo artigo. Muito bom!

Onde posso ler o manual do Catboost em russo? O Google e o Yandex oferecem apenas em inglês, e isso não é muito bom (o tradutor não traduz os termos muito bem).

Para aprender as configurações, seria possível torcer os parâmetros....

E também como criar diagramas como os que aparecem nas telas?

 
Viktor Kudriavtsev do Catboost em russo? O Google e o Yandex oferecem apenas em inglês, e isso não é muito bom (o tradutor não traduz os termos muito bem).

Para aprender as configurações, seria possível girar os parâmetros....

E também como criar diagramas como os que aparecem nas telas?

Que bom que você gostou do artigo!

Infelizmente, a Yandex divulga todas as informações apenas em inglês, o significado da maioria dos parâmetros é informado no vídeo que está no artigo, além disso, selecionei os mais eficazes para influenciar o treinamento e os coloquei no script "CB_Bat" - forneci uma descrição no artigo. É melhor se preocupar com a criação de novos preditores - isso pode melhorar qualitativamente o modelo, distorcendo as configurações do modelo - geralmente é uma mudança do aleatório em uma direção ou outra. Faça experimentos e você entenderá qual parâmetro é importante e qual não é tão importante.

Os gráficos foram criados no Excel.

Aqui está uma lista de reprodução no CatBoost/
089. Мастер класс Решение задач классификации при помощи CatBoost – Никита Дмитриев
089. Мастер класс Решение задач классификации при помощи CatBoost – Никита Дмитриев
  • 2018.10.31
  • www.youtube.com
PyData Moscow, 13 октября 2018 г.Градиентный бустинг — метод машинного обучения, появление которого привело к прорыву в решении многих задач, включая поиск в...
 

Olá, apresentou erros ao Compilar


 

I am download files (zip) and compileted - all work.