Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 8

 
Valeriy Yastremskiy:

Aparentemente, temos ideias diferentes sobre busting aleatório. Árvore decisiva, trata-se de recursos selecionados de um conjunto aleatório. A questão é que os conjuntos são aleatórios, mas a seleção/agrupamento em conjuntos bons e ruins estava originalmente lá. É como jogar uma agulha, medir os ângulos e calcular o número de pi)

do wiki

  1. Vamos criar umaárvore de decisão que classifique as amostras de uma determinada subamostra e, durante a criação do próximo nó da árvore, escolheremos um conjunto de recursos com base nos quais o particionamento será realizado (não de todos osM recursos , mas apenas dem escolhidos aleatoriamente ). A seleção do melhor dessesm recursos pode ser feita de diferentes maneiras. O código Breiman original usa ocritério Gini, que também é usado no algoritmo de árvore decisivaCART. Em vez disso, algumas implementações do algoritmo usam ocritério de ganho de informações. [3]
Não estou entendendo.
Também ouvi falar de Random boosting pela primeira vez.
Eu estava falando de random forest.
 
Maxim Dmitrievsky:

Sim, há muitas árvores, mas cada uma delas está tentando se treinar melhor em diferentes características. Isso não é o mesmo que agrupar várias florestas (inclusive as ruins)

Em uma floresta aleatória, a média das árvores é calculada.
Entretanto, a combinação de florestas de casos com base nos mesmos atributos é equivalente a uma floresta com o número de árvores = o número de árvores em todas as florestas a serem combinadas. A única diferença será a inicialização diferente do HCS.
[Excluído]  
elibrarius:
As árvores em uma floresta de casos são calculadas pela média.
No entanto, a fusão de florestas de casos com base nos mesmos recursos é igual a uma floresta com o número de árvores = o número de árvores em todas as florestas mescladas. A única diferença será a inicialização diferente do HCS.

A diferença é que cada árvore sem poda é capaz de se lembrar perfeitamente do conjunto de dados, o que faz com que ela seja treinada novamente. Um conjunto de árvores é contra o treinamento excessivo, porque ocorre um cálculo da média. Mas cada árvore é boa por si só.

Se você agrupar classificadores, a história é diferente. O cálculo da média com um classificador ruim piora o resultado geral

 
Maxim Dmitrievsky:

A diferença é que cada árvore sem poda é capaz de se lembrar perfeitamente do conjunto de dados, o que faz com que ela seja treinada novamente. Um conjunto de árvores é contra o aprendizado excessivo, pois ocorre uma média. Mas cada árvore é boa por si só.

Se você agrupar classificadores, a história é diferente. O cálculo da média com um classificador ruim degrada o resultado geral

Além da poda, há um limite na profundidade e no número de exemplos na folha.

Uma única árvore também é um classificador.

Espero que você encontre tempo para comparar a média e os melhores resultados na amostra do exame. Não para discutir teoricamente, mas para confirmar uma das variantes na prática.

 
elibrarius:
Não estou entendendo.
Também é a primeira vez que ouço falar de Random boosting.
Eu estava falando de random forest.

Peço desculpas, erro de digitação. Floresta, é claro, floresta. A propósito, ele foi implementado pela primeira vez em fortran 77 (com oop) em 1986, quando as pessoas aqui ainda estavam aprendendo fortran 4 (sem oop).

Mas isso não muda a questão. A amostragem dos melhores recursos, árvores em um conjunto, melhora o resultado. Mas, ao mesmo tempo, o agrupamento em conjuntos bons e ruins é realizado a partir de um conjunto aleatório de recursos, e não do conjunto completo, o que reduz os recursos necessários e, ao mesmo tempo, como a prática demonstrou, não piora significativamente o resultado.

[Excluído]  
elibrarius:

Além da poda, há um limite de profundidade e um limite no número de exemplos por folha.

Uma árvore também é um classificador.

Espero que você encontre tempo para comparar a média e os melhores resultados na amostra do exame. Não para discutir teoricamente, mas para confirmar uma das variantes pela prática.

20 modelos treinados

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

Melhor:

Todos os 20:


[Excluído]  

50 modelos


[Excluído]  

100 modelos

melhores

todos


[Excluído]  

Mais uma vez, em 50 modelos:

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

Melhores

médias


[Excluído]  

Mais uma vez.