Discusión sobre el artículo "Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta" - página 8
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Parece que tenemos ideas diferentes sobre el bousting aleatorio. Árbol decisivo, se trata de características seleccionadas de un conjunto aleatorio. La cuestión es que los conjuntos son aleatorios, pero la selección / agrupación en malos buenos estaba originalmente allí. Es como lanzar una aguja, medir ángulos y calcular el número de pi)
de la wiki
Yo también he oído hablar de Random boosting por primera vez.
Me refería a random forest.
Sí, hay muchos árboles, pero cada uno intenta formarse mejor en rasgos diferentes. Esto no es lo mismo que agrupar varios bosques (incluidos los malos).
Sin embargo, combinar bosques de casos basados en los mismos atributos equivale a 1 bosque con el número de árboles = el número de árboles de todos los bosques que se van a combinar. La única diferencia será una inicialización diferente del HCS.
Los árboles de un bosque de casos se promedian.
Sin embargo, la fusión de bosques de casos basados en las mismas características equivale a 1 bosque con el número de árboles = el número de árboles de todos los bosques fusionados. La única diferencia será la distinta inicialización del HCS.
La diferencia es que cada árbol sin poda es capaz de recordar perfectamente el conjunto de datos, lo que provoca su reentrenamiento. Un conjunto de árboles está en contra del sobreentrenamiento, porque se produce cierto promediado. Pero cada árbol es bueno por sí solo.
Si se reúnen clasificadores, la cosa cambia. Promediar con un mal clasificador degrada el resultado global.
La diferencia es que cada árbol sin podar es capaz de recordar perfectamente el conjunto de datos, lo que provoca su reaprendizaje. Un conjunto de árboles está en contra del sobreaprendizaje, ya que se produce cierto promediado. Pero cada árbol es bueno por sí solo.
Si se reúnen clasificadores, la cosa cambia. Promediar con un mal clasificador degrada el resultado global.
Además de la poda, hay un límite en la profundidad y en el número de ejemplos en la hoja.
Un solo árbol también es un clasificador.
Espero que encuentres tiempo para comparar la media y los mejores resultados en la muestra del examen. No para discutir teóricamente, sino para confirmar con la práctica una de las variantes.
No le entiendo.
También es la primera vez que oigo hablar de Random boosting.
Me refería a random forest.
Pido disculpas, error tipográfico. Bosque por supuesto, bosque. Por cierto, se implementó por primera vez en fortran 77 (con oop) en 1986, cuando aquí la gente aún estaba aprendiendo fortran 4 (sin oop).
Pero eso no cambia el punto. El muestreo de las mejores características, árboles en un conjunto mejora el resultado. Pero al mismo tiempo la agrupación en conjuntos buenos malos se realiza a partir de un conjunto aleatorio de características, no del conjunto completo, lo que reduce los recursos necesarios, y al mismo tiempo, como ha demostrado la práctica, no empeora significativamente el resultado.
Además de la poda, hay un límite de profundidad y un límite en el número de ejemplos por hoja.
Un árbol es también un clasificador.
Espero que encuentre tiempo para comparar la media y los mejores resultados en la muestra del examen. No para discutir teóricamente, sino para confirmar con la práctica una de las variantes.
20 modelos entrenados
Los mejores:
Los 20:
50 modelos
100 modelos
mejor
todos
Una vez más, en 50 modelos:
Mejor
medias
Una vez más.