Discusión sobre el artículo "Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta" - página 5

[Eliminado]  
elibrarius:
Entonces es necesario promediar exactamente. De lo contrario será "diferente" en los nuevos datos.

No es necesario promediar exactamente. El muestreador ya tiene el promedio incorporado.

El muestreador GMM puede crear una mala muestra, con clases sesgadas, etc., el muestreo es aleatorio. ¿Tiene sentido tenerlo en cuenta?

 
Maxim Dmitrievsky:

definitivamente no necesitan promediar

El muestreador GMM puede crear una mala muestra, con clases sesgadas, etc., el muestreo es aleatorio. ¿Tiene sentido tenerlo en cuenta?

De forma similar, un bosque aleatorio crea un conjunto de árboles exitosos y no tan exitosos. Al promediar todos los modelos se obtienen mejores resultados con los nuevos datos que con un único árbol óptimo.

[Eliminado]  
elibrarius:

De forma similar, un bosque aleatorio crea un conjunto de árboles buenos y no tan buenos. Al promediar todos los modelos se obtienen mejores resultados con los datos nuevos que con un único árbol óptimo.

y si se componen varios bosques, habrá aproximadamente cero operaciones, las señales se solaparán.

 
Maxim Dmitrievsky:

y si compone varios andamios, las operaciones serán aproximadamente nulas, las señales se solaparán.

Varios (por ejemplo, 10) bosques de 100 es lo mismo que un bosque de 1000 árboles. Da muchas señales.

[Eliminado]  
elibrarius:

Unos cuantos (por ejemplo, 10) bosques de 100 es lo mismo que un bosque de 1000 árboles. Da muchas señales.

¿Alguna práctica? Yo lo he hecho. Las señales escasean.
 
Si la clasificación pasa por 0,5. Se activará a partir de 0,51 y 0,49 en lugar de 0,6 y 0,4
 
Maxim Dmitrievsky:
¿Alguna práctica? Ya lo he hecho antes. Las señales se vuelven pocas.
Si ha establecido la sangría de 0,5, sólo tiene que reducirlo. Si hay 10 veces más árboles, entonces la sangría es 10 veces menos
[Eliminado]  
elibrarius:
Si tienes una sangría de 0,5, sólo tienes que reducirla.
Estoy de acuerdo con eso, todavía se hacía pequeño. Y no entiendo muy bien por qué hay que añadir modelos malos al azar. Componer unos geniales que se mejoren entre sí - otra conversación
 
Maxim Dmitrievsky:
Estoy de acuerdo con eso, de todas formas no estaba teniendo suficiente. Y no entiendo muy bien por qué añadir modelos malos al azar. Componer geniales que se mejoran entre sí - otra conversación.
Con el bosque hizo esto hace unos 2 años, entrenado 1000, tomó la mejor 10-50. No funcionó, al parecer el resultado en los nuevos datos no era muy bueno.
Es el promedio de todo lo que se necesita. Las descripciones básicas del principio de andamiaje lo dicen. Como si la multitud supiera más que un experto.
[Eliminado]  
elibrarius:
Hice esto con madera hace unos 2 años, entrenado 1000, tomó la mejor 10-50. No funcionó, al parecer el resultado en los nuevos datos no era muy bueno.
Es el promedio de todo en una fila lo que se necesita. Lo dicen las descripciones básicas del principio de andamiaje. Como si la multitud supiera más que un experto.
No he visto eso en los libros de texto. Sé que se puede mejorar la calidad combinando buenos modelos. Pero no al revés :)