Discusión sobre el artículo "Aplicando el método de Montecarlo al aprendizaje por refuerzo" - página 3

 
elibrarius:

Mira los artículos anteriores de Vladimir (2º o 3º) donde en uno de los paquetes de R se determinó con la ayuda de andamiaje. Tomó mucho tiempo para calcular (muchas veces más que el entrenamiento de la NS principal), si se trataba de un overfitting completo o algún tipo de genética - usted debe buscar en la documentación del paquete.
Lo más probable es que se haya optimizado de alguna manera.

Gracias por la información. Sin embargo, en este artículo estamos hablando de la evaluación independiente de predictores, y lo que interesa es el método de grupos.

 
Aleksey Vyazmikin:

Gracias por la información. Sin embargo, este artículo trata sobre la estimación independiente de predictores, y es el método de grupos el que interesa.

Aquí sobre la interacción de variables de entrada https://www.mql5.com/es/articles/2029
Оценка и выбор переменных для моделей машинного обучения
Оценка и выбор переменных для моделей машинного обучения
  • www.mql5.com
В статье будут рассмотрены особенности выбора, предподготовки и оценки входных переменных для использования в моделях машинного обучения. Будут рассмотрены множественные методы нормализации и их особенности. Будут указаны важные моменты этого процесса, сильно влияющие на конечный результат обучения моделей. Рассмотрим и оценим новые и...
 
elibrarius:
Aquí es sobre la interacción de las variables de entrada https://www.mql5.com/es/articles/2029

Sí, gracias, pero dice esto sobre la interacción de grupos:

  • Wrapper. Los métodos envolventes estiman varios modelos utilizando procedimientos que añaden y/o eliminan predictores para encontrar la mejor combinación que optimice el rendimiento del modelo. En esencia, los métodos envolventes son algoritmos de búsqueda que tratan los predictores como entradas y utilizan la eficacia del modelo como salidas que hay que optimizar. Hay muchas formas de enumerar predictores (eliminación/adición recursiva, algoritmos genéticos, recocido simulado y muchos otros).

Ambos enfoques tienen sus ventajas e inconvenientes. Los métodos de filtro tienden a ser computacionalmente más eficientes que los métodos envolventes, pero los criterios de selección no están directamente relacionados con el rendimiento del modelo. Una desventaja del método de envoltura es que la estimación de múltiples modelos (que puede requerir el ajuste de hiperparámetros) conduce a un aumento dramático en el tiempo computacional y por lo general resulta en el sobreajuste del modelo.

En el presente artículo no consideraremos los métodoswrapper, sino nuevos métodos y enfoques de métodos de filtrado que, en mi opinión, eliminan las desventajas mencionadas.


[Eliminado]  
Aleksey Vyazmikin:

En este artículo no consideraremos métodos envolventes, sino nuevos métodos y enfoques de métodos de filtrado que, en mi opinión, eliminan los inconvenientes mencionados.


Considera estos artículos como un simple libro de texto sobre redes neuronales y sobre R, no hay ni un solo sistema robusto en ellos. Muchos enfoques también pueden ser malinterpretados o tergiversados, es mejor leer fuentes primarias. Ya he descartado material de un profesor universitario sobre no fiarse de la importancia de los bosques: https: //explained.ai/rf-importance/index.html.

Al mismo tiempo, la descorrelación y la permutación son fiables y suficientes para la inmensa mayoría de los casos

Quizá no sea mi pregunta, pero no soporto verte sufrir :)

Beware Default Random Forest Importances
Beware Default Random Forest Importances
  • explained.ai
0.995 worst radius 0.995 mean perimeter 0.994 mean area 0.984 worst perimeter 0.983 worst area 0.978 radius error 0.953 mean concave points 0.944 mean concavity 0.936 worst concave points 0.927 mean compactness 0.916 worst concavity 0.901 perimeter error 0.898 worst compactness 0.894 worst texture 0.889 compactness...
 
Maxim Dmitrievsky:

considerar estos documentos como sólo un libro de texto sobre redes neuronales y en R, no hay un solo sistema robusto allí. Muchos enfoques también pueden ser mal interpretados o tergiversados, es mejor leer fuentes primarias. Ya he tirado el material acerca de no confiar en la impureza importancia de andamiaje: https: //explained.ai/rf-importance/index.html.

Igual no es mi pregunta, pero no soporto verte sufrir :)

Esa es la cosa, que nadie sabe cómo es correcto - alguien tiene una cosa que funciona en el modelo, y otro tiene otro, o tal vez es todo al azar, en virtud del cual todo el mundo está tratando de traer una base científica de las pruebas y la justificación.

Yo mismo me estoy ocupando de esto, y hasta ahora no se me ocurre nada parecido a una enumeración completa de los grupos predictores y la evaluación de sus modelos para acelerar el proceso. Para mí, la dificultad está quizás en preservar los vínculos de los grandes grupos para su posterior división en otros más pequeños con el fin de acelerar la enumeración - esta cuestión no está automatizada adecuadamente.

[Eliminado]  
Aleksey Vyazmikin:

1 tiempo para profundizar e interiorizar, porque la permutación es universal para cualquier método MO, no sólo RF, y computacionalmente bastante barato

 
Maxim Dmitrievsky:

1 tiempo para entrar en él y aprenderlo, porque la permutación es universal para cualquier método MO, no sólo para RF, y computacionalmente bastante barato

La permutación habitual es, por supuesto, aquí es diferente - dividimos los predictores en 9 grupos, identificamos por algún método los grupos donde el resultado de los modelos promedio es peor o por el contrario mejor, y luego creamos nuevos grupos con una división diferente, por ejemplo, batimos los grupos malos en subgrupos con el fin de encontrar la escoria a descartar o para entender por qué afecta tanto a la imagen global y así una y otra vez. De esta forma podemos identificar los mejores/malos grupos de predictores en términos de interacción entre ellos. La tarea consiste en hacer automáticamente un nuevo desglose en grupos después de clasificar el modelo, teniendo en cuenta la experiencia adquirida, y volver a entrenar. La cuestión es que la categorización no sea aleatoria.

[Eliminado]  
Aleksey Vyazmikin:

Por supuesto, existe una permutación habitual, pero aquí es diferente: dividimos los predictores en 9 grupos, identificamos por algún método los grupos en los que el resultado de los modelos medios es peor o, por el contrario, mejor, y luego creamos nuevos grupos con una división diferente, por ejemplo, batimos los grupos malos en subgrupos para encontrar la escoria que hay que descartar o para entender por qué afecta tanto al panorama general, y así una y otra vez. De esta forma podemos identificar los mejores/malos grupos de predictores en términos de interacción entre ellos. La tarea consiste en hacer automáticamente un nuevo desglose en grupos después de clasificar el modelo, teniendo en cuenta la experiencia adquirida, y volver a entrenar. La cuestión es que la categorización no es aleatoria.

No hay interacción entre ellas, ya lo he escrito más arriba. A partir de la reordenación de los lugares y cambiar el número de importaciones no cambia. Usted puede comprobar. Por otra parte, menos peso simplemente significa menos contribución al modelo, por lo que los malos ni siquiera es necesario eliminar cuando se utiliza el modelo, pero es deseable deshacerse del ruido innecesario

 
Maxim Dmitrievsky:

no hay interacción entre sí, ya he escrito anteriormente. Desde la reordenación y cambiar el número de importaciones no cambia. Puedes comprobarlo. Por otra parte, menos peso simplemente significa menos contribución al modelo, por lo que los malos ni siquiera es necesario eliminar cuando se utiliza el modelo, pero es deseable deshacerse de ruido innecesario

Yo tengo una conclusión diferente.

[Eliminado]  
Aleksey Vyazmikin:

Yo tengo una conclusión diferente.

como quieras :)

Pero esto es trivial. La importancia depende de la varianza de la ficha (casi siempre, excepto para modelos muy simples). Forest no hace ninguna transformación en las fichas, no las multiplica ni las divide entre sí, etc., sino que simplemente dispersa sus valores por los nodos, por lo que no hay interacciones, sólo separación.