Discusión sobre el artículo "Procesos gaussianos en el aprendizaje automático (Parte 1): Modelo de clasificación en MQL5"
Aún no lo he leído en detalle, pero me habré perdido algo.
В отличие от таких методов, как ... деревья решений, которые выдают только метку класса, ГП позволяют получить вероятностное предсказание.
En mi opinión, los árboles dan perfectamente la probabilidad de clase.
Para la clasificación, donde los objetivos son etiquetas de clase discretas, la probabilidad gaussiana no es adecuada.
Parece que los algoritmos de clasificación "de madera" traducen las probabilidades en valores continuos "logodds" y luego la clasificación se reduce en realidad a un problema de regresión sobre estos valores continuos de logodds. ¿Por qué no se puede aplicar esto a la verosimilitud gaussiana, sea cual sea? Desgraciadamente, no he encontrado tal término en ninguna parte excepto en el manual de Python, pero conozco la distribución gaussiana, la mezcla gaussiana, la máxima verosimilitud, la maximización de expectativas ;-).
Aún no lo he leído en detalle, pero ya me habré perdido algo.
En mi opinión, los árboles delatan perfectamente la probabilidad de clase.
Parece que los algoritmos de clasificación "de madera" traducen las probabilidades en valores continuos "logodds" y luego la clasificación se reduce en realidad a un problema de regresión sobre estos valores continuos de logodds. ¿Por qué no se puede aplicar esto a la probabilidad gaussiana, sea cual sea? Desgraciadamente, no he encontrado tal término en ninguna parte excepto en el manual de Python, pero conozco la distribución gaussiana, la mezcla gaussiana, la máxima verosimilitud, la maximización de expectativas ;-).
Buenas tardes.
Efectivamente, mirado en scikit-learn, los árboles dan la probabilidad de la clase. Por alguna razón pensé que sólo los métodos de conjunto producen probabilidad. Bueno, vivir y aprender, morirás tonto, como se suele decir.
Ahora sobre la probabilidad gaussiana y por qué no se ajusta al problema de clasificación.
La verosimilitud gaussiana es la densidad de probabilidad de una distribución normal dada la expectativa matemática y la varianza. El papel de la expectativa matemática en nuestra GP lo desempeña la función latente f, y la varianza es en realidad el verdadero ruido de los datos.
¿Cuál es la diferencia entre la razón de verosimilitud y la función de densidad de probabilidad normal? En la función de densidad de probabilidad normal sustituimos algunos valores de y en valores fijos de los parámetros y obtenemos la probabilidad de esta y.
En la razón de verosimilitud, es al revés. Nuestra y es fija y los parámetros de la distribución cambian. Por tanto, la verosimilitud es una función de los parámetros. Por ejemplo, la verosimilitud nos dice que con los parámetros 0,2 y 1, la probabilidad de nuestra trayectoria observada y = 0,06. Y con 0,8 y 1,2, la probabilidad de observar y = 0,12. Así vemos que el segundo conjunto de parámetros describe de forma más plausible los datos empíricos con los que estamos tratando. De ahí el nombre de "verosimilitud".
Ahora bien, ¿por qué no podemos tomar "logodds" y aplicarlo a la verosimilitud gaussiana? La verosimilitud gaussiana supone que los datos observados y obedecen a una distribución normal. Es decir, que y son valores continuos.
En el modelo GP de clasificación, la función latente f(x) puede interpretarse como "logodds". Pero nosotros predecimos esta función, no la observamos. Observamos etiquetas discretas y. Y la verosimilitud gaussiana se aplica a los datos observados. Y los datos observados son discretos. Por eso se distribuyen en el caso binario según la ley de Bernoulli.
Para la tarea de clasificación, la verosimilitud debe describir la probabilidad de etiquetas discretas, por lo que es natural elegir la verosimilitud logit.
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Procesos gaussianos en el aprendizaje automático (Parte 1): Modelo de clasificación en MQL5:
Continuamos nuestro estudio del modelo de aprendizaje automático: los procesos gaussianos (GP). En el artículo anterior, examinamos con detalle un problema de regresión cuyo objetivo principal era predecir valores continuos. Hoy abordaremos un tema mucho más complejo: la clasificación. Su principal dificultad radica en que el proceso de inferencia para la clasificación en procesos gaussianos no tiene una solución analítica, lo cual requiere el uso de métodos aproximados como la aproximación de Laplace.
Para resolver eficazmente este complejo problema, desarrollaremos una biblioteca modular de procesos gaussianos en MQL5. Este enfoque nos permitirá estructurar el código separando el modelo GP en componentes independientes y ofrecerá una base sólida para futuras mejoras y extensiones. Esta biblioteca se convertirá en una herramienta universal tanto para tareas de regresión como de clasificación.
En esta primera parte del artículo, examinaremos con detalle la teoría de la clasificación GP, incluyendo las bases matemáticas de los métodos aproximados. También presentaremos la clase principal de la biblioteca, GaussianProcess, que unificará todos los componentes del modelo, y la clase GPOptimizationObjective, que se encarga de la comunicación con la biblioteca de optimización Alglib.
Autor: Evgeniy Chernish