Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3355

 
Maxim Dmitrievsky #:
El modelo fuera de la caja no da las probabilidades correctas, ninguna de ellas. Ésa es la historia. Puede haber predicho etiquetas que coinciden completamente, pero las probabilidades no.
¿Me ha entendido?

Añadido mi post. Cualquier modelo da probabilidades correctas en el sentido de que el error de clasificación no fluctuará.

 
СанСаныч Фоменко #:

De alguna manera no estás prestando atención a mis posts, centrándose en las probabilidades. No importa cómo se llame la probabilidad, lo que importa es que si no mejora, el modelo está sobreentrenado, en la papelera. El error de predicción en OOV, OOS y VNU debería ser más o menos el mismo.

Aquí hay otro histograma

Diferente algoritmo - diferente histograma, aunque las etiquetas y los predictores son los mismos. Si usted está buscando algún tipo de probabilidad teórica, lo que implica que diferentes algoritmos de clasificación producirá los mismos histogramas ... que no se me ocurre, ya que hay que trabajar con algoritmos específicos y van a predecir y tienen que ser evaluados, no algún ideal teórico. La evaluación principal aquí es el sobreajuste del modelo, no la proximidad de las probabilidades a algún ideal teórico.

¿Te rindes? Busca en Google calibración de probabilidades de clasificación, debería estar en R.

Y traza la curva de probabilidad de tu modelo frente a la referencia.
 
Maxim Dmitrievsky #:
¿Rendirse? Googlea calibración de probabilidad de clasificación, debería estar en R.
.

Y traza la curva de probabilidad de tu modelo frente a la referencia.

Estamos hablando de cosas diferentes.

Yo estoy escribiendo sobre el resultado, y usted está escribiendo sobre el ideal de los datos intermedios.

Para mí es obvio que los valores de probabilidad de etiquetas específicas dadas por RF y ada serán diferentes, pero las predicciones de etiquetas específicas son casi las mismas. No me interesan los valores de probabilidad, sino el error de predicción.

Si teorizas, lo más probable es que sea imposible obtener la probabilidad de clase en tu sentido, ya que tienes que demostrar que tu probabilidad satisface el teorema del límite, lo cual es muy dudoso.

 
СанСаныч Фоменко #:

Estamos hablando de cosas diferentes.

Yo estoy escribiendo sobre el resultado, y tú estás escribiendo sobre el ideal de los datos intermedios.

Los valores de probabilidad de clase dados por RF y ada serán diferentes, pero las predicciones de etiquetas específicas son casi las mismas. No me interesan los valores de probabilidad, sino el error de predicción.

Si teorizas, lo más probable es que sea imposible obtener la probabilidad de clase en tu sentido, ya que tienes que demostrar que tu probabilidad satisface el teorema del límite, lo cual es muy dudoso.

No obstante, la pregunta original estaba ahí, nadie la contestó. Estoy hablando exactamente de lo que pregunté.
Así que hay algo por lo que esforzarse.
 
Maxim Dmitrievsky #:
Aún así, la pregunta original estaba ahí, nadie respondió.
Así que hay algo que esperar.

¿Por qué? Si en el sentido de una tesis....

 
СанСаныч Фоменко #:

¿Por qué? Si en el sentido de una tesis....

Porque operar con curvas de probabilidad significa asumir pérdidas en lugar de ganancias. Cualquier clasificador necesita calibración si se trata de una aplicación sensible al riesgo.
 
Por fin.
 
Maxim Dmitrievsky #:
Esperaba que al menos alguien buscara el dato en Google.

Aunque tengas curvas de probabilidad en tu formación, de qué datos nuevos puedes hablar. Y bousting y forrest pecan mucho con esto. Reventar es exceso de confianza, Forrest es falta de confianza. Siempre que, por supuesto, usted planea utilizar el umbral en absoluto.

Yo mismo he observado que cuando se aumenta el umbral, la calidad de las operaciones no mejora ni siquiera en el traine. Entonces, ¿la probabilidad de lo que devuelve el modelo? Nada :)

En la imagen de Sanych es auto-confiado bousting, se puede ver por la columna de borde valores atípicos. La depresión debe ser más suave. Este es un modelo de sobreentrenamiento.

Muestra el resultado del modelo en rangos de "probabilidad" con un paso de 0.05. CatBoost sitúa la separación de clases en 0.5 con bastante precisión (magnetta es 1, aqua es 0).

Puede ver que el resultado de la aleta es positivo a partir de 0,35: la curva verde se eleva por encima de la curva roja.

¿Es esto lo que quiere calibrar, desplazar el punto de separación de clases al punto de generación de ingresos?

 
Aleksey Vyazmikin #:

¿Es eso exactamente lo que se quiere calibrar: desplazar el punto de división de clases al punto de generación de ingresos?

No.
Razón de la queja: