Aprendizaje automático en el trading: teoría, práctica, operaciones y más

СанСаныч Фоменко 2023.12.24 19:32 #33541

Maxim Dmitrievsky #:
El modelo fuera de la caja no da las probabilidades correctas, ninguna de ellas. Ésa es la historia. Puede haber predicho etiquetas que coinciden completamente, pero las probabilidades no.

¿Me ha entendido?

Añadido mi post. Cualquier modelo da probabilidades correctas en el sentido de que el error de clasificación no fluctuará.

Maxim Dmitrievsky 2023.12.24 19:34 #33542

СанСаныч Фоменко #:

De alguna manera no estás prestando atención a mis posts, centrándose en las probabilidades. No importa cómo se llame la probabilidad, lo que importa es que si no mejora, el modelo está sobreentrenado, en la papelera. El error de predicción en OOV, OOS y VNU debería ser más o menos el mismo.

Aquí hay otro histograma

Diferente algoritmo - diferente histograma, aunque las etiquetas y los predictores son los mismos. Si usted está buscando algún tipo de probabilidad teórica, lo que implica que diferentes algoritmos de clasificación producirá los mismos histogramas ... que no se me ocurre, ya que hay que trabajar con algoritmos específicos y van a predecir y tienen que ser evaluados, no algún ideal teórico. La evaluación principal aquí es el sobreajuste del modelo, no la proximidad de las probabilidades a algún ideal teórico.

¿Te rindes? Busca en Google calibración de probabilidades de clasificación, debería estar en R.

Y traza la curva de probabilidad de tu modelo frente a la referencia.

СанСаныч Фоменко 2023.12.24 19:45 #33543

Maxim Dmitrievsky #:
¿Rendirse? Googlea calibración de probabilidad de clasificación, debería estar en R.
.

Y traza la curva de probabilidad de tu modelo frente a la referencia.

Estamos hablando de cosas diferentes.

Yo estoy escribiendo sobre el resultado, y usted está escribiendo sobre el ideal de los datos intermedios.

Para mí es obvio que los valores de probabilidad de etiquetas específicas dadas por RF y ada serán diferentes, pero las predicciones de etiquetas específicas son casi las mismas. No me interesan los valores de probabilidad, sino el error de predicción.

Si teorizas, lo más probable es que sea imposible obtener la probabilidad de clase en tu sentido, ya que tienes que demostrar que tu probabilidad satisface el teorema del límite, lo cual es muy dudoso.

Enséñame a ganar dinero. Uso de redes neuronales Cualquier pregunta de los

Maxim Dmitrievsky 2023.12.24 19:46 #33544

СанСаныч Фоменко #:

Estamos hablando de cosas diferentes.

Yo estoy escribiendo sobre el resultado, y tú estás escribiendo sobre el ideal de los datos intermedios.

Los valores de probabilidad de clase dados por RF y ada serán diferentes, pero las predicciones de etiquetas específicas son casi las mismas. No me interesan los valores de probabilidad, sino el error de predicción.

Si teorizas, lo más probable es que sea imposible obtener la probabilidad de clase en tu sentido, ya que tienes que demostrar que tu probabilidad satisface el teorema del límite, lo cual es muy dudoso.

No obstante, la pregunta original estaba ahí, nadie la contestó. Estoy hablando exactamente de lo que pregunté.

Así que hay algo por lo que esforzarse.

СанСаныч Фоменко 2023.12.24 19:48 #33545

Maxim Dmitrievsky #:
Aún así, la pregunta original estaba ahí, nadie respondió.

Así que hay algo que esperar.

¿Por qué? Si en el sentido de una tesis....

Maxim Dmitrievsky 2023.12.24 19:49 #33546

СанСаныч Фоменко #:

¿Por qué? Si en el sentido de una tesis....

Porque operar con curvas de probabilidad significa asumir pérdidas en lugar de ganancias. Cualquier clasificador necesita calibración si se trata de una aplicación sensible al riesgo.

mytarmailS 2023.12.24 19:51 #33547

Qué es el calibrado

https://stats.stackexchange.com/questions/552146/probability-calibration-of-statistical-models

Cómo calibrar

https://www.tidymodels.org/learn/models/calibration/

https://mlr.mlr-org.com/articles/tutorial/classifier_calibration.html

Maxim Dmitrievsky 2023.12.24 19:52 #33548

Por fin.

Aleksey Vyazmikin 2023.12.24 19:52 #33549

Maxim Dmitrievsky #:
Esperaba que al menos alguien buscara el dato en Google.

Aunque tengas curvas de probabilidad en tu formación, de qué datos nuevos puedes hablar. Y bousting y forrest pecan mucho con esto. Reventar es exceso de confianza, Forrest es falta de confianza. Siempre que, por supuesto, usted planea utilizar el umbral en absoluto.

Yo mismo he observado que cuando se aumenta el umbral, la calidad de las operaciones no mejora ni siquiera en el traine. Entonces, ¿la probabilidad de lo que devuelve el modelo? Nada :)

En la imagen de Sanych es auto-confiado bousting, se puede ver por la columna de borde valores atípicos. La depresión debe ser más suave. Este es un modelo de sobreentrenamiento.

Muestra el resultado del modelo en rangos de "probabilidad" con un paso de 0.05. CatBoost sitúa la separación de clases en 0.5 con bastante precisión (magnetta es 1, aqua es 0).

Puede ver que el resultado de la aleta es positivo a partir de 0,35: la curva verde se eleva por encima de la curva roja.

¿Es esto lo que quiere calibrar, desplazar el punto de separación de clases al punto de generación de ingresos?

Algoritmo para combinar rangos Preguntas de los principiantes ¿Hay algún patrón en

Maxim Dmitrievsky 2023.12.24 19:57 #33550

Aleksey Vyazmikin #:

¿Es eso exactamente lo que se quiere calibrar: desplazar el punto de división de clases al punto de generación de ingresos?

No.

Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3355