Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3354

 
Aleksey Vyazmikin #:

Sí, bueno, ¿qué número pones en la función, de dónde viene?

¿Vas a responder a una pregunta con otra pregunta? Sé la respuesta definitiva, en todo caso.
 
Lo que se obtiene en la salida de los modelos no son probabilidades de clase. Una analogía es la regresión, que da un único valor. Un clasificador funciona según el mismo principio, da un valor bruto pasado por un sigmoide, no una probabilidad.

¿Cómo obtener la probabilidad?
 
Maxim Dmitrievsky #:
¿Cómo se ha dado cuenta de que el clasificador da las probabilidades correctas? No sólo valores en un rango. ¿Lees lo que te escriben?

Si fijas un umbral de 0,8, ¿serán rentables el 80% de las operaciones? ¿Y si es 0,51?

Es casi seguro que no. Compruébelo.

Lo he comprobado muchas veces. Esta es la base para el TC.

De nuevo, si no lo es, se vuelve a entrenar.

 
Maxim Dmitrievsky #:
Lo que se obtiene en la salida de los modelos no son probabilidades de clase. Una analogía es la regresión, que da un único valor. El clasificador funciona según el mismo principio, da un valor bruto pasado por un sigmoide, no una probabilidad.

¿Cómo obtener la probabilidad?

Pasando por la sigmoide obtenemos la clase, no la probabilidad de la clase.

 
СанСаныч Фоменко #:

Pasando por sigmoide obtenemos una clase, no la probabilidad de la clase.

Obtenemos un valor que se llama probabilidad, pero en realidad no lo es.
 
СанСаныч Фоменко #:

Lo he comprobado muchas veces. Esa es la base del TC.

De nuevo, si no lo es, se vuelve a entrenar.

No te tomo la palabra, hay pruebas para eso.
 
Maxim Dmitrievsky #:
¿Vas a responder a una pregunta con otra pregunta? Conozco la respuesta inequívoca, en todo caso.
Maxim Dmitrievsky #:
Lo que se obtiene a la salida de los modelos no son probabilidades de clases. Una analogía es la regresión, que da un valor. Un clasificador funciona según el mismo principio, da un valor bruto pasado por un sigmoide, no una probabilidad.

¿Cómo obtener la probabilidad?

¿Sabes cómo se obtiene el valor en hojas del modelo CB, puedes reproducirlo?

La cuestión es que las probabilidades son estimadas por la historia, pero sólo una teoría con una muestra representativa puede garantizar que sigan siéndolo. Nosotros no tenemos tal muestra. Por lo tanto, cualquier ajuste en este sentido no dará exactitud sobre nuevos datos. La corrección puede ser relevante por la razón de que hay restos en las hojas, y esto es lo que hay que corregir sobreestimando o subestimando el punto de clasificación sigmoide.

O de nuevo, no está claro de qué se trata.

Si usted ha encontrado algo inteligente, por favor, comparta :)

 
Aleksey Vyazmikin #:

¿Sabe cómo se obtiene el valor en las hojas del modelo CB, puede reproducirlo?

La cuestión es que las probabilidades de la historia son estimadas, pero sólo una teoría con una muestra representativa puede garantizar que seguirán siéndolo. Nosotros no tenemos tal muestra. Por lo tanto, cualquier ajuste en este sentido no dará exactitud sobre nuevos datos. La corrección puede ser relevante por la razón de que se han introducido restos en las hojas, y es esto lo que debe corregirse, ya sea por dependencia o por subestimación del punto de clasificación sigmoide.

O de nuevo, no está claro de qué estamos hablando.

Si has encontrado algo ingenioso, compártelo :)

Esperaba que al menos alguien buscara el truco en Google.

Aunque tengas curvas de probabilidad en tu formación, de qué datos nuevos podemos hablar. Y bousting y forrest pecan mucho con esto. Bousting es exceso de confianza, Forrest es falta de confianza. Siempre y cuando, por supuesto, tengas pensado utilizar el umbral.

Yo mismo he observado que cuando se aumenta el umbral, la calidad de las operaciones no mejora ni siquiera en el traine. Entonces, ¿la probabilidad de lo que devuelve el modelo? Nada :)

En la imagen de Sanych, la autoconfianza bousting, se puede ver desde la columna de borde valores atípicos. La depresión debe ser más suave. Este es un modelo overfitting.
 
Maxim Dmitrievsky #:
Esperaba que al menos alguien buscara el dato en Google.

Aunque tengas curvas de probabilidad en tu formación, de qué datos nuevos puedes hablar. Y bousting y forrest pecan mucho con esto. Reventar es exceso de confianza, Forrest es falta de confianza. Siempre que, por supuesto, usted planea utilizar el umbral en absoluto.

Yo mismo he observado que cuando aumentas el umbral, la calidad de las operaciones no mejora, ni siquiera en traine. Entonces, ¿la probabilidad de lo que devuelven? Nada :)

De alguna manera usted no está prestando atención a mis posts, centrándose en las probabilidades. No importa como se llame la probabilidad, lo que importa es que si no mejora, el modelo está sobreentrenado, en la papelera. El error de predicción en OOV, OOS y VNU debería ser más o menos el mismo.

Aquí hay otro histograma

Diferente algoritmo - diferente histograma, aunque las etiquetas y los predictores son los mismos. Si está buscando algún tipo de probabilidad teórica, que implique que diferentes algoritmos de clasificación producirán los mismos histogramas... que no se me ocurre, ya que hay que trabajar con algoritmos específicos y van a predecir y tienen que ser evaluados, no algún ideal teórico. La evaluación principal aquí es el sobreajuste del modelo, no la cercanía de las probabilidades a algún ideal teórico.

 
СанСаныч Фоменко #:

De alguna manera no estás prestando atención a mis posts, centrándose en las probabilidades. No importa cómo se llame la probabilidad, lo que importa es que si no mejora, el modelo está sobreentrenado, en la papelera. El error de predicción en OOV, OOS y VNE debería ser más o menos el mismo.

Un modelo fuera de la caja no da probabilidades correctas, cualquier modelo. Esa es la historia. Puede que las etiquetas predichas coincidan completamente, pero las probabilidades no, no reflejarán la probabilidad real del resultado.
¿Me entienden?
Razón de la queja: