Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1194
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Y luego el algoritmo de aprendizaje se agudiza para desglosar las pérdidas logarítmicas en 0,5, por lo que es bastante lógico que el clúster sea el principal allí.
El logloss es casi inútil de mirar, es una métrica poco notable en términos de desglose de clases
cuanto más alta sea la probabilidad del evento, más precisa será la señal, como que viene incluso de la definición :) 2 la joroba no estará en los datos ruidosos, pero el modelo debe al menos capturar los valores extremos en una medida adecuada, de lo contrario nunca está seguro de las entradas en absoluto
Creo que no es tan sencillo, hay que tener en cuenta la función de aprendizaje... ya que la probabilidad se calcula generalmente después de sus valores (en el algoritmo del modelo así).
Hasta el momento los hechos me dicen que el modelo manchado no es seguro, y aún no he encontrado un fallo en el centro...
Mirar el logloss es casi inútil, es una métrica sin importancia en términos de división en clases
No creo que esté tan claro, hay que tener en cuenta la función de aprendizaje... porque la probabilidad se calcula generalmente después de sus valores.
Hasta el momento los hechos me dicen que el modelo manchado no es seguro, y todavía no he encontrado un fallo en el centro...
no entiendo la terminología, ¿qué es la función de aprendizaje? ¿hay un softmax al final o qué?
No sé si el fallo, pero el modelo inseguro no funcionará con los nuevos datos, mientras que el modelo manchado sí, si se establece el umbral de probabilidad
No entiendo la terminología, ¿qué es la función de aprendizaje? ¿hay un softmax al final o qué?
En este caso, el modelo se evalúa mediante logloss y todo el gradient boosting tiene como objetivo mejorar el rendimiento de esta función. El propio modelo produce valores que deben transformarse mediante una función logística. Por eso supongo que no todo es tan sencillo en este método con probabilidad...
En este caso, el modelo se evalúa mediante logloss y todas las acciones de gradient boosting tienen como objetivo mejorar el rendimiento de esta función. El propio modelo produce valores que deben transformarse mediante una función logística. Por eso asumo que no todo es tan sencillo en este método con probabilidad...
Hay f-iones mínimas y máximas, estarán en los márgenes de logit seguramente... Si no están ahí, entonces es underrun o algo más (me pasa cada vez que estoy underrun, como tener pocas neuronas o árboles) y gran error de clasificación y logloss
Hay f-iones mínimas y máximas, siempre estarán en los bordes del logit... si no están ahí, es un underfitting o lo que sea (a mí siempre me pasa cuando hago un underfitting, por ejemplo con pocas neuronas o árboles) y un gran error de clasificación y logloss
Se trata de los coeficientes que arroja el modelo https://en.wikipedia.org/wiki/Logit - no es una distribución lineal.
Me parece que el subentrenamiento es mejor que el sobreentrenamiento, sobre todo si te centras en la clase 1 y tomas un gran porcentaje de objetivos correctamente clasificados que aciertan en la clasificación, y luego puedes combinar los modelos limitando su rango de aplicación.
Se trata de esos coeficientes que el modelo arroja https://en.wikipedia.org/wiki/Logit - no es una distribución lineal.
Me parece que el subentrenamiento es mejor que el sobreentrenamiento, sobre todo si nos centramos en la clase 1 y tomamos un gran porcentaje de objetivos correctamente clasificados que entran en la clasificación, y entonces podemos combinar los modelos, limitando el rango de su aplicación.
en resumen... lo vuelvo a decir: debemos enseñar correctamente para evitar el apiñamiento (overfitting) y el corte de cola (underfitting)
La curva roja me parece más o menos normal
y la falta de ajuste no es nada... en el entorno de 0,5
El sesgo puede ser sacado por Bayes, por las probabilidades condicionales, mientras el modelo está funcionando. No he averiguado exactamente cómo, pero hay un poder incognoscible en ello, intuitivamente.
Los modelos bayesianos son capaces de aprender... ¿qué pasa si le pongo una punta bayesiana al modelo para que no se reentrene demasiado a menudo?
Lo diré de nuevo: hay que enseñarlo normalmente para que no haya golpes (overfit) y colas cortadas (underfit).
la curva roja me parece más o menos normal
y la falta de ajuste no es nada... en el entorno de 0,5
El sesgo puede ser sacado por Bayes, por las probabilidades condicionales, mientras el modelo está funcionando. No he averiguado exactamente cómo, pero hay un poder incognoscible en ello, intuitivamente.
Los modelos bayesianos son capaces de reentrenarse... ¿y si se pone una punta bayesiana en el modelo para no tener que reentrenarse a menudo?
Sí, a mí también me gusta más la roja, como la distribución normal y todo eso, pero hasta ahora en 512 modelos esta distribución pierde a la vista... Pronto habrá muchos modelos del orden de 100000 - Veré lo que muestran... la teoría y la práctica a veces no cuadran - hay que adaptarse, o se pueden poner los dientes largos así...
Catbust es sólo bayesiano y soporta el aprendizaje previo, pero no sé - añadir árboles sin fin - parece que se ajusta...
Añadir árboles es un poco raro, sin reorganizar toda la estructura... o tal vez está bien, es difícil de decir... para alguna pequeña perspectiva, parece bien, sólo para desplazar el centro de la mb
Y de qué otra manera se puede conseguir el efecto: en el impulso, ya que entiendo que es la única opción. Por supuesto, se puede desechar el último tercio del modelo -un tercio de los árboles- y ver qué sale cuando se introducen nuevos datos. Pero, estoy pensando en anular las hojas con "probabilidades" insignificantes - limpiando del ruido por así decirlo. En general, pienso en la automatización de la recopilación de conjuntos de modelos, encontrar un buen intervalo de la capacidad de predicción del modelo - la clasificación recortada en él (por ejemplo, de 0,7 a 0,8) y poner en los espacios en blanco para las combinaciones entre otros modelos.