¿Hay algún patrón en el caos? ¡Intentemos encontrarlo! Aprendizaje automático a partir de una muestra concreta. - página 19

 

El beneficio es igual al delta del movimiento del precio desde un punto en el tiempo.

Nada me sorprende todavía.

Ya hemos pasado las colas largas ....

 
Renat Akhtyamov #:

El beneficio es igual al delta del movimiento del precio desde un punto en el tiempo.

Nada me sorprende todavía.

Ya hemos pasado las colas largas ....

¿Por qué acabas de escribir eso? Pues bien, no se puede utilizar cualquier tema para marcar sus pensamientos en los márgenes....

 
Aleksey Vyazmikin #:

La figura 13 muestra que se utilizan casi todos los predictores disponibles, excepto uno, pero dudo que ésta sea la raíz del problema. Entonces, ¿no se trata tanto del uso como de la secuencia de uso en la construcción del modelo?

Sí, lo es. Si entrenas 2 modelos con los mismos predictores, pero uno tiene la primera división en un predictor y el otro en el otro, entonces todo el árbol subyacente para cada variante será bastante diferente.

La otra pregunta es ¿por qué el bousting en el mismo conjunto de datos hace que las primeras divisiones sean diferentes? ¿Es el coeficiente para el número de columnas !=1 como en el bosque? En el bosque es para la aleatoriedad. Pero creo que debería ser ==1.
Entonces otra opción: ¿diferentes Seed para los modelos? Pruebe con el mismo, si el resultado es el mismo, entonces creo que es muy malo que la semilla puede hacer que un modelo rentable no rentable.

 
Por cierto, ¿en qué consiste la aleatorización en Cutbust Seed?
 
Aleksey Vyazmikin #:

¿Por qué acabas de escribir eso? Pues bien, no se puede utilizar cualquier tema para marcar sus pensamientos en los márgenes....

sobre tus gráficos

 
elibrarius #:

Pues sí. Si entrenas 2 modelos con los mismos predictores, pero uno tiene la primera división según un predictor y el otro según otro, entonces todo el árbol subyacente de cada variante será bastante diferente.

Lo que demuestra una vez más que el método de la codicia es erróneo a la hora de seleccionar divisiones. Yo mismo experimenté con esto al seleccionar las hojas y llegué a la misma conclusión.

elibrarius #:

La pregunta es diferente - ¿por qué el bousting con el mismo conjunto de datos hace que las primeras divisiones sean diferentes? ¿Es el coeficiente para el número de columnas !=1 como en forest? En forest es para la aleatoriedad. Pero creo que debería ser ==1.

Según tengo entendido, aquí hay un análogo para seleccionar parte de las columnas para la evaluación, pero yo lo tengo configurado para forzar todas.

elibrarius #:

Entonces otra opción: ¿diferentes Seed para los modelos? Prueba con la misma, si el resultado es el mismo, me parece muy mal que la semilla pueda hacer que un modelo rentable no lo sea.

La semilla fija el resultado, es decir, todo será igual.

elibrarius #:
Por cierto, ¿qué aleatoriza Seed en Cutbust?

Según tengo entendido, pone el contador del generador de números aleatorios a un valor determinado, y este generador se usa al menos como escriben "hay una aleatorización de la métrica por la que se elige el mejor árbol." y más o menos usa el generador de números aleatorios más un coeficiente, que, según tengo entendido, se toma del parámetro --random-strength (para mí es 1).

Aquí está la fórmula:

Puntuación += random_strength * Rand (0, lenofgrad * q)

q es un multiplicador que disminuye a medida que aumenta la iteración. Por lo tanto, el azar disminuye cerca del final.

"

Pero también escriben allí que una submuestra se puede utilizar para construir un árbol, pero yo uso el modo de aplicación completa de la muestra "--boosting-type Plain".


También hay un efecto tal, si elimino las columnas después de la formación, que no utilizan el modelo, entonces no puedo obtener el modelo con el mismo Seed - que no está claro.

 
Renat Akhtyamov #:

sus gráficos están escritos

¿Cómo se aplica a estos gráficos " El beneficio es igual al delta del movimiento del precio desde un punto en el tiempo "? " ?

Y esta frase entonces "Colas largas ya hemos pasado ...." ¿debo entender que te ofrezco algún tipo de formación? Pero yo no hago eso, y las colas se suelen utilizar aquí en el foro cuando se modela la densidad de distribución del cambio de precios, nada que ver con lo que tengo en el histograma. Y más bien aquí no deberíamos hablar de riesgos, sino de que es más difícil construir un modelo por azar que si se entiende la estructura de significación de los predictores y su dependencia.

 
Aleksey Vyazmikin #:

¿Cómo se relaciona " El beneficio es igual al delta del movimiento del precio desde un punto en el tiempo " con estos gráficos? " ?

Y esta frase entonces "Colas largas ya hemos pasado ...." ¿debo entender que te estoy ofreciendo algún tipo de formación? Pero yo no hago eso, y las colas se suelen utilizar aquí en el foro cuando se modela la densidad de distribución del cambio de precios, nada que ver con lo que tengo en el histograma. Y más bien aquí no deberíamos hablar de riesgos, sino de que es más difícil construir un modelo por azar que si se entiende la estructura de significación de los predictores y su dependencia.

Estaba respondiendo al hecho de que hay un patrón en el caos.

es justo este tipo de histogramas, no importa usando que lógica/enfoque/fórmula/teoría etc. aplicaste y no encontrarás otros patrones

 
Aleksey Vyazmikin #:

Lo que demuestra una vez más que el método de la codicia para seleccionar las hojas es defectuoso. Yo mismo experimenté con él al seleccionar hojas y llegué a la misma conclusión.

¿Y sin codicia? Podrías calcular otro para cada split y seleccionar un par a la vez, pero en tu caso la duración de los cálculos aumentará más de 5000 veces. Es más fácil promediar cien modelos.

Según he entendido, hay un análogo para seleccionar una parte de columnas para la estimación, pero he obligado a utilizar todos ellos.

Pero también dicen que una submuestra se puede utilizar para construir un árbol, pero yo uso el modo de aplicación completa de la muestra "--boosting-type Plain".

Para reducir la influencia de la aleatoriedad es correcto. De lo contrario, es necesario hacer un promedio de 20-100 modelos como en el bosque.

Aleksey Vyazmikin #:

Según tengo entendido, establece el contador del generador aleatorio a un cierto valor, pero este generador se utiliza al menos como escriben "hay una aleatorización de la métrica, por la que se elige el mejor árbol." y como que utiliza un generador aleatorio más un coeficiente, que, según tengo entendido, se toma del parámetro --random-strength (tengo 1).

Aquí está la fórmula:

Puntuación += random_strength * Rand (0, lenofgrad * q)

q es un multiplicador que disminuye a medida que aumenta la iteración. Por lo tanto, el azar disminuye cerca del final.

Es decir, resulta que los árboles de refinado pueden no ser los mejores, sino aleatoriamente peores.
De ahí la dispersión de los modelos de ciruela a rentable.
A juzgar por los gráficos de distribución, hay más modelos drenantes, es decir, si hacemos la media, el resultado medio no será rentable.



¿Debería probar con random-strength = 0? Esperemos que los cambios de Semilla dejen de cambiar el modelo después de eso. Tal vez crear un modelo con mejores árboles de refinamiento en lugar de aleatoriamente malos. Si el mejor modelo será ciruela, a continuación, buscar en estos datos de 10000 modelos aleatorios al azar el mejor es el camino a la ciruela en real.

O aún promedio de unos pocos modelos seleccionados al azar, como en el bosque. Porque el mejor puede ser reentrenado.

 
Renat Akhtyamov #:

Estaba respondiendo al hecho de que hay un patrón en el caos.

son sólo este tipo de histogramas, no importa qué lógica/enfoque/fórmula/teoría, etc. apliques. Aplicaste y no encontrarás ningún otro patrón

¿Qué quieres decir con que hay un patrón, pero no lo encontrarás? ¿O la regularidad está en la aleatoriedad?

Razón de la queja: