Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1334

 
Aleksey Vyazmikin:

He buscado el MSUA, no sé a qué libro se refiere concretamente, pero no se puede buscar por ese nombre. Según tengo entendido, esto se utiliza en CatBoost

--l2-hoja-reg

l2-regularizador de hojas

Coeficiente de regularización L2. Se utiliza para el cálculo del valor de la hoja.

Se permite cualquier valor positivo.

3

CPU y GPU


¿O se trata de otra cosa? Este método también puede utilizarse para crear predictores, por ejemplo, para describir patrones en determinadas áreas.

Bueno, esto es la regularización de Tikhonov, y ¿dónde está el rebote de la temperatura?

 
Maxim Dmitrievsky:

Bueno, esa es la regularización de Tikhonov, ¿dónde está la bolsa de temperatura?

Pero la cuestión parece ser la misma, ¿no? No sé qué tipo de algoritmo hay ahí...

-Temperatura de embolsado

Define la configuración del bootstrap bayesiano. Se utiliza por defecto en los modos de clasificación y regresión.

Utilice el bootstrap bayesiano para asignar pesos aleatorios a los objetos.

Los pesos se muestrean a partir de una distribución exponencial si el valor de este parámetro es"1". Todas las ponderaciones son iguales a 1 si el valor de este parámetro es"0".

Los valores posibles están en el rango. Cuanto más alto sea el valor, más agresivo será el embolsado.

1
 
Aleksey Vyazmikin:

Pero la cuestión parece ser la misma, ¿no? Es que no sé qué algoritmo hay ahí dentro en absoluto...

-Temperatura de embolsado

Define la configuración del bootstrap bayesiano. Se utiliza por defecto en los modos de clasificación y regresión.

Utilice el bootstrap bayesiano para asignar pesos aleatorios a los objetos.

Los pesos se muestrean a partir de una distribución exponencial si el valor de este parámetro es"1". Todas las ponderaciones son iguales a 1 si el valor de este parámetro es"0".

Los valores posibles están en el rango. Cuanto más alto sea el valor, más agresivo será el embolsado.

1

esto es diferente, por supuesto.

es útil cuando tienes muchas características, supongo.

cambiará un poco el modelo, un ajuste puramente sutil, no más

hay que leer los detalles, en general es comprensible pero no hasta el final

 

Por cierto, he encontrado las conferencias que mencioné antes, con ejemplos en python, para los que quieran aprender más sobre XGboost. Allí, o en las próximas conferencias, también se discute la regularización.


 
Maxim Dmitrievsky:

Es diferente, por supuesto.

es útil cuando hay un montón de características, supongo.

cambiará un poco el modelo, un ajuste puramente sutil, no más

Veremos qué tipo de variación - hoy o mañana serán los próximos modelos de 100k, decidiré si aplicar este parámetro en el rebasamiento...

 
Aleksey Vyazmikin:

Vamos a ver cuál será el diferencial - hoy o mañana habrá otros 100k modelos, decidiré si aplicar este parámetro en el rebasamiento...

No sé si ya hay un manual para los parámetros, estoy leyendo sobre otras cosas

 
Maxim Dmitrievsky:

¿No hay un manual para los parámetros? No estoy usando un katb todavía, estoy leyendo sobre otras cosas.

Pues bien, todo lo que hay es una configuración y una breve descripción, además de un famoso clip con explicaciones.

 
Aleksey Vyazmikin:

Si se observa con atención, se puede ver que los resultados financieros de los modelos en la misma muestra pueden ser muy diferentes: de 5000 a 1500, es decir, de forma significativa, lo que significa que Seed afecta a los modelos. Voy a suponer que son los modelos seleccionados los que son similares (lo comprobaré), mientras que tienen márgenes de beneficio ligeramente diferentes, pero casi todos los modelos son planos en el medio, lo que es sorprendente - se equivocan en los mismos márgenes (¿una anomalía en los nuevos datos?).

Tienes una caja con una especie de paisaje muy accidentado creado en su interior. Lanzamos muchas pelotas allí (eso es el sids), y nuestro trabajo consiste en asegurarnos de que la mayoría de las pelotas lleguen a los huecos más profundos. Este será el aprendizaje, y este es el principio por el que se organiza el aprendizaje en ME.

1. Si sacudimos ligeramente la caja, la mayoría de las bolas no podrán salir de los huecos donde cayeron originalmente: el aprendizaje no se producirá.

2. Si agitamos la caja enérgicamente, algunas de las bolas tendrán la oportunidad de golpear y se quedarán sólo en los huecos más profundos, pero los menos profundos se quedarán sin rellenar ya que las bolas saldrán de allí. El aprendizaje completo no se producirá.

3. Si agitamos la caja con una fuerza media, sólo se llenarán los huecos más profundos y los del medio, pero el resto de las bolas no encontrarán nada y seguirán rebotando aleatoriamente por la caja. El aprendizaje es mejor que en 1 y 2, pero tampoco es un as.

Los métodos de aprendizaje siempre tienen ajustes: exactamente cómo y cuándo agitar la caja para conseguir el aprendizaje más efectivo.

Si los diferentes "sids" no cuadran, entonces o bien hay algo que no funciona en el algoritmo de aprendizaje - se agita de forma incorrecta, o bien faltan huecos profundos que se puedan agarrar en nuestra caja.

 
Yuriy Asaulenko:

Tienes una caja, dentro de la cual se crea una especie de paisaje muy accidentado. Lanzamos muchas pelotas allí (eso es el sids), y nuestro trabajo consiste en asegurarnos de que la mayoría de las pelotas lleguen a los huecos más profundos. Este será el aprendizaje, y este es el principio por el que se organiza el aprendizaje en ME.

1. Si sacudimos ligeramente la caja, la mayoría de las bolas no podrán salir de los huecos donde cayeron originalmente: el aprendizaje no se producirá.

2. Si agitamos la caja enérgicamente, algunas de las bolas tienen la oportunidad de golpear y se quedan sólo en los huecos más profundos, pero los menos profundos se quedarán sin llenar porque las bolas saldrán de allí. El aprendizaje completo no se producirá.

3. Si agitamos la caja con una fuerza media, sólo se llenarán los huecos más profundos y centrales, pero el resto de las bolas no encontrarán nada y seguirán rebotando aleatoriamente por la caja. El aprendizaje es mejor que en 1 y 2, pero tampoco es un as.

Los métodos de aprendizaje siempre tienen ajustes: exactamente cómo y cuándo agitar la caja para conseguir el aprendizaje más efectivo.

Si los diferentes "sids" no cuadran, entonces o bien hay algo que no funciona en el algoritmo de aprendizaje: lo agitas de forma incorrecta, o bien faltan huecos profundos que agarrar en nuestra caja.

o una caja de zapatos)

Las bolas son una buena explicación.

y una buena caja se agita.

 
Yuriy Asaulenko:

Tienes una caja, dentro de la cual se crea una especie de paisaje muy accidentado. Lanzamos muchas pelotas allí (eso es el sids), y nuestro trabajo consiste en asegurarnos de que la mayoría de las pelotas lleguen a los huecos más profundos. Este será el aprendizaje, y este es el principio por el que se organiza el aprendizaje en ME.

1. Si sacudimos ligeramente la caja, la mayoría de las bolas no podrán salir de los huecos donde cayeron originalmente: el aprendizaje no se producirá.

2. Si agitamos la caja enérgicamente, algunas de las bolas tienen la oportunidad de golpear y se quedan sólo en los huecos más profundos, pero los menos profundos se quedarán sin llenar porque las bolas saldrán de allí. El aprendizaje completo no se producirá.

3. Si agitamos la caja con una fuerza media, sólo se llenarán los huecos más profundos y centrales, pero el resto de las bolas no encontrarán nada y seguirán rebotando aleatoriamente por la caja. El aprendizaje es mejor que en 1 y 2, pero tampoco es un as.

Los métodos de aprendizaje siempre tienen ajustes: exactamente cómo y cuándo agitar la caja para conseguir el aprendizaje más efectivo.

Si los diferentes "sids" no cuadran, entonces o bien hay algo que no funciona en el algoritmo de aprendizaje - lo agitas de forma incorrecta, o bien no hay valles profundos a los que agarrarse en nuestra caja.

Una buena abstracción, si por valles profundos entendemos respuestas con un error mínimo en la validación, para las que hay un tope de aprendizaje, entonces esto también podría explicar por qué obtuvo mejores resultados cuando se aumentó el tamaño de la muestra de validación, y esto podría ser el resultado de aumentar formalmente el tamaño del terreno abstracto y, por tanto, el número de valles.
Razón de la queja: