Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2424

 
transcendreamer:

En realidad, la carga de la prueba recae en la acusación, por lo que es usted quien debe demostrar que el producto es de calidad inferior (no es el declarado)

Sólo apelando a la lógica y al sentido común 🧐

Bueno, tú tampoco eres un acusado))) Más bien un experto) Entonces haz tu peritaje

 
YURY_PROFIT:

Bueno, tampoco eres un acusado))) Más bien un experto) Entonces haz tu peritaje

Te voy a pedir pruebas 😉 porque eres el fiscal.

O tal vez ya has ganado un millón allí y no es suficiente para ti.

 
Igor Makanu:

Esto es una tontería, hay usuarios, hay productores de productos/bienes/servicios

No has construido tu propio coche, ¿verdad? Has comprado un coche ya hecho a un fabricante de coches.

SZZ: puedes hacerlo científicamente... ¿has oído el teorema de Pitágoras? ¿Dónde está el tuyo?))


el humor está en los recursos del perfil, aquí de acaba de leer: "los 3 elementos se juntaron, fotógrafo de mierda, modelo de mierda y cosplay de mierda"


sobre eso... así como si el Mercado permite publicar nuevas versiones del producto, no importa que algunos autores de productos simplemente reoptimicen sus EAs en nuevos datos históricos...... "en general, los elementos se reunieron" - aquí, por cierto, uno de los "elementos" - imho, la baja formación de los clientes, pocos son capaces de comprobar la calidad del producto, pero es así en todas partes - incluidos los compradores de los coches antes mencionados - por así decirlo comercialización

¿Dónde has visto la estupidez? Ese puesto decía, en primer lugar, que implicaba un trabajo intelectual y, en segundo lugar, que "NO se aprendía a usar".

Para criticar las publicaciones textuales, hay que estar a la altura del autor. Se hizo una ridícula comparación con Pitágoras. ¿Qué sentido tiene?

Un ejemplo más apropiado podría ser el siguiente: Has comprado un ordenador cuántico pero no puedes aprender a utilizarlo, ni siquiera después de leer las instrucciones detalladas.

Espero que entiendas cuál es la diferencia fundamental.

 
Chicos calientes de Chile - ¿se confundieron de rama?
 
El nivel se puede ver inmediatamente por la percepción de ciertos temas (enlaces) y otras cosas. Dos o tres personas están en el tema, el resto son sólo para la pelusa, como de costumbre
 
mytarmailS:

¿Cuál es la diferencia fundamental entre "jugar \N y dejar de jugar" y "abrir \N y no abrir" o "comprar \N y no comprar"?

No creo que haya nada, la clasificación habitual...


Se supone que el arranque/parada de otro robot es más fácil que tu propia compra/venta...

Hay menos ruido en el mercado (el ruido es filtrado por el robot controlado), la solución es más fácil de encontrar - porque hay menos invariantes

 
Maxim Kuznetsov:

arranque/parada de otro robot - debería ser más fácil que la propia compra/venta...

menos ruido de mercado (el ruido es filtrado por un robot controlado), la solución es más fácil de encontrar - porque hay menos invariantes

No hay ninguna diferencia, el arranque/parada será controlado por otras señales en las que habrá ruido
 
Maxim Kuznetsov:

arranque/parada de otro robot - debería ser más fácil que la propia compra/venta...

menos ruido de mercado (el ruido es filtrado por el robot controlado), la solución es más fácil de encontrar - porque hay menos invariantes

hmmm...

Sigo siendo escéptico. He filtrado la red con otro, pero ¿filtras algún juego de TS y está bien?

 

Así pues, he llevado a cabo la primera fase de la investigación, que anuncié anteriormente, y vamos a intentar averiguar cuáles son los resultados reales. Voy a escribir y pensar de un vistazo, no sé el resultado hasta el final, hay mucha información, y cómo analizarla adecuadamente también es una cuestión.

Tomé una muestra desde 2014 hasta la primera mitad de 2021 (60% de entrenamiento, 20% de prueba, 20% de examen), 5336 predictores, fijé todos los parámetros - árbol de 6 profundidades y conjunto de 100 semillas aleatorias, tasa de aprendizaje 0,03 y 1000 iteraciones (árboles) con parada automática en caso de no mejorar después de nuevos 100 árboles en la muestra de control, otros ajustes no son importantes, pero los parámetros variables son el tipo de cuantificación y el número de límites cuánticos. El número de límites cuánticos aumenta progresivamente de 8 a 512 y el tipo de cuantificación - 6 variantes diferentes, guardamos las tablas de cuantificación en un archivo separado.

Una vez entrenados todos los modelos, obtenemos una tabla de 42 modelos ordenados por la columna "Balans_Exam" - selección independiente.

La captura de pantalla muestra una tabla con los valores centrales ocultos, pero se muestran los cinco mejores y los cinco peores, y se ha calculado el valor medio de los indicadores para toda la muestra.



Al final se seleccionan dos modelos - resaltados en verde claro, se diferencian en el número de cuantos - 8 y 128 respectivamente y en el tipo de cuantificación - Mediana y UniformAndQuantiles.

Luego dividí la muestra dentro de la prueba en 8 partes, de modo que cada parte tuviera 6 meses, y entrené los modelos con la primera y la segunda tabla de cuantiles fijos por separado, y para cada uno, llamémoslo proyecto, utilicé 5 opciones para el entrenamiento, en el que el parámetro sembrado al azar - 100 opciones de 8 a 800 con el paso 8:

  1. Entrenar 1000 árboles sin control de parada en la submuestra de prueba;
  2. Entrene 1000 árboles en la submuestra con control de parada en la submuestra de prueba después de 100 iteraciones sin mejora;
  3. Entrenar 100 árboles sin detener el control en la prueba de submuestra;
  4. Entrena 50 árboles sin control de paradas en la submuestra de prueba;
  5. Entrenar 5 árboles sin parar el control en la prueba de submuestra.

Una vez completado el entrenamiento, los modelos resultantes se analizaron para las siguientes opciones para obtener estadísticas sobre los predictores de CatBoost:

  1. PredictionValuesChange;
  2. LossFunctionChange;
  3. Importancia de la característica interna.

A continuación, promedié los resultados de cada 1/8 de la muestra por separado y los combiné en una tabla general ordenada por la media de las puntuaciones de significación de los predictores en cada segmento, comprobando por separado la presencia de un predictor significativo en cada segmento y utilizando también la tabla ordenada por esa puntuación. El procedimiento descrito se hizo para cada proyecto y cada tipo de estadística del modelo.

A continuación se muestra un extracto de la tabla para el análisis del modelo de entrenamiento de la variante 5 y de la variante 1

Luego hice ajustes para excluir del entrenamiento los predictores que no encajaban en los n primeros predictores. Si no había suficientes predictores que cumplieran los criterios, no se creaba ningún archivo de ajustes. Los ajustes se hicieron para cada variante estadística y proyecto. Se utilizaron los siguientes límites en el número de predictores utilizados para el entrenamiento: 5/25/50/100/300/500/1000/2000/3000. Así tenemos el conjunto de ajustes.

A continuación, llevé a cabo el entrenamiento con una configuración fija de la tabla cuántica en la muestra - 60% de prueba - 20% de examen - 20% con un máximo de 1000 árboles y el entrenamiento de parada en la prueba de la muestra, el entrenamiento se realizó para todas las configuraciones y dos versiones de las tablas cuánticas, 100 modelos con sembrado aleatorio - 100 opciones de 8 a 800 en incrementos de 8. Además, se realizó un entrenamiento separado para las dos tablas cuánticas sin exclusión de predictores pero con enumeración de semillas aleatorias: 100 variantes de 8 a 800 en pasos de 8.

A continuación se muestra la tabla con la configuración de la particiónMedian 8-boundary- la primera y la última 5 mejores opciones.

A continuación se muestra una tabla con 128 límites establecidos por el método UniformAndQuantiles - primera y última 5 mejores opciones.


La primera conclusión que se puede extraer es que el modelo tiene potencial, que depende de los predictores utilizados, cuyo uso se ve afectadopor la semilla aleatoria. Y pensando en voz alta, sugeriría que el objetivo de la selección de ajustes/métodos no debería ser el mejor resultado, sino el resultado medio de los indicadores de beneficios u otros. Me gustaría señalarque el valor medio del resultado financiero en la muestra fuera de la formación (columna Balans_Exam) en la primera variante es de 2222,39 y en la segunda variante de 1999,13.

A continuación, elaboramos una tabla con los valores métricos medios de los modelos con un desglose de los ajustes para su entrenamiento.

A continuación se muestra una tabla con un desglose en 8 límites según el método dela mediana para diferentes ajustes responsables de la exclusión de predictores- las primeras 10 variantes principales son los valores medios.


A continuación se muestra una
tabla con 128 límites utilizando el método UniformAndQuantilespara las diferentes configuraciones responsables de la exclusión de los predictores - las10 primeras opciones son los valores medios.


Para descifrar lo que tenemos aquí en la columna "File_Name" sugiero utilizar la siguiente tabla



Intentemos analizar paso a paso, reduciendo el número de combinaciones observadas.

El siguiente cuadro calcula qué "Proyectos" se encuentran entre los diez primeros en las dos tablas de cuantiles.

Y aquí vemos que en ambas tablas hay buenos representantes del primer proyecto (Exp_000) y del quinto(Exp_004), cuál es mejor y a partir de cuál hay que abandonar no está claro, pero el hecho de que ambos se hayan metido en el top ten da que pensar. Tal vez usted debe tomar las estadísticas con cualquier coeficiente en toda la tabla - no sé - proponer opciones. Sin embargo, quiero señalar que la variante Exp_004 es buena porque es la que menos tiempo tarda en preparar los datos para crear los archivos de configuración, lo cual es lógico porque sólo hay 5 árboles. Creo que es demasiado pronto para sacar conclusiones definitivas sobre la elección del número de árboles para la formación inicial, ¿no cree?

En la siguiente tabla para las decenas de dos tablas cuánticas veamos el tipo de análisis de los predictores y el número límite de predictores utilizados en el modelo.



Podemos ver en la tabla que el primer método de análisis mostró más respuestas, y también podemos ver en la tabla que la mayoría de los ajustes del número de predictores utilizados en el modelo no superan las 50 unidades.

Propongo que veamos ahora los resultados de los propios modelos, tomando aquellas muestras de proyectos cuyos ajustes resultaron ser mayoritarios, para la primera tabla cuantitativa - CB_Svod_Exp_000_x_000000002 , y para la segunda - CB_Svod_Exp_004_x_000000002.


A continuación se muestra una tabla con el método Median para establecer el ajuste de selección de predictores CB_Svod_Exp_000_x_0000002 - las primeras 5 mejores y 5 peores variantes - en 8 límites.



A continuación se muestra una tabla con una división de 128 límites por el método UniformAndQuantiles de selección de predictores estableciendo CB_Svod_Exp_004_x_000000002 - las primeras 5 mejores y 5 peores variantes.

A continuación se muestran las tablas de resumen para su comparación: la primera fila contiene los datos de la tabla cuantitativa inicial, la segunda fila contiene los datos después de la enumeracióncon semilla aleatoria, y la tercera fila contiene los resultados de la selección tras el procedimiento de selección de predictores:

1.Tabla dela medianade 8 límites



2. tabla con 128 límites establecidos según el métodoUniformAndQuantiles



Las estimaciones de las dos tablas muestran una disminución de los resultados para las muestras de entrenamiento y de prueba, y una mejora del rendimiento para la muestra independiente, es decir, el efecto del ajuste ha disminuido al mejorar las características de los predictores y reducir su número.


Qué conclusiones provisionales se pueden extraer:

1. Es posible simplemente alimentar la muestra de CatBoost, pero la manipulación de los predictores puede mejorar significativamente el modelo, incluyendo el resultado financiero.

2. No siempre es necesario utilizar un gran número de predictores disponibles en la muestra para obtener un buen resultado: resulta que basta con utilizar sólo el 1% de todos los predictores para obtener los buenos resultados que estimamos a partir de la media.

Para desarrollar esta idea, tenemos que realizar experimentos con otras muestras, y si el resultado se repite, podemos pensar en reducir el número de combinaciones para encontrar resultados prometedores. El objetivo es desarrollar un método ciego que permita encontrar mejores promedios sin mirar las muestras de prueba y examen, lo que aumentaría en un 40% la muestra para el entrenamiento y añadiría también la detección de predictores con una respuesta estable.

Se podría pensar en un filtrado adicional de los predictores en el momento de la estimación, añadiendo un factor de ajuste para su utilidad/eficacia en vista del resultado financiero obtenido.

Por qué me fijo en las finanzas - la cuestión es que pueden ocurrir diferentes eventos en el mercado y si el modelo puede seleccionar preferentemente los eventos con mayor rendimiento, entonces me gusta este enfoque del modelo, al tiempo que observo los indicadores estadísticos estimados del modelo y el propio gráfico.

Espero que os haya resultado interesante el post, ¡espero vuestros comentarios!

He adjuntado un archivo con todas las tablas - que está interesado y que quiere pensar.

Archivos adjuntos:
CB_Svod_Si_Q.zip  697 kb
 
Y luego puedes tomar los incrementos de 5 a 15, y es igual de bueno.

O bien, tamizar todos los predictores por correlación primero (segundos de tiempo) y luego tomar los 5-15 restantes (si se puede obtener esa cantidad)

Así es como la econometría le ahorra tiempo.

Razón de la queja: