Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1487

 
Aleksey Vyazmikin:

Por eso hay que dar estimaciones a la hora de ordenar los predictores y sus valores y no tomar aquellos predictores con valores (rangos) muy concurridos, sino dar preferencia a los que se distribuyen por toda la muestra.

Todo se ve siempre muy bien en el backtest)
¿Supongo que necesitas un avance uniforme? El bosque no sabe nada del delantero en formación.
 
elibrarius:
Bueno, todo se ve siempre muy bien en el backtest)
¿Supongo que necesitas un uniforme para avanzar? El bosque no sabe nada del delantero en formación.

La evaluación debe realizarse sobre las dos muestras que participan en la formación.

 
Aleksey Vyazmikin:

La evaluación debe realizarse sobre las dos muestras que participan en la formación.

¿el segundo es la validación?
 

Entonces habrá un ajuste con el gráfico de validación. Aunque puede funcionar si la validación es mayor que la formación. En la NS de Ivan Butko, el entrenamiento se realiza en una parcela pequeña y la validación en una parcela varias veces mayor. Solemos considerar la validación de un 15-25% de todos los datos, pero en su vídeo se trata de un 80%.

 
elibrarius:
¿el segundo es la validación?

Sí, si se aplica.

En general, creo que cuanto más grande sea la muestra, mejor; es una cuestión de robustez del predictor, no sólo de aprendizaje.

Podría ser posible preprocesar los datos, para agrupar sólo los rangos de los valores de los predictores que no son raros, pero que están muy concentrados en la muestra.

Sustitúyelos convencionalmente por -1 y prohíbe hacer splits iniciales en ellos, al menos hasta una profundidad de 2-3.

 
elibrarius:

Entonces habrá un ajuste con el gráfico de validación. Aunque puede funcionar si la validación es mayor que la formación. En la NS de Ivan Butko, el entrenamiento se realiza en una parcela pequeña y la validación en una parcela varias veces mayor. Aquí solemos considerar variantes con una validación del 15-25% de todos los datos, y en su vídeo alrededor del 80%.

No habrá mucho ajuste, porque no nos entrenamos esencialmente en la validación, sino que tomamos también información adicional sobre la estructura del mercado.

 
Aleksey Vyazmikin:

Sí, si se aplica.

En general, creo que cuanto más grande sea la muestra, mejor; es una cuestión de robustez del predictor, no sólo de aprendizaje.

Podría ser posible preprocesar los datos, para agrupar sólo los rangos de los valores de los predictores que no son raros, pero que están muy concentrados en la muestra.

Sustitúyelos de forma convencional con -1 y prohíbe hacer divisiones iniciales en ellos, al menos hasta una profundidad de 2-3.

Demasiado complicado... El algoritmo estándar de construcción de árboles es sencillo y rápido.
Aleksey Vyazmikin:

No habrá ningún ajuste especial, porque no estamos aprendiendo sobre la validación, sólo tomamos información adicional sobre la estructura del mercado de ella.

La única variante aceptable es que la validación sea proporcional o superior a la formación.
Y llegamos al punto en el que tenemos que incluir la validación en la parcela de entrenamiento.
 
Grial:

No, qué tipo de svm es esta "ventana de Parzen", suavizado de núcleo, y"cuasi-óptima" en el sentido de que es casi perfecta (Mitchell tenía en alguna parte), pero sólo muy lento, cada iteración - ordenar todo el conjunto de datos a un nuevo punto y la convolución con el núcleo

No estoy seguro de qué efecto tendrá en la no estacionalidad... y si es lento, es difícil incluso montecarrelación

En mi opinión, el principal problema es el escalado/transformación de los datos, la extracción de bucles, ya que incluso la regresión no lineal o la SVM dan buenos resultados si los patrones se repiten (en RV artificial)

es decir, los problemas de la selección de patrones son inverosímiles
 
Maxim Dmitrievsky:

el principal problema es el escalado/conversión de los datos, destacando los bucles

Sí, exactamente.

 
elibrarius:
Demasiado complicado... La única variante aceptable es que la validación sea proporcional o superior a la formación.
Y llegamos al punto en el que sólo tenemos que incluir la validación en la parcela de entrenamiento.

Los algoritmos estándar están diseñados para trabajar con fenómenos estacionarios, sistemas cerrados, por lo que allí cualquier información se considera a priori útil y no hay evaluación desde el punto de vista de la aleatoriedad, sino sólo la posibilidad de utilizarla para la tarea (clasificación por objetivos), mientras que nosotros tenemos mucho ruido y propuse una forma lógica de combatirlo.

Y sí, me he alejado de la validación como tal a la hora de recoger el herbario, dejando los criterios de evaluación de las hojas, incluyendo la eficiencia en las parcelas temporales. Ahora tengo más de 50 mil hojas de todas las variantes del árbol, de las cuales sólo unas 200 se seleccionan como señal y 600 (3 por hoja de señal) como filtros, mejorando significativamente los resultados (en la mayoría de los períodos).

Tenemos que asumir que todo lo que podemos hacer es desarrollar un algoritmo para el mejor ajuste a los datos, porque no conocemos el futuro y hay muchas variaciones, incluso basadas en los valores de predicción disponibles. Y si tenemos suerte, conseguiremos encontrar un patrón que siga existiendo durante algún tiempo, por lo que es importante buscar dicho patrón con ciertos criterios, y la lógica sugiere que al menos debe ser un patrón que se produzca a lo largo de la muestra. Por eso la tarea consiste en crear un algoritmo que cree muchos de esos patrones y construya árboles a partir de ellos.

Un ejemplo sencillo de perootooting la protección de la que será posible es la detección de una parte de una muestra con un rango de precios definido, en el que se ha fijado un largo plano - cuando la formación ahora vamos a obtener dos rangos de precios (o retornos de los TFs superiores) para el comercio, pero es poco probable que un plano se fija en el mismo lugar en el futuro. Y con el enfoque sugerido por mí, con las mismas características, es más probable que los niveles de huelga se encuentren como significativos para la generación de eventos.

Razón de la queja: