Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1376

 
Aleksey Vyazmikin:

¿Por qué estudiar menos del 10% de la muestra total, no debería haber más muestreo para mejorar?

¿Y por qué más de 5k? Si no puedes entrenar con ellos, no puedes entrenar con más.

 
Aleksey Vyazmikin:

¿Por qué entrenar a menos del 10% de la muestra total, no debería aumentar la muestra para mejorar?

¿Y qué hay de un sistema sobreentrenado, a dónde cree que llevará?

 
Farkhat Guzairov:

¿Y qué hay de un sistema reconvertido, a dónde cree que llevará esto?

Cuanto mayor sea la muestra, más difícil será ajustar el modelo, en términos de más hojas/árboles necesarios.

 
Yuriy Asaulenko:

Por x - número de operación, por y - la cantidad de beneficio en pips .


¿Es de 4 o 5 dígitos?

 
sibirqk:


¿Es un signo 4, o es un signo 5?

No es una señal en absoluto).
 
Yuriy Asaulenko:
Eso no es una señal en absoluto)).
Entonces, ¿qué significa la cantidad de beneficios en pps?
 
sibirqk:
¿Qué significa, entonces, poner un beneficio en pips?
Se trata de una herramienta de intercambio. Muestra la posibilidad de obtener beneficios con el sistema más sencillo. El resto no es importante todavía.
 
Vladimir Perervenko:

Eso no es del todo correcto. Tienes, por ejemplo, train[2000, ] y test[500, ]. Se entrena en train con pesos de ejemplo iniciales = 1.0, se hace que test[] prediga el modelo entrenado. En función de la calidad de cada prefijo de prueba se le da un peso. A continuación, combine el entrenamiento y la prueba y forme una nueva muestra de entrenamiento, entrene el modelo, pruébelo y así sucesivamente hasta que todas las muestras de entrenamiento tengan pesos obtenidos de esta manera. Se les puede aplicar un factor de reducción para los bares más antiguos, pero no lo he comprobado. Todo esto es para la clasificación, por supuesto.

Comprobado con ELM, da buenos resultados.

Buena suerte

No veo muy bien cómo esto puede mejorar el rendimiento del modelo en los nuevos datos.

Por ejemplo, si la clase no está definida correctamente, ponemos un peso decreciente, como una variante extrema 0. Así que en la formación posterior será igual a la eliminación de estas líneas de la muestra y en un traine todo estará bien con 100% de precisión, en las pruebas, que en el mismo círculo de marcado - también todo estará bien. Pero con datos completamente nuevos no podremos retractarnos de esas líneas y ya será lo que el modelo es realmente capaz de hacer.

O viceversa, ¿aumentó el peso para los ejemplos erróneos?

 
elibrarius:

No veo muy bien cómo esto puede mejorar el rendimiento del modelo en los nuevos datos.

Por ejemplo, si la clase no está definida correctamente, ponemos un peso decreciente, como una variante extrema 0. Así que en el entrenamiento posterior será equivalente a eliminar estas filas de la muestra y todo estará bien con una precisión del 100% en la bandeja, en las pruebas, que también marcamos circularmente - todo estará bien también. Pero en datos completamente nuevos no podremos descartar líneas y ya se verá de qué es capaz el modelo.

¿O, por el contrario, ha aumentado la ponderación de los ejemplos equivocados?

Por supuesto, el descenso de categoría es para los "malos" ejemplos. Si subes, es el clásico impulso.

Haz un experimento y compruébalo.

Ahora no lo hago. Elimino o resalto los ejemplos ruidosos en el preprocesamiento antes del entrenamiento.

Buena suerte

 
Yuriy Asaulenko:

¿Por qué necesitas más de 5.000? Si no puedes aprender con ella, no puedes aprender con más.

Esto va en las bóvedas de las declaraciones estúpidas.

Aleksey Vyazmikin:

Cuanto mayor sea la muestra, más difícil será ajustar el modelo, en términos de más hojas/árboles necesarios.

Exacto, cuanto más mejor (menos de 100k es ruido), pero hay que tener en cuenta que las propiedades del mercado cambian, y cómo tenerlo en cuenta en la formación es un gran secreto.