Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2550

 
Aleksey Nikolayev #:

En general, una vez entrenado (en tren) no hay un solo modelo, sino un conjunto de modelos definidos por metaparámetros. Por ejemplo, diferente grado de polinomio de interpolación o diferentes coeficientes de regularización en la regresión lasso, etc. A continuación, se determina el mejor valor del metaparámetro (se toma el mejor modelo del conjunto mediante una prueba). A su vez, la optimización del meta-parámetro en la prueba también puede ser determinada por algunos parámetros (meta-parámetros), para cuya optimización se puede aplicar el examen. Por ejemplo, en qué proporciones dividir la muestra original en tren y prueba.

Pero lo más probable es que no entienda su idea).

La mejor manera de elegir los meta-parámetros no es mediante una sección de prueba, sino con varias secciones pegadas por validación cruzada o rolling forward. Se ha discutido recientemente.
 
elibrarius #:
Es mejor seleccionar los meta-parámetros no en una sola parcela de prueba, sino en varias pegadas por validación cruzada o rollicking forward. Se ha discutido recientemente.

Estoy de acuerdo. En realidad, sólo quería decir que la validación cruzada también puede organizarse de forma complicada y establecerse con algunos parámetros propios (metaparámetros) que también pueden optimizarse con una muestra más (y no tomarlas del techo).

 
Aleksey Nikolayev #:

Estoy de acuerdo. En realidad, sólo quería expresar la idea de que la validación cruzada también puede organizarse de forma complicada y establecerse con algunos parámetros propios (metaparámetros), que también pueden optimizarse utilizando otra muestra (en lugar de tomarlos del techo).

Entendido correctamente - realizar cualquier acción para que la muestra se parezca más a una muestra de examen.

La cuestión es cómo hacerlo mejor.

Una opción, que se utiliza a menudo, la enumeración de los predictores - pero con un gran conjunto de ellos demasiado. ¿Y podemos, por ejemplo, comparar las cadenas (conjunto de predictores) por similitud y solidez del resultado objetivo en las dos muestras? Entonces podemos eliminar las cadenas anómalas (digamos, raras o que no se encuentran en la muestra) de la muestra de entrenamiento y debido a esto provocar un aprendizaje mucho mejor, en teoría.

 
Aleksey Vyazmikin #:

Entendido correctamente: llevar a cabo cualquier acción para que la muestra se parezca más a una muestra de examen.

La cuestión es cómo hacerlo mejor entonces.

Una opción que se utiliza a menudo es enumerar los predictores, pero con un conjunto grande hay demasiados. ¿Y podemos, por ejemplo, comparar las cadenas (conjunto de predictores) para la similitud y la solidez del resultado objetivo en las dos muestras? Entonces podemos eliminar las cadenas anómalas (digamos, raras o que no se encuentran en la muestra) de la muestra de entrenamiento y debido a esto aprender mucho mejor, en teoría.

Vladimir tenía un artículo al respecto, no recuerdo el nombre del paquete, pero simplemente echaba cadenas imprevisibles de la muestra
 
mytarmailS #:
Vladimir tenía un artículo al respecto, no recuerdo el nombre de ese paquete, pero sólo dejaba caer cadenas imprevisibles de la muestra

Interesante, tendré que buscarlo. Pero quiero descartar no las cadenas predecibles, sino las que no se dan en la muestra fuera del entrenamiento. Incluso es interesante marcarlos, por supuesto, y no tirarlos sin más, para identificarlos.

 
Aleksey Vyazmikin #:

Interesante, tendré que buscarlo. Pero, no quiero desechar los que no son predecibles, sino los que no se dan en la muestra fuera del entrenamiento. Incluso es interesante marcarlos de alguna manera, por supuesto, en lugar de tirarlos, para identificarlos.

Quizá estemos hablando de eliminar los valores atípicos en las observaciones, que pueden ser de dos tipos: por tamaño de la respuesta y por tamaño del predictor (ambos pueden combinarse en la misma observación). Los valores atípicos propiamente dichos se denominan los primeros, mientras que los segundos suelen llamarse de otra manera. Esta ciencia está bien desarrollada para la regresión lineal. Probablemente pueda comprobar cada observación de la prueba para ver si es un valor atípico en algún sentido en relación con un examen.

 
Aleksey Vyazmikin #:

Interesante, tendré que buscarlo. Pero, no quiero desechar los que no son predecibles, sino los que no se dan en la muestra fuera del entrenamiento. Incluso es interesante marcarlos, por supuesto, y no tirarlos sin más, para identificarlos.

Puede utilizar modelos de madera...
Descomponer el modelo en reglas, analizar las reglas para obtener las estadísticas adecuadas (la repetibilidad es otra cosa...), ver si la regla aparece en los nuevos datos...

El paquete "intrees" tiene 5 líneas de código y va
 
mytarmailS #:
Vladimir tenía un artículo sobre esto, no recuerdo el nombre del paquete, pero sólo dejaba caer cadenas imprevisibles de la muestra

PaqueteNoiseFiltersR. Echa un vistazo al artículo.

 
elibrarius #:
Es mejor seleccionar los meta-parámetros no en una sola parcela de prueba, sino en varias pegadas por la validación cruzada o el rollo hacia adelante. Esto se discutió recientemente.

¿Y cómo utilizar correctamente los resultados del CV? para tomar los mejores parámetros del modelo y enseñarlo a todo el conjunto de datos, o utilizarlo sólo para seleccionar buenos conjuntos de datos

Por ejemplo, el resultado es la siguiente tabla

        iterations      test-Logloss-mean       test-Logloss-std        train-Logloss-mean      train-Logloss-std
0       0       0.689013        0.005904        0.681549        0.007307
1       1       0.685340        0.011887        0.660894        0.001061
2       2       0.685858        0.012818        0.641069        0.004738
3       3       0.685975        0.023640        0.629656        0.000656
4       4       0.686613        0.024923        0.612977        0.002072
...     ...     ...     ...     ...     ...
95      95      0.863043        0.402531        0.123702        0.028628
96      96      0.866321        0.406193        0.122224        0.028623
97      97      0.869681        0.409679        0.120777        0.028611
98      98      0.873030        0.413121        0.119361        0.028595
99      99      0.874569        0.419064        0.117974        0.028572
 
Vladimir Perervenko #:

PaqueteNoiseFiltersR. Echa un vistazo al artículo.

Mientras que los predictores de ruido son más o menos claros, los ejemplos de ruido no lo son. Me gustaría saber más sobre cómo definirlos (en términos de teoría, no de nombres de paquetes/funciones utilizadas, aunque por supuesto R siempre tiene enlaces a artículos). Está claro que debería haber una clase de "no operar" a la hora de clasificar, ya que esforzarse por estar en el mercado todo el tiempo se considera un error. Pero no está muy claro cómo se puede describir correctamente esta clase de manera más o menos formal.

Razón de la queja: