Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1308

 
elibrarius:

La ISO no se libera para todo). En este caso se puede acudir a lo que los pactos del Ministerio de Defensa llaman la 2ª sección.

En el catbust que estás utilizando, aunque dice test, escriben en la explicación que se utiliza para la validación. En otros paquetes XGBoost, Darch - escriben la validación.

Inicialmente, había un conjunto de prueba y de entrenamiento, apareció el método de validación cruzada y dicha muestra se llamó muestra de validación (en realidad se utiliza para validar de forma cruzada el entrenamiento y la prueba). Ahora hay un boosting, que necesita una muestra para detener el entrenamiento - se llama test, y también se valida por su uso para probar los resultados del entrenamiento, pero no aprende, en contraste con la validación cruzada.

Lo que quiero decir es que el muestreo puede utilizarse de forma diferente en los distintos métodos de formación. La validación es más una acción que un tipo de muestreo...

 
Vladimir Perervenko:

El conjunto de validación participa en el entrenamiento. Se utiliza para establecer los parámetros del modelo durante el entrenamiento. Algunos paquetes no requieren un conjunto de validación, en este caso el conjunto de entrenamiento se divide en tren/válido en alguna proporción en la función fit(). Pero es mejor que lo especifique usted mismo.

El conjunto de pruebas se utiliza para comprobar la calidad del modelo entrenado y estos datos no deberían ser vistos por el modelo durante el entrenamiento.

Así que son cosas diferentes, no hay que confundirse.

Buena suerte

De acuerdo, que así sea. No tengo estadísticas sobre las declaraciones de cientos de personas que participan en la creación de diferentes métodos de RI, no hay deseo de disputar, ya que inicialmente hablé de lo conveniente que es para mí dividir los conceptos en mi mente, y si no es conveniente para los demás, entonces que me quede solo con mis conceptos.

 
Aleksey Vyazmikin:

De acuerdo, que así sea. No tengo estadísticas sobre las declaraciones de cientos de personas involucradas en la creación de diferentes métodos de MO, ni ganas de discutir, ya que originalmente hablé de cómo me siento cómodo dividiendo conceptos en mi mente, y si otros no están cómodos con eso, entonces déjenme estar solo con mis conceptos.

Sí, el tema ya está bastante saturado de spam, y ahora cada uno tiene que inventar su propia terminología:)

Aunque específicamente sobre el nombre de las muestras de datos, creo que no tiene sentido discutir porque hay todo tipo de métodos para su formación y uso, y esencial, IMHO, sigue siendo sólo un hecho - si estos datos participaron (In-Sample) o no participaron (Out-Of-Sample), en el proceso de aprendizaje.
Porque todas las muestras del SI se utilizan de una u otra forma para ajustar el modelo, y el OOS sólo para evaluar su calidad.


Y para ser inequívoco, creo que sería lógico presentar los resultados en la forma habitual de los probadores, donde todas las muestras que se utilizaron en el entrenamiento - IS para representar como un backtest, y OOS como un delantero.

 
Ivan Negreshniy:

Sí, el tema ya está bastante desordenado, y ahora cada uno tiene que inventarse su propia terminología:)

Aunque específicamente sobre el nombre de las muestras de datos, creo que no tiene sentido discutir porque hay todo tipo de métodos para su formación y uso, y esencial, IMHO, sigue siendo sólo un hecho - si estos datos participaron o no (In-Sample), en el proceso de aprendizaje (Out-Of-Sample).
Porque todas las muestras del SI se utilizan de una u otra manera para ajustar el modelo, y el OOS sólo para evaluar su calidad.


Y para una clara comprensión, creo que sería lógico presentar los resultados en forma familiar para el probador, donde todas las muestras que se utilizaron en la formación - IS debe ser presentado como un backtest, y OOS como un delantero.


Es mejor mostrar gráficos separados, porque la muestra que no participó en la formación suele ser mucho más pequeña que la que participó y visualmente no se ve nada claro en un gráfico tan roto, eso para mí personalmente.

 
Por cierto, Catbust tiene validación cruzada - entonces no necesita la clave de "prueba", sino que utiliza una sola muestra, que se descompone de diferentes maneras.
 
Aleksey Vyazmikin:
Por cierto, Catbust tiene validación cruzada - entonces no necesita la clave de "prueba", sino que utiliza una sola muestra que se descompone de diferentes maneras.

Los científicos trabajan con estas cosas, pero no entienden lo que ocurre en las redes neuronales, y mucho menos en los bosques, cómo y por qué las cosas son exactamente como son, dónde cambian las cosas en qué momento y por qué, sólo podemos confiar en su autoridad y aplicar sus modelos, confiando en un poder superior.

 
Kesha Rutov:

Los científicos trabajan con estas cosas, pero no entienden lo que ocurre en las redes neuronales, y mucho menos en los bosques, cómo y por qué las cosas son como son, en qué momento cambian las cosas y por qué, sólo tenemos que confiar en su autoridad y aplicar sus modelos, confiando en un poder superior.

Bosques/árboles con los que claramente no has tratado. Sus soluciones son fácilmente interpretables por los humanos. Cualquier artículo básico sobre el algoritmo del árbol en un par de páginas te lo explicaría.
 
Aleksey Vyazmikin:

De acuerdo, que así sea. No tengo estadísticas sobre las declaraciones de cientos de individuos implicados en la creación de diferentes métodos de MdD, ni ganas de discutir, ya que originalmente hablé de que me siento cómodo separando conceptos en mi mente, y si otros no se sienten cómodos, pues que me dejen tranquilo con mis conceptos.

La terquedad se acerca en su significado a la obstinación. Espero que te ayuden a conseguir una implementación exitosa de tus ideas en MO. Estas son cualidades útiles para los investigadores. ;-)

PS Pensado en un nombre para su sistema de selección de hojas: "Herbario" - añadir a su colección de métodos de los árboles, bosques, tocones, selvas.
 
elibrarius:

PS Pensó en un nombre para su sistema de selección de hojas: 'Herbarium' - añadir a su colección de métodos de los árboles, bosques, tocones, selvas.

))) Yo lo llamaría Leñador o Aserradero.

 
Kesha Rutov:

Los científicos trabajan con estas cosas, pero no entienden lo que ocurre en las redes neuronales, y mucho menos en los bosques, cómo y por qué razón todo es exactamente como es, dónde cambia qué en qué momento y por qué, sólo podemos confiar en su autoridad y aplicar sus modelos, confiando en un poder superior.

En parte estoy de acuerdo, esta es la era de la informática rápida, y aunque la gente solía hacer cálculos en papel antes de tener acceso a un ordenador, ahora el volumen de información y los métodos para procesarla son tan grandes que a menudo es más apropiado centrarse en el resultado que en el proceso.

Razón de la queja: