Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 97): Entrenamiento de un modelo con el MSFformer"

MetaQuotes 2025.01.08 10:07

Artículo publicado Redes neuronales: así de sencillo (Parte 97): Entrenamiento de un modelo con el MSFformer:

Al estudiar las distintas arquitecturas de construcción de modelos, prestamos poca atención al proceso de entrenamiento de los mismos. En este artículo intentaremos rellenar ese vacío.

La muestra inicial de entrenamiento recogida permite al modelo ofrecer una primera visión del entorno. Pero el mundo de los mercados financieros es tan polifacético que ninguna muestra de entrenamiento puede reproducirlo totalmente. Además, las dependencias que el modelo ha construido entre los indicadores analizados y las transacciones rentables pueden resultar falsas o incompletas, pues no había ejemplos en la muestra de entrenamiento presentada que pudieran revelar tales incoherencias. Por ello, tendremos que refinar la muestra de entrenamiento durante el mismo. Y esta vez el enfoque de recopilación de información adicional ya será distinto.

La cuestión es que en esta fase nos enfrentaremos a la tarea de optimizar la política delActoraprendida. Y para cumplir dicha tarea necesitaremos datos lo suficientemente cercanos a la trayectoria de la política actual del Actor para entender la dirección del vector de cambio de la recompensa al darse cierta desviación de acciones respecto a la política actual. Con esta información en la mano, podremos aumentar el rendimiento de las políticas actuales avanzando en la dirección de una mayor recompensa.

Aquí también hay diferentes opciones. Y los planteamientos pueden cambiar por diversos factores. Esto incluye la dependencia respecto a la arquitectura del modelo. Por ejemplo, al utilizar una política estocástica, podemos simplemente ejecutar múltiples pasadas delActorusando la política actual en el simulador de estrategias. La cabeza estocástica lo hará todo por nosotros. La dispersión de las acciones aleatorias del actor abarcará el espacio de acciones de interés, mientras que nosotros podremos realizar un preentrenamiento del modelo dados los datos actualizados. Sin embargo, si utilizamos una política del Actor estricta, en la que el modelo construya vínculos inequívocos entre el estado del entorno y la acción, podremos aprovechar la ventaja que supone añadir algo de ruido a las acciones del Agente para crear una especie de nube de acción en torno a la política delActoractual.

En ambos casos, nos será cómodo utilizar el modo de optimización lenta del simulador de estrategias para recopilar los datos adicionales de las muestras de entrenamiento.

Autor: Dmitriy Gizlyk

Nuevo comentario