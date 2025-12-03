Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 54): Aprendizaje por refuerzo con SAC híbrido y tensores"
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 54): Aprendizaje por refuerzo con SAC híbrido y tensores:
Soft Actor Critic (SAC) es uno de los algoritmos utilizados en el aprendizaje por refuerzo cuando se entrena una red neuronal. En resumen, el aprendizaje por refuerzo es un método emergente de entrenamiento en el aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado.
El búfer de reproducción es un componente muy importante del algoritmo SAC fuera de política en el aprendizaje por refuerzo, ya que mantiene las experiencias pasadas de estado, acción, recompensa, siguiente estado y el indicador de finalización (para registrar si un episodio ha finalizado o está en curso) en minilotes de muestra para el entrenamiento. Su objetivo principal es descorrelacionar diversas experiencias, de modo que el agente sea capaz de aprender de un conjunto más diverso de experiencias, lo que tiende a mejorar la estabilidad del aprendizaje y la eficiencia de la muestra.
Al implementar SAC, podemos utilizar el lenguaje MQL5, pero las redes creadas no serían tan eficientes para entrenar como las creadas en Python con bibliotecas de código abierto como TensorFlow o PyTorch. Por lo tanto, tal y como vimos en el último artículo sobre aprendizaje por refuerzo, en el que se utilizó Python para modelar una red SAC rudimentaria, continuamos con Python, pero esta vez con el objetivo de explorar y aprovechar sus gráficos Tensor. En principio, hay dos formas de implementar un búfer de reproducción en Python. El enfoque manual o el enfoque basado en tensores.
Autor: Stephen Njuki