Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 64): Método de clonación conductual ponderada conservadora (CWBC)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 64): Método de clonación conductual ponderada conservadora (CWBC):

Como resultado de las pruebas realizadas en artículos anteriores, hemos concluido que la optimalidad de la estrategia entrenada depende en gran medida de la muestra de entrenamiento utilizada. En este artículo, nos familiarizaremos con un método bastante sencillo y eficaz para seleccionar trayectorias para el entrenamiento de modelos.

Los autores del método proponen un nuevo regularizador conservador para los métodos de clonación conductual dependientes de RTG, que animará explícitamente a la política a mantenerse cerca de la distribución original de los datos. La idea es garantizar que se pronostiquen acciones cercanas a la distribución original incluso al especificar grandes valores de RTG fuera de la distribución de la muestra de entrenamiento. Esto se consigue añadiendo ruido positivo al RTG para las trayectorias con alta recompensa real y penalizando la distancia L2 entre la acción predicha y la real partiendo de la muestra de entrenamiento. Para garantizar la generación de grandes valores de RTG fuera de la distribución, generaremos ruido de forma que el valor de RTG corregido resulte al menos tan alto como la mayor recompensa de la muestra de entrenamiento.

Así, le proponemos aplicar una regularización conservadora a las trayectorias cuyos rendimientos superen el q-ésimo percentil de las recompensas en la muestra de entrenamiento. Esto garantizará que cuando el RTG se especifique fuera de la distribución de aprendizaje, la política se comporte de forma similar a las trayectorias de alta recompensa en lugar de una trayectoria aleatoria. Añadiremos ruido y desplazaremos el RTG en cada paso temporal.

Los experimentos realizados por los autores del método demuestran que el uso del percentil 95 suele funcionar bien en diversos entornos y conjuntos de datos.

Los autores del método señalan que el regularizador conservador propuesto se distingue de otros componentes conservadores para los métodos RL offline basados en la estimación de costes de estado y transición; mientras que estos últimos suelen intentar ajustar la estimación de la función de coste para evitar el error de extrapolación, el método propuesto distorsiona las recompensas objetivo para crear condiciones fuera de la distribución y regular la predicción de acciones.

Durante el entrenamiento, hemos conseguido que el modelo generara beneficios en el segmento histórico de la muestra de entrenamiento.

Resultados de las pruebas

Resultados de las pruebas

Durante el periodo de estudio, el modelo ha completado 141 transacciones. Alrededor del 40% se han cerrado con beneficios. La transacción rentable máxima ha superado en más de 4 veces la pérdida máxima. Y la media de transacciones rentables ha sido casi 2 veces superior a la media de pérdidas. Además, la transacción rentable media ha sido un 13% superior a la pérdida máxima. Todo ello ha ofrecido un factor de beneficio de 1,11. Se observan resultados similares en los nuevos datos.


Autor: Dmitriy Gizlyk