Discusión sobre el artículo "Añadimos un LLM personalizado a un robot comercial (Parte 5): Desarrollar y probar la estrategia de negociación con LLMs (III) Ajuste del adaptador"

 

Artículo publicado Añadimos un LLM personalizado a un robot comercial (Parte 5): Desarrollar y probar la estrategia de negociación con LLMs (III) Ajuste del adaptador:

Con el rápido desarrollo de la inteligencia artificial actual, los modelos de lenguaje (LLM) son una parte importante de la inteligencia artificial, por lo que deberíamos pensar en cómo integrar LLM potentes en nuestro trading algorítmico. Para la mayoría de las personas, es difícil ajustar estos poderosos modelos según sus necesidades, implementarlos localmente y luego aplicarlos al comercio algorítmico. Esta serie de artículos adoptará un enfoque paso a paso para lograr este objetivo.

En el artículo anterior, presentamos cómo ajustar el modelo preentrenado GPT-2 utilizando el método LoRA y lo comparamos con el modelo totalmente ajustado desde varios aspectos que nos preocupan, entre los que se incluyen, entre otros, la sobrecarga de entrenamiento, la sobrecarga de inferencia y el rendimiento del modelo.

En este artículo, utilizaremos el método de ajuste del adaptador para ajustar el modelo preentrenado GPT-2 y lo compararemos con los métodos de ajuste ya presentados. Por supuesto, no seguiremos introduciendo diversos métodos de ajuste fino de modelos lingüísticos de gran tamaño, ya que constantemente surgen nuevos métodos de ajuste fino. Para reproducir cada método uno por uno, me temo que no tendrás la paciencia para leerlos todos, así que solo presentaré algunos de los métodos de ajuste más básicos (por ejemplo, ya hemos presentado el ajuste LoRA y no dedicaremos mucho espacio a presentar el ajuste QLoRA, un método ampliado a partir de LoRA).

Esto significa que este será el último artículo sobre el ajuste fino de los modelos de lenguaje grandes. Si desea probar otros métodos, puede consultar la lógica del ajuste fino mencionada en esta serie de artículos y aplicarla a otros métodos de ajuste fino para seguir explorando. A partir del próximo artículo, nos centraremos en combinar el modelo entrenado con el desarrollo de EA para desarrollar estrategias de trading y realizar backtesting.

Visualización gráfica para comparación:

pre  cp


Autor: Yuqiang Pan

 

¿Por qué es necesario el muestreo ascendente al tamaño de entrada original justo después del muestreo descendente? La explicación de las capas parece idéntica (dropout para evitar el sobreajuste), y si los datos caben bien en el contenedor más pequeño con la misma funcionalidad, el remuestreo hacia atrás parece excesivo y un despilfarro (al menos no se obtiene nueva información de la transformación).

PS. La traducción automática del post de inglés a (al menos) ruso parece ridícula, así que por favor lee el post original.