Обсуждение статьи "Добавляем пользовательскую LLM в торгового робота (Часть 5): Разработка и тестирование торговой стратегии с помощью LLM (III) – Настройка адаптера"

 

Опубликована статья Добавляем пользовательскую LLM в торгового робота (Часть 5): Разработка и тестирование торговой стратегии с помощью LLM (III) – Настройка адаптера:

Языковые модели (LLM) являются важной частью быстро развивающегося искусственного интеллекта, поэтому нам следует подумать о том, как интегрировать мощные LLM в нашу алгоритмическую торговлю. Большинству людей сложно настроить эти модели в соответствии со своими потребностями, развернуть их локально, а затем применить к алгоритмической торговле. В этой серии статей будет рассмотрен пошаговый подход к достижению этой цели.

В предыдущей статье мы представили, как выполнить тонкую настройку предварительно обученной модели GPT-2 с использованием метода LoRA, и сравнили ее с полностью настроенной моделью по нескольким интересующим нас аспектам, включая, помимо прочего, затраты на обучение, на вывод и производительность модели.

В этой статье мы воспользуемся методом настройки адаптера для точной настройки предварительно обученной модели GPT-2 и сравним ее с уже представленными методами точной настройки. Конечно, мы не будем продолжать внедрять различные методы тонкой настройки больших языковых моделей, поскольку новые методы тонкой настройки появляются постоянно. Если воспроизводить каждый метод по отдельности, боюсь, у вас не хватит терпения прочитать их все, поэтому я представлю лишь несколько самых основных методов тонкой настройки (например, мы уже представили настройку LoRA и не будем время на описание настройки QLoRA - метода, являющегося расширением LoRA).

Таким образом это будет последняя статья о тонкой настройке больших языковых моделей. Если вы хотите попробовать другие методы, вы можете обратиться к логике тонкой настройки, упомянутой в этой серии статей, и применить ее к другим методам тонкой настройки, чтобы продолжить исследование. Начиная со следующей статьи, мы сосредоточимся на объединении обученной модели с разработкой советника для разработки торговых стратегий и проведения тестирования на истории.

Визуализация графиков для сравнения:

pre  cp


Автор: Yuqiang Pan

 

Зачем вам нужна обратная выборка до исходного размера входных данных сразу после обратной выборки? Объяснение работы слоев выглядит идентично (отсев для предотвращения избыточной подгонки), и если данные хорошо помещаются в меньший контейнер с той же функциональностью, то обратная апсемплинг выглядит излишней и расточительной (по крайней мере, вы не получаете новой информации от преобразования).

PS. Автоматический перевод сообщения с английского на (как минимум) русский выглядит нелепо, поэтому, пожалуйста, читайте оригинальное сообщение.