Обсуждение статьи "Добавляем пользовательскую LLM в торгового робота (Часть 5): Разработка и тестирование торговой стратегии с помощью LLM (III) – Настройка адаптера"
Зачем вам нужна обратная выборка до исходного размера входных данных сразу после обратной выборки? Объяснение работы слоев выглядит идентично (отсев для предотвращения избыточной подгонки), и если данные хорошо помещаются в меньший контейнер с той же функциональностью, то обратная апсемплинг выглядит излишней и расточительной (по крайней мере, вы не получаете новой информации от преобразования).
PS. Автоматический перевод сообщения с английского на (как минимум) русский выглядит нелепо, поэтому, пожалуйста, читайте оригинальное сообщение.
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Добавляем пользовательскую LLM в торгового робота (Часть 5): Разработка и тестирование торговой стратегии с помощью LLM (III) – Настройка адаптера:
В предыдущей статье мы представили, как выполнить тонкую настройку предварительно обученной модели GPT-2 с использованием метода LoRA, и сравнили ее с полностью настроенной моделью по нескольким интересующим нас аспектам, включая, помимо прочего, затраты на обучение, на вывод и производительность модели.
В этой статье мы воспользуемся методом настройки адаптера для точной настройки предварительно обученной модели GPT-2 и сравним ее с уже представленными методами точной настройки. Конечно, мы не будем продолжать внедрять различные методы тонкой настройки больших языковых моделей, поскольку новые методы тонкой настройки появляются постоянно. Если воспроизводить каждый метод по отдельности, боюсь, у вас не хватит терпения прочитать их все, поэтому я представлю лишь несколько самых основных методов тонкой настройки (например, мы уже представили настройку LoRA и не будем время на описание настройки QLoRA - метода, являющегося расширением LoRA).
Таким образом это будет последняя статья о тонкой настройке больших языковых моделей. Если вы хотите попробовать другие методы, вы можете обратиться к логике тонкой настройки, упомянутой в этой серии статей, и применить ее к другим методам тонкой настройки, чтобы продолжить исследование. Начиная со следующей статьи, мы сосредоточимся на объединении обученной модели с разработкой советника для разработки торговых стратегий и проведения тестирования на истории.
Визуализация графиков для сравнения:
Автор: Yuqiang Pan