Обсуждение статьи "Нейросети в трейдинге: Снижение потребления памяти методом оптимизации Adam (Adam-mini)"
Здравствуйте, посылаю вам записи Studio Encode и Study. Что касается архитектуры, то она почти такая же, как вы представили, за исключением того, что количество свечей в исследовании — 12, а данных этих свечей — 11. Также в выходном слое у меня всего 4 параметра.
Файлы:
20240804.log
23 kb
Dmitry Gizlyk #:
Здравствуйте, посылаю вам записи Studio Encode и Study. Что касается архитектуры, то она почти такая же, как вы представили, за исключением того, что количество свечей в исследовании — 12, а данных этих свечей — 11. Также в выходном слое у меня всего 4 параметра.
Buenas tardes, ¿puedes publicar el registro de ejecución y la arquitectura del modelo utilizado?
Файлы:
20240804.log
23 kb
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети в трейдинге: Снижение потребления памяти методом оптимизации Adam (Adam-mini):
Одним из направлений повышения эффективности процесса обучения и сходимости моделей является улучшение методов оптимизации. Adam-mini представляет собой адаптивный метод оптимизации, разработанный для улучшения базового алгоритма Adam.
Начиная знакомство с нейронными сетями, мы обсуждали различные подходы к оптимизации параметров моделей. В своей работе мы используем разные подходы. Лично я наиболее часто использую метод Adam, который позволяет адаптивно настраивать оптимальную скорость обучения каждого параметра модели. Однако за эту адаптивность нужно платить. В алгоритме Adam используются моменты 1 и 2 порядка для каждого параметра модели, хранение которых потребляет память в 2 раза больше самой модели. Это потребление памяти стало серьезным препятствием при обучении больших моделей. На практике, для поддержания алгоритма с высоким потреблением памяти необходимо использовать выгрузку на CPU, что увеличивает задержку и замедляет процесс обучения. В свете указанных проблем становятся более актуальные вопросы поиска новых или совершенствование известных методов оптимизации параметров моделей.
Одно из интересных решений было предложено в работе "Adam-mini: Use Fewer Learning Rates To Gain More", опубликованной в июле 2024 года. Её авторы предложили модификацию метода Adam без ущерба для его производительности. Новый оптимизатор под названием Adam-mini делит параметры модели на блоки, выбирает одну скорость обучения для каждого блока и имеет следующие преимущества:
Автор: Dmitriy Gizlyk