Dmitriy Gizlyk
Dmitriy Gizlyk
  • Информация
12+ лет
опыт работы
0
продуктов
0
демо-версий
134
работ
0
сигналов
0
подписчиков
X
Профессиональное написание программ любой сложности для MT4, MT5, C#.
Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 59): Дихотомия контроля (Dichotomy of Control — DoC)
Нейросети — это просто (Часть 59): Дихотомия контроля (Dichotomy of Control — DoC)

В предыдущей статье мы познакомились с Трансформером решений. Но сложная стохастическая среда валютного рынка не позволила в полной мере раскрыть потенциал представленного метода. Сегодня я хочу представить Вам алгоритм, который направлен на повышение производительности алгоритмов в стохастических средах.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT)
Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT)

Мы продолжаем рассмотрение методов обучения с подкреплением. И в данной статье я предлагаю вам познакомиться с несколько иным алгоритмом, который рассматривает политику Агента в парадигме построения последовательности действий.

Yao Wei Lai
Yao Wei Lai 2023.10.11
I greatly admire your article series "Neural Networks Make It Easy", but after reading it for a long time, I still don't understand how to generate models. Could you please send me the models used in each article? I would like to replicate your test to further learn relevant knowledge. Thank you!
Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 57): Стохастический маргинальный актор-критик (SMAC)
Нейросети — это просто (Часть 57): Стохастический маргинальный актор-критик (SMAC)

Предлагаем познакомиться с довольно новым алгоритмом Stochastic Marginal Actor-Critic (SMAC), который позволяет строить политики латентных переменных в рамках максимизации энтропии.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 56): Использование ядерной нормы для стимулирования исследования
Нейросети — это просто (Часть 56): Использование ядерной нормы для стимулирования исследования

Исследование окружающей среды в задачах обучения с подкреплением является актуальной проблемой. Ранее мы уже рассматривали некоторые подходы. И сегодня я предлагаю познакомиться с ещё одним методом, основанным на максимизации ядерной нормы. Он позволяет агентам выделять состояния среды с высокой степенью новизны и разнообразия.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC)
Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC)

Контрастное обучение (Contrastive learning) - это метод обучения представлению без учителя. Его целью является обучение модели выделять сходства и различия в наборах данных. В данной статье мы поговорим об использовании подходов контрастного обучения для исследования различных навыков Актера.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 54): Использование случайного энкодера для эффективного исследования (RE3)
Нейросети — это просто (Часть 54): Использование случайного энкодера для эффективного исследования (RE3)

Каждый раз, при рассмотрении методов обучения с подкреплением, мы сталкиваемся с вопросом эффективного исследования окружающей среды. Решение данного вопроса часто приводит к усложнению алгоритма и обучению дополнительных моделей. В данной статье мы рассмотрим альтернативный подход к решению данной проблемы.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 53): Декомпозиция вознаграждения
Нейросети — это просто (Часть 53): Декомпозиция вознаграждения

Мы уже не раз говорили о важности правильного подбора функции вознаграждения, которую используем для стимулирования желательного поведения Агента, добавляя вознаграждения или штрафы за отдельные действия. Но остается открытым вопрос о дешифровке наших сигналов Агентом. В данной статье мы поговорим о декомпозиции вознаграждения в части передачи отдельных сигналов обучаемому Агенту.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 52): Исследование с оптимизмом и коррекцией распределения
Нейросети — это просто (Часть 52): Исследование с оптимизмом и коррекцией распределения

По мере обучения модели на базе буфера воспроизведения опыта текущая политика Актера все больше отдаляется от сохраненных примеров, что снижает эффективность обучения модели в целом. В данной статье мы рассмотрим алгоритм повышения эффективности использования образцов в алгоритмах обучения с подкреплением.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 51): Актор-критик, управляемый поведением (BAC)
Нейросети — это просто (Часть 51): Актор-критик, управляемый поведением (BAC)

В последних двух статьях рассматривался алгоритм Soft Actor-Critic, который включает энтропийную регуляризацию в функцию вознаграждения. Этот подход позволяет балансировать исследование среды и эксплуатацию модели, но он применим только к стохастическим моделям. В данной статье рассматривается альтернативный подход, который применим как для стохастических, так и для детерминированных моделей.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 50): Soft Actor-Critic (оптимизация модели)
Нейросети — это просто (Часть 50): Soft Actor-Critic (оптимизация модели)

В предыдущей статье мы реализовали алгоритм Soft Actor-Critic, но не смогли обучить прибыльную модель. В данной статье мы проведем оптимизацию ранее созданной модели для получения желаемых результатов её работы.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 49): Мягкий Актор-Критик (Soft Actor-Critic)
Нейросети — это просто (Часть 49): Мягкий Актор-Критик (Soft Actor-Critic)

Мы продолжаем рассмотрение алгоритмов обучения с подкреплением в решении задач непрерывного пространства действий. И в данной статье предлагаю познакомиться с алгоритмом Soft Аctor-Critic (SAC). Основное преимущество SAC заключается в способности находить оптимальные политики, которые не только максимизируют ожидаемую награду, но и имеют максимальную энтропию (разнообразие) действий.

JimReaper
JimReaper 2023.07.14
Enjoy!
Shah Yahya
Shah Yahya 2023.07.21
Thanks so much Dmitry! Really appreciate this.
Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 48): Методы снижения переоценки значений Q-функции
Нейросети — это просто (Часть 48): Методы снижения переоценки значений Q-функции

В предыдущей статье мы познакомились с методом DDPG, который позволяет обучать модели в непрерывном пространстве действий. Однако, как и другие методы Q-обучения, DDPG склонен к переоценки значений Q-функции. Эта проблема часто приводит к обучению агента с неоптимальной стратегией. В данной статье мы рассмотрим некоторые подходы преодоления упомянутой проблемы.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 47): Непрерывное пространство действий
Нейросети — это просто (Часть 47): Непрерывное пространство действий

В данной статье мы расширяем спектр задач нашего агента. В процесс обучения будут включены некоторые аспекты мани- и риск-менеджмента, которые являются неотъемлемой частью любой торговой стратегии.

Tanaka Black
Tanaka Black 2023.06.29
hie Dimitriy, i have a job for you please check your message inbox
Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 46): Обучение с подкреплением, направленное на достижение целей (GCRL)
Нейросети — это просто (Часть 46): Обучение с подкреплением, направленное на достижение целей (GCRL)

Предлагаю Вам познакомиться с ещё одним направлением в области обучения с подкреплением. Оно называется обучением с подкреплением, направленное на достижение целей (Goal-conditioned reinforcement learning, GCRL). В этом подходе агент обучается достигать различных целей в определенных сценариях.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 45): Обучение навыков исследования состояний
Нейросети — это просто (Часть 45): Обучение навыков исследования состояний

Обучение полезных навыков без явной функции вознаграждения является одной из основных задач в иерархическом обучении с подкреплением. Ранее мы уже познакомились с 2 алгоритмами решения данной задачи. Но вопрос полноты исследования окружающей среды остается открытым. В данной статье демонстрируется иной подход к обучению навыком. Использование которых напрямую зависит от текущего состояния системы.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 44): Изучение навыков с учетом динамики
Нейросети — это просто (Часть 44): Изучение навыков с учетом динамики

В предыдущей статье мы познакомились с методом DIAYN, который предлагает алгоритм изучения разнообразных навыков. Использование полученных навыкает может быть использовано различных задач. Но подобные навыки могут быть довольно непредсказуемы, что может осложнить из использование. В данной статье мы рассмотрим алгоритм обучения предсказуемых навыков.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 43): Освоение навыков без функции вознаграждения
Нейросети — это просто (Часть 43): Освоение навыков без функции вознаграждения

Проблема обучения с подкреплением заключается в необходимости определения функции вознаграждения, которая может быть сложной или затруднительной для формализации, и для решения этой проблемы исследуются подходы, основанные на разнообразии действий и исследовании окружения, которые позволяют обучаться навыкам без явной функции вознаграждения.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 42): Прокрастинация модели, причины и методы решения
Нейросети — это просто (Часть 42): Прокрастинация модели, причины и методы решения

Прокрастинация модели в контексте обучения с подкреплением может быть вызвана несколькими причинами, и решение этой проблемы требует принятия соответствующих мер. В статье рассмотрены некоторые из возможных причин прокрастинации модели и методы их преодоления.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 41): Иерархические модели
Нейросети — это просто (Часть 41): Иерархические модели

Статья описывает иерархические модели обучения, которые предлагают эффективный подход к решению сложных задач машинного обучения. Иерархические модели состоят из нескольких уровней, каждый из которых отвечает за различные аспекты задачи.

Dmitriy Gizlyk
Опубликовал статью Нейросети — это просто (Часть 40): Подходы к использованию Go-Explore на большом объеме данных
Нейросети — это просто (Часть 40): Подходы к использованию Go-Explore на большом объеме данных

В данной статье обсуждается применение алгоритма Go-Explore на протяжении длительного периода обучения, так как стратегия случайного выбора действий может не привести к прибыльному проходу с увеличением времени обучения.