Dmitriy Gizlyk / Профиль
- Информация
10+ лет
опыт работы
|
0
продуктов
|
0
демо-версий
|
134
работ
|
0
сигналов
|
0
подписчиков
|
![Нейросети — это просто (Часть 74): Адаптивное прогнозирование траекторий](https://c.mql5.com/2/65/Neural_networks_are_easy_4Part_74w_Adaptive_trajectory_prediction____LOGO.png)
Предлагаю Вам познакомиться с довольно эффективным методом многоагентного прогнозирования траекторий, который способен адаптироваться к различным состояниям окружающей среды.
![Нейросети — это просто (Часть 73): АвтоБоты прогнозирования ценового движения](https://c.mql5.com/2/64/Neural_networks_are_easy_jPart_73u__AutoBots_for_predicting_price_movement_LOGO.png)
Мы продолжаем рассмотрения алгоритмов обучения моделей прогнозирования траекторий. И в данной статье я предлагаю Вам познакомиться с методом под названием “AutoBots”.
![Нейросети — это просто (Часть 72): Прогнозирование траекторий в условиях наличия шума](https://c.mql5.com/2/64/Neural_networks_made_easy_6Part_72m__Predicting_trajectories_in_the_presence_of_noise___LOGO-FNYbN4B.png)
Качество прогнозирование будущих состояний играет важную роль в метода Goal-Conditioned Predictive Coding, с которым мы познакомились в предыдущей статье. В данной статье я хочу познакомить Вас с алгоритмом, способным значительно повысить качество прогнозирования в стохастических средах, к которым можно отнести и финансовые рынки.
![Нейросети — это просто (Часть 71): Прогнозирование будущих состояний с учетом поставленных целей (GCPC)](https://c.mql5.com/2/63/Neural_networks_made_easy_sPart_71__GCPC0_LOGO.png)
В предыдущих работах мы познакомились с методом Decision Transformer и несколькими производными от него алгоритмами. Мы экспериментировали с различными методами постановки цели. В процессе экспериментов мы работали с различными способами постановки целей, однако изучение моделью уже пройденной траектории всегда оставалось вне нашего внимания. В данной статье я хочу познакомить Вас с методом, который заполняет этот пробел.
![Нейросети — это просто (Часть 70): Улучшение политики с использованием операторов в закрытой форме (CFPI)](https://c.mql5.com/2/63/Neural_Networks_Made_Easy_uPart_70p_CFPI_LOGO.png)
В этой статье мы предлагаем познакомиться с алгоритмом, который использует операторы улучшения политики в закрытой форме для оптимизации действий Агента в офлайн режиме.
![Нейросети — это просто (Часть 69): Ограничение политики поведения на основе плотности офлайн данных (SPOT)](https://c.mql5.com/2/63/midjourney_image_13954_55_495__1-logo__1.png)
В оффлайн обучении мы используем фиксированный набор данных, что ограничивает покрытие разнообразия окружающей среды. В процессе обучения наш Агент может генерировать действия вне этого набора. При отсутствии обратной связи от окружающей среды корректность оценок таких действий вызывает вопросы. Поддержание политики Агента в пределах обучающей выборки становится важным аспектом для обеспечения надежности обучения. Об этом мы и поговорим в данной статье.
![JimReaper JimReaper](https://c.mql5.com/avatar/2023/9/650d3819-17e6.jpg)
![Нейросети — это просто (Часть 68): Офлайн оптимизация политик на основе предпочтений](https://c.mql5.com/2/62/midjourney_image_13912_49_444__1-logo.png)
С первых статей, посвященных обучению с подкреплением, мы так или иначе затрагиваем 2 проблемы: исследование окружающей среды и определение функции вознаграждения. Последние статьи были посвящены проблеме исследования в офлайн обучении. В данной статье я хочу Вас познакомить с алгоритмом, авторы которого полностью отказались от функции вознаграждения.
![Нейросети — это просто (Часть 67): Использование прошлого опыта для решения новых задач](https://c.mql5.com/2/62/Neural_networks_made_easy_Part_67__LOGO.png)
В данной статье мы продолжим разговор о методах сбора данных в обучающую выборку. Очевидно, что в процессе обучения необходимо постоянное взаимодействие с окружающей средой. Но ситуации бывают разные.
![JimReaper JimReaper](https://c.mql5.com/avatar/2023/9/650d3819-17e6.jpg)
![Нейросети — это просто (Часть 66): Проблематика исследования в офлайн обучении](https://c.mql5.com/2/61/Neural_networks_are_easy_Part_66_LOGO.png)
Обучение моделей в офлайн режиме осуществляется на данных ранее подготовленной обучающей выборки. Это дает нам ряд преимуществ, но при этом информация об окружающей среде сильно сжимается до размеров обучающей выборки. Что, в свою очередь, ограничивает возможности исследования. В данной статье хочу предложить познакомиться с методом, позволяющем наполнить обучающую выборку максимально разнообразными данными.
![JimReaper JimReaper](https://c.mql5.com/avatar/2023/9/650d3819-17e6.jpg)
![Нейросети — это просто (Часть 65): Дистанционно-взвешенное обучение с учителем (DWSL)](https://c.mql5.com/2/61/Neural_Networks_Made_Easy_lPart_65q_DWSL_LOGO.png)
В данной статье я предлагаю Вам познакомиться с интересным алгоритмом, который построен на стыке методов обучения с учителем и подкреплением.
![Нейросети — это просто (Часть 64): Метод Консервативного Весового Поведенческого Клонирования (CWBC)](https://c.mql5.com/2/60/Neural_networks_made_easy_rPart_64s_CWBC__Logo.png)
В результате тестов, проведенных в предыдущих статьях, мы пришли к выводу, что оптимальность обученной стратегии во многом зависит от используемой обучаемой выборки. В данной статье я предлагаю вам познакомиться с довольно простым и эффективном методе выбора траекторий для обучения моделей.
![Нейросети — это просто (Часть 63): Предварительное обучение Трансформера решений без учителя (PDT)](https://c.mql5.com/2/60/Neural_networks_are_easy_wPart_636_Logo.png)
Продолжаем рассмотрение семейства методов Трансформера решений. Из предыдущих работ мы уже заметили, что обучение трансформера, лежащего в основе архитектуры данных методов, довольно сложная задача и требует большого количества размеченных обучающих данных. В данной статье мы рассмотрим алгоритм использования не размеченных траекторий для предварительного обучения моделей.
![Нейросети — это просто (Часть 62): Использование Трансформера решений в иерархических моделях](https://c.mql5.com/2/59/Neural_networks_are_easy_0Part_62s_logo.png)
В последних статьях мы познакомились с несколькими вариантами использования метода Decision Transformer. Который позволяет анализировать не только текущее состояние, но и траекторию предшествующих состояний и, совершенных в них, действий. В данной статье я предлагаю Вам познакомиться с вариантом использования данного метода в иерархических моделях.
![Нейросети — это просто (Часть 61): Проблема оптимизма в офлайн обучении с подкреплением](https://c.mql5.com/2/59/NN_easy_61_Logo__V4_.png)
В процессе офлайн обучения мы оптимизируем политику Агента по данным обучающей выборки. Полученная стратегия придает Агенту уверенность в его действиях. Однако такой оптимизм не всегда оправдан и может привести к увеличению рисков в процессе эксплуатации модели. Сегодня мы рассмотрим один из методов снижения этих рисков.
![Нейросети — это просто (Часть 60): Онлайн Трансформер решений (Online Decision Transformer—ODT)](https://c.mql5.com/2/59/Online_Decision_Transformer_logo_up.png)
Последние 2 статьи были посвящены методу Decision Transformer, который моделирует последовательности действий в контексте авторегрессионной модели желаемых вознаграждений. В данной статье мы рассмотрим ещё один алгоритм оптимизации данного метода.
![Нейросети — это просто (Часть 59): Дихотомия контроля (Dichotomy of Control — DoC)](https://c.mql5.com/2/58/logo__1.png)
В предыдущей статье мы познакомились с Трансформером решений. Но сложная стохастическая среда валютного рынка не позволила в полной мере раскрыть потенциал представленного метода. Сегодня я хочу представить Вам алгоритм, который направлен на повышение производительности алгоритмов в стохастических средах.
![Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT)](https://c.mql5.com/2/58/decision-transformer-avatar.png)
Мы продолжаем рассмотрение методов обучения с подкреплением. И в данной статье я предлагаю вам познакомиться с несколько иным алгоритмом, который рассматривает политику Агента в парадигме построения последовательности действий.
![Yao Wei Lai Yao Wei Lai](https://c.mql5.com/avatar/avatar_na2_micro.png)
![Нейросети — это просто (Часть 57): Стохастический маргинальный актор-критик (SMAC)](https://c.mql5.com/2/58/stochastic_marginal_actor_critic_avatar.png)
Предлагаем познакомиться с довольно новым алгоритмом Stochastic Marginal Actor-Critic (SMAC), который позволяет строить политики латентных переменных в рамках максимизации энтропии.
![Нейросети — это просто (Часть 56): Использование ядерной нормы для стимулирования исследования](https://c.mql5.com/2/57/nuclear_norm_utilization_avatar.png)
Исследование окружающей среды в задачах обучения с подкреплением является актуальной проблемой. Ранее мы уже рассматривали некоторые подходы. И сегодня я предлагаю познакомиться с ещё одним методом, основанным на максимизации ядерной нормы. Он позволяет агентам выделять состояния среды с высокой степенью новизны и разнообразия.
![Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC)](https://c.mql5.com/2/57/cic-055-avatar.png)
Контрастное обучение (Contrastive learning) - это метод обучения представлению без учителя. Его целью является обучение модели выделять сходства и различия в наборах данных. В данной статье мы поговорим об использовании подходов контрастного обучения для исследования различных навыков Актера.