Обсуждение статьи "Нейросети — это просто (Часть 41): Иерархические модели"

 

Опубликована статья Нейросети — это просто (Часть 41): Иерархические модели:

Статья описывает иерархические модели обучения, которые предлагают эффективный подход к решению сложных задач машинного обучения. Иерархические модели состоят из нескольких уровней, каждый из которых отвечает за различные аспекты задачи.

Алгоритм Scheduled Auxiliary Control (SAC-X) является методом обучения с подкреплением, который использует иерархическую структуру для принятия решений. И представляет собой новый подход в направлении решения задач с разряженным вознаграждением. Он основан на четырех основных принципах:

  1. Каждая пара состояние-действие сопровождается вектором наград, состоящим из (обычно разреженных) внешних наград и (обычно разреженных) внутренних вспомогательных наград.
  2. Каждой записи награды назначается политика, называемая намерением, которая обучается максимизировать соответствующую накопленную награду.
  3. Существует высокоуровневый планировщик, который выбирает и выполняет отдельные намерения с целью улучшения производительности агента внешних задач.
  4. Обучение происходит вне политики (асинхронно от выполнения политики), а опыт между намерениями обменивается — для эффективного использования информации.

Алгоритм SAC-X использует эти принципы для эффективного решения задач с разреженной наградой. Векторы наград позволяют учиться на различных аспектах задачи и создавать множество намерений, каждое из которых максимизирует свою награду. Планировщик управляет выполнением намерений, выбирая оптимальную стратегию для достижения внешних задач. Обучение происходит вне политики, что позволяет использовать опыт от различных намерений для эффективного обучения.

Этот подход позволяет агенту эффективно решать задачи с разреженной наградой, обучаясь на внешних и внутренних наградах. А использование планировщика позволяет координации действия. Он также подразумевает обмен опытом между намерениями, что способствует эффективному использованию информации и повышает общую производительность агента.


SAC-X обеспечивает более эффективное и гибкое обучение агента в средах с разреженной наградой. Ключевой особенностью SAC-X является использование внутренних вспомогательных наград, которые помогают преодолеть проблему разреженности и облегчают обучение на задачах с низкими наградами.

В процессе обучения SAC-X каждое намерение имеет свою политику, которая максимизирует соответствующую вспомогательную награду. Планировщик определяет, какие намерения будут выбраны и выполняются в каждый момент времени. Это позволяет агенту учиться на различных аспектах задачи и эффективно использовать доступную информацию для достижения оптимальных результатов.

Автор: Dmitriy Gizlyk

 

Советник открыл бай и доливал на каждой свече. Где то я уже такое видел.

У Actor ошибка отрицательная или это просто дефис?

 
Уважаемый   Dmitriy Gizlyk. Вы когда то обещали нам перевести на многопоточность Fractal_LSTM. Будьте так добры, найдите время. Я на том уровне еще что то понимаю, дальше уже полный аут. А чисто механически в этом деле вряд ли что получится. Думаю, многие из здесь присутствующих будут вам благодарны. Как никак это форум совсем не программистов.
 
star-ik #:
Уважаемый   Dmitriy Gizlyk. Вы когда то обещали нам перевести на многопоточность Fractal_LSTM. Будьте так добры, найдите время. Я на том уровне еще что то понимаю, дальше уже полный аут. А чисто механически в этом деле вряд ли что получится. Думаю, многие из здесь присутствующих будут вам благодарны. Как никак это форум совсем не программистов.

LSTM слой в реализации OpenCL описан в статье "Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей"

Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
  • www.mql5.com
Мы продолжаем рассмотрение алгоритмов обучения без учителя. И сейчас я предлагаю обсудить особенности использования автоэнкодеров для обучения рекуррентных моделей.
 
Dmitriy Gizlyk #:

LSTM слой в реализации OpenCL описан в статье "Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей"

Это один из тех советников, которых я не сумел заставить торговать. Потому и хотелось бы увидеть многопоточность именно в советнике из 4 части (обучение с учителем). Или этот (22), но снабженный какой-никакой торговой функцией.