Обсуждение статьи "Нейросети — это просто (Часть 32): Распределенное Q-обучение"

 

Опубликована статья Нейросети — это просто (Часть 32): Распределенное Q-обучение:

В одной из статей данной серии мы с вами уже познакомились с методом Q-обучения. Данный метод усредняет вознаграждения за каждое действие. В 2017 году были представлены сразу 2 работы, в которых большего успеха добиваются при изучении функции распределения вознаграждения. Давайте рассмотрим возможность использования подобной технологии для решения наших задач.

По результатам работы тестового советника в тестере стратегий MetaTrader 5 за 2 анализируемых недели по сигналам модели была получена прибыль в размере около 20 долларов. Напомню, что все торговые операции выполнялись фиксированным минимальным лотом. На представленном ниже графике легко заметить явную тенденцию к росту баланса.

Тестирование модели в тестере стратегий

Тестирование модели распределенного Q-обучения

Статистика торговых операций демонстрирует практически 56% прибыльных операций. Однако следует учесть, что советник был создан исключительно для тестирования модели в тестере стратегий и непригоден для реальной торговли на финансовых рынках.

Автор: Dmitriy Gizlyk

 
  • 3-х сверточных слоёв предварительной обработки данных,

Каковы параметры Activation, Optimization, Window, Step и Window Out у них?

  • 3-х полносвязных скрытых слоёв из 1000 нейронов в каждом,

Каковы параметры Activation, Optimization у них?

  • 1-го полносвязного слоя принятия решения из 45 нейронов (по 15 нейронов на 3 вероятностных распределения действий),

Каковы параметры Activation, Optimization у них? 

  • 1-го слоя SoftMax для нормализации вероятностных распределений.

В NetCreator указан SiftMax. У него в итоге выйдет outputs 45? 

 

В NetCreator указан SiftMax. У него в итоге выйдет outputs 45? 

Воспользуйтесь NetCreator из данной статьи. В нем добавлен параметр Heads для SoftMax. В нем необходимо указать количество возможных действий. Тогда параметр размера слоя SoftMax изменится.

 
Ivan Butko #:

Каковы параметры Activation, Optimization у них? 

Для оптимизации всех нейронных слоёв я использовал Adam. Перед SoftMax функция активация не используется. Она может сделать большое количество нейронов с одинаковым результатом на уровне границ области результатов. И SoftMax даст для них одинаковые вероятности. Что исказит результат. Здесь SoftMax является функцией активации.