Картинку также можно просто перетащить в текст или вставить её с помощью Ctrl+V
Research не удается добиться ни одной положительной сделки. В каталоге данных файлов нет. Файл SoftAC.bd в общей папке данных, по-видимому, пустой (12 байт). Study не цепляется на график. Подскажите, что делать?
1. Отличие положительных сделок при первых проходах Research вполне естественно, так как используются абсолютно случайные сети. И сделки будут такие же случайные. При запуксе советника установите максимально отрицательный MinProfit. Тогда файл SoftAC.bd наполнится примерами для первичного обучения модели.
2. В файле Study стоит проверка. Он не работает при остутствии примеров в SoftAC.bd. Ему банально нет данных для обучения моделей.
Спасибо, помогло. Начали появляться зеленые точки. Не мог додуматься, что значение MinProfit можно устанавливать в отрицательном диапазоне. Но есть еще один вопрос. Первую базу данных надо удалять вручную? И какой именно файл?
Вся база примеров в SoftAC.bd. Первую я удалял вручную. Но в советнике есть константа MaxReplayBuffer 500, которая ограничивает размер база примеров в 500 траекторий. При желании можно изменить и перекомпилировать файлы. Это позволяет в базе примеров держать только 500 последних траекторий.
Вся база примеров в SoftAC.bd. Первую я удалял вручную. Но в советнике есть константа MaxReplayBuffer 500, которая ограничивает размер база примеров в 500 траекторий. При желании можно изменить и перекомпилировать файлы. Это позволяет в базе примеров держать только 500 последних траекторий.
Еще раз спасибо.
Дмитрий подскажите, а вот в базе примеров при её заполнении и добавлении новых примеров, удаляются самые старые примеры или случайно? Или надо иметь базу примеров на всё количество сделок с учётом добавлений на тренировках, те базу допустим в 1000 траекторий?
И вот у Вас написано что вы делали проверку советником Test.mqh (после 500 000 итераций обучения) 10 раз. если я правильно понял. А потом Вы сказали что делали сбор - обучение - тест ещё 15 раз (циклов). И получили рабочую модель. Дак вот мне непонятно, вот на каждом этапе цикла Вы прогоняли по 10 раз советник Test.mqh или нет? Просто проблема у меня в том что если я так делаю то отрицательных примеров в базе у меня получается больше и советник в итоге начинает сам торговать в минус.
Допустим я собрал базу 200 траекторий. Провёл на ней обучение в 100 000 итераций. Потом добавил 10 проходов от теста. и Research.mqh мне добавил в базу к примеру 10-15 новых примеров. у него границу MinProfit я поставил к примеру -3000.
Делаю следующее обучение (100 000 итераций). Опять добавляю 10 проходов теста и 10-15 от Research.mqh. MinProfit ставлю к примеру -2500.
Опять обучаю (100 000 итераций). Опять 10 тестов и 10-15 примеров с Research.mqh. MinProfit=-2000.
И тд. Я привольно понимаю? Меня смущает, то что тест часто даёт очень большие отрицательные проходы с -7000 или даже -9000. И их будет очень много в базе. Не обучится ли сеть специально торговать в минус?
И что делать если проходы тестов дают результат хуже предыдущего раза? Менять ли MinProfit в отрицательную сторону? И что делать если с заданной границей (к примеру MinProfit=-500) Research.mqh ничего не может найти и добавить в базу за 100 проходов?
Дмитрий подскажите, а вот в базе примеров при её заполнении и добавлении новых примеров, удаляются самые старые примеры или случайно? Или надо иметь базу примеров на всё количество сделок с учётом добавлений на тренировках, те базу допустим в 1000 траекторий?
Удаляются самые старые. Организовано по принципу FIFO - первый пришел-первый ушел.
И вот у Вас написано что вы делали проверку советником Test.mqh (после 500 000 итераций обучения) 10 раз. если я правильно понял. А потом Вы сказали что делали сбор - обучение - тест ещё 15 раз (циклов). И получили рабочую модель. Дак вот мне непонятно, вот на каждом этапе цикла Вы прогоняли по 10 раз советник Test.mqh или нет? Просто проблема у меня в том что если я так делаю то отрицательных примеров в базе у меня получается больше и советник в итоге начинает сам торговать в минус.
Я условно делаю 10 одиночных проходов в тестере стратегий, чтобы оценить границы разброса результатов модели. И выбираю верхний квантиль, чтобы при последующем сборе траекторий в режиме оптимизации отобрать лучшие.

- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Вы принимаете политику сайта и условия использования
Опубликована статья Нейросети — это просто (Часть 50): Soft Actor-Critic (оптимизация модели):
В предыдущей статье мы реализовали алгоритм Soft Actor-Critic, но не смогли обучить прибыльную модель. В данной статье мы проведем оптимизацию ранее созданной модели для получения желаемых результатов её работы.
Продолжаем изучение алгоритма Soft Actor-Critic. В предыдущей статье мы реализовали данный алгоритм, но, к сожалению, не смогли обучить прибыльную модель. Сегодня мы поговорим о вариантах решения этой проблемы. Подобный вопрос уже поднимался в статье "Прокрастинация модели, причины и методы решения". Я предлагаю расширить наши знания в данной области и рассмотреть новые подходы на примере нашей модели Soft Actor-Critic.
И прежде, чем перейти непосредственно к оптимизации построенной нами модели напомню, что Soft Actor-Critic является алгоритмом обучения с подкреплением стохастических моделей в непрерывном пространстве действий. Основной особенностью данного метода является введение энтропийной составляющей в функцию вознаграждения.
Использование стохастической политики Актера позволяет модели быть более гибкой и способной решать задачи в сложных средах, где некоторые действия могут быть неопределенными или невозможными к определению четких правил. Такая политика часто более устойчива в работе с данными, содержащими большое количество шума. Так как учитывает вероятностную составляющую, а не привязана к четким правилам.
Автор: Dmitriy Gizlyk