Загрубление оценочной функции улучшило предсказательность

FxTrader562 2018.08.04 20:33 #41

Maxim Dmitrievsky :

Hi, not ready yet. When it is completed, I'll write to you.

Спасибо за ответ.

Вы когда-нибудь думали о внедрении Q-обучения в качестве функции вознаграждения в вашей текущей реализации Леса случайных решений?

Я имею в виду, хотите ли вы использовать «уравнение Беллмана» как способ вознаградить агента за обновление матрицы вознаграждения за каждую свечу, закрытую для принятия решений, и это возможно?

У меня просто есть образец кода MQL5 формулы Q для реализации, и если вы заинтересованы, я отправлю сюда. Я попытался реализовать себя, но я не очень хорошо разбираюсь в матричной реализации и до сих пор не уверен на 100% как правильно использовать матрицу.

Кстати, я должен признать, что EA иногда дает некоторые многообещающие и удивительные результаты в определенных рыночных условиях, но не всегда, когда меняется рынок. Поэтому я также пытаюсь реализовать что-то, чтобы EA сразу же изменил предикторы (индикаторы) автоматически, если произойдет одна потеря. Я видел, как вы упомянули об этой идее автоматического выбора предикторов в одном из ваших комментариев, который, как я думаю, также является самой важной частью.

Помощь в кодировании Обсуждение статьи "Разработка торговой Ошибка Моланиса Кто-нибудь?

[Удален] 2018.08.04 20:47 #42

FxTrader562 :

Спасибо за ответ.

Вы когда-нибудь думали о внедрении Q-обучения в качестве функции вознаграждения в вашей текущей реализации Леса случайных решений?

Я имею в виду, хотите ли вы использовать «уравнение Беллмана» как способ вознаградить агента за обновление матрицы вознаграждения за каждую свечу, закрытую для принятия решений, и это возможно?

У меня просто есть образец кода MQL5 формулы Q для реализации, и если вы заинтересованы, я отправлю сюда. Я попытался реализовать себя, но я не очень хорошо разбираюсь в матричной реализации и до сих пор не уверен на 100% как правильно использовать матрицу.

Кстати, я должен признать, что EA иногда дает некоторые многообещающие и удивительные результаты в определенных рыночных условиях, но не всегда, когда меняется рынок. Поэтому я также пытаюсь реализовать что-то, чтобы EA сразу же изменил предикторы (индикаторы) автоматически, если произойдет одна потеря. Я видел, как вы упомянули об этой идее автоматического выбора предикторов в одном из ваших комментариев, который, как я думаю, также является самой важной частью.

Да, я думал о Q-обучении. Дело в том, что сам случайный лес аппроксимирует политику, поэтому нет необходимости в уравнении Беллмана. Кроме того, q-learning очень сильно перегружен.

Теперь я ищу решения для автоматической трансформации функций, например «ядровые трюки». Затем, итеративно, мы можем обучить модель и выбрать модель с преобразованными функциями с небольшой ошибкой классификации на тестовом подмножестве.

Изучаем ONNX для применения Разговор с искусственным интеллектом Машинное обучение и нейронные

FxTrader562 2018.08.04 21:09 #43

Maxim Dmitrievsky :

Да, я думал о Q-обучении. Дело в том, что сам случайный лес аппроксимирует политику, поэтому нет необходимости в уравнении Беллмана. Кроме того, q-learning очень сильно перегружен.

Теперь я ищу решения для автоматической трансформации функций, например «ядровые трюки». Затем, итеративно, мы можем обучить модель и выбрать модель с преобразованными функциями с небольшой ошибкой классификации на тестовом подмножестве.

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

Машинное обучение в трейдинге: Сигналы : Спрашивайте и Бэктестинг/оптимизация

FxTrader562 2018.08.04 21:13 #44

FxTrader562 :

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

Поэтому я считаю, что автоматическая оптимизация будет полезна для реализации в этом случае. Я думаю, что одна статья уже существует для автоматической оптимизации, и если вы можете реализовать ее для своего текущего советника, задача будет завершена.

Машинное обучение в трейдинге: Советник Profit Generator Бэктестинг/оптимизация

[Удален] 2018.08.05 08:53 #45

FxTrader562 :

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

Поэтому я считаю, что автоматическая оптимизация будет полезна для реализации в этом случае. Я думаю, что одна статья уже существует для автоматической оптимизации, и если вы можете реализовать ее для своего текущего советника, задача будет завершена.

Например, вы можете изменить функцию вознаграждения, чтобы приблизиться к коэффициенту Sharpe. Или другие показатели. Я пробовал разные функции и понял, что усложнение не дает большого преимущества.

Также вы можете прочитать это: https://github.com/darden1/tradingrrl

Автоматическая оптимизация - хорошая идея, но сейчас я работаю над улучшением текущего алгоритма.

Профиль рынка [Архив!] Любой вопрос новичка, Предложения для эксперта (от

FxTrader562 2018.08.05 13:03 #46

Maxim Dmitrievsky :

Например, вы можете изменить функцию вознаграждения, чтобы приблизиться к коэффициенту Sharpe. Или другие показатели. Я пробовал разные функции и понял, что усложнение не дает большого преимущества.

Также вы можете прочитать это: https://github.com/darden1/tradingrrl

Автоматическая оптимизация - хорошая идея, но сейчас я работаю над улучшением текущего алгоритма.

Спасибо за статью. Я буду смотреть в него.

Нет никаких сомнений в том, что с точки зрения простоты кодирования, скорости обучения и точности результатов, нынешняя реализация до сих пор является лучшей из тех, что я когда-либо видел в компьютерном обучении, и добавляя несколько дополнительных индикаторов, вероятно, результаты могут быть даже значительно усилены.

Я полностью согласен с вами в том, что небольшие осложнения делают результаты еще хуже, и EA учится лучше всего своими силами. Я попытался применить стоп-лосс и takeprofit, чтобы ограничить количество потерь, и результаты ухудшились при плотном стоп-лоссе.

Но единственное, чего не хватает, - это итеративное обучение. Я имею в виду, что алгоритм учится только во время оптимизации, и после этого он полностью зависит от подготовленных данных и, следовательно, в одном случае мы не можем назвать его «Укрепление обучения», потому что он не учится во время торговли и только учится во время обучения ,

Поэтому я ищу какое-то решение только для автоматизации оптимизации при каждой потере. Я имею в виду каждую потерю, а также обновление вознаграждения, советник должен позвонить оптимизатору, чтобы тренировать его снова за прошлый месяц данных. Или мы можем сделать паузу на некоторое время после потери, а позже после завершения оптимизации EA снова возобновит торговлю. Таким образом, обученные деревья (текстовый файл Mtrees) всегда будут содержать последнюю политику, основанную на текущем рынке.

Вероятно, есть несколько статей по автоматической оптимизации, но я не эксперт-программист, и, следовательно, до сих пор я не нашел способа интегрировать его в ваш советник.

Поскольку ваша текущая реализация уже использует политику из подготовленных данных и, следовательно, в отличие от других экспертов, вашему автоматизатору не нужно сохранять значения после автоматической оптимизации. Просто запустите оптимизатор и нажмите кнопку «Старт» вместе с датой начала и окончания будет достаточно для автоматизации оптимизации.

Обсуждение статьи "Разработка торговой Обсуждение статьи "Визуализация результатов Обсуждение статьи "Нейросети в

[Удален] 2018.08.05 15:56 #47

FxTrader562:

Спасибо за статью. Я буду смотреть в него.

Нет никаких сомнений в том, что с точки зрения простоты кодирования, скорости обучения и точности результатов, нынешняя реализация до сих пор является лучшей из тех, что я когда-либо видел в компьютерном обучении, и добавляя несколько дополнительных индикаторов, вероятно, результаты могут быть даже значительно усилены.

Я полностью согласен с вами в том, что небольшие осложнения делают результаты еще хуже, и EA учится лучше всего своими силами. Я попытался применить стоп-лосс и takeprofit, чтобы ограничить количество потерь, и результаты ухудшились при плотном стоп-лоссе.

Но единственное, чего не хватает, - это итеративное обучение. Я имею в виду, что алгоритм учится только во время оптимизации, и после этого он полностью зависит от подготовленных данных и, следовательно, в одном случае мы не можем назвать его «Укрепление обучения», потому что он не учится во время торговли и только учится во время обучения ,

Поэтому я ищу какое-то решение только для автоматизации оптимизации при каждой потере. Я имею в виду каждую потерю, а также обновление вознаграждения, советник должен позвонить оптимизатору, чтобы тренировать его снова за прошлый месяц данных. Или мы можем сделать паузу на некоторое время после потери, а позже после завершения оптимизации EA снова возобновит торговлю. Таким образом, обученные деревья (текстовый файл Mtrees) всегда будут содержать последнюю политику, основанную на текущем рынке.

Вероятно, есть несколько статей по автоматической оптимизации, но я не эксперт-программист, и, следовательно, до сих пор я не нашел способа интегрировать его в ваш советник.

Поскольку ваша текущая реализация уже использует политику из подготовленных данных и, следовательно, в отличие от других экспертов, вашему автоматизатору не нужно сохранять значения после автоматической оптимизации. Просто запустите оптимизатор и нажмите кнопку «Старт» вместе с датой начала и окончания будет достаточно для автоматизации оптимизации.

Я вас понял, для этого нужен виртуальный бэк тестер. Написать его совсем не сложно, возможно добавлю в следующих статьях.

FxTrader562 2018.08.05 16:46 #48

Maxim Dmitrievsky :

Я понимаю вас, для этого требуется виртуальный тестер. Это не сложно написать, я, вероятно, добавлю его в следующие статьи.

Большое спасибо. Я буду смотреть на это в ваших будущих статьях.

Да, я также думаю, что это не должно быть трудной задачей, особенно для вашей эры, поскольку нет ничего особенного, кроме использования оптимизатора от даты начала до сегодняшней даты, и период оптимизации может быть указан во входных настройках EA , Я имею в виду, что читать и писать из оптимизированных файлов нет, так как это уже сделано вашим ea. Но я точно не знаю, как это сделать, и, следовательно, я буду ждать вашего обновления.

Кстати, самая необычная вещь, которая привлекла меня к лесу случайных решений (RDF), заключается в том, что я заметил, что базовая модель реализации RDF очень похожа на игру GO, хотя я могу ошибаться в своих наблюдениях. Поэтому, если машинное обучение algo «ALPHAGO» может победить такую сложную игру, как go, то RDF может определенно победить рынок форекс. Я имею в виду, что я очень верю, что очень легко получить 99% -ную точность сделок с использованием RDF, если достаточные входные переменные (индикаторы) будут подаваться и постоянно подаваться для разработки и поддержания оптимальной политики, пока торговля включена.

Еще раз спасибо за ваше время.

Обсуждение статьи "Визуализация результатов Отличный советник в бэктесте! Пожелания к MQL5

Oleg Mironov 2018.08.05 17:59 #49

Добрый день,

Выкладываю результаты некоторых экспериментов (получены на чистых деревьях без нечеткой логики, думал прикрепить уже к новой статье, но т.к. продолжается обсуждение функций вознаграждения, выкладываю как информацию к осмыслению и обсуждению).

1.Мне показалось не совсем верным что допустим при SELL случайное значение задается на всем интервале 0..1, ведь мы уже знаем что продажи убыточны

if(RDFpolisyMatrix[numberOfsamples-1][iNeuronEntra]==1.0)//SELL
   likelyhood = MathRandomUniform(0.0,0.6,unierr);
else
   likelyhood = MathRandomUniform(0.4,1.0,unierr);

ограничив диапазоны противополодным значением и неопределенным, в разы повышается скорость обучения. При 2-3 прогонах (весде считаю с проходом на случайных данных) качество обучения как при 4-6 старых (разбросы широки, т.к. много доп. факторов, но эффективность повысилась даже не на десятки процентов).

2. В первичной реализации мне показалось странным, что значение полученное случайным образом, является подкрепляющим фактором. При этом легко возникает ситуация, при которой сильный тренд имеет меньшее вознаграждение.

Первая попытка уйти от этого

if(RDFpolisyMatrix[numberOfsamples-1][iNeuronEntra]==1.0)//SELL
      nagrada=MathMin(1.0,0.61+NormalizeDouble(profit/WS.PriceStep()/250,2));

Идея: при 100 пунктах и выше взятой прибыли- 1, если меньше - равномерно растет (в данном случае от 0.61). Припер пдля продажи, для покупки аналогично с другими уровнями. Теоретически для более сильного тренда - более высокое вознаграждение. Результата улучшились, но чуть сильнее чем стат. погрешность. При этом файл с деревом для тех же условий значительно уменьшился в размере. Судя по всему такая своеобразная сортировка результатов позволила более просто описать правила.

Для проверки ансамбля деревьев, решил загрубить оценку одного дерева

updatePolicy(0); //для BUY
updatePolicy(1); //для SELL

и по привычке прогнал обучение. Каково было мое удивление, на подобном обучении с огрубленной функцией вознаграждения показал значительное улучшение - на обучаемом участке при прочих равных прибыль за 4 месяца превысила прибыль на 6 старого варианта (я оперирую сравнениями, т.к. конкретные цифры сильно разнятся от условий обучения, пары, кривизны ручек кодера) и что самое интересное, улучшились результаты на контрольном интервале. Загрубление оценочной функции улучшило предсказательность! Наверное для профи-статистика здесь нет ничего нового и он формулами сможет доказать что так и должно быть, но для меня это шок, как говорят с этим необходимо просто сжиться. И встает вопрос о дальнейшем выборе и оценке функций предскаазания.

Надеюсь затраченное мной время на пробы, поможет кому-нибуть как минимум сократить время своих поисков (ну или даст возможность совершать уже новые ошибки, которыми с нами и поделится)

ФР Н-волатильность Машинное обучение в трейдинге: Может кто-нибудь подсказать мне

Igor Makanu 2018.08.05 20:34 #50

а насколько реально этот, любезно предоставленный код автором статьи, обучить простейшим паттернам из 3-5 баров?

ЗЫ: хм, чет под алкоголем пишу как на алиэкспресс китайцу продавцу )))

Обсуждение статьи "Random Decision Forest в обучении с подкреплением" - страница 5