Обсуждение статьи "Random Decision Forest в обучении с подкреплением" - страница 4

 

Привет, Максим Дмитриевский ,

сколько вы закончили следующую статью о лесу с случайным решением?

Или вы уже опубликовали следующую статью? Если да, можете ли вы предоставить ссылку?

большое спасибо


 
FxTrader562 :

Привет, Максим Дмитриевский ,

сколько вы закончили следующую статью о лесу с случайным решением?

Или вы уже опубликовали следующую статью? Если да, можете ли вы предоставить ссылку?

большое спасибо


Привет, пока не готов. Когда он будет завершен, я напишу вам.

 
Maxim Dmitrievsky :

Hi, not ready yet. When it is completed, I'll write to you.

Спасибо за ответ.

Вы когда-нибудь думали о внедрении Q-обучения в качестве функции вознаграждения в вашей текущей реализации Леса случайных решений?

Я имею в виду, хотите ли вы использовать «уравнение Беллмана» как способ вознаградить агента за обновление матрицы вознаграждения за каждую свечу, закрытую для принятия решений, и это возможно?

У меня просто есть образец кода MQL5 формулы Q для реализации, и если вы заинтересованы, я отправлю сюда. Я попытался реализовать себя, но я не очень хорошо разбираюсь в матричной реализации и до сих пор не уверен на 100% как правильно использовать матрицу.

Кстати, я должен признать, что EA иногда дает некоторые многообещающие и удивительные результаты в определенных рыночных условиях, но не всегда, когда меняется рынок. Поэтому я также пытаюсь реализовать что-то, чтобы EA сразу же изменил предикторы (индикаторы) автоматически, если произойдет одна потеря. Я видел, как вы упомянули об этой идее автоматического выбора предикторов в одном из ваших комментариев, который, как я думаю, также является самой важной частью.

 
FxTrader562 :

Спасибо за ответ.

Вы когда-нибудь думали о внедрении Q-обучения в качестве функции вознаграждения в вашей текущей реализации Леса случайных решений?

Я имею в виду, хотите ли вы использовать «уравнение Беллмана» как способ вознаградить агента за обновление матрицы вознаграждения за каждую свечу, закрытую для принятия решений, и это возможно?

У меня просто есть образец кода MQL5 формулы Q для реализации, и если вы заинтересованы, я отправлю сюда. Я попытался реализовать себя, но я не очень хорошо разбираюсь в матричной реализации и до сих пор не уверен на 100% как правильно использовать матрицу.

Кстати, я должен признать, что EA иногда дает некоторые многообещающие и удивительные результаты в определенных рыночных условиях, но не всегда, когда меняется рынок. Поэтому я также пытаюсь реализовать что-то, чтобы EA сразу же изменил предикторы (индикаторы) автоматически, если произойдет одна потеря. Я видел, как вы упомянули об этой идее автоматического выбора предикторов в одном из ваших комментариев, который, как я думаю, также является самой важной частью.

Да, я думал о Q-обучении. Дело в том, что сам случайный лес аппроксимирует политику, поэтому нет необходимости в уравнении Беллмана. Кроме того, q-learning очень сильно перегружен.

Теперь я ищу решения для автоматической трансформации функций, например «ядровые трюки». Затем, итеративно, мы можем обучить модель и выбрать модель с преобразованными функциями с небольшой ошибкой классификации на тестовом подмножестве.

 
Maxim Dmitrievsky :

Да, я думал о Q-обучении. Дело в том, что сам случайный лес аппроксимирует политику, поэтому нет необходимости в уравнении Беллмана. Кроме того, q-learning очень сильно перегружен.

Теперь я ищу решения для автоматической трансформации функций, например «ядровые трюки». Затем, итеративно, мы можем обучить модель и выбрать модель с преобразованными функциями с небольшой ошибкой классификации на тестовом подмножестве.

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

 

FxTrader562 :

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

Поэтому я считаю, что автоматическая оптимизация будет полезна для реализации в этом случае. Я думаю, что одна статья уже существует для автоматической оптимизации, и если вы можете реализовать ее для своего текущего советника, задача будет завершена.




 
FxTrader562 :

Да, я согласен с вами в отношении сближения политики. Но при нынешнем внедрении политики в политику политика не учитывает последовательные потери торговой истории, торгового плавающего дохода и т. Д. И, следовательно, говоря о реализации Q, я имею в виду, что агент будет иметь полное представление о текущей плавающей прибыли каждого открытую торговлю и предыдущие последовательные убытки и прибыль, и, соответственно, она будет приближать политику для максимизации прибыли и НЕ нацелена только на то, чтобы максимизировать количество прибыльных сделок, которые становятся неактуальными, когда происходят большие потери.

Я имею в виду, что прибыль от серии прибыльных сделок будет стерта из одной большой потери, но для агента это не имеет значения, поскольку она просто нацелена на максимизацию количества прибыльных сделок. Таким образом, в Q-стоимости мы можем дать немедленное вознаграждение к агенту с текущей плавающей прибылью, которую агент будет проверять при каждой открытой свече, чтобы принять следующее решение максимизировать прибыль и свести к минимуму нисходящее движение независимо от количества прибыльных сделок или прекращения сделок.

Во всяком случае, если вы планируете внедрять что-то для обучения модели итеративно и автоматически при последовательных потерях, то это может быть очень полезно. Я буду смотреть на что-то подобное в следующей статье.

Кроме того, основываясь на моем обучении и тестировании EA за последние пару недель, я заметил, что просто нужно переключиться на другую модель (разные значения индикатора или индикаторы) автоматически, когда происходит одна потеря, в противном случае EA дает серию прибыльных торгуется, когда рынки попадают в стратегию на определенное время. Но как только происходит одна потеря, такая же серия потерь продолжает происходить довольно давно.

Поэтому я считаю, что автоматическая оптимизация будет полезна для реализации в этом случае. Я думаю, что одна статья уже существует для автоматической оптимизации, и если вы можете реализовать ее для своего текущего советника, задача будет завершена.

Например, вы можете изменить функцию вознаграждения, чтобы приблизиться к коэффициенту Sharpe. Или другие показатели. Я пробовал разные функции и понял, что усложнение не дает большого преимущества.

Также вы можете прочитать это: https://github.com/darden1/tradingrrl

Автоматическая оптимизация - хорошая идея, но сейчас я работаю над улучшением текущего алгоритма.

 
Maxim Dmitrievsky :

Например, вы можете изменить функцию вознаграждения, чтобы приблизиться к коэффициенту Sharpe. Или другие показатели. Я пробовал разные функции и понял, что усложнение не дает большого преимущества.

Также вы можете прочитать это: https://github.com/darden1/tradingrrl

Автоматическая оптимизация - хорошая идея, но сейчас я работаю над улучшением текущего алгоритма.

Спасибо за статью. Я буду смотреть в него.

Нет никаких сомнений в том, что с точки зрения простоты кодирования, скорости обучения и точности результатов, нынешняя реализация до сих пор является лучшей из тех, что я когда-либо видел в компьютерном обучении, и добавляя несколько дополнительных индикаторов, вероятно, результаты могут быть даже значительно усилены.

Я полностью согласен с вами в том, что небольшие осложнения делают результаты еще хуже, и EA учится лучше всего своими силами. Я попытался применить стоп-лосс и takeprofit, чтобы ограничить количество потерь, и результаты ухудшились при плотном стоп-лоссе.

Но единственное, чего не хватает, - это итеративное обучение. Я имею в виду, что алгоритм учится только во время оптимизации, и после этого он полностью зависит от подготовленных данных и, следовательно, в одном случае мы не можем назвать его «Укрепление обучения», потому что он не учится во время торговли и только учится во время обучения ,

Поэтому я ищу какое-то решение только для автоматизации оптимизации при каждой потере. Я имею в виду каждую потерю, а также обновление вознаграждения, советник должен позвонить оптимизатору, чтобы тренировать его снова за прошлый месяц данных. Или мы можем сделать паузу на некоторое время после потери, а позже после завершения оптимизации EA снова возобновит торговлю. Таким образом, обученные деревья (текстовый файл Mtrees) всегда будут содержать последнюю политику, основанную на текущем рынке.

Вероятно, есть несколько статей по автоматической оптимизации, но я не эксперт-программист, и, следовательно, до сих пор я не нашел способа интегрировать его в ваш советник.

Поскольку ваша текущая реализация уже использует политику из подготовленных данных и, следовательно, в отличие от других экспертов, вашему автоматизатору не нужно сохранять значения после автоматической оптимизации. Просто запустите оптимизатор и нажмите кнопку «Старт» вместе с датой начала и окончания будет достаточно для автоматизации оптимизации.

 
FxTrader562:

Спасибо за статью. Я буду смотреть в него.

Нет никаких сомнений в том, что с точки зрения простоты кодирования, скорости обучения и точности результатов, нынешняя реализация до сих пор является лучшей из тех, что я когда-либо видел в компьютерном обучении, и добавляя несколько дополнительных индикаторов, вероятно, результаты могут быть даже значительно усилены.

Я полностью согласен с вами в том, что небольшие осложнения делают результаты еще хуже, и EA учится лучше всего своими силами. Я попытался применить стоп-лосс и takeprofit, чтобы ограничить количество потерь, и результаты ухудшились при плотном стоп-лоссе.

Но единственное, чего не хватает, - это итеративное обучение. Я имею в виду, что алгоритм учится только во время оптимизации, и после этого он полностью зависит от подготовленных данных и, следовательно, в одном случае мы не можем назвать его «Укрепление обучения», потому что он не учится во время торговли и только учится во время обучения ,

Поэтому я ищу какое-то решение только для автоматизации оптимизации при каждой потере. Я имею в виду каждую потерю, а также обновление вознаграждения, советник должен позвонить оптимизатору, чтобы тренировать его снова за прошлый месяц данных. Или мы можем сделать паузу на некоторое время после потери, а позже после завершения оптимизации EA снова возобновит торговлю. Таким образом, обученные деревья (текстовый файл Mtrees) всегда будут содержать последнюю политику, основанную на текущем рынке.

Вероятно, есть несколько статей по автоматической оптимизации, но я не эксперт-программист, и, следовательно, до сих пор я не нашел способа интегрировать его в ваш советник.

Поскольку ваша текущая реализация уже использует политику из подготовленных данных и, следовательно, в отличие от других экспертов, вашему автоматизатору не нужно сохранять значения после автоматической оптимизации. Просто запустите оптимизатор и нажмите кнопку «Старт» вместе с датой начала и окончания будет достаточно для автоматизации оптимизации.

Я вас понял, для этого нужен виртуальный бэк тестер. Написать его совсем не сложно, возможно добавлю в следующих статьях.

 
Maxim Dmitrievsky :

Я понимаю вас, для этого требуется виртуальный тестер. Это не сложно написать, я, вероятно, добавлю его в следующие статьи.

Большое спасибо. Я буду смотреть на это в ваших будущих статьях.

Да, я также думаю, что это не должно быть трудной задачей, особенно для вашей эры, поскольку нет ничего особенного, кроме использования оптимизатора от даты начала до сегодняшней даты, и период оптимизации может быть указан во входных настройках EA , Я имею в виду, что читать и писать из оптимизированных файлов нет, так как это уже сделано вашим ea. Но я точно не знаю, как это сделать, и, следовательно, я буду ждать вашего обновления.

Кстати, самая необычная вещь, которая привлекла меня к лесу случайных решений (RDF), заключается в том, что я заметил, что базовая модель реализации RDF очень похожа на игру GO, хотя я могу ошибаться в своих наблюдениях. Поэтому, если машинное обучение algo «ALPHAGO» может победить такую ​​сложную игру, как go, то RDF может определенно победить рынок форекс. Я имею в виду, что я очень верю, что очень легко получить 99% -ную точность сделок с использованием RDF, если достаточные входные переменные (индикаторы) будут подаваться и постоянно подаваться для разработки и поддержания оптимальной политики, пока торговля включена.

Еще раз спасибо за ваше время.

Причина обращения: