Обсуждение статьи "Random Decision Forest в обучении с подкреплением" - страница 7

 
rogivilela:

 How do I know this reward is good?

Если убыток, то алгоритм должен попробовать не торговать или торговать в противоположном направлении, мы не знаем как правильно, используем случайное значение. Другого смысла в указанных строках нет

 
mov:

Если убыток, то алгоритм должен попробовать не торговать или торговать в противоположном направлении, мы не знаем как правильно, используем случайное значение. Другого смысла в указанных строках нет

сама статья и приведенный алгоритм имеет ознакомительный характер, чтобы получить результат и не только в тестере нужно готовить входные данные, я в последнее время много смотрю видео на ютуб на эту тему, вот очень познавательный пример, да и канал в целом


для начала думаю обучать по часам, т.е. 24 подготовленных нейросети, т.к. в разное время суток разная волатильность, ну  а там посмотрим
 
rogivilela:
Hello people ,
First of all I would like to congratulate Maxim Dmitrievsky for his article.
Secondly, I want to say that I am keeping an eye on the topic, because the subject is very interesting.
Thirdly I would like to take a doubt because I am not able to understand how the execution of the reward in the EA of classification is made today, could anyone describe it?

What I understood is that when the EA closes the position with a negative value it makes a change in the 2 indexes of the vector (3 and 4).
Is anyone eligible? How do I know this reward is good? because I would like to increase the rewards when the operation is positive and take a certain amount of points.


Thank you.
Ps. I used Google Translate, sorry if it is not understandable.

This is exactly what I have been working almost from the beginning of the article as how to integrate account parameters to the policy and how to update the reward based on profits and losses. But till now I am not able to successfully implement anything.

I noticed that if we will try to implement profits and losses to the reward function, then we have to entirely change this updateReward() function. Also, we may need to change the matrix implementation completely. 

I have a solution to implement profits and losses using Q-learning by BellMan's equation in which we can implement floating profits and losses to the agent to update the reward. But we need to create a new matrix and update the whole matrix on every candle. But I am not good at matrix implementation and hence, I am just waiting for the author to publish his next article with new agents.

If anyone is interested in Q learning implementation and can implement the matrix, then I can discuss here as how to update the reward using profits and losses using Q value.

I have been testing the EA with unlimited number of combination of indicators and settings, but I figured out that there is no other way to improve the results without updating the policy. The agent is doing exactly what it has been assigned to do and hence, it is just closing small small profits to increase the win  % , but overall the account doesn't grow profit since the policy doesn't consider small or big losses separately.

 

Hi Maxim Dmitrievsky,

Is there any progress or update towards publishing your next article regarding RDF ?

Thank you...

 
After updating to build 1940, it is no longer working, the return of the calculation receives the value of "-nan (ind)". Anybody know what happened?
 
Igor Vilela:
After updating to build 1940, it is no longer working, the return of the calculation receives the value of "-nan (ind)". Anybody know what happened?

Hi, try this library https://www.mql5.com/ru/code/22915

or try to recompile

RL GMDH
RL GMDH
  • www.mql5.com
Данная библиотека имеет расширенный функционал, позволяющий создавать неограниченное количесто "Агентов". Использование библиотеки: Пример заполнения входных значений нормированными ценами закрытия: Обучение происходит в тестере...
 
thank you Maxim Dmitrievsky, but I have already made all the knowledge on this case, I would like to try to correct this mistake, since I am already running a robbery with the idea that was presented in this article. could help identify what caused the error. It stopped working when upgrading to version 1940.
 
Igor Vilela:
thank you Maxim Dmitrievsky, but I have already made all the knowledge on this case, I would like to try to correct this mistake, since I am already running a robbery with the idea that was presented in this article. could help identify what caused the error. It stopped working when upgrading to version 1940.

Try to download correct fuzzy library from here, because maybe MT5 update can change it to default

https://www.mql5.com/ru/forum/63355#comment_5729505

Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
  • 2015.08.26
  • www.mql5.com
8 новых функций принадлежности.
 
I managed to solve it, thank you Maxim Dmitrievsky.
I again copied the entire MATH folder to the new metatrader and restarted the computer.
 

Добрый день. Я одного не пойму, зачем нужно что-либо добавлять к Метатрейдеру в плане обучения нейронной сети?

Вот есть веса, их нужно оптимизировать с помощью механизма оптимизации в Метатрейдере. Неужели вы не думали, что разрабы Метатрейдера уже неплохо продвинулись в вопросе обучения сетей / оптимизации параметров?

Бай и селл осуществляются по правилам, которые определяются индикаторами. Нейронная сеть агрегирует "данные наблюдения" за этими индикаторами (количество пиков, высота пиков накануне сделки и т.д.), но не сами значения индикаторов, ибо это глупость. Проверить конфигурацию весов можно сразу по ходу обучения, например так: +1 если следующие 2 дня рынок пошел куда надо, и -1 если не туда. В конце каждая конфигурация весов имеет сумму. Так мы оптимизируем наилучшую конфигурацию весов по пользовательскому критерию (это такой параметр оптимизации, надо же все продумано?!).

Описанный пример занимает в коде 40-50 строк. Вот и вся нейронная сеть с обучением. И я возвращаюсь к своему изначальному вопросу: почему вы считаете, что придумав что-то сложное и малосразупонятное, вы стали ближе к святому граалю? Чем сложней и непонятней созданный мною черный ящик, тем больше мне это льстит, мол, какой же я умный?!

Причина обращения: