Привет, Хабр! Предлагаю вашему вниманию ещё один перевод моей новой статьи с медиума. В прошлый раз (первая статья) (Habr) мы создали агента на технологии Q-Learning, который совершает сделки на имитированных и реальных биржевых временных рядах и пытались проверить, подходит ли эта область задач для обучения с подкреплением. В этот раз мы...
:)))让孙子凯沙和他的波切坎-阿利奥沙在这里思考并讲述整个故事,就像在最后的审判中。而我就把他们的戒律换成货币。很漂亮!
互联网是一个大村庄,口口相传的速度很快,所以经常提到累积的
(累积提到累积是一个大村庄,一切都通过口碑快速传播。 这就是为什么经常提到累积导致印度人创造了火鸡,而我们的弥赛亚关于拯救灵魂的抱怨rl没有让这个主题的作者无动于衷)
medium.com/@alexeybnk/improving-q-learning-agent-trading-stock-by-adding-recurrency and-reward-shaping-b9e0ee095c8b
medium.com/@alexeybnk/improving-q-learning-agent-trading-stock-by-adding-recurrency and-reward-shaping-b9e0ee095c8b
喜欢
阿列克谢-维亚兹米金
Alesha,不是网格和参数,而是按网格、随机或以此类推的超参数。但你必须考虑如何验证。
但你必须考虑如何验证(如果有必要的话),而不是随机的,用什么来验证,否则游戏就不值得这么麻烦......
先生,请问参数和超参数在这个梯度中的区别是什么?图书馆的名字适合报告...
我有一个目标,在python和命令行中测试GPU的性能,模型规模较小--10-30棵catbust。
是的。并在DFSplitR中复制它,以便回归支架也有同样的功能
放不同的值
qcnt=15。
qmin=1。
qmax=5。
等,文件大小 没有变化,这个错误似乎也没有什么影响。
也许我不太了解,因为我没有时间去了解。适当地在RL中加入噪声,可以在有OOS的跟踪上取得均匀的结果,当然,在跟踪部分也加入噪声。按照DQN那篇文章的例子,但我更早地实现了它
https://habr.com/ru/post/436628/
当然,他在正弦波方面走得太远了,对于学习来说,这句话太简单了,但对于搜索逻辑中的错误来说,这就可以了。
有趣的是,如何 "亲手 "添加LSTM单元,我得动动脑筋。
设置不同的值
qcnt=15。
qmin=1。
qmax=5。
等,文件大小没有变化,这个错误似乎没有什么影响。
也许我没有很好地理解它,因为我没有时间在写数据之前, 如果你不需要双精度,你可以把它转换成 Float(我不这么认为)。
当需要时,我可能会自己做。
我有一个很好的想法,就是使用RNN和LSTM,有人在Metatrader中试过吗?根据想法,它们必须是有用的,因为它们与序列一起工作,这正是价格时间序列。 普通回归,这是 "计量经济学的 工作马",只与高斯点云的正常分布一起工作。
使用R.mqh 库和keras/tensorflow 库,可以从R或Python中选择。没问题,而且有完整的功能和大量的例子,可以满足所有的口味。
祝好运
使用R.mqh 库和keras/tensorflow 库想从R想他们的Python。没有问题,功能齐全。
祝好运
弗拉基米尔,如果你有监控,请在你的个人信息中给我一个链接。
我不监控自己的,我不知道别人的。上面引用的文章没有足够的信息可供复制,而且代码太复杂。我认为一切都可以用软件包的标准层来实现,而不需要使用R6。
祝好运