交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2020.10.24 20:49 #20361

Rorschach:

最后一栏是目标，其余是输入

一般来说，我把样本分成三部分，60%是培训，20个对照培训和没有参与培训的样本。

内存吃得很多--18G--我很惊讶。你有多大的内存？

我几乎是以默认设置开始学习过程的，但我看到训练样本正在迅速改善，而控制样本在第一棵树之后没有显示任何改善。

所以问题是--你确定图案在那里吗？

有一种说法是班级根本没有很好的平衡，似乎是10%左右的单位比例？

Aleksey Nikolayev 2020.10.24 20:54 #20362

Igor Makanu:

所以我们不能正式确定TC的概念？

似乎TC是有灵感的？还是在演奏乐器？

只要我们设法把它形式化并写成一种语言，那么一些聪明的家伙就会为这种语言发明一个编译器，而商人就会消失在人们的视线中)

IgorMakanu:

或者让我们回到我们的...- 事实证明，TS主要是对市场信息的分析和决策。

如果你不理解上述词语的含义，并且明白由于这个原因，不同的人对相同信息的分析结果可能不一样，只有未来才能说明谁是正确的)

[删除] 2020.10.24 20:59 #20363

dr.mr. mom:

为什么会出现这种全球悲观情绪？)))我 "观看 "了他们在NeuroShell Day Pro的所有现代套餐前的训练情况。即使如此，我也得到了强大的结果，我不知道它是如何在里面工作的，而且几乎不可能添加到MT4中。

我同意，最好能在GPU上安装螺栓。

问题是他们是什么样的NS，以及他们是在什么范式下建立/学习的，我的NS是在不断发展的。

是的，第一个健壮的变体甚至可以训练一天（尽管实际上在一台古老的家用笔记本电脑上需要8小时）。但在一个月后，再回到以牺牲第一种变体的稳健性为代价的进一步进化的必要性上，就有必要了。也就是说，即使在现实生活中事先有十个工作工具，也会有一个新的变体。

现在关于架构，我们以NEAT算法为基础，加入我们自己的特点。在输出端，架构将不断发展，包括架构。

所以它是这样的。

同时，我建议阅读有关微生物学的书籍/讲座等。

而在争端中，不幸的是一个是傻瓜（无知识的争论），另一个是混蛋（有知识的争论），我更喜欢用论据/推理来交换意见。

毕竟，最主要的是产生影响，见鬼去吧，我们走吧）））。

没有什么可争论的，因为在任何正常的框架中都做到了，而且显示了，用最少的代码就能做到。

这里不特别讨论自制的东西，只讨论成熟的模型，如catbust或今天的神经网络。

这种对mql神经网络的鼠标大惊小怪的讨论根本没有意义，因为世界已经远远领先，而且每年都会将差距扩大一倍。

假设你告诉我："我在tensorflow上有这样那样的模型"......我说："很好，我可以在Torch上做同样的模型5分钟并检查一下。而你告诉我，你在mql中建立了一些东西。我需要这些信息做什么？我怎样才能重新创建它？

Aleksei Kuznetsov 2020.10.24 21:21 #20364

Aleksey Vyazmikin:

一般来说，我把样本分成3个部分，60%--训练和20个控制训练和一个没有参与训练的样本。

它吃了很多内存--18G--我很惊讶。你有多大的内存？

我几乎是用默认设置开始学习的，但我看到训练样本改善得很快，而控制样本在第一棵树之后没有改善。

所以问题是--你确定图案在那里吗？

有一种说法是班级根本没有很好的平衡，似乎是10%左右的单位比例？

树状系统在大样本中不需要类平衡。神经网络会因不平衡而受到干扰，而树木显然将一切都分散在叶子上。
这是我改用树木的原因之一。

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Igor Makanu 2020.10.24 21:21 #20365

阿列克谢-尼古拉耶夫。

嗯，是的，只是意识到不可能明确无误地正式确定这些词的含义），并意识到由于这个原因，对同一信息的分析结果可能因人而异，差别很大，只有未来才能说明谁是正确的)

随着市场信息的分析，在一般情况下，没有任何问题。除了研究者的贪婪，他认为市场只给他提供信息，他需要处理所有的数据，也就是说，这里的任务被正式确定为寻找一个重复的模式，其他数据应该被抛弃（不使用）。

决定是可悲的--生成将通过测试和前进的TS是可能的，但要找到策略测试者的统计数据和TS的寿命之间的联系，或确定TS与市场环境的一致性的可能性--这就是问题所在。

也就是说，正如你所写的，问题出在未来

我认为，总的来说，我们在问题的正式化方面取得了一点进展。

原则上说，在Python中对测试统计数据进行卸载并尝试训练NS并不困难。

市场环境的确定，正如你所写的--只是一个交易者的决定，也就是说，我怀疑是否有可能正式化或算法化或调查

Aleksey Vyazmikin 2020.10.24 21:31 #20366

elibrarius:
树系统似乎不需要类平衡。神经网络会因不平衡而受到干扰，而树木则明显地将一切都分散在叶子上。
这是我改用树木的原因之一。

CatBoost 是必需的，但它有自己的平衡器，但显然不能应付。

一般来说，如果有强烈的不平衡，那么学习就会去，但从统计学上来说，叶子里有更多的零，就只会有零，也就是说，如果很少有明确的规则来拉动一个小班，那么可能会成功，否则就会分散到所有的叶子里。

Aleksei Kuznetsov 2020.10.24 21:38 #20367

Aleksey Vyazmikin:

CatBoost是必需的，但它有自己的平衡器，但显然是失败的。

一般来说，如果有强烈的不平衡，那么学习就会去，但从统计学上来说，叶子里有更多的零，就只会有零，也就是说，如果很少有明确的规则来拉动一个小的班级，那么它可能会成功，否则它就会分散到所有的叶子里。

或者像以往一样，数据中几乎没有任何模式。

Aleksey Vyazmikin:

一般来说，如果有强烈的不平衡，那么学习就会去，但从统计学上来说，叶子里有更多的零，就只会有零，也就是说，如果有几个明确的规则，把一个小的班级拉出来，那么它可以工作，否则它就会在所有的叶子里涂抹。

经验法则很清楚--采取使叶子从其他类的杂质中分离得最干净的那一种。

我已经添加了一个博客的链接，有了大样本就会有小类的东西形成叶子，另外你可以用基尼指数根（但我还没有找到它的公式）。

Aleksei Kuznetsov 2020.10.24 21:41 #20368

Aleksey Vyazmikin:

我认为对于如此巨大的数据量，你应该把树做得更深，这样可以更好地清理树叶。
如果你在一片叶子里有一万个例子，当然，它会被弄脏，但如果你把它分成100个，我想它会更清晰。

Alglib森林每张最多有1个例子，分离度为100%。叶子里只会留下0或1。

Aleksey Vyazmikin 2020.10.24 21:47 #20369

elibrarius:
Aleksey Vyazmikin:

或者像以往一样，数据中几乎没有任何模式。

经验法则很清楚--采取使叶子从另一类杂质中获得最干净的分割。

我在博客上加了一个链接，有了大样本，就会有一些东西形成小类的叶子，另外你可以用基尼指数的根（只是我还没有找到公式）。

所以它的预测因子很少--维度小，所以树的组合的选择也很小。

我取了1%的样本--考试中有100%的学习--我只是不认为有明显的模式。

而且，CatBoost在某种程度上是随机建立预测器的--所以通过他们的理解，降低了拟合度。

elibrarius:

我认为对于如此巨大的数据量，你需要让树木变得更深，这样树叶才能更好地清理出来。
如果你在一片叶子中留下10k个例子，当然会被弄脏，但如果你把分值提高到100，我想已经会比较清楚了。

这棵树有6个深度，我认为如果我们有更多的预测因素，我们需要更多的深度。

我已经做了一个256的网格。

Aleksei Kuznetsov 2020.10.24 21:52 #20370

Aleksey Vyazmikin:

这棵树有6个深度，我认为需要用更多的预测因子来增加深度。

格子是256。

行数越多，需要的深度就越大。
如果有千兆字节，这意味着有数百万行。在深度为6的情况下，最终的工作表将是全部例子/行数的1/64，即如果有数百万的输入，则是数万个。

尝试深度为15（这似乎是一个最大值，最终的工作表将容纳1/32768部分的线条）。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2037