交易中的机器学习:理论、模型、实践和算法交易 - 页 2037 1...203020312032203320342035203620372038203920402041204220432044...3399 新评论 Aleksey Vyazmikin 2020.10.24 20:49 #20361 Rorschach: 最后一栏是目标,其余是输入 一般来说,我把样本分成三部分,60%是培训,20个对照培训和没有参与培训的样本。 内存吃得很多--18G--我很惊讶。你有多大的内存? 我几乎是以默认设置开始学习过程的,但我看到训练样本正在迅速改善,而控制样本在第一棵树之后没有显示任何改善。 所以问题是--你确定图案在那里吗? 有一种说法是班级根本没有很好的平衡,似乎是10%左右的单位比例? Aleksey Nikolayev 2020.10.24 20:54 #20362 Igor Makanu: 所以我们不能正式确定TC的概念?似乎TC是有灵感的? 还是在演奏乐器? 只要我们设法把它形式化并写成一种语言,那么一些聪明的家伙就会为这种语言发明一个编译器,而商人就会消失在人们的视线中) IgorMakanu: 或者让我们回到我们的...- 事实证明,TS主要是对市场信息的分析和决策。 如果你不理解上述词语的含义,并且明白由于这个原因,不同的人对相同信息的分析结果可能不一样,只有未来才能说明谁是正确的) Maxim Dmitrievsky 2020.10.24 20:59 #20363 dr.mr. mom: 为什么会出现这种全球悲观情绪?)))我 "观看 "了他们在NeuroShell Day Pro的所有现代套餐前的训练情况。即使如此,我也得到了强大的结果,我不知道它是如何在里面工作的,而且几乎不可能添加到MT4中。我同意,最好能在GPU上安装螺栓。问题是他们是什么样的NS,以及他们是在什么范式下建立/学习的,我的NS是在不断发展的。是的,第一个健壮的变体甚至可以训练一天(尽管实际上在一台古老的家用笔记本电脑上需要8小时)。但在一个月后,再回到以牺牲第一种变体的稳健性为代价的进一步进化的必要性上,就有必要了。也就是说,即使在现实生活中事先有十个工作工具,也会有一个新的变体。现在关于架构,我们以NEAT算法为基础,加入我们自己的特点。在输出端,架构将不断发展,包括架构。所以它是这样的。同时,我建议阅读有关微生物学的书籍/讲座等。而在争端中,不幸的是一个是傻瓜(无知识的争论),另一个是混蛋(有知识的争论),我更喜欢用论据/推理来交换意见。毕竟,最主要的是产生影响,见鬼去吧,我们走吧)))。 没有什么可争论的,因为在任何正常的框架中都做到了,而且显示了,用最少的代码就能做到。 这里不特别讨论自制的东西,只讨论成熟的模型,如catbust或今天的神经网络。 这种对mql神经网络的鼠标大惊小怪的讨论根本没有意义,因为世界已经远远领先,而且每年都会将差距扩大一倍。 假设你告诉我:"我在tensorflow上有这样那样的模型"......我说:"很好,我可以在Torch上做同样的模型5分钟并检查一下。而你告诉我,你在mql中建立了一些东西。我需要这些信息做什么? 我怎样才能重新创建它? Aleksei Kuznetsov 2020.10.24 21:21 #20364 Aleksey Vyazmikin: 一般来说,我把样本分成3个部分,60%--训练和20个控制训练和一个没有参与训练的样本。它吃了很多内存--18G--我很惊讶。你有多大的内存?我几乎是用默认设置开始学习的,但我看到训练样本改善得很快,而控制样本在第一棵树之后没有改善。所以问题是--你确定图案在那里吗?有一种说法是班级根本 没有很好的平衡,似乎是10%左右的单位比例? 树状系统在大样本中不需要类平衡。神经网络会因不平衡而受到干扰,而树木显然将一切都分散在叶子上。 这是我改用树木的原因之一。 https://www.mql5.com/ru/blogs/post/723619 Нужна ли деревьям и лесам балансировка по классам? www.mql5.com Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный Igor Makanu 2020.10.24 21:21 #20365 阿列克谢-尼古拉耶夫。 嗯,是的,只是意识到不可能明确无误地正式确定这些词的含义),并意识到由于这个原因,对同一信息的分析结果可能因人而异,差别很大,只有未来才能说明谁是正确的) 随着市场信息的分析,在一般情况下,没有任何问题。除了研究者的贪婪,他认为市场只给他提供信息,他需要处理所有的数据,也就是说,这里的任务被正式确定为寻找一个重复的模式,其他数据应该被抛弃(不使用)。 决定是可悲的--生成将通过测试和前进的TS是可能的,但要找到策略测试者 的统计数据和TS的寿命之间的联系,或确定TS与市场环境的一致性的可能性--这就是问题所在。 也就是说,正如你所写的,问题出在未来 我认为,总的来说,我们在问题的正式化方面取得了一点进展。 原则上说,在Python中对测试统计数据进行卸载并尝试训练NS并不困难。 市场环境的确定,正如你所写的--只是一个交易者的决定,也就是说,我怀疑是否有可能正式化或算法化或调查 Aleksey Vyazmikin 2020.10.24 21:31 #20366 elibrarius: 树系统似乎不需要类平衡。神经网络会因不平衡而受到干扰,而树木则明显地将一切都分散在叶子上。 这是我改用树木的原因之一。 CatBoost 是必需的,但它有自己的平衡器,但显然不能应付。 一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小班,那么可能会成功,否则就会分散到所有的叶子里。 Aleksei Kuznetsov 2020.10.24 21:38 #20367 Aleksey Vyazmikin: CatBoost是必需的,但它有自己的平衡器,但显然是失败的。 一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小的班级,那么它可能会成功,否则它就会分散到所有的叶子里。 或者像以往一样,数据中几乎没有任何模式。Aleksey Vyazmikin: 一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果有几个明确的规则,把一个小的班级拉出来,那么它可以工作,否则它就会在所有的叶子里涂抹。经验法则很清楚--采取使叶子从其他类的杂质中分离得最干净的那一种。我已经添加了一个博客的链接,有了大样本就会有小类的东西形成叶子,另外你可以用基尼指数根(但我还没有找到它的公式)。 Aleksei Kuznetsov 2020.10.24 21:41 #20368 Aleksey Vyazmikin: 我认为对于如此巨大的数据量,你应该把树做得更深,这样可以更好地清理树叶。 如果你在一片叶子里有一万个例子,当然,它会被弄脏,但如果你把它分成100个,我想它会更清晰。 Alglib森林每张最多有1个例子,分离度为100%。叶子里只会留下0或1。 Aleksey Vyazmikin 2020.10.24 21:47 #20369 elibrarius: Aleksey Vyazmikin: 或者像以往一样,数据中几乎没有任何模式。经验法则很清楚--采取使叶子从另一类杂质中获得最干净的分割。我在博客上加了一个链接,有了大样本,就会有一些东西形成小类的叶子,另外你可以用基尼指数的根(只是我还没有找到公式)。 所以它的预测因子很少--维度 小,所以树的组合的选择也很小。 我取了1%的样本--考试中有100%的学习--我只是不认为有明显的模式。 而且,CatBoost在某种程度上是随机建立预测器的--所以通过他们的理解,降低了拟合度。 elibrarius: 我认为对于如此巨大的数据量,你需要让树木变得更深,这样树叶才能更好地清理出来。 如果你在一片叶子中留下10k个例子,当然会被弄脏,但如果你把分值提高到100,我想已经会比较清楚了。 这棵树有6个深度,我认为如果我们有更多的预测因素,我们需要更多的深度。 我已经做了一个256的网格。 Aleksei Kuznetsov 2020.10.24 21:52 #20370 Aleksey Vyazmikin: 这棵树有6个深度,我认为需要用更多的预测因子来增加深度。格子是256。 行数越多,需要的深度就越大。 如果有千兆字节,这意味着有数百万行。在深度为6的情况下,最终的工作表将是全部例子/行数的1/64,即如果有数百万的输入,则是数万个。 尝试深度为15(这似乎是一个最大值,最终的工作表将容纳1/32768部分的线条)。 1...203020312032203320342035203620372038203920402041204220432044...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
最后一栏是目标,其余是输入
一般来说,我把样本分成三部分,60%是培训,20个对照培训和没有参与培训的样本。
内存吃得很多--18G--我很惊讶。你有多大的内存?
我几乎是以默认设置开始学习过程的,但我看到训练样本正在迅速改善,而控制样本在第一棵树之后没有显示任何改善。
所以问题是--你确定图案在那里吗?
有一种说法是班级根本没有很好的平衡,似乎是10%左右的单位比例?
所以我们不能正式确定TC的概念?
似乎TC是有灵感的? 还是在演奏乐器?
只要我们设法把它形式化并写成一种语言,那么一些聪明的家伙就会为这种语言发明一个编译器,而商人就会消失在人们的视线中)
或者让我们回到我们的...- 事实证明,TS主要是对市场信息的分析和决策。
如果你不理解上述词语的含义,并且明白由于这个原因,不同的人对相同信息的分析结果可能不一样,只有未来才能说明谁是正确的)
为什么会出现这种全球悲观情绪?)))我 "观看 "了他们在NeuroShell Day Pro的所有现代套餐前的训练情况。即使如此,我也得到了强大的结果,我不知道它是如何在里面工作的,而且几乎不可能添加到MT4中。
我同意,最好能在GPU上安装螺栓。
问题是他们是什么样的NS,以及他们是在什么范式下建立/学习的,我的NS是在不断发展的。
是的,第一个健壮的变体甚至可以训练一天(尽管实际上在一台古老的家用笔记本电脑上需要8小时)。但在一个月后,再回到以牺牲第一种变体的稳健性为代价的进一步进化的必要性上,就有必要了。也就是说,即使在现实生活中事先有十个工作工具,也会有一个新的变体。
现在关于架构,我们以NEAT算法为基础,加入我们自己的特点。在输出端,架构将不断发展,包括架构。
所以它是这样的。
同时,我建议阅读有关微生物学的书籍/讲座等。
而在争端中,不幸的是一个是傻瓜(无知识的争论),另一个是混蛋(有知识的争论),我更喜欢用论据/推理来交换意见。
毕竟,最主要的是产生影响,见鬼去吧,我们走吧)))。
没有什么可争论的,因为在任何正常的框架中都做到了,而且显示了,用最少的代码就能做到。
这里不特别讨论自制的东西,只讨论成熟的模型,如catbust或今天的神经网络。
这种对mql神经网络的鼠标大惊小怪的讨论根本没有意义,因为世界已经远远领先,而且每年都会将差距扩大一倍。
假设你告诉我:"我在tensorflow上有这样那样的模型"......我说:"很好,我可以在Torch上做同样的模型5分钟并检查一下。而你告诉我,你在mql中建立了一些东西。我需要这些信息做什么? 我怎样才能重新创建它?
一般来说,我把样本分成3个部分,60%--训练和20个控制训练和一个没有参与训练的样本。
它吃了很多内存--18G--我很惊讶。你有多大的内存?
我几乎是用默认设置开始学习的,但我看到训练样本改善得很快,而控制样本在第一棵树之后没有改善。
所以问题是--你确定图案在那里吗?
有一种说法是班级根本 没有很好的平衡,似乎是10%左右的单位比例?
树状系统在大样本中不需要类平衡。神经网络会因不平衡而受到干扰,而树木显然将一切都分散在叶子上。
这是我改用树木的原因之一。
https://www.mql5.com/ru/blogs/post/723619
嗯,是的,只是意识到不可能明确无误地正式确定这些词的含义),并意识到由于这个原因,对同一信息的分析结果可能因人而异,差别很大,只有未来才能说明谁是正确的)
随着市场信息的分析,在一般情况下,没有任何问题。除了研究者的贪婪,他认为市场只给他提供信息,他需要处理所有的数据,也就是说,这里的任务被正式确定为寻找一个重复的模式,其他数据应该被抛弃(不使用)。
决定是可悲的--生成将通过测试和前进的TS是可能的,但要找到策略测试者 的统计数据和TS的寿命之间的联系,或确定TS与市场环境的一致性的可能性--这就是问题所在。
也就是说,正如你所写的,问题出在未来
我认为,总的来说,我们在问题的正式化方面取得了一点进展。
原则上说,在Python中对测试统计数据进行卸载并尝试训练NS并不困难。
市场环境的确定,正如你所写的--只是一个交易者的决定,也就是说,我怀疑是否有可能正式化或算法化或调查
树系统似乎不需要类平衡。神经网络会因不平衡而受到干扰,而树木则明显地将一切都分散在叶子上。
这是我改用树木的原因之一。
CatBoost 是必需的,但它有自己的平衡器,但显然不能应付。
一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小班,那么可能会成功,否则就会分散到所有的叶子里。
CatBoost是必需的,但它有自己的平衡器,但显然是失败的。
一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小的班级,那么它可能会成功,否则它就会分散到所有的叶子里。
或者像以往一样,数据中几乎没有任何模式。
一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果有几个明确的规则,把一个小的班级拉出来,那么它可以工作,否则它就会在所有的叶子里涂抹。
经验法则很清楚--采取使叶子从其他类的杂质中分离得最干净的那一种。
我已经添加了一个博客的链接,有了大样本就会有小类的东西形成叶子,另外你可以用基尼指数根(但我还没有找到它的公式)。
我认为对于如此巨大的数据量,你应该把树做得更深,这样可以更好地清理树叶。
Alglib森林每张最多有1个例子,分离度为100%。叶子里只会留下0或1。如果你在一片叶子里有一万个例子,当然,它会被弄脏,但如果你把它分成100个,我想它会更清晰。
Aleksey Vyazmikin:
或者像以往一样,数据中几乎没有任何模式。
经验法则很清楚--采取使叶子从另一类杂质中获得最干净的分割。
我在博客上加了一个链接,有了大样本,就会有一些东西形成小类的叶子,另外你可以用基尼指数的根(只是我还没有找到公式)。
所以它的预测因子很少--维度 小,所以树的组合的选择也很小。
我取了1%的样本--考试中有100%的学习--我只是不认为有明显的模式。
而且,CatBoost在某种程度上是随机建立预测器的--所以通过他们的理解,降低了拟合度。
我认为对于如此巨大的数据量,你需要让树木变得更深,这样树叶才能更好地清理出来。
如果你在一片叶子中留下10k个例子,当然会被弄脏,但如果你把分值提高到100,我想已经会比较清楚了。
这棵树有6个深度,我认为如果我们有更多的预测因素,我们需要更多的深度。
我已经做了一个256的网格。
这棵树有6个深度,我认为需要用更多的预测因子来增加深度。
格子是256。
行数越多,需要的深度就越大。
如果有千兆字节,这意味着有数百万行。在深度为6的情况下,最终的工作表将是全部例子/行数的1/64,即如果有数百万的输入,则是数万个。
尝试深度为15(这似乎是一个最大值,最终的工作表将容纳1/32768部分的线条)。