交易中的机器学习:理论、模型、实践和算法交易 - 页 2037

 
Rorschach:

最后一栏是目标,其余是输入

一般来说,我把样本分成三部分,60%是培训,20个对照培训和没有参与培训的样本。

内存吃得很多--18G--我很惊讶。你有多大的内存?

我几乎是以默认设置开始学习过程的,但我看到训练样本正在迅速改善,而控制样本在第一棵树之后没有显示任何改善。

所以问题是--你确定图案在那里吗?

有一种说法是班级根本没有很好的平衡,似乎是10%左右的单位比例?

 
Igor Makanu:

所以我们不能正式确定TC的概念?

似乎TC是有灵感的? 还是在演奏乐器?

只要我们设法把它形式化并写成一种语言,那么一些聪明的家伙就会为这种语言发明一个编译器,而商人就会消失在人们的视线中)

IgorMakanu:

或者让我们回到我们的...- 事实证明,TS主要是对市场信息的分析和决策。

如果你不理解上述词语的含义,并且明白由于这个原因,不同的人对相同信息的分析结果可能不一样,只有未来才能说明谁是正确的)

[删除]  
dr.mr. mom:

为什么会出现这种全球悲观情绪?)))我 "观看 "了他们在NeuroShell Day Pro的所有现代套餐前的训练情况。即使如此,我也得到了强大的结果,我不知道它是如何在里面工作的,而且几乎不可能添加到MT4中。

我同意,最好能在GPU上安装螺栓。

问题是他们是什么样的NS,以及他们是在什么范式下建立/学习的,我的NS是在不断发展的。

是的,第一个健壮的变体甚至可以训练一天(尽管实际上在一台古老的家用笔记本电脑上需要8小时)。但在一个月后,再回到以牺牲第一种变体的稳健性为代价的进一步进化的必要性上,就有必要了。也就是说,即使在现实生活中事先有十个工作工具,也会有一个新的变体。

现在关于架构,我们以NEAT算法为基础,加入我们自己的特点。在输出端,架构将不断发展,包括架构。

所以它是这样的。

同时,我建议阅读有关微生物学的书籍/讲座等。

而在争端中,不幸的是一个是傻瓜(无知识的争论),另一个是混蛋(有知识的争论),我更喜欢用论据/推理来交换意见。

毕竟,最主要的是产生影响,见鬼去吧,我们走吧)))。

没有什么可争论的,因为在任何正常的框架中都做到了,而且显示了,用最少的代码就能做到。

这里不特别讨论自制的东西,只讨论成熟的模型,如catbust或今天的神经网络。

这种对mql神经网络的鼠标大惊小怪的讨论根本没有意义,因为世界已经远远领先,而且每年都会将差距扩大一倍。

假设你告诉我:"我在tensorflow上有这样那样的模型"......我说:"很好,我可以在Torch上做同样的模型5分钟并检查一下。而你告诉我,你在mql中建立了一些东西。我需要这些信息做什么? 我怎样才能重新创建它?

 
Aleksey Vyazmikin:

一般来说,我把样本分成3个部分,60%--训练和20个控制训练和一个没有参与训练的样本。

它吃了很多内存--18G--我很惊讶。你有多大的内存?

我几乎是用默认设置开始学习的,但我看到训练样本改善得很快,而控制样本在第一棵树之后没有改善。

所以问题是--你确定图案在那里吗?

有一种说法是班级根本 没有很好的平衡,似乎是10%左右的单位比例?

树状系统在大样本中不需要类平衡。神经网络会因不平衡而受到干扰,而树木显然将一切都分散在叶子上。
这是我改用树木的原因之一。

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
阿列克谢-尼古拉耶夫

嗯,是的,只是意识到不可能明确无误地正式确定这些词的含义),并意识到由于这个原因,对同一信息的分析结果可能因人而异,差别很大,只有未来才能说明谁是正确的)

随着市场信息的分析,在一般情况下,没有任何问题。除了研究者的贪婪,他认为市场只给他提供信息,他需要处理所有的数据,也就是说,这里的任务被正式确定为寻找一个重复的模式,其他数据应该被抛弃(不使用)。

决定是可悲的--生成将通过测试和前进的TS是可能的,但要找到策略测试者 的统计数据和TS的寿命之间的联系,或确定TS与市场环境的一致性的可能性--这就是问题所在。

也就是说,正如你所写的,问题出在未来


我认为,总的来说,我们在问题的正式化方面取得了一点进展。

原则上说,在Python中对测试统计数据进行卸载并尝试训练NS并不困难。

市场环境的确定,正如你所写的--只是一个交易者的决定,也就是说,我怀疑是否有可能正式化或算法化或调查

 
elibrarius:
树系统似乎不需要类平衡。神经网络会因不平衡而受到干扰,而树木则明显地将一切都分散在叶子上。
这是我改用树木的原因之一。

CatBoost 是必需的,但它有自己的平衡器,但显然不能应付。

一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小班,那么可能会成功,否则就会分散到所有的叶子里。

 
Aleksey Vyazmikin:

CatBoost是必需的,但它有自己的平衡器,但显然是失败的

一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果很少有明确的规则来拉动一个小的班级,那么它可能会成功,否则它就会分散到所有的叶子里。

或者像以往一样,数据中几乎没有任何模式。

Aleksey Vyazmikin:

一般来说,如果有强烈的不平衡,那么学习就会去,但从统计学上来说,叶子里有更多的零,就只会有零,也就是说,如果有几个明确的规则,把一个小的班级拉出来,那么它可以工作,否则它就会在所有的叶子里涂抹。

经验法则很清楚--采取使叶子从其他类的杂质中分离得最干净的那一种。

我已经添加了一个博客的链接,有了大样本就会有小类的东西形成叶子,另外你可以用基尼指数根(但我还没有找到它的公式)。

 
Aleksey Vyazmikin:

我认为对于如此巨大的数据量,你应该把树做得更深,这样可以更好地清理树叶。
如果你在一片叶子里有一万个例子,当然,它会被弄脏,但如果你把它分成100个,我想它会更清晰。

Alglib森林每张最多有1个例子,分离度为100%。叶子里只会留下0或1。
 
elibrarius:
Aleksey Vyazmikin:

或者像以往一样,数据中几乎没有任何模式。

经验法则很清楚--采取使叶子从另一类杂质中获得最干净的分割。

我在博客上加了一个链接,有了大样本,就会有一些东西形成小类的叶子,另外你可以用基尼指数的根(只是我还没有找到公式)。

所以它的预测因子很少--维度 小,所以树的组合的选择也很小。

我取了1%的样本--考试中有100%的学习--我只是不认为有明显的模式。

而且,CatBoost在某种程度上是随机建立预测器的--所以通过他们的理解,降低了拟合度。

elibrarius:

我认为对于如此巨大的数据量,你需要让树木变得更深,这样树叶才能更好地清理出来。
如果你在一片叶子中留下10k个例子,当然会被弄脏,但如果你把分值提高到100,我想已经会比较清楚了。

这棵树有6个深度,我认为如果我们有更多的预测因素,我们需要更多的深度。

我已经做了一个256的网格。

 
Aleksey Vyazmikin:

这棵树有6个深度,我认为需要用更多的预测因子来增加深度。

格子是256。

行数越多,需要的深度就越大。
如果有千兆字节,这意味着有数百万行。在深度为6的情况下,最终的工作表将是全部例子/行数的1/64,即如果有数百万的输入,则是数万个。

尝试深度为15(这似乎是一个最大值,最终的工作表将容纳1/32768部分的线条)。