混乱中有规律可循吗?让我们试着找出它!以特定样本为例进行机器学习。 - 页 22 1...151617181920212223242526272829...32 新评论 Aleksei Kuznetsov 2023.02.08 06:27 #211 Aleksey Vyazmikin #: 但我得到了这个模型 。 没有必要寄希望于考试中最好的模型将来会盈利。平均值或大多数都应该是有利可图的。 这就像测试优化器一样--最好的模型在 99% 的时间里都会在前程中梅开二度。 Aleksey Vyazmikin 2023.02.08 06:54 #212 elibrarius #:拆分只到量子为止。量子内部的所有内容都被视为相同的值,不会进一步拆分。 你还不明白--问题的关键在于,每次拆分都会减少下一次拆分的样本,而下一次拆分是根据量子表进行的,但每次的度量都会发生变化。 有一些算法在训练模型时,每次分割后都会制作一个新的量子表。 elibrarius#: 我不明白你为什么要在量子表中寻找一些东西,它的主要目的是加快计算速度(次要目的是加载/概括模型,以便不再进行拆分,但你也可以限制浮动数据的深度),我没有使用它,我只是在浮动数据上做模型。我对 65000 个部件进行了量化 - 结果与未量化的模型完全相同。 显然,我看到了效率,这就是我使用它的原因。65000 个零件太多了,我认为量化的意义在于概括数据,创建分类特征,因此整个样本的 2%-5% 应该被量化。可能并非所有预测因子都是如此--实验尚未完成。 elibrarius#: 会有一个分割,将数据分为两个部分--一个部分全部为 0,另一个部分全部为 1。我不知道什么叫量子,我认为量子是量化后得到的扇区数。也许就像你说的,是分割的数量。 是的,这很清楚,你说的分裂是对的,我反而笑了。一般来说,CatBoost 有一个量子表的概念,那里有确切的分割,而我自己使用的是分段--两个坐标,也许它们可以被称为量子或量子分段。我不知道真正的术语,但我自己是这么称呼它们的。 Aleksey Vyazmikin 2023.02.08 06:57 #213 elibrarius #:不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。 现在的目标是了解我们可以向往的潜力。我不会在这些模型上做交易。 我预计,由于拆分选择的可变性降低,被选中的模型数量会增加--我们今天晚些时候就会看到。 Aleksey Vyazmikin 2023.02.08 17:43 #214 Aleksey Vyazmikin #:我预计,由于拆分选择的可变性降低,经过筛选的模型数量将会增加--我们今天晚些时候就会看到。 结果证明我错了--模型数量只有 79 个,考试平均利润为 -1379 Aleksey Vyazmikin 2023.02.08 18:01 #215 elibrarius #:不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。 顺便说一下,我决定看看另一个样本,它也不在训练中--就是之前被砍掉的那个。 下面是同一个模型在这些数据(2014-2018 年)上的表现。 我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗? Aleksei Kuznetsov 2023.02.08 21:24 #216 Aleksey Vyazmikin #:顺便说一下,我决定在这里看看另一个同样没有参加训练的样本,也就是之前被裁掉的那个。在这个数据(2014-2018 年)上,同一个模型看起来是这样的。我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗? 也许)。 Aleksey Vyazmikin 2023.02.08 22:14 #217 elibrarius #:也许)唉,我检查了所有模型--那些在火车和考试样本中收入超过 3000 的模型--有 39 件,而在新旧样本中只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。 Aleksei Kuznetsov 2023.02.09 09:39 #218 Aleksey Vyazmikin #:唉,我检查了所有的模型--在火车和考试样本上收入超过 3000 的模型--有 39 件,而在新旧样本上只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。 总的来说,这还不是五五开(就利润而言)。如果要想出与目标相关的新功能已经很困难,或许应该改变目标? Aleksey Vyazmikin 2023.02.13 16:15 #219 elibrarius #: 一般来说,即使是 50/50 的比例也无法实现(就利润而言)。如果很难想出与目标相关的新特征,也许应该改变目标? 新的预测因子是可以发明的,现在还有一些想法,但我不确定在考虑到 greed.... 原则的情况下,训练是否会以这些预测因子为基础。也许我们需要改变模型训练的方法,对已知算法进行自己的改造。 目标可以改变,但改变成什么样,有什么想法吗? Aleksey Vyazmikin 2023.02.13 16:50 #220 我从这里 描述的第六步中提取了样本,并将考试和测试对调。 事实上,训练是按照同样的规则、用同样的种子进行的,但另一个样本--在时间顺序中排在后面--负责停止创建新树。 因此,测试(原考试)样本的平均利润值为 -730.5--让我提醒一下,在按时间顺序训练期间,测试样本的平均值为982.5,考试(原考试)样本的平均平衡值为 922.49 点,而在初始变量中为 -1114.27 点。 图 1 原始测试样本作为考试样本时的天平分布直方图。 图 2 测试样本作为考试样本时的天平分布直方图。 当样本按时间顺序排列时,模型中树的平均值为 11.47,当两个样本的顺序改变时,模型中树的平均值为 9.11,即可以说样本交换后模式变得不那么明显,因此需要更少的树来描述。 同时,由于通过实际取样来控制停止,其模式变得更加定性,如上所述,平均收益也更高。 一方面,实验证实了样本中包含了持续多年的类似模式,但同时其中一些模式变得不那么明显,甚至将其概率转移到了事件结果的负区域。之前的研究表明,不仅是预测因子本身,它们在模型中的使用也会影响训练结果。 因此,我们有 1.样本不具代表性。 2.在建立模型时,随机模式可能会 "掩盖 "稳定模式,或者建立模型的方法本身不够可靠。 3.模型结果对样本区域的依赖性(以前的样本列车在考试中表现出良好的效果)。 1...151617181920212223242526272829...32 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
但我得到了这个模型 。
没有必要寄希望于考试中最好的模型将来会盈利。平均值或大多数都应该是有利可图的。
这就像测试优化器一样--最好的模型在 99% 的时间里都会在前程中梅开二度。
拆分只到量子为止。量子内部的所有内容都被视为相同的值,不会进一步拆分。
你还不明白--问题的关键在于,每次拆分都会减少下一次拆分的样本,而下一次拆分是根据量子表进行的,但每次的度量都会发生变化。
有一些算法在训练模型时,每次分割后都会制作一个新的量子表。
我不明白你为什么要在量子表中寻找一些东西,它的主要目的是加快计算速度(次要目的是加载/概括模型,以便不再进行拆分,但你也可以限制浮动数据的深度),我没有使用它,我只是在浮动数据上做模型。我对 65000 个部件进行了量化 - 结果与未量化的模型完全相同。
显然,我看到了效率,这就是我使用它的原因。65000 个零件太多了,我认为量化的意义在于概括数据,创建分类特征,因此整个样本的 2%-5% 应该被量化。可能并非所有预测因子都是如此--实验尚未完成。
会有一个分割,将数据分为两个部分--一个部分全部为 0,另一个部分全部为 1。我不知道什么叫量子,我认为量子是量化后得到的扇区数。也许就像你说的,是分割的数量。
是的,这很清楚,你说的分裂是对的,我反而笑了。一般来说,CatBoost 有一个量子表的概念,那里有确切的分割,而我自己使用的是分段--两个坐标,也许它们可以被称为量子或量子分段。我不知道真正的术语,但我自己是这么称呼它们的。
不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。
这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。
现在的目标是了解我们可以向往的潜力。我不会在这些模型上做交易。
我预计,由于拆分选择的可变性降低,被选中的模型数量会增加--我们今天晚些时候就会看到。
我预计,由于拆分选择的可变性降低,经过筛选的模型数量将会增加--我们今天晚些时候就会看到。
结果证明我错了--模型数量只有 79 个,考试平均利润为 -1379
不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。
这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。
顺便说一下,我决定看看另一个样本,它也不在训练中--就是之前被砍掉的那个。
下面是同一个模型在这些数据(2014-2018 年)上的表现。
我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗?
顺便说一下,我决定在这里看看另一个同样没有参加训练的样本,也就是之前被裁掉的那个。
在这个数据(2014-2018 年)上,同一个模型看起来是这样的。
我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗?
也许)。
也许)
唉,我检查了所有模型--那些在火车和考试样本中收入超过 3000 的模型--有 39 件,而在新旧样本中只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。
这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。
唉,我检查了所有的模型--在火车和考试样本上收入超过 3000 的模型--有 39 件,而在新旧样本上只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。
这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。
一般来说,即使是 50/50 的比例也无法实现(就利润而言)。如果很难想出与目标相关的新特征,也许应该改变目标?
新的预测因子是可以发明的,现在还有一些想法,但我不确定在考虑到 greed.... 原则的情况下,训练是否会以这些预测因子为基础。也许我们需要改变模型训练的方法,对已知算法进行自己的改造。
目标可以改变,但改变成什么样,有什么想法吗?
我从这里 描述的第六步中提取了样本,并将考试和测试对调。
事实上,训练是按照同样的规则、用同样的种子进行的,但另一个样本--在时间顺序中排在后面--负责停止创建新树。
因此,测试(原考试)样本的平均利润值为 -730.5--让我提醒一下,在按时间顺序训练期间,测试样本的平均值为982.5,考试(原考试)样本的平均平衡值为 922.49 点,而在初始变量中为 -1114.27 点。
图 1 原始测试样本作为考试样本时的天平分布直方图。
图 2 测试样本作为考试样本时的天平分布直方图。
当样本按时间顺序排列时,模型中树的平均值为 11.47,当两个样本的顺序改变时,模型中树的平均值为 9.11,即可以说样本交换后模式变得不那么明显,因此需要更少的树来描述。
同时,由于通过实际取样来控制停止,其模式变得更加定性,如上所述,平均收益也更高。
一方面,实验证实了样本中包含了持续多年的类似模式,但同时其中一些模式变得不那么明显,甚至将其概率转移到了事件结果的负区域。之前的研究表明,不仅是预测因子本身,它们在模型中的使用也会影响训练结果。
因此,我们有
1.样本不具代表性。
2.在建立模型时,随机模式可能会 "掩盖 "稳定模式,或者建立模型的方法本身不够可靠。
3.模型结果对样本区域的依赖性(以前的样本列车在考试中表现出良好的效果)。