混乱中有规律可循吗?让我们试着找出它!以特定样本为例进行机器学习。 - 页 17 1...101112131415161718192021222324...32 新评论 Maxim Dmitrievsky 2022.12.06 13:47 #161 Valeriy Yastremskiy #:除了某件事情的开始时间和结束时间(会话、日历),我什么也想不起来。什么意思? 为什么,这只是最明显的可能因素。波动性在数字中,还有其他因素需要考虑粗略地说,你得拿一些市场指标来吸纳它,我猜。不是扎堆。每个人都想扎堆,但事实证明不是那样的。 Valeriy Yastremskiy 2022.12.06 14:25 #162 Maxim Dmitrievsky #: 为什么,这只是最明显的可能。波动性在数字中,还有其他因素需要考虑粗略地说,我们应该拿一些市场指标来吸纳它,我想。不是扎堆。大家都想扎堆,但事实证明不是那么回事。 有了离散的价格指标,要做到面面俱到并不容易,分开来往往会失去联系和意义。通道宽度或波动率和价格变化速度。这看起来很简单,但我脑子里没有概念)))))。 Maxim Dmitrievsky 2022.12.06 14:42 #163 Valeriy Yastremskiy #: 对于离散的价格指标,并非一切都很简单,孤立地看往往会失去联系和意义。通道宽度或波动率和价格变化速度。这看似简单,但在我脑海中却没有概念)))))) 我们必须首先明确我们想从 MO 中得到什么。只是分类或某些选择,即制作一个类似标准优化器的工具,在其中设置不同的目标函数。 然后用它来操作指标(属性)。通常是用笨办法、蛮力,直到想到有趣的东西(比如圣杯)。 一旦我们学到了什么,我们就开始深入挖掘。 我想我以为我写的东西很明显,但结果只有我自己知道:D spiderman8811 2022.12.10 13:39 #164 Renat Akhtyamov #:分支问题当然是一个有趣的问题....这就是我想知道的原因。也许可以找出一种模式。我建议连续分析几个条形图,例如 3-4 条。然后从这 3-4 个小节的样本开始移动一个小节,再次进行分析。就像在一个样本上叠加另一个样本一样。可以找到一种模式像这样 这有什么用?柱形总是不同的。除非你把它与当前的刻度联系起来。我认为应该采用稍有不同的理论,例如颜色(极性)。静止性是存在的,但方式略有不同,也很容易被破坏。 Aleksey Vyazmikin 2022.12.14 15:50 #165 与此同时,我从这个主题中的第一个样本中得到了这个模型。 不幸的是,它在测试样本上失败了--很明显,样本是不同的。 Aleksey Vyazmikin 2022.12.27 02:30 #166 在寻找训练模型的方法的过程中,对不同的方法进行了测试,创建了 10 多万个模型,并发明了以前曾显示出良好潜力的新方法。我们使用了不同的样本转换和预测因子选择 方法。这些方法相互结合。 样本转换和预测因子选择方法。 样本转换: 1. 不 转换。 2. 按方向(矢量)类型 选择 交易--无选择,买入、卖出--保存为单独样本。 3. 根据财务结果 转移 目标函数。 4."丢弃" 法 --通过FP 类型预测器的强量子从样本中排除行--连续迭代 10-30 次样本量子估计,每次迭代改变样本: (a) 如果样本列车 上的向量与目标平均值的偏差大于给定的百分比,则在不考虑向量的情况下用最佳量子 排除 ,否则在考虑向量的情况下对样本进行额外评估,并选择最佳变量。 b) 与"a" 相同 ,但不选取在测试 样本 上显示TN 偏离概率递减方向的量子段。 c) 与"a" 相同 ,但在"测试"样本上进行估计选择。 预测因子选择: 1. 量化 法 : (a) 通过统计 选择 预测因子,为每个预测因子选择量化表。 ( b) 通过二进制抽样的统计方法 选择 定量表。 (c) 从不同向量的子样本中 组合 量化片段,形成集合二元样本。 d) 通过统计 选择 预测因子,并根据二进制量子选择量子表。 2)排除相关性强的预测因子。 3. 根据相似的反应域 对预测因子进行分组 ,并在每个域中选出占优势的预测因子--只有在将预测因子转换成二进制之后。 4. 根据预测因子在CatBoost 模型中的平均使用频率进行 选择 ,将 训练样本 分成 8 个部分。根据获得的统计数据,我们使用了 5 种学习策略和 20 多种预测因子选择方法。 5. 使用"删除"方法后,对每个样本的预测因子进行 汇总 选择。 Aleksey Vyazmikin 2023.01.14 13:50 #167 新纪录,这次的测试样本也是正方。 Aleksey Vyazmikin 2023.01.15 09:52 #168 我将写下这个模型是如何得出的--可能是写给我自己看的,因为没有人会对如何从复杂的样本中得到一些东西感兴趣。 因此,我在这里做的第一件事就是根据 "如果利润小于 50 点,则为负结果,即 "0 "而不是之前的 "1""的原则来转移目标。现在只剩下不到 20% 的正数,但这样可以选择更明显的趋势走势。 然后,我从量化表中选择了每个预测因子的分割。我们使用了大约 900 张表进行取样,选择了概率从 5%开始移动的分拆,并评估了量子分拆中信号生成的稳定性。 下一步是合并所选的量子片段。我使用了随机元素的方法,并按照 "分段越多越好 "的标准对结果进行了评估--我不确定这种方法是否完美,也许应该加以改进--我需要对算法进行思考。 通过这种方法,我得到了预测者的综合量子表。在量子表中,没有成功分段的预测因子只有一个分隔符 "0,5"。 我训练了 100 个模型,种子数从 8 到 800,以 8 为单位。 我从获得的变体中选出了最佳模型,并分析了它所使用的预测因子--结果发现有 77 个。 我又尝试训练了 100 个模型,但只训练了这些预测因子,而且种子值从 8 到 800,步长为 8。最佳模型的结果比最后一个模型略差。这当然让我感到困惑。 我决定用更小的步长和更大的容量来尝试 Seed,因为他们的预测器可以得到更好的结果--这已经得到了证实。我训练了 10000 个模型,Seed 值从 1 到 10000,步长为 1。 下图显示了模型的财务结果,从最佳到最差排列。 大约 25% 的模型没有盈利,这已经不算太差了,平均利润为 2116.65。38% 的模型利润大于或等于 3000 点。 目前还不完全清楚为什么测试样本的结果与考试样本不相关--是子样本的特殊性,还是有其他原因? 下图显示了测试样本的结果--按考试样本财务结果排序的方式与之前相同。 为了清楚起见,散点图看起来像是随机的。 我以为这是一个指标问题--点数,而不是二元统计指标,但从下图中可以看出,两个样本之间的准确性指标也是独立的。 如果不确定考试样本的结果对测试样本和训练样本的依赖性,就很难选择模型--我认为我们需要制定额外的评估标准--衡量模型的能力。 新模型(我注意到有两个)使用了不到 50 个预测因子。我认为要重复这个过程--最终会有足够的预测因子来建立一个模型。 然后该怎么办呢?我们可以只使用选定的预测因子在全部样本上训练模型,然后看看它们的集合在新数据上的表现如何。 此外,我还想尝试在被选中的预测因子中找到一些特殊的特征,以提高它们在不经过训练的情况下被选中的概率--通过类比,就像从表格中选取量子片段一样。 Forester 2023.01.15 11:05 #169 Aleksey Vyazmikin #:然后,我从量子表中为每个预测器选择了分裂。我们使用了大约 900 张表进行采样,选择了概率从 5%开始移动的分片,并评估了量子分片中信号生成的稳定性。下一步是组合所选的量子片段。我使用了随机元素的方法,并按照 "分段越多越好 "的标准对结果进行了评估--我不确定这种方法是否完美,也许应该加以改进--我们需要对算法进行思考。 它基本上是以大于 55% 的概率选择树叶?Aleksey Vyazmikin#: 我又试着训练了 100 个模型,但仅限于这些预测因子,而且种子数量从 8 到 800,步长 为 8。最佳模型的结果比最后一个模型略差。当然,这让我很困惑。 显然,Seed-a 的随机数与最佳样本的随机数变体并不完全一致。因此出现了不同/较差的结果。Aleksey Vyazmikin#: 不清楚为什么测试样本的结果与考试样本不相关--是子样本的特殊性,还是有其他原因?下图显示了测试样本的结果--按考试样本财务结果排序的方式与之前相同。 这就像正常训练一样,根据训练结果进行再训练/调整。在这种情况下,您已经对考试进行了调整 。 我认为你不应该参加最好的训练或考试。您需要一些稳定的东西,尽管其结果比最好的火车或考试更糟糕。当我使用 Darch 时,在两个样本上都有一个选择 err = err_ oob * k+ err_trn * (1 - k); 其中 k=0.62(推荐,但可更改) 即 err = err_ oob * 0.62+ err_trn * 0.38; 但对于计算时间不断增加的选择来说,这是一个不必要的参数。根据我在 H1 上的取样实验,结果是稳定的,但收益很少。10000 笔交易,但每笔交易只有 0.00005。这也是无趣的,因为在常规交易中,点差/滑点等会吃掉这 5 个点。你有 400 笔交易,但考试分数只有 40 分。在考试中,就像我一样--接近 0 分(随机)。 有很多方法,但没有人找到有效的。 Is there a pattern 时间序列主要特性的分析 深度神经网络 (第 IV 部)。创建, Aleksey Vyazmikin 2023.01.15 13:00 #170 elibrarius #:这基本上是一个概率大于 55% 的叶片选择 ? 不,应该说是选择一个预测因子的数值范围。5%是相对于样本训练中 "1 "的百分比值而言的。 elibrarius#: 显然,Seed-a 的随机数与最佳样本的变异随机数并不完全匹配。因此出现了不同/较差的结果。 随机数是固定的:)看来这个种子的计算方法很复杂,也就是说,可能涉及到所有允许用于建立模型的预测因子,改变它们的数量也会改变选择结果。 elibrarius#: 这就像普通的学习一样,需要对 Traine 进行重新训练/拟合。在这种情况下,你已经对考试进行了拟合 。任何拟合,无论是针对测试还是考试,正如我们在你的测试中看到的那样,都会导致随机结果。 为什么是匹配,或者说您认为什么是匹配?我倾向于认为,测试样本与考试样本的差异大于考试样本与训练样本的差异,即预测因子的概率分布不同。这可以通过选择那些最稳定的预测因子(在所有样本上都能得到可接受的结果),或者通过外部特征(即另一个预测因子)来改变概率分布来解决--我不知道有这样的模型,但我想试试。在不同树甚至整个模型的选定树叶上使用递归训练也能获得类似的效果。也许递归神经元可以做到这一点--我不了解它们。 到目前为止,我将这种方法视为一种选择预测因子的方法,在此基础上建立组合模型,并作为在实际训练之前识别其他有效预测因子的基准。 elibrarius#: 我认为你不应该选择最好的火车或考试。你需要一些稳定的东西,尽管结果要比最好的训练或考试差得多。当我使用 Darch 时,在两个样本上都有一个选择 err = err_ oob * k+ err_trn * (1 - k); 其中 k=0.62(推荐,但你可以改变它) 即 err = err_ oob * 0.62+ err_trn * 0.38; 但随着计算时间的增加,这是一个不必要的选择参数。 err_ 的度量标准是什么? elibrarius#: 你有 400 笔交易,但考试成绩只有 40 分。那么,在考试中,像我一样 - 接近 0 (随机)。 有很多方法,但还没有人找到有效的方法。 X 轴是测试样本的期望矩阵值,即一般情况下,是的,但也有一些成功的例子。 1...101112131415161718192021222324...32 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
除了某件事情的开始时间和结束时间(会话、日历),我什么也想不起来。什么意思?
为什么,这只是最明显的可能。波动性在数字中,还有其他因素需要考虑
对于离散的价格指标,并非一切都很简单,孤立地看往往会失去联系和意义。通道宽度或波动率和价格变化速度。这看似简单,但在我脑海中却没有概念))))))
我们必须首先明确我们想从 MO 中得到什么。只是分类或某些选择,即制作一个类似标准优化器的工具,在其中设置不同的目标函数。
然后用它来操作指标(属性)。通常是用笨办法、蛮力,直到想到有趣的东西(比如圣杯)。
一旦我们学到了什么,我们就开始深入挖掘。
我想我以为我写的东西很明显,但结果只有我自己知道:D
分支问题当然是一个有趣的问题....
这就是我想知道的原因。
也许可以找出一种模式。
我建议连续分析几个条形图,例如 3-4 条。
然后从这 3-4 个小节的样本开始移动一个小节,再次进行分析。
就像在一个样本上叠加另一个样本一样。
可以找到一种模式
像这样
与此同时,我从这个主题中的第一个样本中得到了这个模型。
不幸的是,它在测试样本上失败了--很明显,样本是不同的。
在寻找训练模型的方法的过程中,对不同的方法进行了测试,创建了 10 多万个模型,并发明了以前曾显示出良好潜力的新方法。我们使用了不同的样本转换和预测因子选择 方法。这些方法相互结合。
样本转换和预测因子选择方法。
样本转换:
(a) 如果样本列车 上的向量与目标平均值的偏差大于给定的百分比,则在不考虑向量的情况下用最佳量子 排除 ,否则在考虑向量的情况下对样本进行额外评估,并选择最佳变量。
b) 与"a" 相同 ,但不选取在测试 样本 上显示TN 偏离概率递减方向的量子段。
c) 与"a" 相同 ,但在"测试"样本上进行估计选择。
预测因子选择:
(a) 通过统计 选择 预测因子,为每个预测因子选择量化表。
( b) 通过二进制抽样的统计方法 选择 定量表。
(c) 从不同向量的子样本中 组合 量化片段,形成集合二元样本。
d) 通过统计 选择 预测因子,并根据二进制量子选择量子表。
新纪录,这次的测试样本也是正方。
我将写下这个模型是如何得出的--可能是写给我自己看的,因为没有人会对如何从复杂的样本中得到一些东西感兴趣。
因此,我在这里做的第一件事就是根据 "如果利润小于 50 点,则为负结果,即 "0 "而不是之前的 "1""的原则来转移目标。现在只剩下不到 20% 的正数,但这样可以选择更明显的趋势走势。
然后,我从量化表中选择了每个预测因子的分割。我们使用了大约 900 张表进行取样,选择了概率从 5%开始移动的分拆,并评估了量子分拆中信号生成的稳定性。
下一步是合并所选的量子片段。我使用了随机元素的方法,并按照 "分段越多越好 "的标准对结果进行了评估--我不确定这种方法是否完美,也许应该加以改进--我需要对算法进行思考。
通过这种方法,我得到了预测者的综合量子表。在量子表中,没有成功分段的预测因子只有一个分隔符 "0,5"。
我训练了 100 个模型,种子数从 8 到 800,以 8 为单位。
我从获得的变体中选出了最佳模型,并分析了它所使用的预测因子--结果发现有 77 个。
我又尝试训练了 100 个模型,但只训练了这些预测因子,而且种子值从 8 到 800,步长为 8。最佳模型的结果比最后一个模型略差。这当然让我感到困惑。
我决定用更小的步长和更大的容量来尝试 Seed,因为他们的预测器可以得到更好的结果--这已经得到了证实。我训练了 10000 个模型,Seed 值从 1 到 10000,步长为 1。
下图显示了模型的财务结果,从最佳到最差排列。
大约 25% 的模型没有盈利,这已经不算太差了,平均利润为 2116.65。38% 的模型利润大于或等于 3000 点。
目前还不完全清楚为什么测试样本的结果与考试样本不相关--是子样本的特殊性,还是有其他原因?
下图显示了测试样本的结果--按考试样本财务结果排序的方式与之前相同。
为了清楚起见,散点图看起来像是随机的。
我以为这是一个指标问题--点数,而不是二元统计指标,但从下图中可以看出,两个样本之间的准确性指标也是独立的。
如果不确定考试样本的结果对测试样本和训练样本的依赖性,就很难选择模型--我认为我们需要制定额外的评估标准--衡量模型的能力。
新模型(我注意到有两个)使用了不到 50 个预测因子。我认为要重复这个过程--最终会有足够的预测因子来建立一个模型。
然后该怎么办呢?我们可以只使用选定的预测因子在全部样本上训练模型,然后看看它们的集合在新数据上的表现如何。
此外,我还想尝试在被选中的预测因子中找到一些特殊的特征,以提高它们在不经过训练的情况下被选中的概率--通过类比,就像从表格中选取量子片段一样。
然后,我从量子表中为每个预测器选择了分裂。我们使用了大约 900 张表进行采样,选择了概率从 5%开始移动的分片,并评估了量子分片中信号生成的稳定性。
下一步是组合所选的量子片段。我使用了随机元素的方法,并按照 "分段越多越好 "的标准对结果进行了评估--我不确定这种方法是否完美,也许应该加以改进--我们需要对算法进行思考。
它基本上是以大于 55% 的概率选择树叶?
我又试着训练了 100 个模型,但仅限于这些预测因子,而且种子数量从 8 到 800,步长 为 8。最佳模型的结果比最后一个模型略差。当然,这让我很困惑。
显然,Seed-a 的随机数与最佳样本的随机数变体并不完全一致。因此出现了不同/较差的结果。
不清楚为什么测试样本的结果与考试样本不相关--是子样本的特殊性,还是有其他原因?
下图显示了测试样本的结果--按考试样本财务结果排序的方式与之前相同。
这就像正常训练一样,根据训练结果进行再训练/调整。在这种情况下,您已经对考试进行了调整 。
我认为你不应该参加最好的训练或考试。您需要一些稳定的东西,尽管其结果比最好的火车或考试更糟糕。
当我使用 Darch 时,在两个样本上都有一个选择 err = err_ oob * k+ err_trn * (1 - k); 其中 k=0.62(推荐,但可更改)
即 err = err_ oob * 0.62+ err_trn * 0.38;
但对于计算时间不断增加的选择来说,这是一个不必要的参数。
根据我在 H1 上的取样实验,结果是稳定的,但收益很少。10000 笔交易,但每笔交易只有 0.00005。这也是无趣的,因为在常规交易中,点差/滑点等会吃掉这 5 个点。
你有 400 笔交易,但考试分数只有 40 分。在考试中,就像我一样--接近 0 分(随机)。
有很多方法,但没有人找到有效的。这基本上是一个概率大于 55% 的叶片选择 ?
不,应该说是选择一个预测因子的数值范围。5%是相对于样本训练中 "1 "的百分比值而言的。
显然,Seed-a 的随机数与最佳样本的变异随机数并不完全匹配。因此出现了不同/较差的结果。
随机数是固定的:)看来这个种子的计算方法很复杂,也就是说,可能涉及到所有允许用于建立模型的预测因子,改变它们的数量也会改变选择结果。
这就像普通的学习一样,需要对 Traine 进行重新训练/拟合。在这种情况下,你已经对考试进行了拟合 。任何拟合,无论是针对测试还是考试,正如我们在你的测试中看到的那样,都会导致随机结果。
为什么是匹配,或者说您认为什么是匹配?我倾向于认为,测试样本与考试样本的差异大于考试样本与训练样本的差异,即预测因子的概率分布不同。这可以通过选择那些最稳定的预测因子(在所有样本上都能得到可接受的结果),或者通过外部特征(即另一个预测因子)来改变概率分布来解决--我不知道有这样的模型,但我想试试。在不同树甚至整个模型的选定树叶上使用递归训练也能获得类似的效果。也许递归神经元可以做到这一点--我不了解它们。
到目前为止,我将这种方法视为一种选择预测因子的方法,在此基础上建立组合模型,并作为在实际训练之前识别其他有效预测因子的基准。
我认为你不应该选择最好的火车或考试。你需要一些稳定的东西,尽管结果要比最好的训练或考试差得多。
当我使用 Darch 时,在两个样本上都有一个选择 err = err_ oob * k+ err_trn * (1 - k); 其中 k=0.62(推荐,但你可以改变它)
即 err = err_ oob * 0.62+ err_trn * 0.38;
但随着计算时间的增加,这是一个不必要的选择参数。
err_ 的度量标准是什么?
你有 400 笔交易,但考试成绩只有 40 分。那么,在考试中,像我一样 - 接近 0 (随机)。
有很多方法,但还没有人找到有效的方法。X 轴是测试样本的期望矩阵值,即一般情况下,是的,但也有一些成功的例子。