交易中的机器学习:理论、模型、实践和算法交易 - 页 3168 1...316131623163316431653166316731683169317031713172317331743175...3399 新评论 mytarmailS 2023.08.14 20:25 #31671 Vladimir Perervenko #: 弗拉基米尔,你在新数据上得到的最大 "诚实 "阿库拉西是多少? 用的是什么 MO 算法? Aleksey Vyazmikin 2023.08.15 02:08 #31672 Aleksey Nikolayev #:我们的想法是将例子分成不同的组别,而在这些组别中又存在同质性。具体的特征是否能做到这一点并不确定。事实上,由于非稳态性等原因,也不能确定是否有任何特征可以做到这一点。我不打算详细研究这篇文章,因为它只涉及我感兴趣的话题。 CHAID 稍微接近,但不完全相同。 就是这样,我想在序列顺序变化的动态中找到一些规律性,或者至少是对位移的估计,并确定一个断点。我说的是微不足道的二元预测因子。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么将预测因子从训练中排除,要么从模型中排除。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的是,当你做完一件事,却发现结果不尽如人意。 您认为CHAID 的优势是什么? Aleksey Vyazmikin 2023.08.15 02:15 #31673 这种训练方法是通过量子段检测有利于从样本中排除(归零)的线条。 每一步都是增加一条规则。规则如下 if(arr_Q[n0][i]==1|| arr_Q[n1][i]==1||arr_Q[nn][i]==1 ) Propusk=true; 这是一个 gif - 您需要点击它才能运行。 余额 - 盈利点数 - 五位数。 是的,这只是一块用于训练的样本,我还没有做进一步的工作--实验。 补充:这是评估量子线段选择的另一个标准,根据该标准,信号将被排除 - 似乎在这里,去除无利可图的线段更令人高兴。 Aleksey Nikolayev 2023.08.15 07:04 #31674 Aleksey Vyazmikin #:就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出 过去五年中出现过的5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。 在我看来,这是一种组合意义上的坏方法。过于丰富的序列集很可能会导致训练过度--总会有随机的 "好 "序列。 Aleksey Vyazmikin#: 您认为 CHAID 的优势是什么? 首先,从 matstat 的角度来看,它考虑周到。当达到给定的显著性水平时,就会停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(尝试建立)另一个模型。 Forester 2023.08.15 08:12 #31675 Aleksey Vyazmikin #:就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。您认为CHAID 的优势是什么? 1) 如果我们按照下面的方法进行,是否会得到与您相同的结果(就意义而言)? 我们取一张表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果先出现增长,然后下降到某个值以上,则删除该表。 2) 您的图表上有 OOS 吗? 3) 规则/表是根据跟踪或验证/测试的数据筛选出来的。 Aleksey Vyazmikin 2023.08.15 17:58 #31676 Aleksey Nikolayev #:在我看来,这是一种组合意义上的糟糕方法。过于丰富的序列集很可能导致过度训练--总会有随机出现的 "好 "序列。 这里的问题是检测稳定性,如果历史上存在稳定性,那么至少有理由期待在模型中真正使用特征时会出现稳定性。而检测稳定性的方法可能有所不同。但是,仅仅估计分布是不够的,它无法估计稳定性。要么就是需要清理。我还遇到过这样一个事实,如果你把时间间隔,比方说一个月,就没有足够的信号来得出任何统计结论。至此,我在....。无论如何,评估事件在时间上的分布是很重要的。 Aleksey Nikolayev#: 首先是 matstat 方面的周到考虑。这是在达到给定的显著性水平时停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(试图建立)另一个模型。 我得试试看。你是否与其他建树方案进行过比较,结果是否真的更好? Aleksey Vyazmikin 2023.08.15 18:19 #31677 Forester #:1) 如果我们按下面的方法操作,是否会得到与您相同的结果(就意义而言)? 我们取一张工作表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果一开始出现增长,然后下降到某个值以上,则删除该工作表。2) 您的图表上有 OOS 吗? 3) 规则/表单是根据跟踪或验证/测试的数据筛选出来的。 1) 拒绝是正常的,这里的问题是周期性,如果我们谈论的是一个工作表的话(我有一个量子段--字面意思是由两个分割 F>=X1 &&F<X2 组成的工作表)。也就是说,如果它的振荡甚至接近于零,那也不错,但它们在一个方向上的振荡不应非常高(为了估算,我采用了 10 个采样间隔)。或者从字面上看,就像你写的那样,一开始是增长,然后大部分时间是衰退 - 这马上就会变成垃圾。但这都是关于树叶的,如果是量子部分,那么从该类平均值的 5%作为初始选择标准之一的概率偏差选择。 2.当然不是,我写的是训练样本。任何模型本身都没有经过训练--我认为还有更多的模型需要训练。 3.关于示例中的训练样本。但不是筛选,而只是选择那些将作为过滤器的样本,即把模型的响应归零。显然,还要排除训练中的字符串/示例。 一般来说,如果我们专注于识别稳定的量子片段(考虑--二进制预测器),那么这样的 "模型 "无需任何分类器的训练就能进一步发挥作用。只要做不到这一点,使用分类器就没有多大意义。当然,没有人取消随机性,我们也可以找到一些成功的模型,但很难合理地考虑这种方法。 该方法的缺点之一是召回率下降,但它并不比 CatBoost 模型的召回率高--在本例中约为 0.5。 Aleksey Nikolayev 2023.08.15 19:49 #31678 Aleksey Vyazmikin #:您是否与其他建树方案进行过比较,结果是否真的更好? 我发现现成的形式不太适合市场,自制的也还没做好。但我不抱太大希望,所以也不着急。 fxsaber 2023.08.16 11:38 #31679 就是这种情况。左边是 OOS 通过,右边不是。而右侧则立即跳水。 这种情况经常发生。 也就是立即大幅度下潜。下潜的性质尚不清楚。似乎应该有一些接近 SB 的东西,但我经常看到这样的图片。 我觉得如果在优化后运行反转 TS,我甚至可能不会输。 mytarmailS 2023.08.16 11:43 #31680 fxsaber #: 就是这种情况。左边的 OOS 可以通过,右边的则不行。而在右侧,它会立即 "跳水"。这种情况经常发生。也就是说,字面意思是立即大幅下潜。跳水的性质尚不清楚。我认为它应该是接近 SB 的东西,但我经常看到这样的画面。看来,如果在优化后运行反转 TS,可能根本不会输。 大约两年前,我在这里发布了这种效果 1...316131623163316431653166316731683169317031713172317331743175...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
弗拉基米尔,你在新数据上得到的最大 "诚实 "阿库拉西是多少?
用的是什么 MO 算法?
我们的想法是将例子分成不同的组别,而在这些组别中又存在同质性。具体的特征是否能做到这一点并不确定。事实上,由于非稳态性等原因,也不能确定是否有任何特征可以做到这一点。
我不打算详细研究这篇文章,因为它只涉及我感兴趣的话题。 CHAID 稍微接近,但不完全相同。
就是这样,我想在序列顺序变化的动态中找到一些规律性,或者至少是对位移的估计,并确定一个断点。我说的是微不足道的二元预测因子。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么将预测因子从训练中排除,要么从模型中排除。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的是,当你做完一件事,却发现结果不尽如人意。
您认为CHAID 的优势是什么?
这种训练方法是通过量子段检测有利于从样本中排除(归零)的线条。
每一步都是增加一条规则。规则如下 if(arr_Q[n0][i]==1|| arr_Q[n1][i]==1||arr_Q[nn][i]==1 ) Propusk=true;
这是一个 gif - 您需要点击它才能运行。
余额 - 盈利点数 - 五位数。
是的,这只是一块用于训练的样本,我还没有做进一步的工作--实验。
补充:这是评估量子线段选择的另一个标准,根据该标准,信号将被排除 - 似乎在这里,去除无利可图的线段更令人高兴。
就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出 过去五年中出现过的5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。
在我看来,这是一种组合意义上的坏方法。过于丰富的序列集很可能会导致训练过度--总会有随机的 "好 "序列。
您认为 CHAID 的优势是什么?
首先,从 matstat 的角度来看,它考虑周到。当达到给定的显著性水平时,就会停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(尝试建立)另一个模型。
就是这样,我想在序列顺序变化的动态中找到一些规律性的东西,或者至少在确定断点的情况下对转变进行估计。我说的是微不足道的二进制预测。例如,找出过去五年中出现过的 5 个序列,看看它们对目标值的倾向性是否稳定,如果序列和倾向性都发生了显著变化,那么要么从训练中排除预测因子,要么从模型中排除预测因子。在过去的半年里,我阅读/浏览了大量的方法,但要我把所有方法都编成代码进行测试是不现实的--有大量的工作要做。最可悲的事情是,当你在做某件事情时,却发现结果不尽如人意。
您认为CHAID 的优势是什么?
1) 如果我们按照下面的方法进行,是否会得到与您相同的结果(就意义而言)?
我们取一张表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果先出现增长,然后下降到某个值以上,则删除该表。
2) 您的图表上有 OOS 吗?
3) 规则/表是根据跟踪或验证/测试的数据筛选出来的。
在我看来,这是一种组合意义上的糟糕方法。过于丰富的序列集很可能导致过度训练--总会有随机出现的 "好 "序列。
这里的问题是检测稳定性,如果历史上存在稳定性,那么至少有理由期待在模型中真正使用特征时会出现稳定性。而检测稳定性的方法可能有所不同。但是,仅仅估计分布是不够的,它无法估计稳定性。要么就是需要清理。我还遇到过这样一个事实,如果你把时间间隔,比方说一个月,就没有足够的信号来得出任何统计结论。至此,我在....。无论如何,评估事件在时间上的分布是很重要的。
首先是 matstat 方面的周到考虑。这是在达到给定的显著性水平时停止建树,而不是采用某种左手规则。还有使用 Bonferoni 校正等。当然,只使用名义特征完全不适合我,所以我正在寻找(试图建立)另一个模型。
我得试试看。你是否与其他建树方案进行过比较,结果是否真的更好?
1) 如果我们按下面的方法操作,是否会得到与您相同的结果(就意义而言)?
我们取一张工作表(经过 5 次分割后),按时间对其中的所有示例进行排序,如果一开始出现增长,然后下降到某个值以上,则删除该工作表。
2) 您的图表上有 OOS 吗?
3) 规则/表单是根据跟踪或验证/测试的数据筛选出来的。
1) 拒绝是正常的,这里的问题是周期性,如果我们谈论的是一个工作表的话(我有一个量子段--字面意思是由两个分割 F>=X1 &&F<X2 组成的工作表)。也就是说,如果它的振荡甚至接近于零,那也不错,但它们在一个方向上的振荡不应非常高(为了估算,我采用了 10 个采样间隔)。或者从字面上看,就像你写的那样,一开始是增长,然后大部分时间是衰退 - 这马上就会变成垃圾。但这都是关于树叶的,如果是量子部分,那么从该类平均值的 5%作为初始选择标准之一的概率偏差选择。
2.当然不是,我写的是训练样本。任何模型本身都没有经过训练--我认为还有更多的模型需要训练。
3.关于示例中的训练样本。但不是筛选,而只是选择那些将作为过滤器的样本,即把模型的响应归零。显然,还要排除训练中的字符串/示例。
一般来说,如果我们专注于识别稳定的量子片段(考虑--二进制预测器),那么这样的 "模型 "无需任何分类器的训练就能进一步发挥作用。只要做不到这一点,使用分类器就没有多大意义。当然,没有人取消随机性,我们也可以找到一些成功的模型,但很难合理地考虑这种方法。
该方法的缺点之一是召回率下降,但它并不比 CatBoost 模型的召回率高--在本例中约为 0.5。
您是否与其他建树方案进行过比较,结果是否真的更好?
我发现现成的形式不太适合市场,自制的也还没做好。但我不抱太大希望,所以也不着急。
就是这种情况。左边是 OOS 通过,右边不是。而右侧则立即跳水。
这种情况经常发生。
也就是立即大幅度下潜。下潜的性质尚不清楚。似乎应该有一些接近 SB 的东西,但我经常看到这样的图片。
我觉得如果在优化后运行反转 TS,我甚至可能不会输。
就是这种情况。左边的 OOS 可以通过,右边的则不行。而在右侧,它会立即 "跳水"。
这种情况经常发生。
也就是说,字面意思是立即大幅下潜。跳水的性质尚不清楚。我认为它应该是接近 SB 的东西,但我经常看到这样的画面。
看来,如果在优化后运行反转 TS,可能根本不会输。