交易中的机器学习:理论、模型、实践和算法交易 - 页 3187

 
我完全不明白发生了什么,但这对我来说是正常的心理状态。
 
fxsaber #:.

ZЫ 一般来说,如果有兴趣尝试找出两行之间的差异,可以提供这些差异。

你可以看看我给你写的信。我只能在秋天亲自看看了。

 
Aleksey Nikolayev #

Forester#

我对发布图片的样本进行了实验,样本中已有 47% 的单位,数据汇总在一张表格中。


各栏内容说明:

  • 生成 - 目标随机生成的 "1 "和 "0 "的固定数量,最后一行 - 原始目标
  • % 所有相似度 - 指定目标的相似度百分比。
  • %相似度 "1"--指定目标的相似度百分比,但只针对响应 "1"。
  • % 相似度 "0" - 指定目标的相似度百分比,但仅针对回复 "0"。
  • Q_All - 使用 870 个量子表和 6533 个谓词总共找到了多少个量子句段
  • Q_All%--"Q_All "的数量占原始目标样本的百分比
  • Q sampled(已采样)- 显示已采样的量子段数量(只采样范围内不重叠的量子段
  • Q selected% - 从具有原始目标的样本中按百分比表达的 "Q selected "数量。
  • 预测因子 - 从样本中有多少预测因子可以找到符合给定标准的量子片段
  • Predictors % - 在原始目标样本中有多少 "Predictors"(按百分比表达)。

让我解释一下,对于一个预测因子,总共可以选择多个量子点,而且这些量子点在预测因子值的范围内不应重叠。

我不喜欢的是,在 50%的目标值附近被保留下来,这会对结果的评估产生负面影响。

事实上,在随机目标上发现了不少量子片段,但因为它们是一些群集(大概),不同的表格重叠了它们的坐标,所以在选择了非重叠范围后,发现这些量子片段的质量(效用)比原始片段差(少)了 10 倍。因此,平均而言,在原始目标的样本中,不同预测因子找到的量子片段要多出3.5 倍

您认为结果如何?

补充:

随机目标和原始目标的二进制序列图如下所示


 
Aleksey Vyazmikin #:

我对我发布 gifs 的样本进行了实验,样本中已有 47% 的单位,数据汇总于表中。


各栏内容说明:

  • 生成 - 目标随机生成的 "1 "和 "0 "的固定数量,最后一行 - 原始目标
  • % 所有相似度 - 指定目标的相似度百分比。
  • %相似度 "1"--指定目标的相似度百分比,但只针对响应 "1"。
  • % 相似度 "0" - 指定目标的相似度百分比,但仅针对回复 "0"。
  • Q_All - 使用 870 个量子表和 6533 个谓词总共找到了多少个量子句段
  • Q_All%--"Q_All "的数量占原始目标样本的百分比
  • Q sampled(已采样)- 显示已采样的量子段数量(只采样范围内不重叠的量子段
  • Q selected% - 从具有原始目标的样本中按百分比表达的 "Q selected "数量。
  • 预测因子 - 从样本中有多少预测因子可以找到符合给定标准的量子片段
  • Predictors % - 在原始目标样本中有多少 "Predictors"(按百分比表达)。

让我解释一下,对于一个预测因子,总共可以选择多个量子点,而且这些量子点在预测因子值的范围内不应重叠。

我不喜欢的是,在 50%的目标值附近被保留下来,这会对结果的评估产生负面影响。

事实上,在随机目标上发现了不少量子片段,但因为它们是一些群集(大概),不同的表格重叠了它们的坐标,所以在选择了非重叠范围后,发现这些量子片段的质量(效用)比原始片段差(少)了 10 倍。因此,平均而言,在原始目标的样本中,不同预测因子找到的量子切段要多出3.5 倍

您对结果有什么看法?

向阿列克谢提问。我的统计理论不是很强。我只是建议混合目标而不是生成。
 
Forester #:
向阿列克谢提问。我不擅长统计理论。我只是建议混合目标,而不是混合世代。

我明白了。

我还有一个建议,如果我们能让构建森林的过程更易于管理,从选定的量子段中抽取一个特定的子样本作为每棵树的根,会怎么样?

将深度控制在 2-3 个子样本左右,这样每片叶子上可分类的例子至少占 1%。

我认为这样的模型会更加稳定。

 
Aleksey Vyazmikin #:

我对我发布 gifs 的样本进行了实验,样本中已有 47% 的单位,数据汇总于表中。


各栏内容说明:

  • 生成 - 目标随机生成的 "1 "和 "0 "的固定数量,最后一行 - 原始目标
  • % 所有相似度 - 指定目标的相似度百分比。
  • %相似度 "1"--指定目标的相似度百分比,但只针对响应 "1"。
  • % 相似度 "0" - 指定目标的相似度百分比,但仅针对回复 "0"。
  • Q_All - 使用 870 个量子表和 6533 个谓词总共找到了多少个量子句段
  • Q_All%--"Q_All "的数量占原始目标样本的百分比
  • Q sampled(已采样)- 显示已采样的量子段数量(只采样范围内不重叠的量子段
  • Q selected% - 从具有原始目标的样本中按百分比表达的 "Q selected "数量。
  • 预测因子 - 从样本中有多少预测因子可以找到符合给定标准的量子片段
  • Predictors % - 在原始目标样本中有多少 "Predictors"(按百分比表达)。

请允许我解释一下,对于一个预测因子,总共可以选择一个以上的量子段,而且这些量子段在预测因子值的范围内不应重叠。

我不喜欢的是,在 50%的目标值附近被保留下来,这会对结果的评估产生负面影响。

事实上,在随机目标上发现了不少量子片段,但因为它们是一些群集(大概),不同的表格重叠了它们的坐标,所以在选择了非重叠范围后,发现这些量子片段的质量(效用)比原始片段差(少)了 10 倍。因此,平均而言,在原始目标的样本中,不同预测因子找到的量子片段要多出3.5 倍

您认为结果如何?

补充:

随机目标和原始目标的二进制序列图如下所示


十次模拟不算什么,你需要成千上万次才能获得统计意义。

我也不准备就某个具体案例发表专家意见,只是指出了可能存在的问题和常见的解决方法。

 
Aleksey Vyazmikin #:

您认为结果如何?

已添加:

目标随机序列和原始序列的二进制序列图如下所示

你这是毫无意义的无情废话。Saber 至少在半小时内就发生了,而且忘记了。
 
Aleksey Nikolayev #:

十次模拟不算什么,需要数千次才能达到统计意义。

我也不准备就某个具体案例发表专家意见,只是指出了可能存在的问题和常见的解决方法。

数千次--这需要太多的计算资源--一次通过--大约 40 分钟--显卡上的基本计算。

我普遍认为,这种测试只能检查在预测器的不同范围内出现这种集群的可能性。

有必要查看量子段特定范围的命中概率,该范围已被初步选定。

另外,我还想听听大家对目标的百分比表达差异问题的看法,以确定这种测试的可靠性。

 
Maxim Dmitrievsky #:
你在胡说八道,毫无意义。Saber 至少在半小时内就把这事忘了。

请把你对别人表现的评价留给自己,尤其是当你不了解别人在做什么的时候。

我愿意接受有建设性的批评,而你却没有。

 
Aleksey Vyazmikin #:

对别人的表现不要妄加评论,尤其是当你不了解别人在做什么的时候。

我愿意接受建设性的批评,而你不是。

你在胡说八道。已经写过好几次了,你会随意得到任何结果。睁大眼睛看看吧。没什么可补充的 :)

你至少能明白你在做什么以及为什么吗?)