文章 "机器学习模型的变量评估和选择"

Yury Reshetov 2015.10.30 06:01 #11

Alexey Oreshkin:

...and there it is.....和这样的人说话根本没意思。

相互的，也就是说，与那些还抱着 "woz "不放的蹩脚者交流毫无乐趣可言，因为他们什么也不能提供，只能在所有的话题上跑来跑去，喋喋不休，并把他们所谓的 "什么都不管用 "的狭隘观点强加于人。与那些根据个人经验，而不是根据未经证实的观点，为 "移动马车 "的正确方向问题提供解决方案的人交流，会有趣得多。

Vladimir 2015.10.31 17:08 #12

这篇文章很有意思。感谢作者的辛勤工作。如果能在一个具体的例子中演示所描述的方法就更好了。我建议这样一个例子：预测 S&P500 指数未来两个季度的走势。我已经做了很长时间，并在另一个主题上讨论了我的结果。我有自己的输入选择和归一化方法。那里都有描述。我会给你和其他人一个文件，其中包含自 1960 年以来的所有季度经济数据。我还可以给出同期 S&P500 指数的季度平均值。

任务

1.选择输入数据。您可以选择经济数据以及 S&P500 价格系列本身的所有已知指标。

2.对数据进行归一化处理。

3.创建并训练一个模型，预测从 1960 年到 1999 年（含）的 S&P500 季度值。训练历史的起点可任意选择。

4.4. 在 2000 年至今的区间内，显示模型在训练历史之外的行为。

5.5. 显示训练区间内外两个季度前的预测误差。归一化数据的误差计算如下：

Err = SQRT { SUM（预测值[i] - 实际值[i]）^2 / SUM（实际值[i]）^2 }

用这种方法计算预测误差很有意义。公认的模型误差计算方法是基于 RMS：

RMS_model_error = SUM（预测值[i] - 实际值[i]）^2

平庸预测基于这样一个假设，即预测变量的未归一化值将等于其最后的已知值。因此，琐碎归一化预测值的均方根值为：

RMS_ trivial = SUM(0 - Real Value[i])^2 = SUM(Real Value[i])^2

建议的预测误差 Err 计算公式是 SCO_model/SCO_basic 比例的平方根。如果 Err > 1，则表示构建的模型比琐碎预测更差。

如果您对我的建议感兴趣，我将把经济指标表和 S&P500 指数表贴在这里。我对模型、数据标准化和数据选择的细节不感兴趣。我感兴趣的是对 2000 年至今未经训练的部分的预测结果（实际值和预测值的图表，以及用我的公式 Err 计算出的预测误差）。

СанСаныч Фоменко 2015.10.31 18:51 #13

Vladimir:

这篇文章很有意思。感谢作者的辛勤工作。如果能在一个具体的例子中演示所描述的方法就更好了。我建议这样一个例子：预测 S&P500 指数未来两个季度的走势。我已经做了很长时间，并在另一个主题上讨论了我的结果。我有自己的输入选择和归一化方法。那里都有描述。我会给你和其他人一个文件，其中包含自 1960 年以来的所有季度经济数据。我还可以给出同期 S&P500 指数的季度平均值。

任务

1.选择输入数据。您可以选择经济数据以及 S&P500 价格系列本身的所有已知指标。

2.对数据进行归一化处理。

3.创建并训练一个模型，预测从 1960 年到 1999 年（含）的 S&P500 季度值。训练历史的起点可任意选择。

4.4. 在 2000 年至今的区间内，显示模型在训练历史之外的行为。

5.5. 显示训练区间内外两个季度前的预测误差。归一化数据的误差计算如下：

Err = SQRT { SUM（预测值[i] - 实际值[i]）^2 / SUM（实际值[i]）^2 }

用这种方法计算预测误差很有意义。公认的模型误差计算方法是基于 RMS：

RMS_model_error = SUM(Prediction[i] - Real Value[i])^2

平庸预测基于这样一个假设，即预测变量的未归一化值将等于其最后的已知值。因此，琐碎归一化预测值的均方根值为：

RMS_ trivial = SUM(0 - Real Value[i])^2 = SUM(Real Value[i])^2

建议的预测误差 Err 计算公式是 SCO_model/SCO_basic 比例的平方根。如果 Err > 1，则表示构建的模型比琐碎预测更差。

如果您对我的建议感兴趣，我将把经济指标表和 S&P500 指数表贴在这里。我对模型、数据标准化和数据选择的细节不感兴趣。我感兴趣的是对 2000 年至今未经训练的部分的预测结果（实际值和预测值的图表，以及根据我的公式 Err 计算出的预测误差）。

您所描述的一切都是回归预测，即预测某个值，并指定置信区间

我不明白这种预测在交易中的实用价值。原因就在这里。

终端支持买入/卖出指令。这是一个纯粹的名义变量，可以取定性值。

您可能还记得还有限价订单。但它们也是基于买入/卖出指令。

如果我们预测值而不是买入/卖出，结果会发现预测误差会覆盖预测变量的最后值，而且无法确定买入/卖出指令的类型。

PS.机器学习回归模型广泛应用于经济学领域，几乎所有公司都在使用，例如预测销售量。在货币市场上对冲货币风险时（货币的组成部分和卢布的销售）。但在交易中呢？

Vladimir 2015.10.31 19:47 #14

СанСаныч Фоменко:

您所描述的只是一个回归预测，即预测某个值，并给出一个置信区间。

我不明白这种预测在交易中的实用价值。原因就在这里。

终端支持买入/卖出指令。这是一个纯粹的名义变量，可以取定性值。

您可能还记得还有限价订单。但它们也是基于买入/卖出指令。

如果我们预测值而不是买入/卖出，结果会发现预测误差会覆盖预测变量的最后值，而且无法确定买入/卖出指令的类型。

PS.机器学习回归模型广泛应用于经济学领域，几乎所有公司都在使用，例如预测销售量。在货币市场上对冲货币风险时（货币的组成部分和卢布的销售）。但在交易中呢？

如果输出信号是买入或卖出，那么我们如何根据这一条来评估输入的重要性或适用性？如何量化模型的成功？根据利润？缩水？PF？这样的模型我在这里已经见过很多次了，我就不指指点点了，作者自己会认出来的。选择交易指标作为评估输入和模型的目标函数充满了这样一个事实：创造者不是选择正确的输入和模型，而是开始用不同的方法来衡量成功与否，并最终产生了EA-overseers/slivators。自欺欺人的创造性机会很多。

СанСаныч Фоменко 2015.10.31 20:59 #15

Vladimir:
如果输出信号是买入或卖出，那么我们如何根据这一条来评估输入的重要性或适用性？我们如何量化模型的成功？根据利润？缩水？PF？这样的模型我在这里已经见过很多次了，我就不指指点点了，作者自己会认出来的。选择交易指标作为评估输入和模型的目标函数充满了这样一个事实：创造者不是选择正确的输入和模型，而是开始用不同的方法来衡量成功与否，并最终产生了EA-overseers/slivators。自欺欺人的创意机会很多。

回归有其估计值，分类也有其估计值。

评估分类模型性能的最明显方法是事实类和预测类的匹配百分比（买入/卖出的正确预测百分比）。本文使用信息量更大的方法来评估分类模型的性能。不仅使用了工具，还具体说明了工具。

PS.

ROC 是最常用的。

СанСаныч Фоменко 2015.10.31 21:00 #16

Yury Reshetov:

你在哪里看到回归？这篇文章涉及的是二元分类：

我回答弗拉基米尔

Vladimir 2015.11.01 04:58 #17

СанСаныч Фоменко:

回归模型有自己的估计值，分类模型也有自己的估计值。

评估分类模型性能的最明显方法是事实类和预测类的匹配百分比（正确预测买入/卖出的百分比）。本文采用信息量更大的方法来评估分类模型的性能。不仅使用了工具，还具体说明了工具。

PS.

ROC 是最常用的方法。

您所说的分类是指将条形图分为 "买入"、"卖出 "和 "持有"，对吗？这种分类原则上是错误的，因为它不一致。例如，您可以将某个条形图划分为买入（BUY），即使其后价格下跌，然后辩称该信号是正确的，因为您本应坐等下跌直至获利。同样的条形图也可以很容易地被归类为卖出，因为价格下跌了。同样的柱形图也可以被归类为 "持有"，如果该柱形图之后的价格波动幅度小于预期利润。因此，我们就会产生歧义。有了这样的分类，我们就需要添加额外的条件，例如，我们允许多少缩水，我们要等多久才能获利，获利目标是什么，我们在收盘时要做什么（我们要等到周一吗？）

根据预期的价格运动方向（上涨或下跌）对条形图进行分类要容易得多。在我上述预测 S&P500 的例子中，我们可以不预测未来两个季度的量化价格走势，而只预测价格走势的方向。这将是明确的，误差可以用猜测运动方向的正确率来计算。

我的上述建议仍然有效，但在我看来，这里的文章作者将继续描述一些工具的使用方法和指南，而不是在具体的例子中展示这些工具。所有这些都是理论，钱是靠写文章和出书赚来的，而不是靠在交易中使用这些工具赚来的。关于文章实用性的争论在这里并不新鲜。

СанСаныч Фоменко 2015.11.01 07:56 #18

Vladimir:

您所说的分类是指将条形图分为买入、卖出和持有，对吗？这种分类原则上是错误的，因为它前后不一致。例如，您可以将一个交易栏归类为 "买入"，即使价格在该交易栏之后下跌，然后辩称信号是正确的，因为您应该在下跌过程中坐等获利。同样的条形图也可以很容易地被归类为卖出，因为价格下跌了。同样的柱形图也可以归类为 "持有"，如果该柱形图之后的价格波动幅度小于预期利润。因此，我们就会产生歧义。有了这样的分类，我们就需要添加额外的条件，例如，我们允许多少缩水，我们要等多久才能获利，获利目标是什么，我们在收盘时要做什么（我们要等到周一吗？）

根据预期的价格运动方向（上涨或下跌）对条形图进行分类要容易得多。在我上述预测 S&P500 的例子中，我们可以不预测未来两个季度的量化价格走势，而只预测价格走势的方向。这将是明确的，误差可以用猜测运动方向的正确率来计算。

我的上述建议仍然有效，但在我看来，这里的文章作者将继续描述一些工具的使用方法和指南，而不是在具体的例子中展示这些工具。所有这些都是理论，钱是靠写文章和出书赚来的，而不是靠在交易中使用这些工具赚来的。关于文章实用性的争论在这里并不新鲜。

1.如果你从小就被教导阅读书籍和文章，你就会明白我和文章作者写的和你写的是一回事。

2.如果你从小就养成了尊重他人的习惯，你就不会允许自己写文章或写 "偷窥"。

祝你学会阅读。

Vladimir Perervenko 2015.11.01 09:43 #19

Vladimir:

您所说的分类是指将条形图分为买入、卖出和持有，对吗？这种分类原则上是错误的，因为它前后不一致。例如，您可以将一个交易栏归类为 "买入"，即使价格在该交易栏之后下跌，然后辩称信号是正确的，因为您应该在下跌过程中坐等获利。同样的条形图也可以很容易地被归类为卖出，因为价格下跌了。同样的柱形图也可以被归类为 "持有"，如果该柱形图之后的价格波动幅度小于预期利润。因此，我们就会产生歧义。有了这样的分类，我们就需要添加额外的条件，例如，我们允许多少缩水，我们要等多久才能获利，获利目标是什么，我们在收盘时要做什么（我们要等到周一吗？）

根据预期的价格运动方向（上涨或下跌）对条形图进行分类要容易得多。在我上述预测 S&P500 的例子中，我们可以不预测未来两个季度的量化价格走势，而只预测价格走势的方向。这将是明确的，误差可以用猜测运动方向的正确率来计算。

我的上述建议仍然有效，但在我看来，这里的文章作者将继续描述一些工具的使用方法和指南，而不是在具体的例子中展示这些工具。所有这些都是理论，钱是靠写文章和出书赚来的，而不是靠在交易中使用这些工具赚来的。关于文章实用性的争论在这里并不新鲜。

首先，"分类 "的定义是幼儿园水平。然后，文章讲述了不确定性产生的事实（！？），最后一如既往地写道："通往钱所在公寓的钥匙在哪里？

你们需要更多的理论培训。学习、学习、再学习......你懂的。

要谦虚些。

PS.把你的建议放到自由职业中去。获得真正的产品。

Yury Reshetov 2015.11.01 13:53 #20

СанСаныч Фоменко:
我在回答弗拉基米尔。

对不起

文章 "机器学习模型的变量评估和选择" - 页 2