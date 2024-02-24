交易中的机器学习：理论、模型、实践和算法交易 - 页 3353

Maxim Dmitrievsky #:
批量思维在 作祟。这些并不是概率，它们之所以被称为概率，是因为使用了黄土 fi 来估算可能性。 。

如何获得真实的类概率？

别无他法！我们使用现成的 MO 算法，这些算法附带一系列附加函数。所有这些都被称为 "软件包"。

什么是"真实类概率"？例如，函数 

predict(object, newdata, type = c("vector", "probs", "both","F"))
返回 "概率类估计值"。除 "估计值 "外，算法中不能包含其他概率



 

СанСаныч Фоменко #:

没有其他的思维方式！我们使用现成的 MO 算法，并辅以一系列附加功能。所有这些都被称为 "软件包"。

什么是"真实类概率"？例如，函数

返回"概率类估计值"。除 "估计值 "外，算法不能包含其他概率。
问题不在于它能包含什么。而是如何获得可靠的类概率。这样你就可以确定，在类概率为 0.8 的情况下，80% 的病例都能被正确预测。例如，你可以使用一个阈值。分类器的输出在大多数情况下并不能做到这一点，我再重复一遍。它们要么 "有意 "高估，要么 "有意 "低估。这就是阈值不起作用的原因。真正的概率是既不高估也不低估。

你已经表明你不知道。所以还有更多东西要学。所以，"我们需要掌握所有 MOE"，摆脱批量思维。
 

这似乎不是关于概率的点估计，而是关于概率的区间估计。对于 matstat 来说，这是一种常见的方法--不仅要获得概率的具体数值估计值，还要获得该估计概率的真值以给定的精度（概率）落入的区间。这里有一些理解上的困难，因为概率的概念包含两个不同的假说--估计值本身和估计的准确性。而这两种概率是完全不同的）

虽然我没有详细研究过保形预测，但我可能是错的。

 
Maxim Dmitrievsky #:
问题不在于他能做什么。而是如何获得可靠的类概率。这样你就能确定，在类概率为 0.8 的情况下，80% 的病例都能被正确预测。例如，你可以使用一个阈值。分类器的输出在大多数情况下并不真实，我再重复一遍。 它们要么 "有意 "高估，要么 "有意 "低估。这就是阈值不起作用的原因。真正的概率是既不高估也不低估。

你的数据不是这样的，引用的 0.8 是分类概率之一。 这是分类概率的直方图。


我就是这么做的，没有其他方法，因为如果不是这样，就意味着训练过度。对我来说，在固定阈值下，OOV 和 OOS 以及 VNE 文件的预测误差不匹配是过度训练的主要标志。我的阈值设置得很好。而 "真实概率 "只是虚构的概念，与实际代码和术语无关。

СанСаныч Фоменко #:

您弄错了。给出的 0.8 是分类概率值之一。


我就是这么做的，没有其他方法，因为如果不同，就意味着过度训练。对我来说，在固定阈值下，OOV 和 OOS 以及 VNE 文件的预测误差不匹配是过度训练的主要标志。我的阈值设置得很好。而 "真实概率 "只是虚构的概念，与真实世界的代码和术语毫无关系。

你是如何意识到你的阈值工作正常的？
对你来说这是幻想，而对别人来说这很平常。
Aleksey Nikolayev #:

这似乎不是关于概率的点估计，而是关于概率的区间估计。对于 matstat 来说，这是一种常见的方法--不仅要获得概率的具体数值估计值，还要获得该估计概率的真值以给定的精度（概率）落入的区间。这里有一些理解上的困难，因为概率的概念包含两个不同的假定--估计值本身和估计的精确度。而这些是完全不同的概率）

虽然我没有详细研究过保形预测，也可能是我错了。

我们谈论的是一种略有不同的方法，在有人上网搜索之前:)
 
Maxim Dmitrievsky #:
您是如何发现自己的阈值工作正常的？
对你来说这很神奇，而对有些人来说这很平常。
OOV 和 OOS 以及 INE 文件的匹配预测误差
СанСаныч Фоменко #:
ALE 和 OOS 以及 SNE 文件的匹配预测误差
您是如何发现分类器给出的概率是正确的？而不仅仅是范围内的值。你读懂了写给你的内容吗？

如果您设置的阈值是 0.8，那么 80% 的交易都能盈利吗？如果是 0.51 呢？

几乎可以肯定不会。看看吧
 
Maxim Dmitrievsky #:
你是如何意识到分类器给出的概率是正确的？而不仅仅是范围内的值。你读懂别人写给你的东西了吗？

模型的概率是由训练样本的统计数据给出的。

因此，如果没有代表性样本，它们就不准确，所以别再想了:)

要么搞清楚模型是由什么组成的，然后根据你设计的算法重新给叶子加权...

