本文中讨论的分类融汇,运作在关于其组件模型的特定假设下。首先,假设这些模型据互斥、且详尽的类目标数据上训练过,确保每个实例只属于一个类。当需要“以上都不是”选项时,应将其视为单独的类,或由数字组合方法配合所定义隶属阈值加以管理。甚至,当给定一个预测因子的输入向量时,组件模型期望产生 N 个输出,其中 N 表示类的数量。这些输出或许是概率、或置信度分数,针对每个类指示其隶属似然性。它们也可以是二元决策,其中一个输出为 1.0(true),其它输出为 0.0(false),或者模型输出可从 1 到 N 的整数排位,反映类隶属的相对似然性。
新文章 以 MQL5 实现强化分类任务的融汇方法已发布:
本文中讨论的分类融汇,运作在关于其组件模型的特定假设下。首先,假设这些模型据互斥、且详尽的类目标数据上训练过,确保每个实例只属于一个类。当需要“以上都不是”选项时,应将其视为单独的类,或由数字组合方法配合所定义隶属阈值加以管理。甚至,当给定一个预测因子的输入向量时,组件模型期望产生 N 个输出,其中 N 表示类的数量。这些输出或许是概率、或置信度分数,针对每个类指示其隶属似然性。它们也可以是二元决策,其中一个输出为 1.0(true),其它输出为 0.0(false),或者模型输出可从 1 到 N 的整数排位,反映类隶属的相对似然性。
我们将考察的一些融汇方法极大地受益于生成排位输出的组件分类器。能够准确估测类隶属概率的模型通常具有很高价值,只不过若输出并非概率,却将其当作概率,则存在很大的风险。当怀疑模型输出代表什么时,将它们转换为排位或能提供些许益处。排位信息的功用随着类的数量增加而增加。对于二元分类,排位不提供额外见解,并且它们的数值对三类问题仍无大用。然而,在涉及众多类别的场景中,解释模型次要选择的能力变得高度有益,特别是当单个预测伴随不确定性时。例如,可以强化支持向量机(SVM),不仅生成二元分类,还可生成每个类的决策边界距离,从而更深入地洞察预测置信度。
作者:Francis Dube