文章 "名义变量的序数编码"

 

新文章 名义变量的序数编码已发布:

在本文中,我们将讨论并演示如何使用Python和MQL5将名义预测变量转换为适合机器学习算法的数值格式。

名义变量表示的是各类别之间不存在内在顺序或等级的分类数据。金融时间序列数据集中的具体例子可能包括:

  • 价格K线类型(例如,针形K线、纺锤线、锤子线)
  • 星期几(例如,星期一、星期二、星期三)

这些变量纯粹是定性的,即各类别之间不存在隐含的层级或顺序。例如,针形K线形态并不天生优于纺锤线,多头K线也并不比空头K线更好。

在数值计算中,通常的做法是为不同类别分配任意整数。然而,如果将这些整数用作机器学习算法的输入,则存在一种风险,即分配的值可能会扭曲原始数据所传达的信息。算法可能会错误地推断出较大的值意味着某种特定的关系或等级,即使这并非初衷。


作者:Francis Dube