文章 "基于主成分的特征选择与降维"

 

新文章 基于主成分的特征选择与降维已发布:

本文深入探讨了改进型前向选择成分分析(Forward Selection Component Analysis,FSCA)算法的实现,该算法灵感源自Luca Puggini和Sean McLoone在《前向选择成分分析:算法与应用》一文中所提出的研究。

金融时间序列预测通常涉及对众多特征的分析,其中许多特征可能高度相关。主成分分析(Principal Component Analysis,PCA)等降维技术有助于以更紧凑的形式表示这些特征。然而,PCA存在局限性,尤其是在存在高度相关变量的情况下。在这种情况下,PCA往往表现出分组效应,即一组高度相关的变量共同对某一主成分产生贡献。PCA并非突出单个变量,而是将影响相对均匀地分布在相关组中的所有变量上。

这种均匀分布有利于抑制噪声,因为主成分强调的是共同模式,而非单个变量特有的随机波动。然而,这种噪声抑制是有代价的:它往往会稀释每个主成分中单个变量的贡献。某些变量本身可能具有重要意义,但在转换后的空间中,其重要性可能降低,因为它们的影响被吸收到了该组所捕捉的更广泛结构中。在变量选择等任务中,这可能是一个重大缺陷,因为变量选择的目的是识别最具影响力的特征;在根源分析中,了解特定变量的直接影响也至关重要。


作者:Francis Dube

 

当然,这个话题是永恒的,而且始终具有现实意义。

最好能在文章中介绍不同的方法,以比较它们的有效性,不是在合成数据上,而是在真实数据上。

我曾尝试将特征数增加到 5000,行数增加到 10000,结果等了三天也没等到结果。所以我在想,如果我们把特征数量分成几组,比如每组 100 个例子,然后把每组的优胜者集中起来进行最终筛选,质量是否会大打折扣?