文章 "神经网络变得轻松（第十七部分）：降低维度"

MetaQuotes 2022.09.02 11:10

在本部分中，我们将继续讨论人工智能模型。即，我们研究无监督学习算法。我们已经讨论了众多聚类算法之一。在本文中，我将分享一种解决与降维相关问题的方法。

主成分分析是由英国数学家卡尔·皮尔逊（Karl Pearson）于 1901 年发明的。自那时起，它已成功地应用于众多科学领域。

为了理解该方法的本质，我建议拿一项简单任务来示范，譬如有关将二维数据数组降维成向量。从几何意义上来讲，这可以表示为平面上的点在直线上的投影。

在下图中，初始数据用蓝点表示。有两个投影分别位于橙色和灰色线条上，并带有相应颜色的点。如您所见，从初始点到其橙色投影的平均距离小于其到灰色投影的距离。灰色投影存在重叠的点投影。因此，橙色投影更为可取，因为它把所有单独的点分离，并且在降维（从点到其投影的距离）时丢失的数据更少。

这样一条线称为主成分。这就是为什么该方法被称为主成分分析法。

从数学角度来看，每个主成分都是一个数值向量，其大小等于原始数据的维度。描述一个系统的原始数据向量，与相应的主成分向量的乘积，在直线上生成所分析状态的投影点。

取决于原始数据的维度和降维需求，可以有若干主成分，但不可超过原始数据维度。渲染容积投影时，它们将有三个。压缩数据时，允许的误差通常为至多丧失数据 1%。

主成分方法

直观上看，这类似于线性回归。但这些是完全不同的方法，它们产生不同的结果。