机器学习和神经网络 - 页 4

 

第六讲-泛化理论




加州理工学院的机器学习课程 - CS 156。第 6 讲 - 泛化理论

本讲座讨论了泛化理论和增长函数作为二分法的数量,这些二分法可以由一组 N 点的假设集生成,目标是表征整个增长函数并通过表征中断对每个 N 进行泛化观点。演讲者演示了计算不同假设集的增长函数并使用组合恒等式证明增长函数上限的过程。讨论还涉及在 Hoeffding 不等式中使用增长函数,VC 必须表征假设之间的重叠和 Vapnik-Chervonenkis 不等式,它是 N 中的多项式,多项式的阶数由断点决定。

教授讨论了泛化理论,澄清了先前的观点并解释了断点的概念,断点用于计算学习所需的资源。学习的重点是逼近 E_out,而不是 E_in,从而使学习者能够使用熟悉的数量。教授还解释了用增长函数代替 M 的原因,以及这与 N 和 k 的组合量 B 的关系。在讨论回归函数时,教授强调了偏差方差权衡以及可学习性如何独立于目标函数。最后,教授指出,相同的原则适用于所有类型的函数。

  • 00:00:00 在本节中,我们将二分法作为微型假设进行学习,这些假设仅限于有限的点集和增长函数。增长函数计算一组 N 个点的假设集可以生成的二分法的数量。感知器的断点被定义为由于使用来自受限集合的假设而开始丢失模式的点。理论目标是表征整个增长函数,并通过表征断点对每个 N 进行概括。我们还看到,对少数点的模式数量的限制会导致更多点的许多模式丢失,这与假设集和输入空间无关。

  • 00:05:00 在本节中,讲师讨论了两个项目:第一个是证明增长函数是带有断点的多项式,第二个是证明在 Hoeffding 不等式中替换 M(假设数)。讲师强调,他们不需要确定增长函数的细节,只需要证明它受多项式的限制,这样就可以用在Hoeffding不等式中。讲师介绍了一个关键量B of N and k,它是一个组合量,表示以k为断点的N个点上的二分法的最大个数。通过用 N 个点填充表并隔离最后一个点以引入递归来递归地找到 N, k 的 B 的边界。

  • 00:10:00 在本节中,演讲者讨论了如何对表示二进制序列扩展的矩阵行进行分组。第一组 S_1 包含根据扩展只出现一次的行。第二组 S_2 由同时出现两个扩展名的行组成。使用这些分组,说话者将组 S_1 中的行数定义为 alpha,将组 S_2 中的行数定义为 beta。通过这些定义,说话者能够找到在 N 个点上可以获得的最大行数/模式数的递归,使得没有 k 列具有所有可能的模式。

  • 00:15:00 在讲座的这一部分,演讲者讨论了泛化理论以及如何估计 beta。他解释说,通过分析包含重复模式块的 S_2 矩阵的第二部分,他可以论证这些模式块的断点是 k 减 1,而不是 k。他还解释说,通过采用 alpha 加 beta,即迷你矩阵中行或模式的总数,他可以说出这个小矩阵的断点。他最后说,通过将它们放在一起,他可以估计整个矩阵及其行数。

  • 00:20:00 在这一部分中,演讲者分析了一个矩阵并推导出一个递归公式来求解 N 和 k 的 B 的上限,其中 N 和 k 的 B 是假设集的最大增长函数k 点。通过使用递归公式计算 N 和 k 的 B 值,说话者用 N 和 k 的 B 的上限填充表格。首先填充表的边界条件,然后使用递归公式填充表的其余部分。

  • 00:25:00 在本节中,演讲者讨论了泛化理论,并讨论了表示给定特定点数 N 和断点 k 的最大二分法或模式数的表格。演讲者解释了表格如何填充以及约束如何为空。此外,他们提出了一个公式,该公式计算二分法或模式的最大数量,作为具有断点 k 的任何假设集的增长函数的上限,而无需询问有关假设集或输入空间的任何问题。

  • 00:30:00 在本节中,讲师讨论了证明 N 和 k 公式定理的归纳步骤。该步骤涉及假设公式对给定的 N 和 k 值成立,然后证明它对 N-1 和 k-1 也成立。讲师演示了使用代数或组合论证操作两个公式、合并求和并将它们简化为单个量的过程。目的是确定给定的公式适用于 N 和 k 的所有值,其中包括先前假设的值,并从那里证明定理。

  • 00:35:00 在本节中,演讲者解释了使用组合恒等式证明 N 和 k 的 B 上限的过程,即具有断点 k 的假设集的增长函数。生成的多项式很有用,因为断点是一个固定数,不会随着 N 的增加而增长。演讲者然后通过显示最大幂为 N 对 k 减去 1 来说明上界是 N 中的多项式,这是一个持续的。最后,说话者将上限应用于假设集的三个示例,并表明它们都满足该上限。

  • 00:40:00 在本节中,讲师讨论计算正射线和正间隔的增长函数。通过利用断点,这是唯一需要的输入,他能够在不考虑假设集的几何形状的情况下找到增长函数。然后讲师将此方法应用于二维感知器,其中增长函数未知,但已知断点为4。通过使用断点,他能够完全绑定增长函数,这很重要简化假设集的表征。然后,讲师解释了如何在 Hoeffding 不等式中使用此增长函数来替换使用联合边界的假设数量,当 M 显着或无限时,联合边界几乎没有用。

  • 00:45:00 在本节中,讲师解释了增长函数的多项式有界性的图形证明。可能数据集的空间覆盖所有轴,彩色区域表示由于某些数据集导致E_in偏离E_out的坏区。通过将这个坏区涂成红色并使用 Hoeffding 不等式,讲师表明着色区域很小,从而允许 union bound 声明多个假设的可能性。但是,当添加更多假设时,彩色区域会填满画布,从而导致联合边界出现问题。然后,讲师解释了建立增长函数和重叠之间的关系所需的两个方面,以及 E_out 符合有限样本论证的方法。

  • 00:50:00 在本节中,讲师将 VC 边界作为新画布介绍,以表征假设之间的重叠。他解释说,增长函数是描述这些重叠的抽象数量,并告诉您表现相同的二分法的数量。讲师解释说,冗余由增长函数捕获,被着色的点不仅取决于样本,还取决于整个空间。讲师通过选择两个样本而不是一个样本来克服这个问题,它们是从同一分布独立生成的,以跟踪 E_out 和 E_in,而不依赖于整个假设。

  • 00:55:00 在本节中,演讲者讨论了两个不同样本 E_in 和 E_in dash 之间跟踪的概念,以及它们是否相互跟踪。如果使用多个 bin,E_out 和 E_in 之间的联系会变得越来越松散。随着垃圾箱数量的增加,它们也会松散地分开。多个假设的数学分支在这里以与一个容器相同的方式发生。当演讲者通过证明的技术细节时,epsilon 变为大于 2 的 epsilon,然后变为大于 4 的 epsilon。当插入时,它们得到大于 16 的 epsilon 的平方,得到 1/8 的系数。得到的结果称为 Vapnik-Chervonenkis 不等式,它是 N 中的多项式,多项式的阶数由转折点决定。

  • 01:00:00 在视频讲座的这一部分,主持人要求教授澄清之前幻灯片中的一些观点。教授解释说,幻灯片 5 中选择的 N 个点对应于机器学习中输入空间中的一组特定点,但在抽象中,这些只是抽象标签。教授还澄清,他们在讲座中使用alpha和beta只是一种命名约定,并没有断言两者的相对值。最后,教授解释说,断点的计算方法是访问输入空间和假设集,并找出对于给定的假设集,不能以各种可能的方式分开的最大点数是多少。

  • 01:05:00 在本节中,教授解释说,对于大多数学习模型,已经建立了精确或绑定的断点,这意味着可以在开始学习过程之前估计需要学习的资源。尽管可能存在边界不严密的情况,但在大多数情况下,增长函数的精确估计与二次边界之间的差异可以忽略不计。讲座强调学习的重点不是 E_in 的实际值,而是 E_out 的近似值,使学习者能够使用熟悉的量进行工作。最后,教授向听众保证,VC 维度是理解学习理论的基石,将在下一课中详细介绍。

  • 01:10:00 在本节中,教授解释了用增长函数替换 M 的原因,以及为满足声明的技术要求而需要进行的修改。教授还阐明了 N 和 k 的 B 的定义,详细说明它如何成为任何带断点的假设集的上限,以及它如何成为纯组合量。然后教授提出了一个关于 N 和 k 的 B 的证明的问题,指出当将 x_N 减少到 x_N-1 时 k 不会改变,因为较小集合中没有 k 列可以具有所有可能的模式。最后,教授指出,分析和 VC 分析适用于二元函数,尽管它们可以扩展到实值函数。

  • 01:15:00 在本节中,教授讨论了在讨论回归函数时,他宁愿使用不同的方法,即偏差-方差权衡,而不是对可学习性进行技术扩展。他还阐明了可学习性是在假设集的条件下得到证明的,并且它独立于目标函数。他继续解释说,泛化问题不依赖于目标函数,但是是否可以最小化 E_in 以使用户满意的问题取决于目标函数。最后,教授指出,相同的原则适用于任何类型的函数。
 

第07讲-VC维度




加州理工学院的机器学习课程 - CS 156。第 07 讲 - VC 维度

讲座介绍了VC维的概念,即一个假设集可以打散的最大点数,并解释了它的实际应用。 VC维表示模型的自由度,讨论了它与模型中参数个数的关系。举例说明如何计算不同假设集的 VC 维度。探索了所需示例数与VC维度之间的关系,注意到两者之间存在正比关系。还讨论了增加 VC 维度对学习算法性能的影响。总体而言,该讲座提供了对 VC 理论及其对机器学习的实际影响的见解。

该视频还涵盖了泛化和泛化界限的概念,这是一个积极的陈述,显示了机器学习中假设集大小和良好泛化之间的权衡。教授解释了 VC 维度,即第一个断点之前的最大值,以及如何使用它来近似所需的示例数。他指出了选择正确的误差度量的重要性,并阐明了 VC 维度估计是一个松散的估计,可用于比较模型和估计所需示例的数量。讲座最后强调了该材料与实验设计主题之间的共性,以及学习原则如何扩展到严格学习场景之外的其他情况。

  • 00:00:00 在本节中,讲师总结了上一讲在学习理论方面的主要成果,即VC(Vapnik-Chervonenkis)不等式,它表征了机器学习中的泛化。增长函数描述了从 Hoeffding 不等式转换到 VC 不等式所需的冗余,它被引入并与具有重叠区域的不良事件相关。解决了E_out的技术问题,用增长函数代替假设数M。然后在任意维空间中为感知器精确定义和计算与断点相关的VC维。还讨论了 VC 维度的解释及其实际应用。

  • 00:05:00 在本节中,引入了 VC 维度的概念,作为假设集可以打散的最大点数。 VC维记为d_VC,是N的最大值,使得增长函数为2比N。需要注意的是,VC维不保证每N个点都能被打散,只保证存在可以粉碎的N个点。本节提供示例,例如正射线和 2D 感知器,以演示如何计算给定假设集的 VC 维度。 VC 维度用于限制假设集的增长函数,它作为限制增长函数的多项式的阶数。

  • 00:10:00 在本节中,重点是凸集的 VC 维度及其与学习的关系。 VC 维度表示可以被假设集打散的最大点数。如果 VC 维度是有限的,则最终假设将泛化,而不管输入分布或使用的学习算法如何。包含目标函数、学习算法和输入分布的学习图表明VC理论独立于学习算法和目标函数,只依赖于假设集。总体而言,VC 理论包含三个模块:假设、假设集和 VC 维度。

  • 00:15:00 在本节中,我们了解感知器的 VC 维度,这是整个 VC 理论处理的假设集,因为它具有 VC 维度并告诉我们是否能够概括.虽然二维空间中感知器的 VC 维数是三,但是一个简单的公式表明在 d 维空间中,VC 维数是 d 加一。这对于理解 VC 维的重要性很重要,我们将通过证明 VC 维最多为 d 加一且至少为 d 加一来证明这一点。为了演示,我们将使用要打散的矩阵构造一组特定的 N 个点(N 为 d 加 1),只要有可能打散它们即可。

  • 00:20:00 在本节中,讲师展示了一组特定的 d 加 1 点,并演示了可以使用可逆矩阵将它们打散。然后他向观众提出了一个关于VC维度的问题,让他们根据演示的结果选择可以得出的结论。正确答案是 b,表示 VC 维数大于等于 d 加 1。

  • 00:25:00 在这一节中,教授讨论如何证明 VC 维数最多为 d + 1。他问听众,几个陈述中哪一个可以成立前提,他们回答“d”。教授然后解释他需要证明有一组 d 加 2 个点他不能破碎。他通过证明对于一组 d 加 2 个点,总会有一个点是其他点的线性组合来做到这一点。因此,他构建了一个二分法,他表明无法用感知器实现。

  • 00:30:00 在视频的这一部分,演讲者解释了感知器中二分法的概念,本质上是将 +1 或 -1 标签分配给特定点。通过使用代数性质表明,在VC维为d+1的情况下,不可能打散任何d+2点的集合。这是由于感知器模型中的参数个数,即d+1 , 而 VC 维度给出了可以破碎的最大点数。

  • 00:35:00 本节介绍VC维度的概念及其解释。 VC 维度衡量模型的自由度及其与参数数量的关系。本讲座将这些自由度与音频系统上的旋钮进行了比较,旋钮越多,您对声音的控制就越多,但有效使用起来可能具有挑战性。讲座解释说,VC 维度抽象出模型内部的数学细节,并专注于它的表达能力。讲座还讨论了VC维数与各种模型自由度的对应关系,例如正射线,表明当自由度为1时VC维数为1,对应一个参数为1的模型。

  • 00:40:00 在本节中,讲师讨论了简单模型中的自由度及其与 VC 维度的关系。 VC维度统计的是一个模型可以实现的假设的数量,但不一定等于参数的数量。通过构建一个人工示例,讲师表明参数可能并不总是对自由度有贡献。相反,有效自由度可以通过 VC 维度更可靠地测量,并且讲师演示了具有八个参数的模型实际上如何与只有两个参数的模型具有相同的 VC 维度。最后,讲师指出,从业者可能对系统所需的数据点数量以及这如何与假设集的 VC 维度相关联感兴趣。

  • 00:45:00 在本节中,演讲者讨论了所需示例数量与 VC 维度值之间的关系。 VC 不等式有两个他们希望尽可能小的性能量。其中一个是离E_out不远的E_in,另一个是delta,它的值很小。在决定了某些 epsilon 和 delta 值之后,演讲者解释了如何通过查看函数 N 的 VC 维次方乘以 e 的 -N 次方绘制在图表上来确定实现它们所需的示例数。曲线中有趣的部分是概率小于 1 的地方,然后演讲者探讨了将 VC 维度从 4 增加到 5 的含义。

  • 00:50:00 在本节中,讲师讨论了数据集中的示例数量与 VC 维度之间的关系,VC 维度是衡量学习算法复杂性的指标。他用几张图来说明算法的性能如何随着VC维数的增加而变化,并强调达到一定性能水平所需的示例数与VC维数成正比。然而,他也指出,虽然性能的界限保证遵循一定的单调性,但实际性能可能并不总是如此,这可能会让从业者感到沮丧。

  • 00:55:00 在本节中,讲师讨论了 VC 维度的观察结果和实际应用。第一个教训是,VC 维度与达到一定性能水平所需的示例数量之间存在正比关系。讲师提供了一个经验法则,其中需要 10 倍的 VC 维度才能到达概率陈述有意义的 VC 不等式的舒适区。第二个实际观察是,对于大量合理的 epsilon 和 delta,经验法则也适用。然后讲师将VC不等式公式简化,称之为公式资本Omega,说明它依赖于增长函数,随着VC维度变大,Omega公式变差。
  • 01:00:00 在本节中,演讲者讨论了泛化的概念以及拥有更多示例如何影响增长函数和多项式行为。他引入了泛化界的概念,这是一个积极的陈述,而不是刻画坏事件。在概率大于或等于 1 减去 delta 的情况下,E_in 跟踪 E_out,这意味着它们在 Omega 内,这取决于示例的数量和假设集的 VC 维度。演讲者通过重新排列简化泛化边界,以表明 E_out 受 E_in 加 Omega 的约束。他解释了这个界限如何说明假设集的大小和良好的泛化之间的权衡,从而导致机器学习中正则化的概念。

  • 01:05:00 在这一节中,教授解释说VC维度是第一个断点后的最大值,这意味着任何更大的点作为断点也会被计算在内。断点的概念涵盖了很多价值,但 VC 维度是唯一突出的维度。他还解释说,在讨论粉碎 N 个点时,人们可以选择要粉碎的点。教授解释说,epsilon 和 delta 是学习的两个性能参数,其中 epsilon 是确保 E_in 跟踪 E_out 的近似参数,而 delta 是确定概率语句失败可能性的概率度量。当被问及误差度量对选择点数的影响时,教授解释说,在处理二元意义上的误差度量时,无需担心方差,因为有上限,但使用其他时共同域或错误措施,修改是必要的。

  • 01:10:00 在本节中,教授解释说,准确获得 VC 维度很少见,但他们知道感知器的确切维度。对于神经网络,由于冗余和取消,VC 维数估计不能超过一定数量。教授强调,VC dimension bound 是一个宽松的估计,但它仍然保持其概念意义,可以作为比较模型和估计所需示例数量的指南。经验法则是使用至少 10 倍的 VC 维度来进入 VC 不等式的有趣区域,这取决于客户所需的准确度水平。教授指出,该材料与实验设计主题之间存在共性,并且学习原则可以扩展到严格学习场景之外的其他情况。
 

第 8 讲 - 偏差-方差权衡



加州理工学院的机器学习课程 - CS 156。第 8 讲 - 偏差-方差权衡

教授讨论了机器学习中的偏差方差权衡,解释了假设集的复杂性如何影响泛化和近似之间的权衡。讲师介绍了偏差和方差的概念,它们分别衡量机器学习算法产生的假设平均值与实际目标函数之间的偏差,以及给定模型的假设分布根据不同数据集的变化程度。权衡导致较大的假设集具有较小的偏差但具有较大的方差,而较小的假设集将具有较大的偏差但具有较小的方差。讲师强调了拥有足够数据资源以有效导航假设集的重要性,并强调了偏差-方差分析和 VC 分析之间的规模差异。

他还讨论了简单模型和复杂模型在近似和泛化能力方面的权衡,更少的例子需要简单的模型,更多的例子资源需要更复杂的模型。偏差方差分析特定于线性回归,并假定了解目标函数,而验证是选择模型的黄金标准。集成学习通过 Bagging 进行讨论,它使用 bootstrapping 对多个数据集进行平均,从而减少方差。还解释了集成学习中方差和协方差之间的平衡,线性回归被归类为一种学习技术,拟合是学习的第一部分,而该理论强调良好的样本外性能。

  • 00:00:00 在本节中,重点转移到偏差方差权衡,这是理解泛化的另一种方法。在前面的讲座中,VC 分析通过假设集的 VC 维度建立了所选假设的泛化能力。 VC 边界适用于任何学习算法、任何输入数据和任何目标函数。 VC 分析的一个方面是它提供了一种实用的测量方法。通过绘制错误概率与示例数量的关系图,我们发现所需的示例数量与 VC 维度成正比,或者说经验法则,您需要 VC 维度的 10 倍才能开始获得有趣的泛化属性。最后,我们将 VC 分析总结为泛化界,我们将在后面的正则化等技术中使用它。

  • 00:05:00 在本节中,讲师讨论了学习时近似和泛化之间的权衡。学习旨在实现较小的 E_out,这意味着假设很好地近似了目标函数,并且这种近似在样本外成立。然而,拥有更复杂的假设集会增加很好地近似 f 的机会,但会导致识别合适假设的问题。一个理想的学习假设集是一个恰好是目标函数的单例假设。尽管如此,由于我们不知道目标函数,我们需要一个足够大的假设集来获得机会。此外,讲师讨论了偏差方差分析如何分解 E_out,而 VC 分析强调量化权衡。

  • 00:10:00 在本节中,演讲者介绍了偏差-方差权衡及其与实值函数和使用平方误差回归的关系。目标是将样本外误差分解为两个概念组成部分:近似和泛化。为此,演讲者使用特定数据集的误差预期值,因为最终假设取决于所使用的数据集,但旨在通过整合数据集来消除依赖性。结果是在给定特定数量的数据点时分析错误的一般行为的方法。

  • 00:15:00 在本节中,讲师解释了如何针对 100 个示例的所有可能实现来计算行为的期望值。通过颠倒整合的顺序并摆脱期望,讲师进行了彻底的分解。下一步涉及通过获取所有可能假设的期望值来推导平均假设。虽然这当然是一项不可能完成的任务,但它提供了一个用于分析的概念工具。当扩展顶部表达式以获得最终需要定义 g bar 的线性项时,理解 g bar 的技术实用性变得很重要。

  • 00:20:00 在本节中,讲师将一个量分解为两个步骤,以确定机器学习算法从给定数据集得出的假设与目标函数的偏离程度。第一步评估这个假设偏离算法在给定数据集的情况下可以产生的最佳假设有多远,而第二步评估这个最佳假设偏离实际目标函数的程度。讲师得出两个量,偏差和方差,来表示这两个步骤。偏差衡量机器学习算法产生的假设平均值与实际目标函数之间的偏差,该函数为算法的假设集设置了有限值。同时,方差衡量给定模型的假设分布根据不同数据集的变化程度。

  • 00:25:00 在本节中,教授讨论了机器学习中的偏差-方差权衡。他解释说,偏差是假设集的局限性,而方差是使用不同数据集时结果的差异。然后,他展示了在改变假设集的大小时如何在泛化和近似之间进行权衡,并通过比较一个小假设集和一个大假设集来说明这个想法。他认为,较大的假设集将具有较小的偏差但具有较大的方差,而较小的假设集将具有较大的偏差但具有较小的方差。

  • 00:30:00 在本节中,演讲者介绍了偏差-方差权衡的概念,其中随着假设集变大,偏差减小,方差增大。为了理解这一点,演讲者举了一个具体的例子,其中目标函数是正弦曲线,并给出了两个不同的假设集:常数模型和线性模型。演讲者随后表明线性模型可以更好地近似正弦曲线,但存在一些误差。这不是学习情况,而是说明了目标函数逼近中偏差和方差之间的权衡,为更复杂的学习问题铺平了道路。

  • 00:35:00 在本节中,讲师解释了机器学习中的偏差-方差权衡。他用直线拟合两点的例子,首先是逼近一个目标函数,其次是从例子中学习。无论使用哪两个点,都需要偏差方差分析来评估模型的性能,并克服应对数据集依赖性的挑战。讲师然后生成大小为两个点的数据集,用一条线拟合它们,并表明预期的样本外误差主要是偏差和方差的总和。非常浅的绿色线,g bar of x,是他从重复这个游戏中得到的平均假设。尽管如此,它仍然不是学习过程的输出,因为不同的数据集会给出不同的估计。

  • 00:40:00 在视频的这一部分中,在机器学习的背景下讨论了偏差-方差权衡的概念。方差计算为学习过程输出的标准差,而偏差是预测输出与目标函数之间的误差。使用两个模型演示了偏差和方差之间的权衡,一个具有小偏差和大方差,另一个具有大偏差和小方差。据了解,在学习情况下,模型复杂度应该与可用的数据资源相匹配,而不是目标复杂度。

  • 00:45:00 在本节中,演讲者讨论了学习中的偏差-方差权衡,并介绍了学习曲线的概念。学习曲线将 E_out(样本外误差)和 E_in(样本内误差)的预期值绘制为 N(数据集大小)的函数。随着 N 的增加,样本外误差通常会降低,但这种趋势可能会受到所用模型的复杂性的影响。演讲者强调了拥有足够数据资源以有效导航假设集的重要性,并指出嘈杂的数据会使导航更加困难。学习曲线提供了偏差方差权衡的可视化表示,以及它如何随着 N 的增加而变化。

  • 00:50:00 在本节中,讲师使用学习曲线讨论偏差方差分析和 VC 分析之间的关系。他解释说,这两种理论都在讨论近似,并考虑到泛化方面发生的情况。讲师强调了两种理论之间的规模差异,并提到偏差取决于假设集。最后,讲师简要介绍了线性回归案例的分析,并建议将其作为深入了解线性回归的好练习。

  • 00:55:00 在本节中,讲师描述了样本内错误模式和样本外错误模式,特别是使用学习曲线。讲师使用线性回归和噪声来说明预期样本内误差的一个简单公式:它几乎是完美的,并且您做得比完美好 d 加 1 的比率。讲师强调了一条非常具体的曲线,它表明您拥有的数据点越多,噪声对错误率的影响就越小。然而,当你过度拟合样本数据时,你最终会拟合噪声,从长远来看,这会伤害你而不是帮助你。

  • 01:00:00 在这一部分中,教授谈到了简单模型和复杂模型之间的权衡以及它们的近似和泛化能力。复杂模型可以更好地逼近目标函数和训练样例,而简单模型在泛化能力方面更好。这是因为两者之间存在权衡,并且两个数量的总和可以朝任一方向发展。关键是将模型的复杂性与可用的数据资源相匹配。更少的例子意味着应该使用简单的模型,而更多的例子资源需要复杂的模型以获得更好的性能。可以使用公式找到预期的泛化误差,该公式是 VC 维数除以示例数。

  • 01:05:00 在本节中,教授讨论了偏差-方差分析如何特定于线性回归,以及它如何假设您知道目标函数。虽然它是一个有用的指南,可用于了解如何影响偏差和方差,但它并不能告诉您模型是什么。他还提到,选择模型的黄金标准是通过验证,其中包括增强等集成方法。然后教授简要介绍了 g bar 作为分析的理论工具的概念,但指出这不是本次讲座的重点。

  • 01:10:00 这节教授讲了通过Bagging进行集成学习,就是利用一个数据集通过bootstrapping生成大量不同的数据集,然后求平均的过程。这为集成学习带来了一些好处,并且可以通过对许多事情进行平均来帮助减少方差。主持人然后询问偏差方差是否仍然通过贝叶斯方法出现。教授解释说,尽管贝叶斯方法做出了某些假设,但偏差方差仍然存在。最后,他谈到了数值函数逼近与机器学习中外推的关系以及偏差-方差协方差困境。

  • 01:15:00 在讲座的这一部分中,教授讨论了集成学习背景下方差和协方差之间的平衡。他解释说,在偏差方差分析中,他有幸选择独立生成的数据集,生成独立模型,然后对它们进行平均。然而,在实际操作中,当基于数据集的变化构建模型时,模型之间的协方差开始发挥作用。后来,当被问到线性回归是一种学习技术还是函数逼近时,教授说线性回归是一种学习技术,而拟合是学习的第一部分。添加的元素是为了确保模型在样本外表现良好,这就是理论的意义所在。
 

第 9 课 - 线性模型 II



加州理工学院的机器学习课程 - CS 156。第 09 讲 - 线性模型 II

本讲座涵盖线性模型的各个方面,包括偏差-方差分解、学习曲线和线性模型技术,如感知器、线性回归和逻辑回归。演讲者强调了复杂性和泛化性能之间的权衡,警告不要过度拟合,并强调为有效保证正确计算假设空间的 VC 维度的重要性。还讨论了非线性变换的使用及其对泛化行为的影响。本讲座进一步涵盖了逻辑函数及其在估计概率中的应用,并介绍了逻辑回归背景下似然和交叉熵误差度量的概念。最后,解释了用于优化误差函数的迭代方法,例如梯度下降。

讲座还涵盖了与机器学习中的线性模型和优化算法相关的一系列主题。教授解释了梯度下降优化中学习率和速度之间的折衷,介绍了逻辑回归算法并讨论了其误差度量和学习算法。还解决了梯度下降和多类分类中终止的挑战。特征的推导和选择在机器学习中的作用被强调和讨论为应用领域的一门艺术,以 VC 维度收费。总体而言,本讲座全面概述了机器学习的线性模型和优化算法。

  • 00:00:00 在本节中,Yaser Abu-Mostafa 讨论了样本外误差中的偏差-方差分解,并说明了它如何与假设集进行权衡。他还解释了描述泛化误差的学习曲线,以及与 VC 维度成正比的示例数量将如何决定泛化属性。还讨论了线性模型的技术。

  • 00:05:00 在这节课中,演讲者从线性分类和线性回归的角度简要回顾了之前讲座中涉及的线性模型,然后转到第三类线性模型——逻辑回归。在开始逻辑回归之前,演讲者在非线性变换和泛化问题方面解决了松散的问题。非线性变换为在 Z 空间(特征空间)中应用学习算法提供了一个平台,最终假设仍然存在于 X 空间(输入空间)中。在非线性变换的情况下,演讲者强调泛化问题被遗漏了,他将在讲座中提供缺失的部分。

  • 00:10:00 在本节中,讲师讨论了在涉及 X 空间中的泛化行为时进行非线性变换所付出的代价。通过在X空间中使用线性模型,可以得到一个d+1个自由参数的权重向量。然而,特征空间中的 VC 维度可能比 X 空间中的大得多。如果VC维数过大,那么虽然可以拟合17次多项式,但没有真正泛化的机会。讨论了两种情况,第一种情况几乎是线性可分的,第二种情况是真正非线性的。为了使E_in 为零,必须进入高维空间,这成为一个问题,因为只有两个点需要分类。

  • 00:15:00 在讲座的这一部分,讲师讨论了处理线性模型时的近似泛化权衡。他谈到如何使用更复杂的模型(例如四阶曲面)可以更好地近似数据但可能无法很好地概括。他还提到了使用非线性空间变换的想法,但告诫不要寻求参数数量的折扣。讲师解释说,为头脑中探索的整个假设空间的 VC 维度充电对于使 VC 不等式提供的保证有效是很重要的。

  • 00:20:00 在本节中,讨论围绕在查看数据之前选择模型时数据窥探的危险展开。需要强调的是,这种做法可能会导致假设集受到污染,这意味着数据不再值得信赖,无法反映现实世界的表现。介绍了逻辑回归的概念,及其独特的模型、误差度量和学习算法。该线性模型被认为是对先前讨论的感知器和线性回归模型的重要补充,并提供了机器学习中存在的复杂性和变化的有用示例。

  • 00:25:00 在本节中,讲师讨论了线性模型及其不同的使用方式,例如感知器、线性回归和逻辑回归。对于线性分类,假设是 +1 或 -1 的决定,这是信号的直接阈值。在线性回归的情况下,输出与输入相同,而逻辑回归将称为逻辑函数的非线性应用于信号,这被解释为某事发生的概率。讲师解释了逻辑函数的形状及其在估计各种问题(例如信用卡申请)的概率中的应用。

  • 00:30:00 在本节中,在逻辑函数的上下文中引入了软阈值或 sigmoid 的概念。该函数将线性信号作为输入并输出概率。它在预测心脏病发作风险等结果时特别有用,在这种情况下,多种因素会影响事件发生的可能性。逻辑回归的输出在学习过程中被视为真实概率,即使输入数据不直接提供该信息。

  • 00:35:00 在本节中,我们将讨论医学数据中的监督学习以及如何生成逼近隐藏目标函数的模型。这些示例以二进制输出的形式给出,它受概率的影响,这使得这是一个嘈杂的情况。目标是从 d 维欧几里德空间到 0,1 的概率解释,f 为 x。 x 的假设 g 是通过找到权重并将它们与 x 进行点积来找到的。目标是以这样一种方式选择权重,即逻辑回归假设使用由对优化器来说既合理又友好的似然构造的误差度量来反映目标函数。错误度量根据不同假设实际上是生成数据的目标的可能性对不同假设进行分级。

  • 00:40:00 在讲座的这一部分,演讲者讨论了可能性的使用及其应用的争议。他解释说,可能性的用途是在给定数据的情况下找到最合理的假设。但是,这不是一个完全干净的过程,因为可能性不是所需的概率。演讲者随后介绍了似然公式,并解释了如何使用它来推导出成熟的误差度量。然后使用该公式计算整个数据集的可能性,这是单个数据点可能性的乘积。他的结论是,在选择假设时总会有妥协,因为偏袒一个例子可能会搞砸其他例子。

  • 00:45:00 在讲座的这一部分,演讲者解释了在数据集下最大化假设的可能性如何导致最小化误差度量。取自然对数允许最大化变为最小化,这导致训练集中的误差测量。简化公式后,演讲者将误差度量称为逻辑回归的样本内误差,并将其定义为依赖于 w 的假设应用于 x_n 与作为该示例的标签给出的值之间的误差度量,即 y_n。演讲者还讨论了风险评分的有趣解释,它根据 w 转置 x_n 的符号来识别那些有心脏病发作风险的人。

  • 00:50:00 在本节中,引入了交叉熵误差度量,作为衡量二元预测准确性的一种方法。目标是最小化此错误度量,以改进模型的预测。然而,与线性回归不同,逻辑回归没有封闭形式的解决方案来最小化误差度量。相反,需要一个迭代解决方案,这将通过梯度下降法来实现。此方法涉及沿着表面最陡峭的斜坡迈出一步并重复直到达到最小值。逻辑回归误差度量的凸性使得梯度下降成为优化的一个很好的选择。

  • 00:55:00 在这节课中,教授讨论了用于寻找线性模型中误差函数最小值的迭代方法。他解释说,这些方法包括沿着表面小步移动,并使用微积分,特别是泰勒级数进行局部近似。然后他引入了梯度下降的概念,其中下一个权重由当前权重加上在特定方向上的移动来确定,这是通过求解最速下降方向上的单位向量来确定的。教授接着解释了如何选择向量与单位向量的内积负值最大的方向作为移动方向。

  • 01:00:00 在本节中,讲师讨论了梯度下降优化中步长或学习率之间的折衷。采取非常小的步骤最终会达到最小值,但这将花费很长时间,而采取更大的步骤会更快但可能无法应用线性近似。分析图表后,最好的折衷方案是最初采用较大的学习率以利用陡峭的斜率,并在接近最小值时更加小心以避免超调。讲师然后给出固定学习率的公式,其中学习率与梯度的大小成正比。然后引入逻辑回归算法,其中使用样本内误差公式计算梯度,通过当前权重减去学习率乘以梯度得到下一个权重。最后,所有三种线性模型,感知器、线性回归和逻辑回归,都在一张幻灯片中进行了总结,并应用于信用领域。

  • 01:05:00 在本节中,教授讨论了可在信用分析中实施的不同类型的线性模型以及使用的相应误差度量和学习算法。例如,感知器用于二元分类,逻辑回归用于计算违约概率。每个模型使用不同的误差度量,例如感知器的二元分类误差和逻辑回归的交叉熵误差。所使用的学习算法取决于所选择的误差度量,例如用于分类误差的感知器学习算法和用于交叉熵误差的梯度下降。最后,教授简要讨论了终止标准和梯度下降终止时出现的问题,因为错误表面中有许多未知数,因此正确分析终止有点棘手。

  • 01:10:00 在本节中,演讲者解释了梯度下降是一种有效但并非万无一失的优化算法。如果优化算法尝试导航的表面具有多个局部最小值,则该算法可能只会找到一个局部最小值而不是全局最小值来提供最佳结果。演讲者建议使用标准组合来终止优化算法,并指出共轭梯度是梯度下降的有效替代方案。演讲者建议,如果局部最小值成为应用程序中的实际问题,优化领域有许多方法可以解决这个问题。

  • 01:15:00 在本节中,教授解释了交叉熵的概念,这是一种使用对数和期望值获得两个概率分布之间关系的方法。教授还讨论了二分搜索和二阶方法在优化方面的局限性,强调虽然更复杂的方法可能会带来更好的结果,但它们在 CPU 周期方面可能过于昂贵。最后,在回答一个问题时,教授确认逻辑回归可以应用于多类设置,如识别数字的示例所示。

  • 01:20:00 在讲座的这一部分,教授讨论了多类分类的各种方法,包括序数回归和基于树的二元决策。教授还介绍了tanh函数的使用,将在神经网络中作为神经元函数使用。还讨论了学习率的概念,教授提到可以使用自适应学习率的启发式方法,并提出了选择学习率的经验法则。此外,还区分了有意义的特征和通过查看特定数据集得出的特征,前者不太可能丧失 VC 保证。

  • 01:25:00 在这一节中,教授讨论了机器学习中推导特征的过程,并强调这是一门取决于应用领域的艺术。虽然可以根据数据推导出特征,但最终的假设集仍将决定泛化行为。教授还指出,选择特征在机器学习中是自动完成的,但它成为学习的一部分,并根据 VC 维度收费。选择特征的主题将在以后关于神经网络和隐藏层的讲座中进一步讨论。
 

第 10 讲 - 神经网络



加州理工学院的机器学习课程 - CS 156。第 10 讲 - 神经网络

加州理工学院教授 Yaser Abu-Mostafa 在本次讲座中讨论了逻辑回归和神经网络。逻辑回归是一种线性模型,用于计算有界实值函数的概率解释。它无法直接优化其误差测度,因此引入梯度下降的方法来最小化任意一个足够光滑且二次可微的非线性函数。虽然没有封闭形式的解决方案,但误差度量是一个凸函数,因此使用梯度下降进行优化相对容易。

随机梯度下降是神经网络中使用的梯度下降的扩展。神经网络是一种模型,它实现了受生物学观点驱动并与感知器相关的假设。反向传播算法是一种与神经网络相结合的高效算法,使模型特别实用。该模型具有使人们兴奋的生物学联系,并且易于使用该算法实施。虽然它不是当今的首选模型,但神经网络在实际应用中取得了成功,并且仍被用作许多行业的标准,例如银行业和信贷审批。

简要总结:

  • 逻辑回归是一种线性模型,用于计算有界实值函数的概率解释;
  • 引入梯度下降法优化逻辑回归,但无法直接优化其误差测度;
  • 随机梯度下降是神经网络中使用的梯度下降的扩展;
  • 神经网络是一种模型,它实现了受生物学观点驱动并与感知器相关的假设;
  • 反向传播算法是一种与神经网络相结合的高效算法,使模型特别实用;
  • 尽管神经网络现在不是首选模型,但它们仍被用作许多行业的标准,例如银行业和信贷审批。
 

第 11 课 - 过拟合



加州理工学院的机器学习课程 - CS 156。第 11 讲 - 过拟合

本讲介绍机器学习中过度拟合的概念和重要性。当模型根据噪声而不是信号进行训练时,就会发生过度拟合,从而导致样本外拟合不佳。该讲座包括各种实验,以说明不同参数(例如噪声水平和目标复杂性)对过度拟合的影响。讲师强调了及早检测过度拟合以及使用正则化和验证技术来防止过度拟合的重要性。还讨论了确定性和随机性噪声对过度拟合的影响,讲座最后介绍了接下来的两节课,内容是通过正则化和验证来避免过度拟合。

讨论了过度拟合的概念,并强调了正则化在防止过度拟合方面的重要性。教授强调了过度拟合和欠拟合之间的权衡,并解释了 VC 维度在过度拟合中的作用,在相同数量的示例中,VC 维度的差异会导致样本外和样本内误差的差异。还涵盖了验证模型的实际问题及其如何影响过度拟合和模型选择。此外,教授强调了分段线性函数在防止过度拟合方面的作用,并强调了考虑模型中自由度的数量并通过正则化对其进行限制的重要性。

  • 00:00:00 在本节中,讲师介绍了机器学习中过度拟合的主题及其重要性,并指出处理过度拟合的能力将该领域的专业人士与业余爱好者区分开来。过拟合的罪魁祸首被确定为噪声,讲师介绍了正则化和验证的概念作为处理过拟合的技术。本节介绍了一个新主题,该主题将在接下来的三个讲座中介绍。

  • 00:05:00 在本节中,讲师通过展示将四阶多项式拟合到具有添加噪声的二阶目标函数时如何发生过拟合来解释过拟合的概念。这导致零训练错误和样本外拟合不佳,这是过度拟合的典型示例,其中模型比需要的走得更远。在讨论神经网络中的过度拟合时会进一步强调这一点,因为 E_in 在训练期间下降,而 E_out 保持高位。讲师还指出,过度拟合是一个比较术语,因为必须有另一种情况更好,并且在同一模型内可能会发生过度拟合。

  • 00:10:00 在本节中,Abu-Mostafa 教授讨论了过度拟合,当 E_in 降低时会发生这种情况,但由于拟合噪声而不是信号,E_out 会增加。他解释说,有效的 VC 维度会随着时间增长,但泛化误差会随着参数数量的增加而变得越来越严重。当比较同一模型中的两个不同模型或实例时,可能会发生过度拟合。解决此问题的一种方法是使用基于验证的提前停止算法来检测过度拟合,该算法充当正则化以防止过度拟合。为了避免在发生过拟合时拟合噪声,重要的是尽早检测到它并停止而不是继续最小化 E_in。

  • 00:15:00 在本节中,讲师讨论了由于数据中存在噪声而导致过度拟合的情况。案例研究介绍了两种不同的模型 - 一种具有嘈杂的低阶目标,另一种具有无噪声的高阶目标。使用二阶多项式和十阶多项式来拟合数据。对于二阶拟合,样本内误差为0.05,样本外误差略高。相反,10 阶拟合存在问题,样本内误差小于 2 阶拟合。然而,样本外误差急剧增加,表明噪声已被拟合到模型中的过度拟合情况。

  • 00:20:00 在本节中,讲师讨论了过度拟合,以及当模型正在拟合另一种类型的噪声时,即使在无噪声的情况下也会发生过度拟合。他举了一个将 10 阶模型拟合到 10 阶噪声目标的示例,以及它如何导致过度拟合。然后,他表明通过将模型的复杂性与数据资源而不是目标复杂性相匹配,尽管模型更简单,但它可以带来更好的性能。讲师强调,泛化问题取决于数据集的大小和质量,简单地将模型的复杂性与目标函数相匹配并不总是最好的方法。

  • 00:25:00 在本节中,探讨了机器学习中过度拟合的概念。该讲座使用学习曲线来演示更复杂的模型的样本内误差如何更小,但样本外误差更大,定义了发生过拟合的灰色区域。该讲座还展示了两个学习者的实验,一个选择 10 阶,另一个选择 2 阶来拟合 50 阶目标而没有噪声。尽管没有噪声,但两个学习器仍然会出现过度拟合,从而导致实际噪声的定义以及在现实世界的机器学习问题中需要谨慎。讲座得出结论,大多数情况下都会发生过拟合,强调理解和解决这个问题的重要性。

  • 00:30:00 在本节中,讲师讨论了影响过拟合的参数,包括噪声水平、目标复杂度和数据点数量。为了创建具有高复杂性的有趣目标函数,讲师使用了一组标准的勒让德多项式,这些多项式具有彼此正交的特定系数。通过将信号归一化为 1 的能量,讲师可以说 sigma 平方是噪声量。在生成实验实例时,讲师使用噪声、目标复杂性和数据点数量的不同组合来观察过度拟合的持久性。

  • 00:35:00 在本节中,讲师讨论了一种过拟合测量方法,该方法比较两种不同模型的样本外误差:二阶多项式和十阶多项式。该度量是复杂模型的样本外误差与简单模型的样本外误差之间的差异。如果复杂模型的样本外误差较大,导致测度为正,则存在过拟合。然后,讲师展示了过度拟合度量如何随着噪声水平和目标复杂性的变化而变化。随着噪声水平的增加和目标复杂性的增加,过度拟合会恶化。讲师还指出,过度拟合是一个重要问题,必须加以解决。

  • 00:40:00 本节将过拟合中噪声的概念扩展到常规噪声之外,分为随机噪声和确定性噪声。值得注意的是,更多的数据通常会导致较少的过度拟合,而随机或确定性噪声的增加会导致更多的过度拟合。确定性噪声被定义为目标函数中假设集无法捕获的部分,并且由于假设集无法处理它而被标记为噪声。使用一个假设场景进一步探讨无法捕获的东西是噪声的概念,该场景涉及向对数字理解有限的年幼兄弟姐妹解释复数。

  • 00:45:00 这节课讲解了确定性噪声和随机噪声的区别,分析了确定性噪声对过拟合的影响。需要强调的是,确定性噪声取决于所使用的假设集,随着目标复杂度的增加,确定性噪声和过拟合也会增加。但是,直到目标复杂性超过某个级别时才会发生这种情况。对于有限 N,随机噪声的相同问题适用于确定性噪声,因为由于样本量有限,您可能会捕获其中的一些噪声。还提到使用更复杂的假设集并不总是更好,并且可能导致过度拟合。

  • 00:50:00 在本节中,讲师讨论了给定有限样本时的过度拟合问题。他解释说,一旦给定一个有限的样本,人们就有能力适应随机和确定性的噪声,这可能导致更差的性能。讲师提供给目标添加噪声的定量分析,以深入了解随机和确定性噪声的作用。他加减质心和 epsilon 以准备获得平方项和交叉项,这会导致方差项、偏差项和附加项。添加的项只是西格玛平方,即噪声的方差。
     
  • 00:55:00 在讲座的这一部分,演讲者讨论了将期望值分解为偏差和方差,以及它们与确定性和随机噪声的关系。两者分别表示对目标函数的最佳逼近和无法预测的噪声。示例数量的增加减少了方差,但给定一个假设,偏差和方差都是不可避免的。确定性噪声和随机噪声在数据点上都有一个有限版本,它们通过使拟合更容易过度拟合来影响方差。演讲者通过讨论正则化和验证这两种方法,引导接下来的两节课避免过度拟合。正则化就像踩刹车以避免过度拟合,而验证则是检查底线以确保避免过度拟合。

  • 01:00:00 在本节中,教授讨论了通过使用约束拟合或正则化来抑制过度拟合的概念。他以将点拟合到四阶多项式为例,但通过在其中施加一些摩擦来防止它一直拟合。施加的制动量很小,但会显着减少过度拟合,同时仍能实现出色的拟合。教授指出,了解正则化以及如何选择正则化以防止过度拟合很重要。问答环节讨论了随机化在随机梯度下降中的重要性,以及如何在神经网络图中绘制样本外误差。

  • 01:05:00 在本节中,教授解释了学习场景中的确定性和随机噪声是相同的,因为确定性噪声是由于假设集无法更接近目标函数而引起的。在现实世界的学习问题中,目标函数的复杂度一般是未知的,也无法识别噪声。从概念上理解过度拟合的目的是在没有噪声细节的情况下避免过度拟合。过度训练是过度拟合的代名词,相对于同一模型而言。其他错误来源,例如浮点数,对过度拟合的影响有限,这一点从未被提及。就三阶线性模型(逻辑回归)而言,教授阐明当应用于线性可分数据时,可以实现局部最小值和零样本内误差。

  • 01:10:00 在本节中,教授讨论了过度拟合的问题及其有限样本版本,这是由于有限样本中随机因素和确定性因素的噪声贡献而发生的。这导致算法拟合该噪声,这在拟合较大模型(如 H_10)时是有害的。在讨论使用分段线性函数来防止过度拟合时,教授强调了考虑模型中的自由度数量并采取措施通过正则化在拟合方面限制模型的重要性。最后,教授介绍了验证模型的实际问题以及它如何影响过度拟合和模型选择。

  • 01:15:00 在本节中,教授讨论了过度拟合和欠拟合之间的权衡,并解释说为了得出更好的假设,您可能需要剥夺自己本可以用于训练的资源。教授还详细阐述了 VC (Vapnik-Chervonenkis) 维度及其与过度拟合的关系,指出在给定相同数量的示例的情况下,VC 维度的差异是样本外和样本内差异的原因-样本错误。教授还澄清说,尽管他们在彩色图中说明了目标复杂性,但并未明确测量目标复杂性,也没有明确的方法将其映射到确定性噪声的能量中。最后,教授讨论了目标复杂性如何转化为偏差方差分解中的某些东西,并对过度拟合和泛化产生影响。
 

第 12 课 - 正则化



加州理工学院的机器学习课程 - CS 156。第 12 讲 - 正则化

本次关于正则化的讲座首先解释了过度拟合及其对机器学习模型泛化的负面影响。讨论了两种正则化方法:数学方法和启发式方法。然后,本讲座使用勒让德多项式作为扩展分量的示例,深入探讨了正则化对线性模型中偏差和方差的影响。还涵盖了正则化中 C 和 lambda 之间的关系,并介绍了增广误差及其在证明正则化以进行泛化方面的作用。还讨论了权重衰减/增长技术以及选择正确的正则化器以避免过度拟合的重要性。讲座以选择一个好的欧米茄作为启发式练习的重点结束,并希望 lambda 将作为正则化的救星。

第二部分讨论了权重衰减作为平衡网络简单性和功能性的一种方式。讲师告诫不要过度正则化和非最佳性能,强调使用验证来确定不同噪声水平的最佳正则化参数。正则化在理论和实践的基础上作为实验进行讨论。介绍了常见的正则化类型,例如 L1/L2、早停和 dropout,以及如何针对不同的问题确定合适的正则化方法。还讨论了与实施正则化相关的常见超参数。

  • 00:00:00 在本节中,Yaser Abu-Mostafo 深入研究了过度拟合的细节,过度拟合发生在模型太适合数据时,但代价是泛化能力较差。即使数据没有噪声,由于模型的局限性,也可能会出现确定性噪声,从而导致损害样本外误差并导致过度拟合的模式。然而,Abu-Mostafo 引入正则化作为过度拟合的第一个治疗方法,这是一种几乎在每个机器学习应用程序中都使用的技术,理解它很重要。

  • 00:05:00 在本节中,讲师讨论了机器学习中正则化的两种方法。第一种方法是数学方法,其中施加平滑约束来解决病态问题,但在这些发展中所做的假设对于实际应用来说并不总是切合实际。第二种方法是启发式的,涉及通过制动拟合来阻碍样本内误差的最小化,这有助于对抗过度拟合。讲师给出了一个使用正弦曲线和线拟合的例子,表明通过正则化和控制线的偏移量和斜率,我们可能能够获得更好的样本外性能。

  • 00:10:00 在本节中,讲师讨论正则化对线性模型的偏差和方差的影响。通过使用正则化,方差减小,而偏差由于不完美拟合而略有增加。讲师以勒让德多项式作为展开分量的多项式模型为例,演示正则化对偏差和方差的影响。通过正则化,线性模型优于非正则化模型甚至常数模型。本讲座深入探讨了机器学习中最著名的正则化技术之一的数学发展,重点是可以从中学到的具体结论和经验教训来处理现实世界的情况。

  • 00:15:00 在本节中,讲师介绍勒让德多项式并解释如何使用它们来构建多项式回归的假设集。通过使用这些正交且处理不同坐标的多项式,相关参数是权重的组合,而不仅仅是一个单独的权重。假设集可以参数化并以线性形式表示,从而允许简单的解析解。目标函数是未知的,目标是使用有限的训练集得到一个很好的近似值。讲师还介绍了使用线性回归最小化样本内误差的无约束和约束解决方案。

  • 00:20:00 在本节中,讲师讨论了正则化的概念,它是应用于假设集权重的约束。正则化涉及为权重的总幅度平方设置预算 C,这意味着您不能让所有权重都太大。问题是在受此约束的同时最小化样本内误差。该解是使用拉格朗日乘数或 KKT 获得的,它给出了一个名为 w_reg 的新解。讲师解释说,目标是在一个圆内选择一个点,使样本内误差最小化,这需要在不违反约束的情况下尽可能地走得更远。

  • 00:25:00 在本节中,讨论了正则化的概念,其目标是推导一个模型,该模型可以很好地泛化到看不见的数据。线性回归的解是最小绝对值,满足约束。主要重点是在约束下推导实现 E_in 最小值的分析条件,以便在目标和约束之间找到折衷方案。目标函数的梯度必须与椭圆正交,向量w在红色面的方向。 w_reg 的解析条件是梯度必须与解的负值成正比。通过最小化解的方程,您可以无条件地获得 E_in 的最小值。

  • 00:30:00 在本节中,讲座讨论了正则化中参数 C 和 lambda 之间的关系。 C 的值越大,lambda 的值越小,因为对正则化项的重视程度越低。相反,随着 C 的减小,正则化项变得更加重要,并且 lambda 的值需要增加以强制执行条件。本讲座还介绍了增广误差,它是误差函数和正则化项的总和。它相当于一个无约束优化问题,即在受约束条件下最小化误差函数。这种对应关系在泛化方面证明了正则化,并且适用于任何正则化器。最后,讲座提供了最小化增广误差的公式,并以提供解决方案作为结尾。

  • 00:35:00 在本节中,演讲者讨论正则化问题的解决方案。该解由 w_reg 表示,它是伪逆解的一种修改,增加了一个正则化项。在干净的假设下,我们有一步学习,包括正则化。换句话说,我们可以在不进行约束优化的情况下直接获得解决方案。随着 lambda 的增加,解决方案中的正则化项变得占主导地位,这将 w_reg 降低到零,从而创建越来越小的解决方案。然后演讲者将正则化应用于一个熟悉的问题,表明 lambda 的选择很关键,并且有必要对正则化器的类型进行启发式选择。

  • 00:40:00 在本节中,介绍了正则化的概念及其相关的权重衰减方法。权重衰减是机器学习中一个著名的正则化器,它涉及最小化 w 转置 w 并确保权重很小,因此给出了“衰减”的名称。当使用神经网络时,权重衰减可以通过批量梯度下降来实现,其中添加该项会在权重空间中发生任何移动之前缩小权重,这会限制人们在 λ 较大时可以了解函数的多少。权重衰减的变化包括将重要性因子分配给某些权重,并使用不同的常数来试验所使用的正则化器类型。

  • 00:45:00 在本节中,讲师讨论了权重衰减和权重增长技术,这些技术是机器学习中用于限制模型使用的权重范围的约束。权重衰减涉及约束模型使用较小的权重,而权重增长约束较大的权重。讲师解释说,必须为这两种技术选择最佳的 lambda 值,以实现最佳的样本外性能。此外,讲师还讨论了如何选择正确的正则化器,强调了通过使用有助于指导正则化器选择的准则来避免过度拟合的重要性。最后,讲师建议使用实用规则来帮助找到最佳正则化器,例如避免高频随机噪声。

  • 00:50:00 在讲座的这一部分,讲师解释了可能导致过度拟合的不同类型的噪声,以及为什么选择倾向于选择更平滑假设的正则化器很重要。他定义了正则化的一般形式和最小化的增广误差,这类似于 VC 分析中使用的方程。他还讨论了单个假设的复杂性与对象集的复杂性之间的对应关系,以及 E_aug 如何比 E_in 更好地估计 E_out。

  • 00:55:00 在这节关于正则化的讲座中,讨论了增广误差作为样本外误差更好代理的想法。正则化旨在减少过度拟合,这本质上是更适合噪声而不是信号。选择正则化器的指导原则是朝着更平滑的方向移动,因为噪声不是平滑的,而更平滑的解决方案往往比拟合信号更能损害噪声。在 smoother 应用不好的情况下,也引入了 simple 的概念。选择一个好的欧米茄是一种启发式练习,所涉及的数学仅与其所基于的假设一样好。讲座结束时希望 lambda 能作为选择正则化器的救星。

  • 01:00:00 在讲座的这一部分,探讨了神经网络权重衰减的概念,其中较小的权重导致函数的简单性,而较大的权重导致逻辑依赖性以允许实现任何功能。正则化器的另一种形式是权重消除,其中网络中的一些权重被强制为零,从而导致更小的 VC 维度,从而实现更好的泛化和更小的过度拟合机会。引入了软权重消除,从而将连续函数应用于网络以强调某些权重而不是其他权重。最后,提早停止作为正则化器的一种形式进行了讨论,它建议在结束前停止训练,因为这是一种间接为函数提供简单性的方法。

  • 01:05:00 在本节中,教授解释说正则化是通过优化器完成的,我们不会改变目标函数。相反,我们将目标函数(样本内误差)交给优化器并告诉它最小化它。然后教授告诫不要只将正则化器放在优化器中,如果做得不正确,可能会导致过度正则化和非最佳性能。他强调了在目标函数中尽可能多地捕获的重要性,然后使用验证来确定正则化参数 lambda 的最佳值。然后,教授展示了 lambda 的选择如何随着不同的噪音水平而变化,以及使用验证如何帮助确定给定噪音的最佳可能结果。最后,他讨论了根据性能使用具有不同参数的不同类型的正则化器。

  • 01:10:00 在这一节中,教授讨论了regularizers在机器学习中的使用,这是一个实验性的活动,而不是一个完全原则性的活动。机器学习方法介于理论和实践之间,这意味着它在两者上都有很强的基础。教授使用勒让德多项式作为正交函数,因为它们提供了一定程度的通用性,这很有趣并且解决方案很简单。正则化允许用户找到最佳性能的最佳点,这可能在两个离散步骤之间。添加的正则化项不明确依赖于数据集。然而,最佳参数 lambda 将取决于训练集,而训练集将由验证确定。

  • 01:15:00 本节介绍正则化的概念,即在损失函数中加入惩罚项,以避免机器学习模型过拟合。讨论了两种最常见的正则化类型 L1 和 L2,以及它们各自的优缺点。此外,还解释了使用提前停止和退出作为替代正则化技术。本讲座最后概述了如何为给定问题确定合适的正则化方法,以及在实施正则化时要考虑的常见超参数。
 

第 13 课 - 验证




加州理工学院的机器学习课程 - CS 156。第 13 课 - 验证

在第 13 讲中,重点是验证作为机器学习中用于模型选择的一项重要技术。本讲座详细介绍了验证,包括为什么将其称为验证以及为什么它对模型选择很重要。交叉验证也作为一种验证类型进行讨论,它允许使用所有可用示例进行训练和验证。讲师解释了如何使用随机变量来估计样本外误差,该随机变量采用样本外点并计算假设值与目标值之间的差异。本讲座还讨论了使用估计值选择特定模型时引入的偏差,因为它不再可靠,因为它是根据验证集选择的。引入交叉验证的概念作为评估不同假设的样本外误差的方法。

他还介绍了使用交叉验证进行模型选择和验证以防止过度拟合,重点是“留一法”和 10 折交叉验证。这位教授论证了考虑样本外差异和数据窥探的重要性,并建议包括随机化方法以避免抽样偏差。他解释说,虽然交叉验证会增加复杂性,但将其与正则化结合起来可以选择最佳模型,而且由于验证不需要假设,所以它是独一无二的。教授进一步解释了交叉验证如何帮助做出有原则的选择,即使在比较不同的场景和模型时也是如此,以及总验证点如何决定误差线和偏差。

  • 00:00:00 在本节中,重点是验证,这是机器学习中用于模型选择的另一项重要技术。该过程涉及选择验证集大小并使用它来验证模型选择过程。本讲座详细介绍了验证,包括为什么将其称为验证以及为什么它对模型选择很重要。讨论还包括交叉验证,这是一种验证类型,可以使用所有可用示例进行训练和验证。就控制而言,讲座将验证与正则化进行了对比。

  • 00:05:00 在本节中,讲师在处理由于模型的复杂性导致的样本内误差和样本外误差之间的差异的著名方程的背景下讨论验证和正则化。正则化估计过度拟合复杂性的惩罚,而验证试图直接估计样本外误差。讲师解释了如何使用随机变量来估计样本外误差,该随机变量采用样本外点并计算假设值与目标值之间的差异。讲师强调方差如何影响估计的质量,并建议使用一整套点而不是一个点。

  • 00:10:00 在本节中,介绍了验证集的概念和作为样本外误差的无偏估计的验证误差。验证误差的期望值是E_out,这是单点上期望值的另一种形式。分析验证误差的方差表明,与单点相比,基于 E_val 的估计有改进。方差最终与 1/K 成正比,这意味着增加 K 可以缩小误差条并提高估计的可靠性。然而,验证点的数量不是免费的,它直接影响可用于训练的点数。

  • 00:15:00 在本节中,重点是验证过程,其中从 N 个点中提取 K 个点用于验证目的,而其余子集 D_train 用于训练。同样重要的是要注意对验证集进行可靠估计以确保最终假设可靠的有用性。然而,对不良数量进行可靠估计不应成为目标。随着 K 值的增加,估计变得更加可靠,但假设的质量下降。因此,找到一种不必为增加K而付出代价的方法是至关重要的。一种方法是在估计误差后恢复数据集并在全集上训练以获得更好的结果。

  • 00:20:00 在本节中,重点是在训练期间使用验证集时的性能折衷。与完整训练集 D 相比,减少的 D_train 集将具有更少的示例,我们使用它获得最终假设 g minus。为了获得估计值,我们在验证集 D_val 上评估 g minus,然后将其余示例加回锅中并报告 g。然而,较大的 K 意味着 g 减去和 g 之间的差异较大,这会影响我们报告的估计的可靠性。因此,有一个经验法则是使用五分之一进行验证以获得两全其美。我们称之为验证,因为它会影响学习过程并有助于做出选择。

  • 00:25:00 在本节中,重点是了解测试错误和验证错误之间的区别。当测试集无偏,用来估计E_out时,估计会出现波动。如果使用提前停止,则估计的偏差会发生变化。在 mini-learning 场景中,很容易看出最小值的期望值小于 0.5,属于乐观偏差。 The same thing happens when a point is chosen for early stopping - the point chosen is minimum on the realization, and an optimistic bias is introduced.

  • 00:30:00 在本节中,讲座讨论了在机器学习中使用验证集进行模型选择。该过程涉及使用分为训练集和验证集的数据集训练 M 个模型,然后评估每个模型在验证集上的性能以获得样本外误差的估计。选择具有最小验证错误的模型,但由于此选择过程存在引入偏差的风险。然而,这种偏差在实践中通常很小,可以接受以获得对样本外误差的可靠估计。

  • 00:35:00 在本节中,讲师讨论了在使用估计值选择特定模型时引入的偏差,因为它不再可靠,因为它是根据验证集选择的。估计量的期望值成为样本外误差的有偏估计。使用两个模型进行的实验生成了一条曲线,表明对一个模型或另一个模型的系统性偏见。图表上的曲线表示学习曲线向后以及样本外误差如何随着更多的训练示例而下降。随着验证集的规模变大,估计变得更加可靠,指示模型误差的曲线收敛。

  • 00:40:00 在本节中,讲座解释了如何估计特殊假设集训练与使用验证集找到最终假设之间的差异或偏差。验证集被视为最终假设集的训练误差,通过一些与 VC 维度和有效复杂度相关的数学知识,可以获得样本外误差的估计。虽然更多的例子会改进估计,但在从更多的假设中进行选择时,必须考虑对数贡献。尽管如此,在处理单个参数时,有效复杂度与 VC 维度为 1 相关,这并不太难处理。因此,如果您有一个合适的集合,那么估计的样本外误差将不会与实际值相差太多。

  • 00:45:00 在本节中,演讲者讨论了在使用错误估计做出决策时数据污染的概念,尤其是在验证的情况下。训练集被认为是完全污染的,而测试集是完全干净的并且给出了无偏估计。然而,验证集被轻微污染,因为它被用来做出一些决定,所以重要的是不要得意忘形,并在必要时转移到另一个验证集。然后演讲者介绍了交叉验证作为一种验证机制,只要在这个过程中没有偏差,它就可以用更小的误差条得到更好的估计。

  • 00:50:00 在本节中,教授介绍了通过交叉验证进行验证的概念,特别是“留一法”方法。在这种方法中,数据集被分成两部分,一个点用于验证,其余的用于训练。对不同的点重复该过程,导致多个无偏和不完美的估计。由于所有的估计都是基于 N-1 数据点的训练,所以它们有一个共同点。尽管不完美,但重复估计可以深入了解模型的行为并帮助优化它以获得最佳的样本外性能。

  • 00:55:00 在本节中,引入了交叉验证的概念,作为一种评估不同假设的样本外误差的方法。通过将数据集划分为训练集和验证集,可以估计模型在未见数据上的性能。 “留一法”用于说明该过程。讨论了交叉验证的有效性,表明使用 N 减 1 点进行训练和 N 点进行验证对于获得准确结果非常有效。

  • 01:00:00 在本节中,教授讨论了使用交叉验证进行模型选择。他通过用三个点比较线性模型和常量模型来证明这一点,并展示常量模型如何获胜。然后,他使用具有 20 个特征的 5 阶非线性变换,将交叉验证应用于寻找手写数字分离面的问题。他使用交叉验证“留一法”来比较 20 个模型并选择停止添加特征的地方。他表明,交叉验证误差与样本外误差密切相关,并且使用它作为模型选择的标准会导致 6 个特征的最小值,与使用未经验证的完整模型相比,性能有所提高。

  • 01:05:00 在本节中,教授讨论了使用验证来防止过度拟合,以及它如何被视为类似于正则化。他解释了“留一法”验证对于大多数实际问题是不切实际的,并建议改用 10 折交叉验证。他还根据数据集的大小提供了有关要使用的参数数量的指导,并阐明了为什么通过验证选择模型不算作数据窥探。

  • 01:10:00 在本节中,教授讨论了在使用验证集进行模型选择时考虑样本外差异和数据窥探的重要性。他强调在许多实际案例中需要使用抛硬币等随机方法来避免样本偏差,并使用交叉验证技术来选择正则化参数。虽然交叉验证会增加计算复杂性,但它也可以与正则化相结合来为模型选择最佳假设。教授指出,尽管还有其他模型选择方法,但验证的独特之处在于它不需要假设。

  • 01:15:00 在本节中,教授讨论了验证如何帮助在选择模型时做出原则性选择,无论选择的性质如何,以及如何在时间演化或跟踪系统的情况下使用它来更新模型进化。在比较验证和交叉验证时,他解释说这两种方法都有偏差,但交叉验证允许更多的例子用于训练和验证,从而导致更小的误差线和更小的偏差。虽然可能有大到不需要交叉验证的数据集,但教授提供了一个示例,即使有 1 亿个点,由于数据的性质,交叉验证仍然是有益的。

  • 01:20:00 在本节中,教授讨论了交叉验证有用的场景并解决了它的潜在问题。他解释说,当大型数据集的最相关部分小于整个数据集时,交叉验证就变得重要了。在竞争模型之间做出决定时,需要统计证据来确定样本外误差的显着性。教授指出,对于较小的数据集,对于重新采样还是将数据集分成块进行交叉验证更好,没有明确的答案。教授还讨论了班级之间平衡的作用,以及增加遗漏点数时偏见的表现。最后,教授解释说,验证点的总数决定了误差条,而偏差是交叉验证使用方式的函数。

  • 01:25:00 在本节中,教授讨论了误差条以及它如何提供估计中易受偏差影响的指示。如果两种情况具有可比较的误差线,则没有理由相信一种情况更容易受到偏见的影响。但是,需要进行详细分析,以了解一次采用一种情景与考虑相关性之间的区别。教授得出结论,只要进行了多次折叠,并且每个示例在交叉验证估计中恰好出现一次,就偏差而言,场景之间没有偏好。
 

第14讲-支持向量机



加州理工学院的机器学习课程 - CS 156。第 14 讲 - 支持向量机

该讲座涵盖了验证的重要性及其在机器学习中的应用,以及交叉验证相对于验证的优势。本讲座的重点是支持向量机 (SVM) 作为最有效的分类学习模型,详细介绍了通过约束优化实现边距最大化、公式化和解析解的部分。讲座涵盖了一系列技术细节,包括如何计算 SVM 中点与超平面之间的距离,如何解决 SVM 的优化问题,以及如何将 SVM 优化问题表述为对偶形式。讲师还讨论了使用二次规划解决优化问题的实际方面以及识别支持向量的重要性。本讲座最后简要讨论了支持向量机中非线性变换的使用。

关于支持向量机 (SVM) 讲座的第二部分,讲师解释了支持向量的数量除以示例数量如何给出对样本外点进行分类的错误概率的上限,从而使使用具有非线性变换的支持向量是可行的。教授还讨论了 w 转置 x 加 b 为 1 的归一化及其优化的必要性,以及 SVM 的 soft-margin 版本,它允许错误并对其进行惩罚。此外,解释了支持向量的数量和 VC 维度之间的关系,并提到了该方法的抗噪声能力,以及在噪声数据情况下使用的方法的软版本。

  • 00:00:00 在本节中,讲师讨论了验证的重要性,特别是在机器学习中的使用方面。还解释了验证错误导致的无偏和乐观偏倚的概念及其对模型选择的影响。本节进一步强调了交叉验证相对于验证的优势。此外,讲师介绍了支持向量机作为最有效的分类学习模型,并指出其直观解释、原则推导和优化包是学习模型的显着优势。还提供了该部分的详细概述,其中涉及通过约束优化最大化裕度、公式和分析解决方案。

  • 00:05:00 在本节中,解释了线性分离中最大化边距的概念。虽然所有分隔线性可分数据的线的样本内误差为零,但有些线可能具有更好的边距,可以实现更大的泛化。据解释,边距越大越好,因为在嘈杂的情况下,新点被正确分类的可能性更高。这与增长函数有关,以及更大的增长函数如何不利于机器学习中的泛化。结果表明,通过搜索不仅正确分隔数据而且对这些数据点具有最大可能边距的线,最大化边距可以帮助泛化。

  • 00:10:00 在本节中,讲师讨论了 fat margins 以及它们如何提高分类器的性能。通过要求分类器具有一定大小的边距,可能的二分法数量减少,从而导致更小的增长函数和更小的 VC 维度。 margin 越大,分类器的样本外性能越好。然后,讲师解释了如何通过找到超平面和最近的数据点之间的距离,并对向量 w 进行归一化以简化分析来求解最大可能的余量。信号,或者说超平面到数据点的距离,不是欧氏距离,而是最近点和最远点的顺序,需要转换得到欧氏距离。

  • 00:15:00 在本节中,讲师解释了与支持向量机分析相关的一些技术细节。首先,为了比较不同平面的性能,使用欧氏距离作为衡量标准。其次,为了更方便分析支持向量机,从向量X中抽取w,抽出w₀,以免与现在有了新作用的w向量混淆。目标是计算 xₙ(最近点)和平面之间的距离。讲师显示向量 w 与平面和平面上的每个向量正交,这意味着它与平面上的每个法向量正交,所以现在我们可以得到 xₙ 和平面之间的距离。

  • 00:20:00 在本节中,演讲者讨论了如何在 SVM 中计算点与超平面之间的距离。这可以通过将从点到超平面上的通用点的矢量投影到与超平面正交的方向上来完成。这个方向上的单位向量是通过归一化向量的长度来计算的。通过使用一些代数,说话者推导出一个距离公式,该公式通过添加一个缺失的项来简化。该公式可用于选择提供最佳可能余量的 w 组合。由于约束中的最小值,由此产生的优化问题对用户来说不是很友好。然而,通过做一些简单的观察,这个问题可以重新表述为一个更友好的二次问题。

  • 00:25:00 在本节中,讲师解释了如何解决支持向量机 (SVM) 的优化问题。他们首先展示了如何将 SVM 表述为约束优化问题,其中他们必须最小化受线性不等式约束约束的目标函数。他们证明可以利用拉格朗日乘子将不等式约束转化为等式约束,进而求解新的拉格朗日量。他们指出,这种方法是由 Karush 和 Kuhn-Tucker 独立发现的,被称为 KKT Lagrangian。讲师强调这个过程类似于正则化的过程,他们回忆了解决方案的梯度条件。

  • 00:30:00 在这一部分,讲师解释了SVM和正则化之间的关系以及拉格朗日公式。必须注意,约束导致非零梯度,这与梯度等于 0 的无约束问题不同。拉格朗日公式依赖于 w 和 b 等变量,并且有新变量,拉格朗日乘数,如 alpha 向量.手头的问题是最小化受形式约束的目标函数,然后我们给它取一个拉格朗日名称。有趣的是,我们实际上是在最大化 alpha,尽管 alpha 必须是非负的,因此我们需要注意这一点。本节最后简要说明了无约束部分,我们需要最小化拉格朗日函数相对于 w 和 b 的梯度。

  • 00:35:00 在讲座的这一部分,演讲者解释了如何用对偶公式来表达 SVM 优化问题。他首先针对 w 和 b 优化问题,得到两个条件,他将其代回原始拉格朗日量,从而导致问题的对偶公式,这是仅就拉格朗日乘数 alpha 而言的一个很好的公式。然后,他将 alpha 的约束设置为非负,并根据这些约束解决最大化问题,从而得出确定支持向量的最优 alpha 值。

  • 00:40:00 在本节中,演讲者讨论了使用二次规划解决之前提出的支持向量机优化问题的实际方面。目标和约束被转换为传递到二次规划包以进行最小化的系数。矩阵维度取决于示例的数量,这成为大型数据集的实际考虑因素。演讲者警告说,当示例数量很大时,二次规划很难找到解决方案,可能需要使用启发式方法。

  • 00:45:00 在本节中,讲座深入探讨了二次规划带来的解决方案,特别是 alpha,以及它如何与确定权重、曲面、边距和 b 的原始问题相关联。该讲座强调了识别支持向量的重要性,支持向量是定义平面和边距的点。正 lambda(在本例中为 alpha)背后的数学原理为识别支持向量提供了一种方法,因为它只考虑具有正值的点。这意味着这些 alpha 值对于定义两个分类之间的边界至关重要,并且识别它们的位置对于优化权重和创建最大边距至关重要。

  • 00:50:00 在本节中,将在支持向量机 (SVM) 算法的背景下介绍和讨论支持向量的概念。支持向量被定义为最接近决策边界或分隔数据类别的超平面的数据点。 SVM 算法优化二次规划问题以确定决策函数的支持向量和参数。参数的值仅取决于作为关键点的支持向量,使模型能够很好地泛化。还简要讨论了非线性变换作为处理不可分离数据的一种方式。将数据转换到更高维空间不会使优化问题复杂化,并且可以使用相同的技术来查找支持向量和决策函数。

  • 00:55:00 在视频的这一部分,讲师讨论了支持向量机中非线性变换的使用。当数据不可线性分离时使用非线性变换,这就是 X 空间中的情况。讲师演示了如何使用非线性变换并在 Z 空间中工作以获得线性可分的结果。他解释说解决方案很简单,alpha 的数量取决于数据点的数量,而不是你工作的空间的维度。关键的想法是你可以在不付出代价的情况下进入一个巨大的空间在优化方面。支持向量在 Z 空间中被识别,但在 X 空间中,它们看起来像数据点。

  • 01:00:00 在本节中,讲师讨论了使支持向量与非线性变换可行的泛化结果。支持向量的数量(表示有效参数的数量)除以示例数量给出了样本外点分类错误概率的上限。如果该机器多次运行的预期值成立,那么在特定情况下您将获得的实际 E_out 将以熟悉的界限类型为界限(例如,参数的数量、自由度和 VC 维数除以例子的数量)。这个结果使人们使用支持向量和非线性变换的支持向量,因为你不需要为更高维度的计算或随之而来的泛化付出代价。

  • 01:05:00 在这一节中,教授解释了为什么他选择将 w 转置 x 加 b 归一化为 1,以及为什么这种归一化对于优化是必要的。他还回答了一个问题,即 SVM 如何通过非线性变换处理非线性可分点,以及 SVM 的 soft-margin 版本如何允许错误并对其进行惩罚。此外,教授还简单介绍了支持向量个数与VC维数的关系,以及alpha如何表示SVM中的参数。

  • 01:10:00 本节讲师讨论非零参数个数与VC维的关系,VC维按定义相当于支持向量个数。保证金衡量标准可能会因使用的规范而异,但没有令人信服的理由在性能方面偏爱其中一种。虽然没有直接的方法来修剪支持向量,但获取子集并获得支持向量的支持向量是可能的计算考虑因素。 SVM 方法对噪声不是特别敏感,在噪声数据的情况下,使用该方法的软版本,这与非噪声情况非常相似。
 

第 15 讲 - 内核方法



加州理工学院的机器学习课程 - CS 156。第 15 讲 - 内核方法

本次关于核方法的讲座介绍了支持向量机 (SVM) 作为一种线性模型,由于最大化边际的概念,它比传统的线性回归模型更受性能驱动。如果数据不是线性可分的,则可以使用非线性变换来创建波浪曲面,这些曲面仍然可以实现复杂的假设,而无需付出高昂的复杂性代价。该视频解释了进入高维 Z 空间的内核方法,解释了如何在不计算单个向量的情况下计算内积。该视频还概述了为分类问题获取有效内核的不同方法,并解释了如何将 SVM 应用于不可分离的数据。最后,该视频解释了 SVM 中松弛的概念和量化边际违规,引入了变量 xi 来惩罚边际违规,并回顾了用于求解 alpha 的拉格朗日公式。

第二部分涵盖使用支持向量机 (SVM) 和内核方法的实际方面。他解释了软间隔支持向量机的概念,以及它们如何在保持较大间隔的同时允许一些错误分类。他谈到了参数 C 的重要性,它决定了可以发生多少违规行为,并建议使用交叉验证来确定它的值。他还解决了对转换数据中坐标常数的担忧,并向用户保证它与偏差项起着相同的作用。此外,他还讨论了组合内核以生成新内核的可能性,并提出了启发式方法,当二次规划无法解决具有过多数据点的 SVM 时可以使用这些方法。

  • 00:00:00 在核方法讲座的这一部分,Yaser Abu-Mostafa 介绍了支持向量机 (SVM) 的概念,指出它们不过是最简单形式的线性模型,但更注重性能因为最大化边际的想法。通过使用二次规划包,我们可以解决 SVM 问题并获得 alpha,这有助于我们识别支持向量。如果数据不是线性可分的,我们可以使用非线性变换,但是由此产生的波浪曲面仍然可以让我们得到一个复杂的假设,而无需付出高昂的复杂性代价。我们可以根据支持向量的数量来预测样本外误差,支持向量是样本内的数量。

  • 00:05:00 在本节中,视频解释了内核方法的概念及其在将支持向量机扩展到线性可分情况之外的作用。内核方法背后的想法是在不为复杂性付出代价的情况下进入高维 Z 空间。该视频解释说,实现这一目标的关键是能够计算 Z 空间中的内积,而无需实际计算该空间中的各个向量。这就是内核的用武之地,因为它们允许仅使用显式输入来计算内积。该视频继续解释了这些方法对处理非线性变换和软边距的影响,以及如何在实践中使用它们来处理复杂问题。

  • 00:10:00 在本节中,讲座解释了 Z 空间中内积的使用,以及它与内核方法的关系。内积是形成拉格朗日函数并将约束传递给二次规划所必需的,但可以仅使用内积来计算它以执行支持向量机。利用对应于Z空间的广义内积或核,可以将x和x dash两点转化为由x和x dash确定的函数,称为核。给出了一个使用二阶多项式变换的二维欧几里德空间的示例。

  • 00:15:00 在本节中,讲师讨论核方法的概念以及如何在不转换 x 和 x 破折号的情况下计算核。讲师即兴创作了一个不会将事物转换到 Z 空间的内核,并让听众相信该内核对应于到某个 Z 空间的转换,在那里取一个内积。通过将 1 + x_xdash 的内核平方到 Q 次幂,讲师解释了它如何成为某个空间中的内积,使其成为有效的内核。此外,讲师将执行此操作与其他维度的计算量进行比较,而不管 Q 的复杂性如何,它保持不变。

  • 00:20:00 在本节中,讲师解释了一种无需实际展开多项式即可执行的多项式变换的核方法。通过取对数并对其取幂,多项式变成了一个简单的运算,不需要大量展开。这是一个简单的多项式,可以在 2D 中可视化并外推到其他情况。映射到更高维空间的内核可以通过在该空间中进行内积来获得。讲师介绍了一个内核的例子,它在 X 或 Z 空间中没有内积项,但对应于无限维空间中的内积项。尽管去无限维空间面临挑战,核方法仍然有用,支持向量的数量可以用来确定模型的泛化能力。

  • 00:25:00 在本节中,讲师演示了径向基函数内核,这是一个对应于无限维空间的复杂内核,并通过一个稍微不可分的案例展示了它是如何工作的。讲师随机生成 100 个点,并显示没有线将它们分开。然后,讲师将 X 变换到无限维空间并计算内核,内核是一个简单的指数函数。讲师将其传递给二次规划,二次规划返回支持向量。当讲师使支持向量变暗时,更容易看到这两个类。

  • 00:30:00 在本节中,演讲者讨论了核方法的概念以及它们如何用于分类。他举了一个例子,在点的数据集上使用内核,以便将它们转换到一个无限维空间,在那里它们可以被一个线性平面分开。生成的边距和支持向量用于确定指导泛化属性的样本内数量。演讲者接着解释了如何使用与某个 Z 空间中的内积相对应的有效内核来制定问题和构建假设。总的来说,他强调核方法的有用性以及如何应用它们来解决分类问题。

  • 00:35:00 在本节中,我们学习如何将线性模型转化为内核形式,其中支持向量机成为允许选择内核的模型。 Z空间取内积后,内核代替内积。生成的模型取决于内核选择,我们还可以通过插入支持向量来求解 b。然而,内核很难确定,因为如果不访问 Z 空间就无法验证其有效性。尽管如此,我们还是通过查看不同内核的函数形式来说明如何比较方法。

  • 00:40:00 在本节中,讲师解释了内核方法中获得有效内核的条件。共有三种方法: 构造,其中内核是从一组概念上的或显式的转换中构造出来的; Mercer 的条件,它要求给定的内核是对称的,并且由内核值构造的矩阵是半正定的;最后,一种即兴的方法,其中内核的可行性是一个非常实际的问题,必须同时满足两个条件。这些是内核是对称的,根据美世条件的要求,由内核值构造的矩阵对于任何点选择都必须是半正定的。

  • 00:45:00 在本节中,讲师描述了数据不可线性分离的情况以及如何在这种情况下应用支持向量机算法。不可分离数据可能有两种情况,一种是不可分离性很小,另一种是不可分离性很大。处理非线性可分离数据时,可以犯错并通过泛化来学习,而不是尝试使用包含所有数据点的复杂的异常高维空间,从而保持较低的错误率。在严重的不可分性的情况下,必须进行非线性变换并使用内核或软间隔支持向量机。讲师然后讨论了边缘违规的概念以及如何对其进行量化以解决分类错误。

  • 00:50:00 在本节中,讲师介绍松弛的概念以及量化SVM中的margin violation。他解释说,他将为衡量违反保证金的每个点引入一个松弛,并将通过将这些松弛相加来惩罚总违规。他选择了这个错误度量,而不是其他度量,它是合理的并且度量了对裕度的违反。然后他介绍了新的优化,即最小化裕度违规误差项,同时最大化裕度。常数 C 给出了这个边际违反项相对于使边际最大化的前一个项的相对重要性。根据 C 的值,最终结果可能是线性可分数据或折衷方案,因为它代表边际和松弛之间的权衡。最后,他回顾了添加新项的拉格朗日公式。

  • 00:55:00 在本节中,讲师解释了通过添加变量 xi 来惩罚边界违规而引入的新二次规划问题。 Lagrangian 包含对 xi 的新约束,必须解决这些约束才能使用 Lagrange 乘数 beta。然后,讲师展示了 w 和 b 的最小化如何保持不变,并发现求解 xi 的结果始终为零。这一发现导致 beta 退出拉格朗日量,留下与以前相同的解决方案,唯一的分支是 alpha 现在不仅大于或等于零,而且小于或等于 C。

  • 01:00:00 在视频的这一部分,讲师介绍了软间隔支持向量机的概念,它允许一些错误分类,同时仍然保持较大的间隔。该解决方案涉及一个附加约束,要求 alpha 最多为 C,以及已经存在的等式约束。软边缘支持向量机包括边缘和非边缘支持向量,后者是违反边缘的点,导致由值 xi 表示的松弛。 C 的值是一个重要的参数,它决定了可以发生多少违例,这通常是通过交叉验证来确定的。

  • 01:05:00 在本节中,讲师讨论了使用支持向量机 (SVM) 和核方法的实用要点。他解释说,如果数据不是线性可分的,二次规划可能不会收敛,导致没有可行解的情况。但是,他鼓励用户偷懒,仍然将二次规划的 alpha 传递回解决方案,以评估它是否分离了数据。此外,他解决了对随数据转换的常量坐标 1 的担忧,并解释说它实际上扮演着与偏差项 b 相同的角色,并且用户无需担心具有相同角色的多个坐标。

  • 01:10:00 在本节中,教授解释说,支持向量机 (SVM) 的线性取决于某些假设,在某些情况下它可能比线性更好。数据的维数可能会影响 SVM 的有效性,但如果高阶项快速衰减,则 RBF 核可以处理无限维。一个有效的内核需要有一个定义明确的内积,这取决于收敛性。教授没有涉及泛化到回归案例的 SVM,因为它们需要更多技术细节,而 SVM 的主要成功在于分类。最后,二次规划包可能会抱怨不是正定的,但解决方案可能仍然很好,具有一定的可靠性。

  • 01:15:00 在本节中,教授讨论了组合内核以产生新内核的可能性以及组合在 Z 空间中保持内积的要求。他还提到二次规划问题是用 SVM 解决问题的瓶颈,并给出了二次规划可以处理的点数的估计。此外,他还建议在二次规划无法解决具有过多数据点的 SVM 时使用启发式方法。
原因: