本讲座讨论了泛化理论和增长函数作为二分法的数量,这些二分法可以由一组 N 点的假设集生成,目标是表征整个增长函数并通过表征中断对每个 N 进行泛化观点。演讲者演示了计算不同假设集的增长函数并使用组合恒等式证明增长函数上限的过程。讨论还涉及在 Hoeffding 不等式中使用增长函数,VC 必须表征假设之间的重叠和 Vapnik-Chervonenkis 不等式,它是 N 中的多项式,多项式的阶数由断点决定。
教授讨论了泛化理论,澄清了先前的观点并解释了断点的概念,断点用于计算学习所需的资源。学习的重点是逼近 E_out,而不是 E_in,从而使学习者能够使用熟悉的数量。教授还解释了用增长函数代替 M 的原因,以及这与 N 和 k 的组合量 B 的关系。在讨论回归函数时,教授强调了偏差方差权衡以及可学习性如何独立于目标函数。最后,教授指出,相同的原则适用于所有类型的函数。
00:00:00 在本节中,我们将二分法作为微型假设进行学习,这些假设仅限于有限的点集和增长函数。增长函数计算一组 N 个点的假设集可以生成的二分法的数量。感知器的断点被定义为由于使用来自受限集合的假设而开始丢失模式的点。理论目标是表征整个增长函数,并通过表征断点对每个 N 进行概括。我们还看到,对少数点的模式数量的限制会导致更多点的许多模式丢失,这与假设集和输入空间无关。
00:05:00 在本节中,讲师讨论了两个项目:第一个是证明增长函数是带有断点的多项式,第二个是证明在 Hoeffding 不等式中替换 M(假设数)。讲师强调,他们不需要确定增长函数的细节,只需要证明它受多项式的限制,这样就可以用在Hoeffding不等式中。讲师介绍了一个关键量B of N and k,它是一个组合量,表示以k为断点的N个点上的二分法的最大个数。通过用 N 个点填充表并隔离最后一个点以引入递归来递归地找到 N, k 的 B 的边界。
00:10:00 在本节中,演讲者讨论了如何对表示二进制序列扩展的矩阵行进行分组。第一组 S_1 包含根据扩展只出现一次的行。第二组 S_2 由同时出现两个扩展名的行组成。使用这些分组,说话者将组 S_1 中的行数定义为 alpha,将组 S_2 中的行数定义为 beta。通过这些定义,说话者能够找到在 N 个点上可以获得的最大行数/模式数的递归,使得没有 k 列具有所有可能的模式。
00:20:00 在这一部分中,演讲者分析了一个矩阵并推导出一个递归公式来求解 N 和 k 的 B 的上限,其中 N 和 k 的 B 是假设集的最大增长函数k 点。通过使用递归公式计算 N 和 k 的 B 值,说话者用 N 和 k 的 B 的上限填充表格。首先填充表的边界条件,然后使用递归公式填充表的其余部分。
00:25:00 在本节中,演讲者讨论了泛化理论,并讨论了表示给定特定点数 N 和断点 k 的最大二分法或模式数的表格。演讲者解释了表格如何填充以及约束如何为空。此外,他们提出了一个公式,该公式计算二分法或模式的最大数量,作为具有断点 k 的任何假设集的增长函数的上限,而无需询问有关假设集或输入空间的任何问题。
00:30:00 在本节中,讲师讨论了证明 N 和 k 公式定理的归纳步骤。该步骤涉及假设公式对给定的 N 和 k 值成立,然后证明它对 N-1 和 k-1 也成立。讲师演示了使用代数或组合论证操作两个公式、合并求和并将它们简化为单个量的过程。目的是确定给定的公式适用于 N 和 k 的所有值,其中包括先前假设的值,并从那里证明定理。
00:35:00 在本节中,演讲者解释了使用组合恒等式证明 N 和 k 的 B 上限的过程,即具有断点 k 的假设集的增长函数。生成的多项式很有用,因为断点是一个固定数,不会随着 N 的增加而增长。演讲者然后通过显示最大幂为 N 对 k 减去 1 来说明上界是 N 中的多项式,这是一个持续的。最后,说话者将上限应用于假设集的三个示例,并表明它们都满足该上限。
00:40:00 在本节中,讲师讨论计算正射线和正间隔的增长函数。通过利用断点,这是唯一需要的输入,他能够在不考虑假设集的几何形状的情况下找到增长函数。然后讲师将此方法应用于二维感知器,其中增长函数未知,但已知断点为4。通过使用断点,他能够完全绑定增长函数,这很重要简化假设集的表征。然后,讲师解释了如何在 Hoeffding 不等式中使用此增长函数来替换使用联合边界的假设数量,当 M 显着或无限时,联合边界几乎没有用。
00:45:00 在本节中,讲师解释了增长函数的多项式有界性的图形证明。可能数据集的空间覆盖所有轴,彩色区域表示由于某些数据集导致E_in偏离E_out的坏区。通过将这个坏区涂成红色并使用 Hoeffding 不等式,讲师表明着色区域很小,从而允许 union bound 声明多个假设的可能性。但是,当添加更多假设时,彩色区域会填满画布,从而导致联合边界出现问题。然后,讲师解释了建立增长函数和重叠之间的关系所需的两个方面,以及 E_out 符合有限样本论证的方法。
01:10:00 在本节中,教授解释了用增长函数替换 M 的原因,以及为满足声明的技术要求而需要进行的修改。教授还阐明了 N 和 k 的 B 的定义,详细说明它如何成为任何带断点的假设集的上限,以及它如何成为纯组合量。然后教授提出了一个关于 N 和 k 的 B 的证明的问题,指出当将 x_N 减少到 x_N-1 时 k 不会改变,因为较小集合中没有 k 列可以具有所有可能的模式。最后,教授指出,分析和 VC 分析适用于二元函数,尽管它们可以扩展到实值函数。
00:15:00 在本节中,我们了解感知器的 VC 维度,这是整个 VC 理论处理的假设集,因为它具有 VC 维度并告诉我们是否能够概括.虽然二维空间中感知器的 VC 维数是三,但是一个简单的公式表明在 d 维空间中,VC 维数是 d 加一。这对于理解 VC 维的重要性很重要,我们将通过证明 VC 维最多为 d 加一且至少为 d 加一来证明这一点。为了演示,我们将使用要打散的矩阵构造一组特定的 N 个点(N 为 d 加 1),只要有可能打散它们即可。
00:20:00 在本节中,讲师展示了一组特定的 d 加 1 点,并演示了可以使用可逆矩阵将它们打散。然后他向观众提出了一个关于VC维度的问题,让他们根据演示的结果选择可以得出的结论。正确答案是 b,表示 VC 维数大于等于 d 加 1。
00:25:00 在这一节中,教授讨论如何证明 VC 维数最多为 d + 1。他问听众,几个陈述中哪一个可以成立前提,他们回答“d”。教授然后解释他需要证明有一组 d 加 2 个点他不能破碎。他通过证明对于一组 d 加 2 个点,总会有一个点是其他点的线性组合来做到这一点。因此,他构建了一个二分法,他表明无法用感知器实现。
00:15:00 在本节中,讲师解释了如何针对 100 个示例的所有可能实现来计算行为的期望值。通过颠倒整合的顺序并摆脱期望,讲师进行了彻底的分解。下一步涉及通过获取所有可能假设的期望值来推导平均假设。虽然这当然是一项不可能完成的任务,但它提供了一个用于分析的概念工具。当扩展顶部表达式以获得最终需要定义 g bar 的线性项时,理解 g bar 的技术实用性变得很重要。
00:35:00 在本节中,讲师解释了机器学习中的偏差-方差权衡。他用直线拟合两点的例子,首先是逼近一个目标函数,其次是从例子中学习。无论使用哪两个点,都需要偏差方差分析来评估模型的性能,并克服应对数据集依赖性的挑战。讲师然后生成大小为两个点的数据集,用一条线拟合它们,并表明预期的样本外误差主要是偏差和方差的总和。非常浅的绿色线,g bar of x,是他从重复这个游戏中得到的平均假设。尽管如此,它仍然不是学习过程的输出,因为不同的数据集会给出不同的估计。
00:45:00 在本节中,演讲者讨论了学习中的偏差-方差权衡,并介绍了学习曲线的概念。学习曲线将 E_out(样本外误差)和 E_in(样本内误差)的预期值绘制为 N(数据集大小)的函数。随着 N 的增加,样本外误差通常会降低,但这种趋势可能会受到所用模型的复杂性的影响。演讲者强调了拥有足够数据资源以有效导航假设集的重要性,并指出嘈杂的数据会使导航更加困难。学习曲线提供了偏差方差权衡的可视化表示,以及它如何随着 N 的增加而变化。
01:05:00 在本节中,教授讨论了偏差-方差分析如何特定于线性回归,以及它如何假设您知道目标函数。虽然它是一个有用的指南,可用于了解如何影响偏差和方差,但它并不能告诉您模型是什么。他还提到,选择模型的黄金标准是通过验证,其中包括增强等集成方法。然后教授简要介绍了 g bar 作为分析的理论工具的概念,但指出这不是本次讲座的重点。
00:05:00 在这节课中,演讲者从线性分类和线性回归的角度简要回顾了之前讲座中涉及的线性模型,然后转到第三类线性模型——逻辑回归。在开始逻辑回归之前,演讲者在非线性变换和泛化问题方面解决了松散的问题。非线性变换为在 Z 空间(特征空间)中应用学习算法提供了一个平台,最终假设仍然存在于 X 空间(输入空间)中。在非线性变换的情况下,演讲者强调泛化问题被遗漏了,他将在讲座中提供缺失的部分。
00:10:00 在本节中,讲师讨论了在涉及 X 空间中的泛化行为时进行非线性变换所付出的代价。通过在X空间中使用线性模型,可以得到一个d+1个自由参数的权重向量。然而,特征空间中的 VC 维度可能比 X 空间中的大得多。如果VC维数过大,那么虽然可以拟合17次多项式,但没有真正泛化的机会。讨论了两种情况,第一种情况几乎是线性可分的,第二种情况是真正非线性的。为了使E_in 为零,必须进入高维空间,这成为一个问题,因为只有两个点需要分类。
00:35:00 在本节中,我们将讨论医学数据中的监督学习以及如何生成逼近隐藏目标函数的模型。这些示例以二进制输出的形式给出,它受概率的影响,这使得这是一个嘈杂的情况。目标是从 d 维欧几里德空间到 0,1 的概率解释,f 为 x。 x 的假设 g 是通过找到权重并将它们与 x 进行点积来找到的。目标是以这样一种方式选择权重,即逻辑回归假设使用由对优化器来说既合理又友好的似然构造的误差度量来反映目标函数。错误度量根据不同假设实际上是生成数据的目标的可能性对不同假设进行分级。
01:15:00 在本节中,教授解释了交叉熵的概念,这是一种使用对数和期望值获得两个概率分布之间关系的方法。教授还讨论了二分搜索和二阶方法在优化方面的局限性,强调虽然更复杂的方法可能会带来更好的结果,但它们在 CPU 周期方面可能过于昂贵。最后,在回答一个问题时,教授确认逻辑回归可以应用于多类设置,如识别数字的示例所示。
00:30:00 在本节中,讲座讨论了正则化中参数 C 和 lambda 之间的关系。 C 的值越大,lambda 的值越小,因为对正则化项的重视程度越低。相反,随着 C 的减小,正则化项变得更加重要,并且 lambda 的值需要增加以强制执行条件。本讲座还介绍了增广误差,它是误差函数和正则化项的总和。它相当于一个无约束优化问题,即在受约束条件下最小化误差函数。这种对应关系在泛化方面证明了正则化,并且适用于任何正则化器。最后,讲座提供了最小化增广误差的公式,并以提供解决方案作为结尾。
00:40:00 在本节中,介绍了正则化的概念及其相关的权重衰减方法。权重衰减是机器学习中一个著名的正则化器,它涉及最小化 w 转置 w 并确保权重很小,因此给出了“衰减”的名称。当使用神经网络时,权重衰减可以通过批量梯度下降来实现,其中添加该项会在权重空间中发生任何移动之前缩小权重,这会限制人们在 λ 较大时可以了解函数的多少。权重衰减的变化包括将重要性因子分配给某些权重,并使用不同的常数来试验所使用的正则化器类型。
00:10:00 在本节中,介绍了验证集的概念和作为样本外误差的无偏估计的验证误差。验证误差的期望值是E_out,这是单点上期望值的另一种形式。分析验证误差的方差表明,与单点相比,基于 E_val 的估计有改进。方差最终与 1/K 成正比,这意味着增加 K 可以缩小误差条并提高估计的可靠性。然而,验证点的数量不是免费的,它直接影响可用于训练的点数。
00:15:00 在本节中,重点是验证过程,其中从 N 个点中提取 K 个点用于验证目的,而其余子集 D_train 用于训练。同样重要的是要注意对验证集进行可靠估计以确保最终假设可靠的有用性。然而,对不良数量进行可靠估计不应成为目标。随着 K 值的增加,估计变得更加可靠,但假设的质量下降。因此,找到一种不必为增加K而付出代价的方法是至关重要的。一种方法是在估计误差后恢复数据集并在全集上训练以获得更好的结果。
00:20:00 在本节中,重点是在训练期间使用验证集时的性能折衷。与完整训练集 D 相比,减少的 D_train 集将具有更少的示例,我们使用它获得最终假设 g minus。为了获得估计值,我们在验证集 D_val 上评估 g minus,然后将其余示例加回锅中并报告 g。然而,较大的 K 意味着 g 减去和 g 之间的差异较大,这会影响我们报告的估计的可靠性。因此,有一个经验法则是使用五分之一进行验证以获得两全其美。我们称之为验证,因为它会影响学习过程并有助于做出选择。
00:25:00 在本节中,重点是了解测试错误和验证错误之间的区别。当测试集无偏,用来估计E_out时,估计会出现波动。如果使用提前停止,则估计的偏差会发生变化。在 mini-learning 场景中,很容易看出最小值的期望值小于 0.5,属于乐观偏差。 The same thing happens when a point is chosen for early stopping - the point chosen is minimum on the realization, and an optimistic bias is introduced.
00:30:00 在本节中,讲座讨论了在机器学习中使用验证集进行模型选择。该过程涉及使用分为训练集和验证集的数据集训练 M 个模型,然后评估每个模型在验证集上的性能以获得样本外误差的估计。选择具有最小验证错误的模型,但由于此选择过程存在引入偏差的风险。然而,这种偏差在实践中通常很小,可以接受以获得对样本外误差的可靠估计。
00:30:00 在这一部分,讲师解释了SVM和正则化之间的关系以及拉格朗日公式。必须注意,约束导致非零梯度,这与梯度等于 0 的无约束问题不同。拉格朗日公式依赖于 w 和 b 等变量,并且有新变量,拉格朗日乘数,如 alpha 向量.手头的问题是最小化受形式约束的目标函数,然后我们给它取一个拉格朗日名称。有趣的是,我们实际上是在最大化 alpha,尽管 alpha 必须是非负的,因此我们需要注意这一点。本节最后简要说明了无约束部分,我们需要最小化拉格朗日函数相对于 w 和 b 的梯度。
00:35:00 在讲座的这一部分,演讲者解释了如何用对偶公式来表达 SVM 优化问题。他首先针对 w 和 b 优化问题,得到两个条件,他将其代回原始拉格朗日量,从而导致问题的对偶公式,这是仅就拉格朗日乘数 alpha 而言的一个很好的公式。然后,他将 alpha 的约束设置为非负,并根据这些约束解决最大化问题,从而得出确定支持向量的最优 alpha 值。
00:55:00 在视频的这一部分,讲师讨论了支持向量机中非线性变换的使用。当数据不可线性分离时使用非线性变换,这就是 X 空间中的情况。讲师演示了如何使用非线性变换并在 Z 空间中工作以获得线性可分的结果。他解释说解决方案很简单,alpha 的数量取决于数据点的数量,而不是你工作的空间的维度。关键的想法是你可以在不付出代价的情况下进入一个巨大的空间在优化方面。支持向量在 Z 空间中被识别,但在 X 空间中,它们看起来像数据点。
01:05:00 在这一节中,教授解释了为什么他选择将 w 转置 x 加 b 归一化为 1,以及为什么这种归一化对于优化是必要的。他还回答了一个问题,即 SVM 如何通过非线性变换处理非线性可分点,以及 SVM 的 soft-margin 版本如何允许错误并对其进行惩罚。此外,教授还简单介绍了支持向量个数与VC维数的关系,以及alpha如何表示SVM中的参数。
00:05:00 在本节中,视频解释了内核方法的概念及其在将支持向量机扩展到线性可分情况之外的作用。内核方法背后的想法是在不为复杂性付出代价的情况下进入高维 Z 空间。该视频解释说,实现这一目标的关键是能够计算 Z 空间中的内积,而无需实际计算该空间中的各个向量。这就是内核的用武之地,因为它们允许仅使用显式输入来计算内积。该视频继续解释了这些方法对处理非线性变换和软边距的影响,以及如何在实践中使用它们来处理复杂问题。
00:10:00 在本节中,讲座解释了 Z 空间中内积的使用,以及它与内核方法的关系。内积是形成拉格朗日函数并将约束传递给二次规划所必需的,但可以仅使用内积来计算它以执行支持向量机。利用对应于Z空间的广义内积或核,可以将x和x dash两点转化为由x和x dash确定的函数,称为核。给出了一个使用二阶多项式变换的二维欧几里德空间的示例。
00:15:00 在本节中,讲师讨论核方法的概念以及如何在不转换 x 和 x 破折号的情况下计算核。讲师即兴创作了一个不会将事物转换到 Z 空间的内核,并让听众相信该内核对应于到某个 Z 空间的转换,在那里取一个内积。通过将 1 + x_xdash 的内核平方到 Q 次幂,讲师解释了它如何成为某个空间中的内积,使其成为有效的内核。此外,讲师将执行此操作与其他维度的计算量进行比较,而不管 Q 的复杂性如何,它保持不变。
00:20:00 在本节中,讲师解释了一种无需实际展开多项式即可执行的多项式变换的核方法。通过取对数并对其取幂,多项式变成了一个简单的运算,不需要大量展开。这是一个简单的多项式,可以在 2D 中可视化并外推到其他情况。映射到更高维空间的内核可以通过在该空间中进行内积来获得。讲师介绍了一个内核的例子,它在 X 或 Z 空间中没有内积项,但对应于无限维空间中的内积项。尽管去无限维空间面临挑战,核方法仍然有用,支持向量的数量可以用来确定模型的泛化能力。
00:25:00 在本节中,讲师演示了径向基函数内核,这是一个对应于无限维空间的复杂内核,并通过一个稍微不可分的案例展示了它是如何工作的。讲师随机生成 100 个点,并显示没有线将它们分开。然后,讲师将 X 变换到无限维空间并计算内核,内核是一个简单的指数函数。讲师将其传递给二次规划,二次规划返回支持向量。当讲师使支持向量变暗时,更容易看到这两个类。
00:30:00 在本节中,演讲者讨论了核方法的概念以及它们如何用于分类。他举了一个例子,在点的数据集上使用内核,以便将它们转换到一个无限维空间,在那里它们可以被一个线性平面分开。生成的边距和支持向量用于确定指导泛化属性的样本内数量。演讲者接着解释了如何使用与某个 Z 空间中的内积相对应的有效内核来制定问题和构建假设。总的来说,他强调核方法的有用性以及如何应用它们来解决分类问题。
00:35:00 在本节中,我们学习如何将线性模型转化为内核形式,其中支持向量机成为允许选择内核的模型。 Z空间取内积后,内核代替内积。生成的模型取决于内核选择,我们还可以通过插入支持向量来求解 b。然而,内核很难确定,因为如果不访问 Z 空间就无法验证其有效性。尽管如此,我们还是通过查看不同内核的函数形式来说明如何比较方法。
00:50:00 在本节中,讲师介绍松弛的概念以及量化SVM中的margin violation。他解释说,他将为衡量违反保证金的每个点引入一个松弛,并将通过将这些松弛相加来惩罚总违规。他选择了这个错误度量,而不是其他度量,它是合理的并且度量了对裕度的违反。然后他介绍了新的优化,即最小化裕度违规误差项,同时最大化裕度。常数 C 给出了这个边际违反项相对于使边际最大化的前一个项的相对重要性。根据 C 的值,最终结果可能是线性可分数据或折衷方案,因为它代表边际和松弛之间的权衡。最后,他回顾了添加新项的拉格朗日公式。
00:55:00 在本节中,讲师解释了通过添加变量 xi 来惩罚边界违规而引入的新二次规划问题。 Lagrangian 包含对 xi 的新约束,必须解决这些约束才能使用 Lagrange 乘数 beta。然后,讲师展示了 w 和 b 的最小化如何保持不变,并发现求解 xi 的结果始终为零。这一发现导致 beta 退出拉格朗日量,留下与以前相同的解决方案,唯一的分支是 alpha 现在不仅大于或等于零,而且小于或等于 C。
01:00:00 在视频的这一部分,讲师介绍了软间隔支持向量机的概念,它允许一些错误分类,同时仍然保持较大的间隔。该解决方案涉及一个附加约束,要求 alpha 最多为 C,以及已经存在的等式约束。软边缘支持向量机包括边缘和非边缘支持向量,后者是违反边缘的点,导致由值 xi 表示的松弛。 C 的值是一个重要的参数,它决定了可以发生多少违例,这通常是通过交叉验证来确定的。
01:05:00 在本节中,讲师讨论了使用支持向量机 (SVM) 和核方法的实用要点。他解释说,如果数据不是线性可分的,二次规划可能不会收敛,导致没有可行解的情况。但是,他鼓励用户偷懒,仍然将二次规划的 alpha 传递回解决方案,以评估它是否分离了数据。此外,他解决了对随数据转换的常量坐标 1 的担忧,并解释说它实际上扮演着与偏差项 b 相同的角色,并且用户无需担心具有相同角色的多个坐标。
第六讲-泛化理论
加州理工学院的机器学习课程 - CS 156。第 6 讲 - 泛化理论
本讲座讨论了泛化理论和增长函数作为二分法的数量,这些二分法可以由一组 N 点的假设集生成,目标是表征整个增长函数并通过表征中断对每个 N 进行泛化观点。演讲者演示了计算不同假设集的增长函数并使用组合恒等式证明增长函数上限的过程。讨论还涉及在 Hoeffding 不等式中使用增长函数,VC 必须表征假设之间的重叠和 Vapnik-Chervonenkis 不等式,它是 N 中的多项式,多项式的阶数由断点决定。
教授讨论了泛化理论,澄清了先前的观点并解释了断点的概念,断点用于计算学习所需的资源。学习的重点是逼近 E_out,而不是 E_in,从而使学习者能够使用熟悉的数量。教授还解释了用增长函数代替 M 的原因,以及这与 N 和 k 的组合量 B 的关系。在讨论回归函数时,教授强调了偏差方差权衡以及可学习性如何独立于目标函数。最后,教授指出,相同的原则适用于所有类型的函数。
第07讲-VC维度
加州理工学院的机器学习课程 - CS 156。第 07 讲 - VC 维度
讲座介绍了VC维的概念,即一个假设集可以打散的最大点数,并解释了它的实际应用。 VC维表示模型的自由度,讨论了它与模型中参数个数的关系。举例说明如何计算不同假设集的 VC 维度。探索了所需示例数与VC维度之间的关系,注意到两者之间存在正比关系。还讨论了增加 VC 维度对学习算法性能的影响。总体而言,该讲座提供了对 VC 理论及其对机器学习的实际影响的见解。
该视频还涵盖了泛化和泛化界限的概念,这是一个积极的陈述,显示了机器学习中假设集大小和良好泛化之间的权衡。教授解释了 VC 维度,即第一个断点之前的最大值,以及如何使用它来近似所需的示例数。他指出了选择正确的误差度量的重要性,并阐明了 VC 维度估计是一个松散的估计,可用于比较模型和估计所需示例的数量。讲座最后强调了该材料与实验设计主题之间的共性,以及学习原则如何扩展到严格学习场景之外的其他情况。
第 8 讲 - 偏差-方差权衡
加州理工学院的机器学习课程 - CS 156。第 8 讲 - 偏差-方差权衡
教授讨论了机器学习中的偏差方差权衡,解释了假设集的复杂性如何影响泛化和近似之间的权衡。讲师介绍了偏差和方差的概念,它们分别衡量机器学习算法产生的假设平均值与实际目标函数之间的偏差,以及给定模型的假设分布根据不同数据集的变化程度。权衡导致较大的假设集具有较小的偏差但具有较大的方差,而较小的假设集将具有较大的偏差但具有较小的方差。讲师强调了拥有足够数据资源以有效导航假设集的重要性,并强调了偏差-方差分析和 VC 分析之间的规模差异。
他还讨论了简单模型和复杂模型在近似和泛化能力方面的权衡,更少的例子需要简单的模型,更多的例子资源需要更复杂的模型。偏差方差分析特定于线性回归,并假定了解目标函数,而验证是选择模型的黄金标准。集成学习通过 Bagging 进行讨论,它使用 bootstrapping 对多个数据集进行平均,从而减少方差。还解释了集成学习中方差和协方差之间的平衡,线性回归被归类为一种学习技术,拟合是学习的第一部分,而该理论强调良好的样本外性能。
第 9 课 - 线性模型 II
加州理工学院的机器学习课程 - CS 156。第 09 讲 - 线性模型 II
本讲座涵盖线性模型的各个方面,包括偏差-方差分解、学习曲线和线性模型技术,如感知器、线性回归和逻辑回归。演讲者强调了复杂性和泛化性能之间的权衡,警告不要过度拟合,并强调为有效保证正确计算假设空间的 VC 维度的重要性。还讨论了非线性变换的使用及其对泛化行为的影响。本讲座进一步涵盖了逻辑函数及其在估计概率中的应用,并介绍了逻辑回归背景下似然和交叉熵误差度量的概念。最后,解释了用于优化误差函数的迭代方法,例如梯度下降。
讲座还涵盖了与机器学习中的线性模型和优化算法相关的一系列主题。教授解释了梯度下降优化中学习率和速度之间的折衷,介绍了逻辑回归算法并讨论了其误差度量和学习算法。还解决了梯度下降和多类分类中终止的挑战。特征的推导和选择在机器学习中的作用被强调和讨论为应用领域的一门艺术,以 VC 维度收费。总体而言,本讲座全面概述了机器学习的线性模型和优化算法。
第 10 讲 - 神经网络
加州理工学院的机器学习课程 - CS 156。第 10 讲 - 神经网络
加州理工学院教授 Yaser Abu-Mostafa 在本次讲座中讨论了逻辑回归和神经网络。逻辑回归是一种线性模型,用于计算有界实值函数的概率解释。它无法直接优化其误差测度,因此引入梯度下降的方法来最小化任意一个足够光滑且二次可微的非线性函数。虽然没有封闭形式的解决方案,但误差度量是一个凸函数,因此使用梯度下降进行优化相对容易。
随机梯度下降是神经网络中使用的梯度下降的扩展。神经网络是一种模型,它实现了受生物学观点驱动并与感知器相关的假设。反向传播算法是一种与神经网络相结合的高效算法,使模型特别实用。该模型具有使人们兴奋的生物学联系,并且易于使用该算法实施。虽然它不是当今的首选模型,但神经网络在实际应用中取得了成功,并且仍被用作许多行业的标准,例如银行业和信贷审批。
简要总结:
第 11 课 - 过拟合
加州理工学院的机器学习课程 - CS 156。第 11 讲 - 过拟合
本讲介绍机器学习中过度拟合的概念和重要性。当模型根据噪声而不是信号进行训练时,就会发生过度拟合,从而导致样本外拟合不佳。该讲座包括各种实验,以说明不同参数(例如噪声水平和目标复杂性)对过度拟合的影响。讲师强调了及早检测过度拟合以及使用正则化和验证技术来防止过度拟合的重要性。还讨论了确定性和随机性噪声对过度拟合的影响,讲座最后介绍了接下来的两节课,内容是通过正则化和验证来避免过度拟合。
讨论了过度拟合的概念,并强调了正则化在防止过度拟合方面的重要性。教授强调了过度拟合和欠拟合之间的权衡,并解释了 VC 维度在过度拟合中的作用,在相同数量的示例中,VC 维度的差异会导致样本外和样本内误差的差异。还涵盖了验证模型的实际问题及其如何影响过度拟合和模型选择。此外,教授强调了分段线性函数在防止过度拟合方面的作用,并强调了考虑模型中自由度的数量并通过正则化对其进行限制的重要性。
第 12 课 - 正则化
加州理工学院的机器学习课程 - CS 156。第 12 讲 - 正则化
本次关于正则化的讲座首先解释了过度拟合及其对机器学习模型泛化的负面影响。讨论了两种正则化方法:数学方法和启发式方法。然后,本讲座使用勒让德多项式作为扩展分量的示例,深入探讨了正则化对线性模型中偏差和方差的影响。还涵盖了正则化中 C 和 lambda 之间的关系,并介绍了增广误差及其在证明正则化以进行泛化方面的作用。还讨论了权重衰减/增长技术以及选择正确的正则化器以避免过度拟合的重要性。讲座以选择一个好的欧米茄作为启发式练习的重点结束,并希望 lambda 将作为正则化的救星。
第二部分讨论了权重衰减作为平衡网络简单性和功能性的一种方式。讲师告诫不要过度正则化和非最佳性能,强调使用验证来确定不同噪声水平的最佳正则化参数。正则化在理论和实践的基础上作为实验进行讨论。介绍了常见的正则化类型,例如 L1/L2、早停和 dropout,以及如何针对不同的问题确定合适的正则化方法。还讨论了与实施正则化相关的常见超参数。
第 13 课 - 验证
加州理工学院的机器学习课程 - CS 156。第 13 课 - 验证
在第 13 讲中,重点是验证作为机器学习中用于模型选择的一项重要技术。本讲座详细介绍了验证,包括为什么将其称为验证以及为什么它对模型选择很重要。交叉验证也作为一种验证类型进行讨论,它允许使用所有可用示例进行训练和验证。讲师解释了如何使用随机变量来估计样本外误差,该随机变量采用样本外点并计算假设值与目标值之间的差异。本讲座还讨论了使用估计值选择特定模型时引入的偏差,因为它不再可靠,因为它是根据验证集选择的。引入交叉验证的概念作为评估不同假设的样本外误差的方法。
他还介绍了使用交叉验证进行模型选择和验证以防止过度拟合,重点是“留一法”和 10 折交叉验证。这位教授论证了考虑样本外差异和数据窥探的重要性,并建议包括随机化方法以避免抽样偏差。他解释说,虽然交叉验证会增加复杂性,但将其与正则化结合起来可以选择最佳模型,而且由于验证不需要假设,所以它是独一无二的。教授进一步解释了交叉验证如何帮助做出有原则的选择,即使在比较不同的场景和模型时也是如此,以及总验证点如何决定误差线和偏差。
第14讲-支持向量机
加州理工学院的机器学习课程 - CS 156。第 14 讲 - 支持向量机
该讲座涵盖了验证的重要性及其在机器学习中的应用,以及交叉验证相对于验证的优势。本讲座的重点是支持向量机 (SVM) 作为最有效的分类学习模型,详细介绍了通过约束优化实现边距最大化、公式化和解析解的部分。讲座涵盖了一系列技术细节,包括如何计算 SVM 中点与超平面之间的距离,如何解决 SVM 的优化问题,以及如何将 SVM 优化问题表述为对偶形式。讲师还讨论了使用二次规划解决优化问题的实际方面以及识别支持向量的重要性。本讲座最后简要讨论了支持向量机中非线性变换的使用。
关于支持向量机 (SVM) 讲座的第二部分,讲师解释了支持向量的数量除以示例数量如何给出对样本外点进行分类的错误概率的上限,从而使使用具有非线性变换的支持向量是可行的。教授还讨论了 w 转置 x 加 b 为 1 的归一化及其优化的必要性,以及 SVM 的 soft-margin 版本,它允许错误并对其进行惩罚。此外,解释了支持向量的数量和 VC 维度之间的关系,并提到了该方法的抗噪声能力,以及在噪声数据情况下使用的方法的软版本。
第 15 讲 - 内核方法
加州理工学院的机器学习课程 - CS 156。第 15 讲 - 内核方法
本次关于核方法的讲座介绍了支持向量机 (SVM) 作为一种线性模型,由于最大化边际的概念,它比传统的线性回归模型更受性能驱动。如果数据不是线性可分的,则可以使用非线性变换来创建波浪曲面,这些曲面仍然可以实现复杂的假设,而无需付出高昂的复杂性代价。该视频解释了进入高维 Z 空间的内核方法,解释了如何在不计算单个向量的情况下计算内积。该视频还概述了为分类问题获取有效内核的不同方法,并解释了如何将 SVM 应用于不可分离的数据。最后,该视频解释了 SVM 中松弛的概念和量化边际违规,引入了变量 xi 来惩罚边际违规,并回顾了用于求解 alpha 的拉格朗日公式。
第二部分涵盖使用支持向量机 (SVM) 和内核方法的实际方面。他解释了软间隔支持向量机的概念,以及它们如何在保持较大间隔的同时允许一些错误分类。他谈到了参数 C 的重要性,它决定了可以发生多少违规行为,并建议使用交叉验证来确定它的值。他还解决了对转换数据中坐标常数的担忧,并向用户保证它与偏差项起着相同的作用。此外,他还讨论了组合内核以生成新内核的可能性,并提出了启发式方法,当二次规划无法解决具有过多数据点的 SVM 时可以使用这些方法。