机器学习和神经网络 - 页 3

 

不断发展的人工智能艺术



不断发展的人工智能艺术

该视频讨论了使用 AI 进化图像的过程,从选择图像开始,给出提示,然后通过进化过程生成变化。这个过程的目的是探索,利用难以想象的巨大且无法搜索的图像空间来寻找美丽而难以想象的艺术品或可爱的猫咪。文本到图像模型的输入允许用户输入一个简单的提示并接收大量满足该提示的可能图像,还允许创建全新图像并在潜在空间中组织和编目现有图像。 Pick Breeder 方法是一种高效、自然的突变、选择和繁殖表现最佳的基因来创建图像的方法,使人们能够遵循进化线索并通过强大的 AI 工具的分支路径发现意想不到的美。

  • 00:00:00 创建者讨论了一个名为 Mid-Journey  的 AI 模型,这是一种文本到图像算法,它使用神经网络根据给定的文本提示生成图像。创作者一直在他们的 Discord 服务器上试验这种算法,允许用户选择和变异图像并创建生命进化树。虽然这个过程的创造力受到用于训练模型的提示和数据集的限制,但由此产生的图像不同于创作者以前见过的任何艺术品,并且这个过程导致了有趣和独特的创作。创建者还提到了另一个名为 Stable Diffusion 的开源模型,他们可以在自己的 GPU 上运行。

  • 00:05:00 在本节中,创作者解释了使用 AI 进化图像的过程。该过程从选择图像开始,给出提示,然后通过不断发展的过程产生变化。可以缩小进化过程的范围以避免社区方面或允许其自行运行。进化图像的目的是探索,通过探索图像空间——每个图像在其中占据一个点或向量的字面数学空间——找到美丽和难以想象的艺术品或特别可爱的猫,一些超越随机噪声的东西,因为图像空间是不可思议的巨大和无可救药地无法搜索。

  • 00:10:00 该视频解释了文本到图像模型的输入过程,它允许用户以简单的语言输入提示,并收到满足该提示的大量可能图像。这些生成式搜索引擎可以创建全新的图像,也可以发现在潜在空间中组织、分类和标记的现有图像。通过给模型随机值,例如潜在向量,图像输出具有更多多样性,并且可以通过在潜在空间中移动来改变。 Pick Breeder 方法是一种高效且自然的突变、选择和复制表现最佳以创建图像的基因的方法。人们可以按照有趣的提示和图像的进化线索,使用这些强大的工具通过分支路径发现意想不到的美。
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

AI 可以创建你想要的任何图片,解释



文本到图像的革命,解释

该视频讨论了如何使用机器学习算法根据文本描述生成图像,以及如何使用该技术来创作艺术品。该视频采访了美国插画家詹姆斯·格尼 (James Gurney),他讨论了这项技术对版权法和艺术界的影响。

  • 00:00:00 这部分解释了机器学习算法如何为图像添加字幕,以及开发人员如何使用这些算法创建文本到图像生成器。该视频还讨论了如何需要及时工程来有效地与这些模型进行通信。

  • 00:05:00 解释说,可以创建您想要的任何图片的 AI 从包含数百万张图片及其附带说明的训练数据集开始。这些模型学习识别这些图像中的模式,然后根据该识别生成新图像。由于扩散过程的随机性,以这种方式生成的图像对于不同的人和模型可能会有所不同。

  • 00:10:00 该视频解释了深度学习如何让用户无需直接复制他们的图像即可创建与著名艺术家的作品相似的图像。该视频采访了美国插画家 James Gurney,他成为文本到图像模型用户的热门参考。 Gurney 说,虽然艺术家应该被允许选择加入或退出他们的作品被用作创作其他艺术作品的数据集,但围绕用于训练模型的图像和从中产生的图像的版权问题仍未解决。此外,这些模型的潜在空间包含一些黑暗角落,随着输出变得逼真,这些角落会变得更加可怕。然而,这项技术之所以如此独特,是因为它使我们任何人都可以指挥机器想象我们想让它看到的东西。
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...
 

MidJourney AI 艺术指南 - 如何免费开始!



MidJourney AI 艺术指南 - 如何免费开始!

在此视频中,演讲者介绍了 MidJourney,这是一种根据提示生成 AI 艺术的工具,并提供了有关如何开始使用它的分步说明。他们演示了如何使用命令来更改生成图像的样式和质量,使用“3D 渲染”或“滴墨素描”等示例。此外,他们还介绍了 MidJourney 网站的社区部分,用户可以在其中找到灵感并复制提示以自行尝试。演讲者还分享了他们的 AI 艺术之旅,并为有兴趣了解更多的人提供了额外的资源和代码。

  • 00:00:00 这部分介绍了如何开始使用 MidJourney,这是一种根据提示生成 AI 艺术的工具。要注册,请访问 MidJourney 网站并按照提示进行注册并接受 Discord 邀请。进入 Discord 后,输入命令“/imagine”,然后输入“带翅膀的紫色人类”等提示以生成图像。演讲者还展示了如何放大图像以获得更多细节,以及如何使用不同的命令(例如“3D 渲染”或“滴墨素描”)更改图像的样式。每次输入命令时,生成的图像都是唯一的。

  • 00:05:00 在本节中,解说员探讨了 MidJourney AI 艺术中可用的不同风格和质量选项。他们演示了使用关键字和命令在 3D 渲染上创建一系列效果,包括超现实主义和风格化。他们还尝试使用自己的图像作为提示并调整图像权重以产生不同的结果。
    此外,他们还讨论了 MidJourney 网站的社区部分,用户可以在其中找到灵感并复制提示来亲自尝试。旁白还提供了有关如何负责任地使用 MidJourney 的提示,例如在在线共享生成的艺术作品时添加免责声明。

  • 00:10:00 旁白提供了他们的 Discord 和 MidJourney AI Art 的链接,以及与他们的 AI 艺术之旅相关的其他资源和代码。他们鼓励观众亲自检查他们的旅程,并为有兴趣了解更多信息的人提供更多信息。
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney - 入门 [新增和更新] 一个快速教程,让您开始 AI 艺术生成



MidJourney - 入门 [新增和更新] 一个快速教程,让您开始 AI 艺术生成

该视频教程全面概述了如何使用 MidJourney 的 AI 艺术生成平台,该平台只能通过 Discord 访问。演讲者解释了可用的不同订阅模式,如何使用艺术家和各种条件创建提示,如何使用开关从 AI 生成的图像中删除不需要的元素,以及如何放大和调整图像的纵横比。他们还提供了有关如何使用具有视觉吸引力的提示以及在放大之前使用变化按钮来生成独特的 AI 艺术的技巧。总的来说,MidJourney 是作为一种艺术探索和启程的工具呈现的,而不是一种创作成品艺术作品的手段。

  • 00:00:00 这部分概述了 mid-journey 和 Discord,解释了 mid-journey 只能通过 Discord 访问。他们讨论了 Discord 如何成为一个用于语音聊天的平台,该平台也可用于创建机器人,这就是 mid-journey 的运作方式。他们还解释了在旅途中创建的资产的所有权以及可用于使用该服务的定价选项。然后演讲者继续讨论 Discord 中的不同房间和功能,以及如何开始中途,包括使用通过斜线提供的不同命令。

  • 00:05:00 在教程的这一部分,解说员讨论了 MidJourney 上可用的不同订阅模式,包括轻松模式和私人模式。他们还解释了各种放大模式,并警告不要使用过高的质量以避免使用过多的图像信用。旁白还简要介绍了旅程网站,包括社区供稿,用户可以在其中查看其他人的创作并复制他们的提示。最后,解说员介绍了“想象”命令,并讨论了使用提示和各种开关创建图像的过程。

  • 00:10:00 在本教程的这一部分,用户解释了如何浏览 MidJourney 的 AI 艺术生成平台,包括如何对图像生成的免费时间进行评级、如何升级和访问图像的变体,以及如何创建提示使用艺术家和其他条件。他们告诫说,虽然即时工程是 AI 艺术创作的一个重要方面,但用户应该为意想不到的结果做好准备,并将该平台视为一个创意引擎,而不是一个成品。

  • 00:15:00 这部分视频教程介绍了如何使用某些开关从 AI 生成的图像中删除不需要的元素,例如“禁止人”开关。然而,此类开关的有效性取决于所选的艺术家和图像的复杂性。本教程还介绍了可以添加到 AI 艺术提示中的常见指令,例如“非常详细”或“油画”,以及保持提示简洁以避免混淆 AI 机器人的重要性。最后,本教程介绍了如何使用 MidJourney 升级图像并调整其纵横比。

  • 00:20:00 作者解释了如何在放大图像时使用附加标志以获得不同的结果。标志以“AR”开头,代表宽高比,后跟宽度和高度,用冒号分隔。演讲者指出,该技术存在局限性,例如手指、面部和多余肢体的问题。他们还探索不同类型的提示,例如 cryengine 和水彩,以及如何重新混合它们。最后,演讲者建议从基本提示开始,然后通过重新混合和升级来完善它。可以从 MidJourney 网站保存和下载最终图像。

  • 00:25:00 这部分讨论了使用 MidJourney 生成独特 AI 艺术的不同策略。他提到使用具有视觉吸引力或特定外观的提示,例如“银翼杀手”或“赛博朋克”,有助于指导 MidJourney 的输出。他还建议在承诺放大图像以获得最佳结果之前使用变化按钮。最后,他提醒观者,MidJourney 是一种艺术探索和启程的工具,不一定是完成的艺术作品。
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT,解释:关于 OpenAI 聊天机器人的知识 |科技新闻简报播客 |华尔街日报



ChatGPT,解释:关于 OpenAI 聊天机器人的知识 |科技新闻简报播客 |华尔街日报

聊天机器人现已向公众开放,可用于提问和获得回复。人们对如何使用这些工具表示担忧,但专家表示,人们应该使用它们来加强他们的工作,而不是取代他们的角色。

  • 00:00:00 ChatGPT 是一种最先进的对话式 AI 模型,能够进行类似人类的对话并提供问题的答案。它建立在海量数据的基础上,人工智能公司 OpenAI 正在使用它来开发创建图像的人工智能平台 Dolly。虽然 ChatGPT 有局限性,但它的流行和复杂性引发了对其潜在用途和误用的质疑。

  • 00:05:00 聊天机器人现已向公众开放,可用于提问和获得回复。人们对如何使用这些工具表示担忧,但专家表示,人们应该使用它们来加强他们的工作,而不是取代他们的角色。
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 第 1 讲 - 学习问题




加州理工学院的机器学习课程 - CS 156。第 1 讲 - 学习问题

Yaser Abu-Mostafa 的机器学习课程的第一讲介绍了学习问题,即在没有人为干预的情况下寻找数据中的模式以进行预测的过程。他解释了数学形式化来抽象实际学习问题的必要性,并在课程中介绍了机器学习的第一个算法,即感知器模型,该模型使用权重向量将数据点分类为二进制类别。讲座还涵盖了不同类型的学习,包括监督学习、非监督学习和强化学习,并向听众展示了监督学习问题,以解决确定学习目标函数的问题。教授涵盖了与机器学习相关的各种主题。他强调在选择数据集时需要避免偏见,以及收集足够数量数据的重要性。教授还讨论了假设集在机器学习中的作用以及误差函数的选择对优化技术的影响。他还谈到了在课程中包含机器学习方法的标准,以及他专注于提供实践知识而不是纯理论。

  • 00:00:00 在本节中,Yaser Abu-Mostafa 介绍了机器学习的课程大纲,并解释了该主题的数学和实践方面的重要性。他指出,课程主题并不是要分开,而是遵循一个合乎逻辑的故事情节。然后,他通过举例说明观众如何评价电影来深入研究学习问题,这与 Netflix 相关,因为他们使用它来为客户提供个性化推荐。他提到了数学形式化在抽象实际学习问题中的重要性,并在课程中介绍了机器学习的第一个算法。他还对学习类型进行了调查,并以一个有趣的谜题作为结尾。

  • 00:05:00 在本节中,讲师解释说机器学习的本质在于模式的存在以及数据的可用性。此外,他描述了寻找模式的需要,如果没有适当的数据,这在数学上是不可能的。他以电影评级为例,谈到创建一个系统来预测评级,使用观众的偏好作为因素向量,并将它们与电影的内容进行比较。尽管这个系统有效,但它不被视为机器学习,因为它需要人工干预。机器学习的想法是,它可以在没有人为干预的情况下通过寻找模式并采取纠正措施自行改进系统来解决问题。

  • 00:10:00 在本节中,演讲者讨论了学习方法及其如何对评级过程进行逆向工程以找出与该评级一致的因素。机器学习过程从随机因素开始,通过反复循环 1 亿个评级,将它们推向评级值,最终找到对评级有意义的因素。然后,演讲者使用金融申请的比喻,信贷审批,来解释构成学习问题的数学组成部分,其中包括申请人信息、信用模式以及批准或拒绝信贷的决定。

  • 00:15:00 在本节中,讲师讨论学习问题及其如何应用于学分审批。目标函数是理想的信用审批公式,是未知的,假设是为逼近目标函数而创建的公式。数据用于学习假设,学习算法用于从一组称为假设集的候选公式中创建公式。将学习算法限制在假设集背后的原因是为了避免使用不受限制的公式的缺点,并受益于有一组预定义的公式可供选择。

  • 00:20:00 在本节中,演讲者解释说他已将学习问题显示为图像以讨论图中的解决方案组件。他指出,假设集在学习理论中起着至关重要的作用,因为它可以告诉我们我们的学习情况等等。他解释说,假设集、学习算法和最终假设构成了一个学习模型,例如感知器模型和感知器学习算法。他继续给出一个简单的感知器模型示例,使用基于客户不同属性的信用评分公式,它可以根据阈值批准或拒绝信用卡申请。

  • 00:25:00 在本节中,教授讨论了如何定义假设 h 以及包含具有相同函数形式的所有假设的假设集。通过使用将数据分成两个区域的感知器模型,学习算法利用参数来移动线,以期获得正确的解决方案。教授还介绍了感知器学习算法,该算法采用训练数据并在假设空间中导航以提出提供给客户的最终假设。该算法从随机权重开始并四处移动,直到找到用于最终假设的正确权重。

  • 00:30:00 在本节中,演讲者解释了感知器学习算法 (PLA),这是一种能够将数据点分类为二进制类别的线性模型。该算法使用考虑数据集中所有属性的权重向量,如果一个点被错误分类,算法会更新权重向量,使其在该特定点上表现更好。演讲者还讨论了这种方法和 PLA 的迭代如何存在问题,但是通过选择一个错误分类的点并对其应用迭代,如果数据最初是线性可分的,您最终会得到正确的解决方案。

  • 00:35:00 在本节中,讲师讨论了不同类型的学习,从最流行的监督学习类型开始。这种类型的学习涉及使用具有明确给定输出(例如客户信用行为)的数据来帮助对未来实例进行分类。讲师举了一个例子,教机器使用大小和质量等物理测量值来识别不同的硬币。硬币可以根据它们的尺寸进行分组,这可以帮助机器区分它们。提到的其他类型的学习包括无监督学习,这将在课程后面详细讨论,以及强化学习,这将被简要介绍。

  • 00:40:00 在本节中,讲师使用硬币分类和语言学习的例子讨论监督和非监督学习。在监督学习中,训练数据和正确的输出是给定的,一旦系统被训练好,它就可以用来对未来的例子进行分类。然而,在无监督学习中,仅提供输入数据,而目标函数是未知的。尽管如此,无监督学习在将数据分组到集群和识别有助于未来分类的模式方面仍然很有用。讲师还解释了如何通过让自己沉浸在语言中并通过接触语言来开发语言模型,从而将无监督学习用于语言学习。

  • 00:45:00 在本节中,视频将强化学习的概念解释为一种允许系统通过经验进行学习的方法。讲师使用幼儿触摸一杯热茶的例子来说明强化学习的工作原理。通过允许系统做出任何输出(甚至是疯狂的输出)并逐渐依赖于通过奖励或惩罚结果进行调节,系统最终可以学会驾驭西洋双陆棋等游戏。这种方法是生成所需系统的一种方便且更容易的方法,无需编写代码和研究其背后的数学原理。

  • 00:50:00 在讲座的这一部分,教授向全班和在线听众介绍了一个监督学习问题。该问题涉及训练数据,其中一些点映射到 +1,其他点映射到 -1。目标是学习目标函数并确定测试点的函数值。教授强调目标函数是未知的,可能是任何东西,因此不可能确定适用于给定训练集之外的模式。这对学习提出了艰巨的挑战,需要的方法不仅仅是简单地记住例子。

  • 00:55:00 在讲座的这一部分,教授讨论了问答环节中的问题。他解决了线性可分性问题,并解释说虽然这是一个简单的假设,但有一些算法可以处理线性不可分性的情况,下周将研究一种技术,使非线性可分点线性可分。教授还提到,感知器算法的收敛速度会随着维度的变化而变化,并且可能会构建病态案例,而这将需要很长时间。此外,他还讨论了很难知道是否有特定模式要检测,但目标函数与我们是否可以学习它之间存在分离,这将在稍后的完整讲座中解释。

  • 01:00:00 在视频的这一部分,教授讨论了他如何试图避免查看给他的特定数据集或针对它调整他的系统,以防止在另一个数据集出现时失望。他解释说,机器学习是一门试图用最少的假设覆盖最多领域的学科,它可以在实践和科学上得到应用。此外,教授提到优化是机器学习的一种工具,但它不是机器学习人为了自己而研究的东西。最后,他指出机器学习的假设集可以是任何东西,可以是连续的也可以是离散的。

  • 01:05:00 在本节中,教授谈到了信贷审批中的抽样偏差及其如何影响所用数据的质量。他解释说,采用有偏差的样本可能会导致结果不准确,但使用客户群做出决策仍然有效,因为客户群更深入分类区域。然后,他讨论了收集数据的理论和实践方面,以及创建一个合理的系统需要多少数据。最后,他解决了选择假设集大小的问题,并指出学习的目标是使用数据进行预测,以得出一个合理的模式,该模式将推广到数据集之外。

  • 01:10:00 在关于学习问题的讲座的这一部分,教授讨论了理论在机器学习中的作用,特别是它如何衡量假设集的复杂程度以及做出泛化陈述所需的数据量。教授还回答了在线听众提出的问题,包括如何使用验证来纠正反馈以及对假设使用不同类型的函数。此外,还讨论了学习算法和假设集的作用,重点关注误差函数的选择如何影响优化技术的选择。最后,教授阐明了如果输出恰好处于感知器算法的阈值会发生什么。

  • 01:15:00 在讲座的这一部分,教授讨论了机器学习需要有一种模式才能发挥作用的想法。如果没有模式,那么就没有什么可学的。他还提到了数据的重要性以及它如何成为学习的关键。教授强调了通读大纲中数学倾向部分的重要性,以便充分理解使学习成为可能的组成部分。他还简要地谈到了为什么感知器经常与神经元相关的问题,并提到稍后将更详细地讨论与生物学的类比。最后,教授提到模型选择和贝叶斯原则将在课程后面讨论。

  • 01:20:00 在本节中,演讲者讨论了在课程中包含机器学习方法的标准。他表示,实践中最有用的方法将被包括在内,他的目标是提供对概念和工具的全面理解,以便在实践中使用它们。他提到,在讨论支持向量机时,他可能会涉及到不同的层次化方法以及泛化的分支,但总的来说,他的重点是提供实践知识,而不是纯理论。
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

第 2 讲 学习可行吗?



加州理工学院的机器学习课程 - CS 156。第 02 讲 - 学习可行吗?

该讲座讨论了学习的可行性,特别是使用机器学习从给定数据中确定模式。讲师介绍了概率中 nu 和 mu 的概念,以及它与学习问题的关系。探索了概率的增加,使得在不影响目标函数的情况下学习的可行性成为可能,这意味着不需要对将要学习的函数做出任何假设。讨论了过度拟合的概念及其与模型复杂性的关系,大量假设导致泛化能力较差。最后,讲座以复习有关 nu 等于 mu 含义的幻灯片的要求作为结束。

  • 00:00:00 在本节中,Yaser Abu-Mostafa 讨论了确定机器学习是否是适用于应用程序的正确技术的三个标准:是否存在可以学习的模式,是否无法通过数学方式确定该模式,以及如果存在足够的数据来表示模式。此外,他解释说,如果没有模式,机器学习仍然可以尝试但会失败,如果模式可以通过数学确定,机器学习可能不是最佳技术。 Abu-Mostafa 进一步解释了监督学习,其中目标函数未知,但提供了数据输入和输出,以及如何将其称为“监督”,因为输出充当学习过程的监督者。

  • 00:05:00 在本节中,讲师讨论了学习的可行性以及学习未知函数的可能性。为了解决这个问题,讲座重点讨论了一种概率情况,即从一箱红色或绿色的弹珠中提取样本,并有可能选择由 mu 表示的红色弹珠。讲座将这种情况转化为学习,然后找到解决困境的方法,最终宣告学习在特定意义上是可行的。

  • 00:10:00 在视频的这一部分,演示者描述了一个包含弹珠的不透明箱子的实验,其中拾取红色弹珠的概率为 mu,拾取绿色弹珠的概率为 1 减去 mu。 mu 的值未知,目标是确定样本频率 nu(大理石样本中红色大理石的分数)是否可以提供有关 mu 的任何信息。对于小样本,答案是否定的,但对于更大的样本,nu 可以以更高的概率接近 mu,从而为统计推断提供了可能性。可能和可能之间的区别是科学和工程的关键。

  • 00:15:00 在本节中,讲师介绍了 Hoeffding 不等式,这是一个将在整个课程中使用的公式,用于证明有关 VC 维度的某些内容。该不等式表明,样本频率与给定公差内的 bin 频率不接近的事件概率很小,并且随着样本量的增加呈指数下降。但是,较小的公差会导致较高的指数,这会削弱负指数的好处。带有 2 的公式优于原始公式,因为它是正确的。

  • 00:20:00 在讲座的这一部分,介绍了 Hoeffding 不等式作为限制样本频率与真实频率偏差的工具。不等式对每个 N 和 epsilon 都成立,这使它成为一个非常有吸引力的命题,尽管其中有一个指数。 nu 的概率分布明确依赖于未知值 mu,但不等式不依赖于 mu,这是一个优势。还讨论了 N 和 epsilon 之间的权衡,因为 epsilon 越小,补偿相同级别的概率界限所需的 N 就越大。最后解释了 nu 与 mu 近似相同的语句的逻辑,暗示 mu 与 nu 近似相同。

  • 00:25:00 在视频的这一部分,演讲者讨论了 mu 和 nu 的概率概念以及它与学习问题的关系。他们解释说,虽然在概率上的目的是通过生成不同的样本和计算概率从 nu 推断出 mu,但在学习问题中,未知量是一个全函数,其域可以是 10 阶欧几里得空间。然后,演讲者继续在此场景中介绍颜色编码的概念,以表明假设和目标函数之间的一致性。通过这个映射,说话者有效地增加了学习问题的概率。

  • 00:30:00 在本节中,探讨了将概率添加到学习问题中。通过在独立生成点的输入空间上应用概率分布,将概率引入输入空间。引入的概率分布不需要假设,并且该机制可以应用于任何概率分布。增加概率可以在不影响目标函数的情况下实现学习的可行性,这意味着不需要对将要学习的函数做出任何假设。但是,讨论了验证问题,其中所描述的情况相当于银行根据给定的数据寻求特定的信贷审批公式。

  • 00:35:00 在这一部分中,讲师解释了如何将一个简单的假设检验问题变成一个可以学习的二元问题。从一个 bin 和一个高阈值开始,他为居住年选择了 0.1 的权重,因为它对学习问题的贡献微弱。但是,此技术不考虑多个假设,这意味着从多个 bin 中进行选择会更智能。这需要一个人扫描不同的样本,这样可以进行有效的学习。讲师介绍了将在余下的演讲中使用的符号,用描述性名称调用 nu 和 mu,因为它们分别代表样本中和 bin 内的频率,因此引入 E_in 作为样本内错误率。

  • 00:40:00 在讲座的这一部分,教授介绍了样本内和样本外性能的符号。样本外性能是指以前没有见过的东西,如果一个模型在样本外数据上表现良好,就意味着它已经学习了。 Hoeffding 不等式用于衡量样本内和样本外性能的差异,然后应用于多个假设箱,但教授解释说它不适用于这种情况。然后讨论它不适用的原因,并要求观众抛五次硬币并记录结果以说明这一点。

  • 00:45:00 在本节中,教授描述了 Hoeffding 不等式如何应用于学习情况,其中数据随机属于两个类别之一。他解释说,多个箱子使处理这个问题变得困难,并削弱了 Hoeffding 不等式的保证,因为它计算一个箱子出现五个正面的概率。虽然每个箱子都可能通过五次正面的测试,但它们并不能表明箱子的真实概率,因为在某个地方可能会发生不好的事情的概率非常高。教授在本节结束时指出,他们需要找到可以使他们有效处理多个垃圾箱的东西。

  • 00:50:00 在本节中,讲师讨论了在 Genuine Learning Scenario 下样本内误差接近样本外误差的概率,该场景涉及基于样本内从集合中选择一个假设标准。此事件的概率小于或等于有限集中的任何假设都是错误的概率,该概率是使用概率中的 Union Bound 计算得出的。虽然这个界限是悲观的并且不考虑重叠,但它可以用来计算所有概率的上限。此界限中的每一项都对应于一个固定的假设,可以用 Hoeffding 界限代替。最终,样本内误差接近样本外误差的概率仍然受限于其中包含指数的项,但它包含一个令人烦恼的额外因素。

  • 00:55:00 在本节中,教授讨论了过度拟合的问题以及它与所用模型的复杂性之间的关系。随着假设数量的增加,坏事发生的可能性也会增加。教授解释说,拥有更复杂的模型会导致样本内记忆和样本外泛化能力差。问答环节讨论了 Hoeffding 不等式及其含义,包括结果微不足道的情况,以及学习模型的假设数量通常是无限的。讲座最后要求复习幻灯片 6,了解 nu 等于 mu 的含义。

  • 01:00:00 在视频的这一部分,教授解释了统计学中因果关系的概念以及它与机器学习的关系。他强调样本中的频率是结果,而 bin 是原因。当使用 Hoeffding 不等式根据样本推断 bin,同时将 mu 视为常数,将 nu 视为原因时,这种理解至关重要。教授还阐明了机器学习中的每一个h都是一个假设,而模型就是可供选择的假设集。模型的复杂性和个别假设将在课程后面讨论。最后,教授讨论了如何扩展方程以支持一系列响应而不仅仅是二元响应,这可以通过将某物的预期值与样本平均值相比较来实现。

  • 01:05:00 这部分教授解释学习是可行的,但是必须考虑变量的方差。他指出,函数的期望值和样本平均值与概率有关,这只是概率和样本平均值的一个更简单的例子。此外,他阐明了使用多个 bin 来表示学习中的多个假设是必要的,因为不同的假设会导致不同的颜色。教授还解释了选择最佳超平面的工作原理,以及学习算法如何通过选择最终的特定解决方案来解决这个问题。最后,他指出,学习中唯一需要的概率调用是在 X 上放置一个概率分布,以便在学习中获得概率分析的好处,但是贝叶斯方法将在 H 上放置一个概率分布课程。

  • 01:10:00 在本节中,讨论围绕学习算法中使用的假设集 (H) 的灵活性展开。符号“g”用于表示算法从 H 中选取的最终假设。但是,g 可以不同,因为它指的是根据数据和学习规则从假设集中选取它的整个学习过程。此外,重要的是要注意,即使感知器算法或任何线性学习算法在每一步都选择一个假设,但从分析的角度来看,这是一个隐藏的过程,因为目的是从 H 中选择一个正确的最终假设 g。最后,修改后的 Hoeffding 不等式是普通 Hoeffding 不等式的扩展,它允许人们同时对假设集中的多个假设做出陈述,以保证良好的性能,同时考虑坏事发生的可能性。

  • 01:15:00 在本节中,教授讨论了统计学中 Hoeffding 不等式与 p 值之间的关系。他解释说,Hoeffding 不等式与估计样本的可靠性和偏差概率有关。他还指出,统计中还有其他大数定律,但他将重点放在这个公式上,认为它对理解泛化理论最有用。教授提到虽然研究样本内接近样本外和错误概率的不同表现是有用的,但它不是课程的核心主题。讲座结束,学生下周放学。
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

第 3 讲 - 线性模型 I




加州理工学院的机器学习课程 - CS 156。第 3 讲 - 线性模型 I

本讲座涵盖机器学习中线性模型的主题、输入表示、感知器算法、口袋算法和线性回归,包括其在分类中的应用。教授强调了使用真实数据尝试不同想法的重要性,并引入了特征的概念来简化学习算法的生命。本讲座还讨论了线性回归中伪逆的计算方面,以及使用线性回归对不可分离数据进行分类时可能出现的问题。最后,介绍了使用非线性变换使数据更线性的概念,并通过示例演示了如何使用来自原点的变换 x1² 和 x2² 实现可分离数据。

教授还涵盖了与机器学习中的线性模型相关的各种主题。他讨论了非线性变换和选择它们的指南、二元分类中的样本内和样本外错误、使用线性回归进行相关分析,以及从输入中得出有意义的特征。教授还强调了理解 E_in 和 E_out 之间的区别以及它们如何影响模型性能的重要性。最后,他谈到了线性回归和最大似然估计之间的关系、非线性变换的使用,以及理论在理解机器学习概念中的作用。

  • 00:00:00 在本节中,Yaser Abu-Mostafa 深入探讨了模型中的多个假设的主题。由于发生不良事件的概率可能会在多个假设中累积,因此可以应用联合界限——一种数学规则。这种技术使一个事件或另一个事件的概率小于或等于各个概率的总和,从而提供了一种有用的工具来限制某些不良事件发生的概率。当单个假设集或 bin 对应单个假设时,最终假设不好的概率很小。然而,较大的假设集会导致较大的 M 因子,从而使概率变得毫无意义。

  • 00:05:00 在本节中,讲师讨论了线性模型在机器学习中的重要性,并提供了讲座中涵盖的一系列主题,其中包括感知器及其对不可分离数据的泛化、实值函数、并最终变成非线性情况。他还介绍了一个来自邮局邮政编码的实用数据集,将用于尝试不同的想法,并强调在真实数据上尝试想法的重要性。讲师研究了输入表示的问题,强调了对 16 x 16 灰度像素原始输入的 256 个实数进行编码的挑战,这可能会导致参数过多,但已通过特征提取技术解决。

  • 00:10:00 在本节中,视频讨论了输入表示的概念和特征的概念,以简化学习算法的生命。讲师给出了一个提取图像描述符的例子,例如强度和对称性,以获得原始信息的更高层次的表示。通过使用这些特征,该算法只需要确定少数参数的值而不是原始空间中的所有 257 个参数,这有利于泛化。讲座然后呈现强度和对称坐标的散点图,以说明特征如何使问题线性可分,并介绍感知器学习算法在确定决策边界中的作用。

  • 00:15:00 在本节中,我们将了解数据不可线性分离时感知器学习算法的行为。由于其一次纠正一个错误分类的性质,有时错误会上升或下降,并且它不能保证这种情况下的收敛。为了解决这个问题,我们引入了口袋算法,这意味着我们在每次迭代中测量中间假设的样本内误差,并且只保留最好的一个在我们的口袋里。最后,我们将口袋里的假设报告为最终假设。口袋算法提供了更好的结果,因为它认为每次迭代的口袋值都比随后的更好,因此样本内和样本外误差更接近。

  • 00:20:00 在本节讲座中,Abu-Mostafa 教授讨论了 pocket 算法,它是感知器学习算法的修改版本,可用于一般不可分数据。该算法在特定迭代处终止并报告口袋价值。他解释说,口袋算法的分类边界优于感知器学习算法,尽管数据仍然不能完全分离。然后引入线性回归作为一种常用的统计方法来寻找变量之间的关系,特别是用于分析不同课程的 GPA 与未来收入之间的关系。最后,重新审视信用审批示例,以展示如何使用回归来根据客户的数据预测他们的信用额度。

  • 00:25:00 在本节中,教授介绍了线性回归的概念,并解释了它用于根据输入变量预测实际输出值。输出是根据输入变量采用线性形式的假设。变量被编码为输入,算法取决于信号的线性度。此示例的数据集是来自以前客户的历史数据,其中一名官员评估了他们的信用申请并确定了信用额度。目标是复制专家所做的事情,以便使确定信用额度的系统自动化。线性回归算法测量误差并尝试找到最佳权重以确定与 f 近似的假设。线性回归中使用的标准误差函数是平方误差。

  • 00:30:00 在本节中,讲师讨论了如何估计信用额度以及定义误差度量(例如线性回归中常用的平方误差)的重要性。样本内误差用于衡量假设在数据集上的表现如何,其中每个示例都对误差有影响。线性回归算法试图通过根据平方误差规则找到适合数据的线来最小化此误差。该算法适用于直线为超平面的高维空间。 E_in 的表达式表示为合并不同 x_n 的事物的范数平方。

  • 00:35:00 在本节中,介绍了线性模型的概念,其中输入数据表示为具有输出向量 y 的矩阵 X。梯度被用来最小化关于参数 w 的 E_in。这导致需要求解一个简单的二次方程,其中涉及 X 转置 X,一个可逆方阵。因此,解决方案很简单,w 的公式为 X^†,其中 X^† 是 X 的伪逆,它是 X 转置 X 乘以 X 转置的逆的简写。因为 X 是不可逆的,所以它没有传统的逆,但它有一个伪逆。

  • 00:40:00 在本节中,讲师解释了线性回归中伪逆的计算方面。伪逆的公式涉及矩阵求逆和乘法,这对于大型矩阵来说可能是计算密集型的。然而,讲师指出,对于大多数实际应用而言,这不是一个问题,因为有许多包可用于计算伪逆或线性回归的解决方案。要使用线性回归,必须以正确的格式输入数据,构建矩阵 X 和向量 y,然后将它们代入伪逆公式。得到的乘法给出了 w 的值,即线性模型的权重。

  • 00:45:00 在本节中,介绍了使用线性回归进行分类的概念。解释了二值分类函数也是实值的,可以使用线性回归来近似学习这些函数。从线性回归中获得的权重也可以用作分类算法(如感知器算法)的初始权重,提供快速启动和可能更快的收敛。此外,还讨论了使用从线性回归中获得的信号的符号来分类为 +1 或 -1 的想法。最后,使用示例解释线性回归边界。

  • 00:50:00 在讲座的这一部分,教授讨论了使用线性回归进行分类时可能出现的问题,特别是在处理不可分离的数据时。他演示了该算法将尝试将所有值强制归入同一分类,这通常会导致分类过程中出现错误。然后他介绍了使用非线性变换使数据更线性的想法,例如在根据居住年限确定信用额度稳定性的情况下。但是,他强调,重要的是要了解这些模型中“线性”的含义,以便有效使用。

  • 00:55:00 在本节中,讲师讨论了在推导感知器和线性回归等学习算法时权重线性的重要性,因为它使算法能够工作而不管 x 是什么。这开辟了在不离开线性模型领域的情况下对输入进行非线性转换的可能性,因为赋予非线性特征的权重线性取决于参数。给出了一个非线性变换的示例,其中使用来自原点的 x1² 和 x2² 测量值对数据进行变换,从而生成可分离的数据。然而,非线性变换是一个对泛化问题敏感的负载问题,因此将在下一讲中进一步讨论指南。

  • 01:00:00 在本节中,教授讨论了非线性变换以及选择它们时可以走多远的指南。他强调了在选择非线性变换时泛化和理论知识的重要性。然后讨论转向样本内和样本外错误,特别是在二元分类的背景下。教授澄清说,在学习中,只处理样本内错误,而样本外错误是隐式处理的,保证样本内表现良好将转化为样本外表现良好。还解释了分类中错误概率和错误频率之间的区别。然后讲座涉及使用线性回归来确定 GPA 与未来收入之间的相关性。还简要讨论了数据的可用性和线性回归中 w_0 的包含。

  • 01:05:00 在本节中,教授解释说阈值对于线性回归是必要的,因为它根据变量的值补偿偏移量,从而允许建立适当的模型。在二进制情况下,当使用 +1 或 -1 作为输出时,线性回归的假设与示例中的目标具有最小平方误差,并且假设的输出最接近值 +1 或 -1,具有均方误差。虽然这种技术可行,但它可能无法正确分类点,因为线性回归试图拟合不相关的点,这可能会搞乱分类。教授建议使用线性回归作为初始权重,然后使用适当的分类算法进一步微调。在推导特征时,没有通用算法,最好的方法是查看原始输入并尝试根据问题陈述推断出有意义的特征。但是,如果特征太多,就会成为一个问题,这就是非线性变换可以帮助简化特征空间的地方。

  • 01:10:00 在本节中,教授讨论了特征的概念,特征是原始输入的任何更高级别的表示。线性模型是机器学习中众多模型的构建块,其他模型在某些情况下可能会提供更好的增量性能,但他强调线性模型可以完成这项工作。教授还强调了 E_in 和 E_out 之间的区别,E_in 很容易评估,而 E_out 需要理论上保证样本内误差跟踪样本外误差。此外,他解释说,通过非线性变换来变换输入变量,线性回归仍然可以用于拟合多项式。最后,他简单地讲了统计文献中线性回归最小二乘与最大似然估计的关系,其中涉及到更多关于概率和噪声的假设。

  • 01:15:00 这节教授讲了线性回归模型和最大似然之间的关系,但是更喜欢在机器学习的背景下呈现线性回归,而不对分布做太多假设。教授还讨论了非线性变换及其在机器学习中的应用,包括多项式和径向基函数。他还解决了有关在伪随机数生成器中寻找模式的问题,以及连续与离散响应的不同处理方式,这取决于手头的问题。最后,教授强调了理论对于更深入地理解机器学习技术的重要性。
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

第 4 讲 - 误差和噪声



加州理工学院的机器学习课程 - CS 156。第 4 讲 - 错误和噪声

在机器学习课程的第 4 讲中,Abu-Mostafa 教授讨论了错误和噪声在现实生活中的机器学习问题中的重要性。他使用特征空间 Z 解释了非线性变换的概念,这对于在学习中保持线性至关重要。本讲座还涵盖了监督学习图的组成部分,强调了错误度量在量化假设性能方面的重要性。引入噪声目标作为现实世界学习问题的典型组成部分,在最小化样本内误差时必须考虑这一点。讲座最后讨论了学习理论及其在评估样本内误差、样本外误差和模型复杂性方面的相关性。

教授解释了概率分布的变化如何影响学习算法,以及错误度量如何因不同的应用而不同。他还讨论了线性回归算法、平方误差与绝对值在优化中误差度量的使用,以及机器学习模型中复杂性和性能之间的权衡。教授阐明了输入空间和特征提取之间的区别,并指出如何同时提高泛化能力和最小化错误的理论将在接下来的讲座中介绍。

  • 00:00:00 在本节中,Abu-Mostafa 教授讨论了在考虑机器学习中的现实问题时误差和噪声的重要性。他首先重新审视了非线性变换的概念,以及它如何帮助变换变量并保持权重向量 w 的线性,这对于学习过程至关重要。然后,他在学习图中介绍了错误和噪声的概念,承认了现实生活中出现的实际考虑因素。该讲座还包括一个不可分离数据的示例,该数据可以通过非线性变换进行分离。

  • 00:05:00 在本节中,讨论了称为 phi 的非线性变换,其中样本空间 x_n 中的每个点都经过变换,并在特征空间 Z 中获得相应的点 z_n,该空间可以是高度非线性空间。这允许数据集在新的特征空间中线性可分离,然后通过简单的线性模型算法(如线性回归或分类)应用它来获得分离边界。然而,当给定一个测试点时,它位于输入空间中,因此必须使用逆变换对该点进行变换,以定位它在特征空间中的位置,从而进行相应的分类。对于任何非线性变换,此过程在任何尺寸的维度上都适用,但重要的是要小心变换以避免泛化问题。

  • 00:10:00 在本节中,讲师讨论了监督学习图的组成部分,并介绍了错误度量和噪声目标的概念。他解释说,误差测量的目标是量化假设与未知目标函数的近似程度。误差测度定义为两个函数的E,他强调这是一种定量测度。他进一步指出,嘈杂的目标是现实生活中学习问题的一个实际组成部分,必须加以考虑。

  • 00:15:00 在本节中,演讲者解释了如何使用误差函数来衡量机器学习算法中假设函数与目标函数的逼近程度。 error 函数返回一个数字,该数字是通过比较两个函数在同一点的值计算得出的。常用的是逐点定义,用逐点误差的平均值来定义整个空间上的误差函数。误差函数的样本内误差是训练集中逐点误差的平均值,而样本外误差需要将数据分为训练集和测试集。演讲者强调了最小化误差函数以开发准确假设函数的重要性。

  • 00:20:00 在本节中,讲师讨论了样本外误差,即误差度量的样本外版本。期望值是通过对输入空间 X 中的所有点进行平均得到的。二元误差是整体误差的概率,它是使用输入空间 X 上的概率分布计算的。学习图通过添加误差度量进行更新,这是逐点定义的。错误度量是在指纹验证的上下文中定义的,有两种类型的错误——错误接受和错误拒绝。在定义误差度量时,每种类型的误差都会受到惩罚以获得更好的假设。

  • 00:25:00 在本节中,演讲者讨论了指纹验证系统中错误和噪声的概念,以及如何使用机器学习来根据指纹创建接受或拒绝个人的假设。演讲者指出,选择一种误差函数而不是另一种误差函数并没有内在的优点,它取决于应用领域。例如,就超市而言,错误拒收的成本很高,因为它们可能会让顾客感到沮丧,并将他们的业务转移到其他地方,而错误接受则没什么大不了的。然而,就中央情报局而言,错误接受可能会导致安全漏洞,这使得它们比错误拒绝的成本更高。因此,误差矩阵需要根据具体应用进行调整。

  • 00:30:00 在本节中,演讲者讨论了错误度量在实际学习问题中的重要性,并解释了所使用的错误度量应由将使用不完善系统的用户指定。他建议,如果用户可以阐明一个定量误差函数,那么这就是要使用的误差函数。然而,当用户没有给出具体的错误函数时,可以使用其他看似合理或友好的措施。合理的措施具有分析价值,而友好的措施易于使用。演讲者修改了学习图以引入错误度量,这对于明确系统应该学习什么至关重要。

  • 00:35:00 在本节中,重点是错误度量及其在学习算法中的作用。误差度量有两个主要功能:评估最终假设和逼近目标函数,并将误差度量提供给学习算法以最小化样本内误差。此外,引入噪声目标作为现实生活问题的常态。目标函数并不总是一个函数,并且可能会受到来自不明信息和环境的噪声的影响,这使得它具有概率性而非确定性。使用目标分布代替目标函数,其中y由给定x的概率分布生成,表示概率依赖。通过引入确定性目标函数加噪声的概念来解决噪声目标的概念,并且这种方法用于简化目标分布的概念。

  • 00:40:00 在本节中,演讲者讨论了机器学习中噪声的概念以及它如何影响学习过程。目标函数定义为给定 x 时 y 的期望值,其余部分称为噪声。如果目标函数定义不明确,则可以表示为概率分布,而噪声目标可以表示为给定 x 的 y 的条件概率分布。监督学习的学习图包括噪声目标,并且在给定 x 的情况下区分 x 和 y 的概率。尽管涉及复杂性,演讲者指出学习图中的每个组件都有存在的理由。

  • 00:45:00 在本节中,演讲者解释了目标分布的概念,即给定输入的信用度概率分布,并强调这是您要通过监督学习学习的内容。另一方面,输入分布起到量化输入在目标分布中的相对重要性的作用,但它不是你想要学习的。演讲者还警告说,混合两种分布(理论上可以做到)可能会导致对真实目标分布的混淆。最后,演讲者介绍了学习理论,旨在逼近目标分布,并强调其在获得洞察力和获取辅助工具方面的重要性。

  • 00:50:00 在本节中,讲师解释说函数 g 的样本外误差应该接近于零,因为这意味着良好的泛化。然而,由于这个数量是不可能知道的,我们可以使用样本内误差作为样本外误差的代理,只要我们有正确的检查。整个学习过程涉及两个问题:我们能否确保样本外性能与样本内性能足够接近(理论问题),以及我们能否使样本内误差足够小(实际问题) )?讲师指出,在某些应用中,不可能使样本外性能接近于零,例如在存在纯噪声数据的财务预测中。尽管如此,对冲基金仍然可以通过利用一些低效率来赚钱。

  • 00:55:00 在讲座的这一部分,教授讨论了样本外误差的重要性以及接下来两周将涵盖的理论。该理论涉及理解样本内误差、样本外误差和模型复杂性,并将给出正式定义来评估这些因素。该理论的主要目标是描述在假设集无限的情况下学习的可行性,例如感知器和线性回归模型。该理论将通过反映模型复杂程度的单个参数来衡量模型,这将有助于在实际学习中产生很大差异。教授还回答了一个问题,讨论了x的P在学习算法中的相对影响。

  • 01:00:00 在本节中,教授讨论了概率分布的变化如何影响学习算法,特别是在学习示例的选择方面。教授解释说,输入的概率分布起着技术作用,但它强调空间的某些部分而不是其他部分会影响算法做出的选择。关于在 N 对 x 和 y 或 N y's per x 之间进行选择的最佳方法,教授建议独立获取它们而不是针对相同的输入,以避免处理输入空间的非常具体的部分并提高泛化能力。最后,教授指出,有一种方法可以衡量泛化能力差或泛化能力好,这将成为理论的一部分。

  • 01:05:00 在本节中,教授解释说,即使对于相同的系统和相同的训练数据,不同应用领域的错误度量也可能不同。他举例说明了超市和中央情报局在错误接受和错误拒绝之间的正确平衡是如何不同的。教授还澄清了 x (P(x)) 的概率结构在监督学习中不是问题,只要训练和测试使用相同的分布即可。他进一步解释说,任何概率分布都足以调用概率方法来解决学习问题。最后,教授确认了简化平方误差测量和封闭形式解决方案案例的请求,他将在评论中介绍这一点。

  • 01:10:00 在本节中,教授讨论了如何基于最小化平方误差推导出线性回归算法,从而产生简单的封闭形式解。他还解释了 y 概率的不平衡如何影响学习过程,以及回报和成本是等价的。此外,他澄清说,在机器学习中提到输入空间时,它仅包括输入部分的所有可能点,而特征提取涉及处理输入以去除不相关的信息。主成分分析是另一种检测输入表示空间中信息方向的方法。

  • 01:15:00 在讲座的这一部分,教授讨论了在优化中使用平方误差度量与误差度量的绝对值。他解释说,平方误差是一个平滑函数,具有许多理想的特性,而绝对值并不平滑,可能导致组合优化。然而,如果为了特定的优点需要使用绝对值,它仍然可以使用。此外,他阐明了目标是 x 的函数 f,而不是 x 的 w 转置,并且噪声是 y 与给定特定 x 的 y 预期值之间的差异。最后,教授指出,机器学习模型的复杂性和性能之间存在权衡,但如何同时提高泛化能力和最小化错误的答案将在接下来的四节课中介绍。
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

第 5 讲 - 训练与测试



加州理工学院的机器学习课程 - CS 156。第 5 讲 - 训练与测试

在他的“从数据中学习”课程的第 5 讲中,Abu-Mostafa 教授讨论了机器学习中误差和噪声的概念、训练和测试之间的区别,以及增长函数,它衡量可以产生的二分法的最大数量给定点数的假设集。他还介绍了断点,它对应于假设集的复杂性并保证 N 中的多项式增长率(如果存在),并讨论了假设集的各种示例,例如正射线、区间和凸集。本讲座强调理解这些概念及其数学框架的重要性,以便充分理解假设集的复杂性及其可行学习的潜力。

教授涵盖了与培训与测试相关的各种主题。他回答了听众提出的关于非二元目标和假设函数以及破碎点权衡的问题。教授解释了找到增长函数的重要性,以及为什么它比使用 2 的 N 次方来衡量泛化概率高更受欢迎。此外,他还讨论了断点与学习情况之间的关系,指出断点的存在意味着学习是可行的,而断点的价值则告诉我们达到一定绩效所需的资源。最后,教授解释了 Hoeffding 的替代方案以及他坚持使用它以确保人们熟悉它的原因。

  • 00:00:00 在本节中,Abu-Mostafa 教授讨论了错误和噪声的概念,以及它们在实际情况下与机器学习的关系。他解释了定义错误度量的重要性,以及如何使用它们来确定假设与目标函数的性能。此外,他还讨论了噪声目标的概念,其中目标不是确定性函数,而是受 x 影响并根据概率分布分布。 Abu-Mostafa 教授还介绍了将在接下来的三个讲座中持续的理论轨道,重点关注训练与测试以及以现实方式描述它的数学框架。

  • 00:05:00 在本节中,讲师探讨了期末考试中训练和测试的区别。期末考试前提供的练习题和答案作为训练集。期末考试作为测试集。讲师强调,目标不是在期末考试中表现出色,而是理解材料,这体现在一个小 E_out 中。测试的数学描述涉及一个人在期末考试中的表现,而训练的数学描述涉及一个人在练习题中的表现。练习集的污染导致 E_in 指标的性能下降。讲师强调在衡量假设集的复杂性时需要用更友好的数量替换 M 数量。

  • 00:10:00 在本节中,演讲者讨论了理解假设 M 的来源及其周围环境以便替换它的重要性。演讲者解释说,存在称为 B 的不良事件,目的是避免出现样本内性能不跟踪样本外性能的情况。目标是确保任何不良事件发生的概率很小,而不管事件之间的相关性如何。然后演讲者继续解释感知器示例以及如何根据图片定义不良事件以确保更好的绑定。

  • 00:15:00 在本节中,讲师讨论了 E_in 和 E_out 的概念,它们分别表示假设的样本内和样本外误差。然后,他研究了从一个假设转移到另一个假设时 E_in 和 E_out 的变化如何比较,认为由于假设之间的重叠区域,它们很小并且朝相同的方向移动。讲师建议可以用表征任何模型复杂性的新量代替 M,即先前的复杂性度量,但这需要在下一讲中进行证明。他介绍了数量并强调在进行证明之前需要很好地理解它。

  • 00:20:00 在本节中,讲师解释了什么是二分法以及它们与假设的关系。二分法是仅在点的子集上定义的多个假设,它们表示有限数据点集上红色和蓝色的不同可能模式。例如,如果二分法很少,则假设集不强大,但如果二分法很多,则假设集很强。讲师将二分法描述为一张带孔的不透明纸,放在输入空间的顶部,仅显示红色和蓝色点的图案。二分法是表达假设的一种正式方式,其中函数为蓝色和红色区域生成 -1 或 +1。

  • 00:25:00 在本节中,讲师讨论了感知器情况下的假设数量和二分法。他解释说,由于感知器具有无限值,因此可以有无限多的假设。然而,二分法的数量是有限的,因为只有有限数量的点可以返回 +1 或 -1。增长函数,用“m”表示,通过计算在任何 N 个点上使用假设集可以得到的最多二分法来代替假设的数量。讲师提到,增长函数是通过最大化关于从输入空间中选择 N 个点的二分法的数量来计算的。

  • 00:30:00 在本节中,讲师解释了增长函数的概念及其如何应用于感知器。假设集的增长函数是一个函数,它告诉您对于给定数量的点可以产生的最大二分法数。对于感知器,获得增长函数具有挑战性,因为它需要从一个点开始,为每个点找到增长函数。此外,对于每个点数,都有一些感知器无法生成的点群。尽管如此,这些限制是意料之中的,因为感知器是具有简单算法的简单模型。

  • 00:35:00 在本节中,讲师通过使用不同模型(包括正射线和正间隔)的示例来讨论增长函数的概念。他解释说,正射线的增长函数是 N+1,这意味着二分法的数量取决于 N 点之间可能的线段数量。同时,正区间具有更大的增长函数,因为区间的开始和结束这两个参数可以变化以获得不同的二分法。

  • 00:40:00 在本节中,讲师讨论了具有不同复杂程度的假设集的增长函数。对于一条直线中最简单的二分假设集,增长函数公式简单来说就是从N+1段中选择2段的方式数,相当于(N+1)选择2。对于下一个假设集对于平面中的凸区域,讲师指出某些区域无效,因为它们不是凸区域。该集合的增长函数公式需要更复杂的计数,因为并非所有二分法都有效。然后,讲师提出了一个最佳的点放置选择,即在圆的周长上,以最大化该假设集的增长函数。

  • 00:45:00 在本节中,讲师讨论了凸集的增长函数,以及它为何不如正区间的增长函数强大。讲师展示了增长函数如何适用于每个假设。他们还讨论了如何用一个可以作为增长函数的有限数 m 来代替最大的 M。讲师得出结论,如果增长函数是多项式,则使用该假设进行学习是可行的。然而,讲师承认,明确评估增长函数并不容易。

  • 00:50:00 在本节中,引入断点的概念来定义假设集未能获得所有可能的二分法的点。断点对应假设集的复杂度,如果假设集不能打散大小为k的数据集,则k为它的断点。发现 2D 感知器的断点为 4。讲座还包括正射线、区间和凸集的示例,以解释如何为每个假设集找到断点。此外,如果假设集没有断点,则它会无限增长。

  • 00:55:00 在本节中,教授解释了增长函数的概念,以及如果存在断点,它如何保证 N 中的多项式增长率。有了断点的约束,就有了一个巨大的组合限制,成群结队地消除了可能的二分法,将不受限制的2到N的增长函数降为多项式。教授举了一个三点假设集的例子,断点为二,其中二分法是有限的,违反者被移除,直到只剩下一个二分法,满足约束。

  • 01:00:00 在本节中,教授回答了听众关于非二元目标和假设函数以及破碎点权衡的问题。他解释说,他正在开发的理论对于二元函数来说是易于管理的,但是对于实值函数有一个更技术性的对应物,他将通过偏差-方差权衡方法来涵盖它。在破碎点方面,他表示这有利于拟合数据但不利于泛化,在近似和泛化之间找到正确的平衡是关键。此外,他阐明了多项式增长的重要性以及它如何保证发生不良事件的可能性很小。

  • 01:05:00 在本节中,教授讨论了一个谜题,其中每行放置 3 位,并尝试在两点不能被打散的约束下获得尽可能多的不同行。教授完成了添加行的练习,并密切关注所有可能的组合以避免违反约束。到最后,教授得出结论,在此约束下只能实现四种可能的模式,并且无法添加更多行。这种限制是由于感知器的假设数量是无限的,并且增长函数要么等于 2 到 N 要么是多项式,两者之间没有任何东西。

  • 01:10:00 在讲座的这一部分,教授讨论了找到增长函数的重要性,以及为什么它比使用 2 的 N 次方来衡量泛化概率高更受欢迎。教授解释说,找到一个多项式增长函数会产生一个易于管理的右侧,并会导致泛化的可能性很高。教授还回答了学生关于测试和训练点的数量、不同假设的样本外误差以及为什么称为增长函数的问题。教授指出,找到增长函数有不同的方法,有时对转折点的估计只是一个估计,而不是一个精确值。

  • 01:15:00 本节教授讨论断点与学习情境的关系。他解释说,断点的存在意味着学习是可行的,而断点的价值则告诉我们达到某种表现所需要的资源。他还谈到了 Hoeffding 的替代方案以及他坚持使用它的原因。目标是让人们对 Hoeffding 非常熟悉,以至于他们知道它很冷,这样当引入修改时,他们就不会迷路。