机器学习和神经网络 - 页 21

 

是时候关注人工智能了(ChatGPT 及其他)



是时候关注人工智能了(ChatGPT 及其他)

该视频讨论了人工智能 (AI) 的发展,以及它如何改变我们的工作和生活方式。有些人对人工智能的潜力感到兴奋,而另一些人则担心它的潜在影响。演讲者还简要介绍了最近的播客节目。

  • 00:00:00 ChatGPT 是一个 AI 程序,于 2022 年发布,能够生成文本,试图根据在其庞大的互联网数据集中看到的内容来预测句子中的下一个单词。 ChatGPT是gpt3的改进版本,open AI称之为GPT 3.5。 GPT 3.5 和 GPT 的主要区别在于它们在训练过程中加入了人工反馈,这被称为监督强化学习。本质上,在训练过程中,人工智能的多个版本的响应被人类按照质量从最好到最差进行排名,并且人工智能在改进模型时会得到数字奖励。 ChatGPT 正被崭露头角的企业家用来想知道下一件大事是什么,因为 Open AI CEO 对所有行业的未来都有一些有趣的见解。

  • 00:05:00 ChatGPT 是一家初创公司,旨在让客户更轻松地提出投诉、取消订阅等。此外,ChatGPT 可以就非常具体的主题形成意见,这是任何搜索引擎都做不到的。 ChatGPT 据说还擅长编码,这通常不被认为是可以通过 AI 改进的技能。虽然 ChatGPT 有许多有用的应用程序,但它仍处于早期阶段,在被视为真正的革命性技术之前还有很长的路要走。尽管如此,ChatGPT 的潜在影响值得考虑,而且它很可能在未来只会变得更加重要。

  • 00:10:00 ChatGPT 是一个聊天机器人,能够以类似人类的方式“说话”,并被用来质疑开放人工智能设定的道德界限。值得注意的是,ChatGPT 可能无法预测且不稳定,因此难以控制。还指出,ChatGPT 有可能减少多个领域所需的工人数量。

  • 00:15:00 作者讨论了自动化对劳动力的潜在影响,以及如何准备。他还讨论了人工智能如何快速发展,以及一些企业家应该牢记的近期预测。

  • 00:20:00 ChatGPT 是一个新技术平台,将用于创建未来模型,例如医学模型或计算机模型。将会有一组新的初创公司,它们将使用该平台调整现有的大型模型,以创建特定于行业或用例的模型。

  • 00:25:00 该视频讨论了人工智能 (AI) 的发展,以及它如何改变我们的工作和生活方式。有些人对人工智能的潜力感到兴奋,而另一些人则担心它的潜在影响。演讲者还简要介绍了最近的播客节目。
 

ChatGPT 惊人潜力的内幕|格雷格·布罗克曼 |泰德



ChatGPT 惊人潜力的内幕|格雷格·布罗克曼 |泰德

在视频的这一部分中,格雷格·布罗克曼 (Greg Brockman) 讨论了人工智能在改善教育方面的作用。他认为,传统的教育方法往往效率低下且效果不佳,学生难以保留知识,而教师则难以以一种让每个学生都参与的方式进行教学。布罗克曼建议,人工智能可以通过为每个学生提供个性化的学习体验来帮助解决这些问题。借助人工智能工具,可以实时监控学生的学习进度,根据他们的需求和偏好调整课程。这可能会带来更吸引人和更高效的学习体验,让学生保留更多知识,让教师专注于更重要的任务。 Brockman 还强调了在设计 AI 工具时考虑隐私的重要性,确保学生数据受到保护并仅用于教育目的。

  • 00:00:00 在本节中,OpenAI 的首席执行官 Greg Brockman 展示了名为 Dolly 的 AI 工具的功能,该工具可为 AI 构建工具。通过将此工具与 ChatGPT 结合使用,用户可以生成图像和文本以通过统一的语言界面实现他们的意图,从而允许他们删除小细节并通过将其与其他应用程序结合进行检查。这种对用户界面的新思考方式将扩展 AI 代表用户执行的功能,并将技术提升到新的高度。

  • 00:05:00 在本节中,Greg Brockman 解释了如何训练人工智能使用工具并通过反馈产生预期的结果。该过程分为两个步骤 - 首先,使用无监督学习过程,其中向整个世界展示 AI,并要求它预测它以前从未见过的文本中接下来会发生什么。第二步涉及人类反馈,通过尝试多种事物来教会人工智能如何使用这些技能,并提供人类反馈以加强用于产生答案的整个过程。这种反馈使其能够概括并将学习应用于新情况。人工智能还用于事实核查,可以发出搜索查询并写出整个思维链,从而更有效地验证推理链的任何部分。

  • 00:10:00 在视频的这一部分中,Greg Brockman 讨论了人类与 AI 合作解决复杂问题的潜力。他展示了一个事实核查工具的示例,该工具需要人工输入才能为另一个 AI 生成有用的数据,展示了人类如何在机器以可信赖和可检查的方式运行时提供管理、监督和反馈。布罗克曼认为,这将导致解决以前不可能解决的问题,包括重新思考我们如何与计算机交互。他演示了如何使用强大的 AI 语言模型 ChatGPT 分析包含 167,000 篇 AI 论文的电子表格,并通过探索性图表提供见解,展示 AI 协助数据分析和决策的潜力。

  • 00:15:00 在本节中,Greg Brockman 讨论了 AI 的潜力,指出要使其正确运行,需要每个人都参与制定规则和指南,以便将其融入我们的日常生活。他认为,通过识字和重新思考我们做事方式的意愿,可以实现 OpenAI 的使命,即确保通用人工智能造福全人类。布罗克曼承认,虽然这项技术令人惊叹,但它也很可怕,因为它需要重新思考我们目前所做的一切。 OpenAI 的 chatGPT 模型的成功部分归功于他们深思熟虑的选择、面对现实以及鼓励不同团队之间的协作。 Brockman 还将新可能性的出现归因于语言模型的发展和涌现原理,其中许多简单的组件可以导致复杂的涌现行为。

  • 00:20:00 在视频的这一部分,Greg Brockman 讨论了 ChatGPT 学习和预测能力的惊人潜力,即使是在机器没有明确教授的领域。然而,他指出,虽然机器可以处理 40 位数字的加法,但当出现 40 位数字和 35 位数字时,它经常会出现加法错误。 Brockman 还强调了机器学习工程质量的重要性,重建整个堆栈以确保在进行预测之前每个部分都经过适当设计。他承认扩大此类技术可能会导致不可预测的结果,但他相信部署渐进式变革以适当监督并使机器的意图与我们的意图保持一致。最终,布罗克曼认为,通过适当的反馈和与人类的融合,人工智能的真理和智慧之旅是可能的。

  • 00:25:00 在本节中,Greg Brockman 解决了有关在没有适当护栏的情况下发布 GPT 等人工智能 (AI) 的责任和安全影响的担忧。他解释说,默认的秘密建造然后希望安全得到妥善执行的计划是可怕的,而且感觉不对。相反,他认为另一种方法是释放人工智能,让人们在变得太强大之前提供输入。 Brockman 分享了一个故事,他在思考他是希望这项技术在 5 年还是 500 年之后出现,并得出结论认为,最好以集体责任的方式来实现这一权利,并为 AI 提供明智而不是鲁莽的护栏。
 

麻省理工学院生命科学深度学习 - 2021 年春季



麻省理工学院生命科学深度学习 - 2021 年春季

“生命科学中的深度学习”课程将机器学习应用于各种生命科学任务,由机器学习和基因组学研究人员授课,教师为麻省理工学院的博士生和本科生。该课程涵盖机器学习基础、基因调控电路、疾病变异、蛋白质相互作用和折叠,以及在谷歌云平台中通过 Python 使用 TensorFlow 进行成像。该课程将包括四个问题集、一个测验和一个团队项目,其中穿插指导课程以帮助学生设计自己的项目。讲师强调了建立具有互补技能和兴趣的团队的重要性,并在整个学期中提供了各种里程碑和可交付成果。该课程旨在提供真实世界的经验,包括赠款和研究金提案撰写、同行评审、年度报告以及培养沟通和协作技能。演讲者讨论了传统人工智能和深度学习之间的区别,深度学习基于可观察到的刺激构建场景的内部表示,并强调了由于训练数据、计算能力和新算法的融合,深度学习在生命科学中的重要性.

该视频是深度学习在生命科学领域的入门讲座,阐述了机器学习和深度学习在探索复杂世界中的重要性。演讲的重点是贝叶斯推理的概念,以及它如何在经典和深度机器学习中发挥关键作用,以及生成式学习方法和判别式学习方法之间的差异。该讲座还强调了支持向量机、分类性能和线性代数在理解跨生物系统网络方面的力量。演讲者指出,该课程将涵盖深度学习中的各种主题,包括正则化、避免过度拟合和训练集。讲座最后解决了与人工神经元和深度网络的可解释性相关的问题,供以后的讲座使用。

  • 00:00:00 在本节中,演讲者介绍了“生命科学中的深度学习”课程,并解释了其重点是将机器学习应用于生命科学中的任务,包括基因调控、疾病、治疗设计、医学成像和计算生物学。该课程每周开两次课,周五有可选的指导课程,由机器学习和基因组学研究人员讲授,教学人员由麻省理工学院的博士生和本科生组成。演讲者还提供了去年课程作业页面的链接,其中包含所有讲座的录音。

  • 00:05:00 在成绩单的这一部分,讲师介绍了课程将建立的基础知识,例如微积分、线性代数、概率和统计以及编程。该课程还将有一个介绍性的生物学基础,学生将能够以此为基础。然后,讲师详细说明课程的评分细目,包括问题集、测验、期末项目和参与情况。本节最后解释了为什么深度学习在生命科学中很重要,因为廉价的大数据集的融合、机器学习方法的基础性进步以及高性能计算彻底改变了科学领域。

  • 00:10:00 在本节中,演讲者讨论了计算生物学的重要性和好处。学生回答计算生物学为什么重要的问题,包括处理大量数据、加速发现的能力、为复杂过程创建数学模型、理解生物数据的模式,以及使用可视化提取有意义的信息模式。演讲者强调生物学中存在可以通过计算理解的基本模式和原理,并鼓励学生探索系内和跨系提供的不同课程。

  • 00:15:00 在本节中,演讲者讨论了计算方法如何不仅有助于应用研究,而且有助于在基础生物学研究中产生新的基础理解。他们强调,虽然所使用的计算方法可能并不总能给出完美的结果,但它们可以提供可能更有趣的重要近似值。此外,演讲者还展示了计算生物学如何整合各种研究领域,从而更全面地了解影响多个器官的复杂疾病。最后,他们提到了使用计算工具来模拟疾病传播和疾病进展等长期时间过程。

  • 00:20:00 在视频的这一部分,演讲者讨论了计算在生命科学中的作用,特别是它如何模拟过程随时间的进展,从而缩短药物和治疗的发现和开发时间。在设计药物和创建合成测试数据方面,深度学习的使用也变得越来越普遍。演讲者还强调了跨人口统计研究遗传多样性对于遗传数据集真正公平的重要性。生命本身是数字化的,理解生物学的挑战是从噪音中提取信号并识别数据集中有意义的模式。

  • 00:25:00 在本节中,课程讲师概述了课程中将涵盖的主要任务和挑战,包括机器学习基础、基因调控回路、疾病变异、蛋白质相互作用和折叠以及成像。该课程将利用问题集向学生介绍这些前沿领域,学生将在谷歌云平台的编程环境中通过 Python 使用 TensorFlow。第一个问题集将侧重于字符识别,然后使用这些技术分析基因组数据并识别与基因调控事件相关的序列模式。
     
  • 00:30:00 在本节中,讲师讨论课程的结构和目标,课程将包括四个问题集、一个测验和一个贯穿整个课程的团队项目。讲师强调该课程将是互动的,并鼓励学生注册成为他们感兴趣的讲座的抄写员,从而使他们能够投资于该特定领域。学生还将有机会与活跃于生命科学深度学习领域的客座讲师互动,团队项目将建立在对研究项目方向的讨论上,让学生有机会应用他们的新技能来解决实际问题.此外,讲师提到生命科学领域的深度学习领域只有十年,客座讲师将介绍该领域的关键论文,使课程对学生来说非常有趣和互动。

  • 00:35:00 在本节中,课程讲师讨论了课程将如何在模块中穿插指导课程,以帮助学生设计自己的项目、提出想法并与合作伙伴和导师取得平衡。这些指导课程将邀请活跃于相关领域的工作人员或研究人员参加,让学生从他们身上汲取灵感,并准备成为计算生物学领域的活跃研究人员。讲师还强调了课程将帮助的教育的无形方面,包括起草研究计划、使用互补技能集、接收同行反馈以及识别同行提案中的潜在缺陷。该课程将有一个学期项目,反映现实生活中的这些无形任务。还鼓励学生与同龄人见面,尽早组建具有互补专业知识的团队,并提交个人资料和视频介绍。

  • 00:40:00 在本节中,讲师讨论了为课程建立的各种里程碑,以确保充分规划、反馈和找到符合学生技能和兴趣的项目。他提到了建立一个技能和兴趣互补的团队的重要性,提供去年项目和近期论文的链接以获取灵感,并定期与高年级学生、博士后和课程人员进行指导。该课程还将包括关于各种主题和同行评审方面的小组讨论,以鼓励对提案进行批判性思考并提供反馈和建议。讲师强调将通过本课程获得的现实世界经验,包括资助和奖学金提案撰写、同行评审、年度报告以及培养沟通和协作技能。讲师邀请学生在整个课程期间的各种分组会议期间相互会面,并概述整个学期的里程碑和可交付成果。

  • 00:45:00 课程和项目的结构,讲师概述了每个主题可用的不同模块和论文。此外,还概述了课程的时间表,包括项目提案和端到端管道演示的截止日期。讲师强调了在课程早期拥有数据和工具的重要性,以避免以后出现问题。还提到了中期报告和关于演示的讲座,以及最终项目和演示的截止日期。也可以邀请撰写了一些论文的客座讲师。

  • 00:50:00 在本节中,演讲者介绍了课程可用的资源和支持,包括指导和反馈实验室。他们还分享了一项介绍性调查的结果,揭示了参加该课程的学生的不同背景,其中大多数来自专业 6 和 20。演讲者花了大约 10 分钟介绍了一些机器学习主题和生物学将在当然,强调了深度学习及其各种应用的重要性。他们还解释了人工智能、深度学习和机器学习之间的区别。

  • 00:55:00 在本节中,讲师讨论了传统人工智能 (AI) 方法与深度学习之间的差异。传统人工智能依靠人类专家编写规则和评分函数,而深度学习旨在在没有明确的人类指导的情况下自行学习直觉和规则。讲师以国际象棋为例来说明这些差异,并指出深度学习通过使机器能够在自然场景和现实世界等复杂环境中导航,从而彻底改变了人工智能。讲师将训练数据、计算能力和新算法的融合确定为深度学习的三个关键支柱,并解释了机器基于可观察的刺激来构建场景的内部表示。

  • 01:00:00 在本节中,演讲者解释说,机器学习和深度学习涉及通过分析观察结果和数据来构建对世界复杂性的表征。传统机器学习使用简单表示,而深度学习使用分层表示。生成模型允许人们在给定世界的隐藏状态的情况下表达事件的前向概率,而贝叶斯规则允许人们估计它是给定观察的特定季节的后验概率。这涉及通过可能性和先验概率的乘积,从给定假设的数据概率到给定数据的假设概率。数据的边际概率用于对所有假设求和以获得数据的总体概率。

  • 01:05:00 在本节中,演讲者解释了贝叶斯推理的概念及其在经典和深度机器学习中的作用。贝叶斯推理涉及为世界建立一个生成模型,然后对该模型进行推理,这在存在某些点的标签的监督学习中特别有用,并且可以实现基于特征的对象分类。在传统机器学习中,主要任务是特征工程,或从数据集中选择正确的特征,而在深度学习中,特征是自动学习的。聚类是一种无监督学习的形式,可以学习和表示数据集,贝叶斯推理可以用于迭代估计数据集生成模型的参数,以改善数据的特征。

  • 01:10:00 在视频的这一部分,讲师讨论了生成式学习方法和判别式学习方法之间的差异,强调了判别式学习如何专注于学习数据元素之间的最佳分隔符,而不是试图捕获数据的整个分布。该讲座还涉及支持向量机、分类性能和线性代数对于理解跨生物系统网络的强大功能。讲师指出,该课程将侧重于深度学习,特别是通过层构建简单且更抽象的特征,以对世界上的各种对象和概念进行分类。最后,讲座强调并非所有学习都是深度学习,并回顾了人工智能和机器学习的历史方法。

  • 01:15:00 在本节中,演讲者讨论了人脑如何使用学习抽象推理层的神经元层来处理图像和识别对象。他将此过程与深度学习和人工智能中使用的神经网络架构进行了比较,后者已从生物空间移植到计算空间。该课程将涵盖深度学习中的各种主题,包括正则化、避免过度拟合、训练集和测试集。演讲者还提到了用于将表示限制为更简单的表示的自动编码器,以及用作无监督方法的监督算法。此外,他欢迎与会者参加课程,并强调课程生物学方面的重要性。

  • 01:20:00 在本节中,演讲者解决了与人工神经元和深度网络的可解释性相关的几个问题,这些问题将在以后的讲座中详细介绍。他们还提醒学生填写他们的个人资料并上传他们的视频介绍。
 

机器学习基础 - 第 02 讲(2021 年春季)



机器学习基础 - 生命科学中的深度学习讲座 02(2021 年春季)

本讲座涵盖机器学习的基础,介绍训练和测试集等概念、判别和生成等模型类型、评估损失函数、正则化和过度拟合以及神经网络。讲师继续解释超参数的重要性,评估生命科学的准确性,相关性测试以及模型测试的概率计算。最后,讨论了深度神经网络的基础知识和神经元的结构,强调了非线性在学习复杂函数中的作用。

在讲座的第二部分,解释了深度学习中激活函数的概念,以及调整权重以匹配输出函数的学习过程使用偏导数调整权重更新以最小化误差,这是梯度的基础基于学习。引入反向传播的概念作为一种通过神经网络传播导数以调整权重的方法。讨论了在多层深度学习模型中优化权重的各种方法,包括随机梯度下降和模型容量的概念以及 VC 维度。还讨论了模型在图上的容量的有效性以及偏差和方差,以及各种正则化技术,例如早期停止和权重衰减。强调找到复杂性的正确平衡的重要性,并鼓励学生积极地向同学介绍自己。

  • 00:00:00 在本节中,讲师介绍了机器学习的基础及其定义。机器学习是将经验转化为专业知识或知识的过程,它使用计算方法使用数据中未发现的模式准确预测未来结果。机器学习的目标是开发可以自动检测数据模式并使用它们对输出做出良好预测的方法。讲师还解释了训练集的概念,用于拟合模型参数和架构,以及测试集,用于评估模型的性能和泛化能力。最后,讲师谈到了正则化在控制参数和模型复杂性以避免过度拟合方面的重要性。

  • 00:05:00 在这节课中,讲师介绍了机器学习中使用的不同类型的对象,例如标量、向量、矩阵和张量。输入空间被定义为这些对象的单个示例,其中特定数据集与特定索引和特征一起使用。还引入了标签空间,预测标签表示为 y hat。机器学习的目标是评估从输入数据中提取的特征,并使用将输入转换为输出的函数计算输出结果。讲师还解释了训练集和测试集之间的区别,以及该函数如何接收输入参数并使用权重向量和偏差计算输出。

  • 00:10:00 在本节中,演讲者解释了在没有轴的情况下如何使用权重和偏差来优化线性函数的输出。变换函数可以看作是世界的模型,它对世界进行推理和分类。有两种类型的模型——区分两个类别的判别模型,以及试图对多个类别的联合分布建模的生成模型。线性回归只是机器学习的一种类型,回归是除分类之外的常见任务。

  • 00:15:00 在本节中,讲师讨论了不同类型的机器学习,包括监督学习、半监督学习、无监督学习和强化学习。重点是监督学习和各种类型的输出,例如多元回归、二元和多类分类以及多标签分类。讲师还谈到了目标函数,它用于在训练过程中优化机器学习模型,可以是损失函数、成本函数或误差函数的形式。介绍了不同类型的损失函数,包括零一损失、交叉熵损失和铰链损失,讲座最后讨论了回归的均方误差和平均绝对误差。

  • 00:20:00 在本节中,讲师介绍了 L1 和 L2 正则化的概念,它们分别是偏离预测值的线性和二次惩罚。他们讨论了如何使用这些来惩罚远异常值并通过对参数分配约束来避免过度拟合。然后,讲师探讨了分类任务的不同损失函数,例如二元交叉熵损失,它通过值出现的概率来衡量一切,以及分类交叉熵损失,它使用基于信息的方法。此外,他们还涉及用于将数据映射到 0 到 1 范围的 soft max 函数。这些概念都会影响贝叶斯设置中的最大似然估计和后验概率。

  • 00:25:00 在本节中,讲座解释了在整个班级中使用特定公式的输出,如果它属于指定班级则为 1,否则为 0。本讲座还讨论了问题的结构,包括输入数据、权重和偏置项。优化器是基于权重之间的差异构建的,这些权重使用损失函数进行训练,例如均方误差或平均绝对误差。本讲座还介绍了风险的概念,它解释了与特定预测相关的成本,并解释了如何使用风险来优化目标函数。然后讲座描述了如何根据损失函数更新权重以及如何使用训练和测试集来评估模型。

  • 00:30:00 本节讲师讲解机器学习中过拟合和欠拟合的概念。他描述了随着训练集的改进,模型如何在预测验证集中的数据方面变得更好。然而,在某个点之后,模型开始过度拟合训练集,并且验证集上的错误开始增加。因此,讲师强调了将数据拆分为训练集、验证集和测试集的重要性,验证集用于调整超参数,测试集用于评估完全训练模型的性能。

  • 00:35:00 在本节中,演讲者讨论了如何在生命科学的背景下评估机器学习模型的准确性。他们解释了不同的评估方法,例如真正的积极力量,它侧重于真正的积极和真正的消极,以及错误的积极和错误的消极。演讲者还讨论了其他评估技术,例如精确度、特异性、召回率和准确性,以及考虑数据集平衡的重要性。然后,他们介绍了接受者操作特征 (ROC) 曲线以及它如何帮助评估分类器的灵敏度和特异性权衡。此外,对于某些回归设置的非常不平衡的数据集,提到了精度召回曲线作为更好的选择。这两条曲线是互补的,并且捕捉模型性能的不同方面。

  • 00:40:00 在本节中,演讲者讨论了相关性的概念以及如何使用它来评估回归预测变量。他们解释说,相关性衡量的是预测值与实际值之间的关系,并且存在不同类型的相关性检验,例如 Pearson 相关性和 Spearman 等级相关性。演讲者还提到了相关性测试的重要性以及如何使用它们来评估预测器的准确性。他们解释了如何使用学生 t 分布和二项式检验等统计检验来确定获得特定相关值的概率以及它是否显着偏离预期值。

  • 00:45:00 在本节中,演讲者讨论了分类器随机做出正确选择的概率,方法是使用超几何分布计算 k 个观测值偶然被正确分类的概率。他还强调,如果你正在检验多个假设,你需要调整 null 的概率,可以使用严格的 Bonferroni 校正或不太严格的 Benjamin Hofberg 校正来调整你的阈值。演讲者警告说,几乎在任何有足够数据的地方发现相关性都是危险的,并强调缺乏相关性并不意味着缺乏关系。在演讲者继续讨论神经网络之前,本节以休息结束。

  • 00:50:00 在讲座的这一部分,讲师介绍了深度神经网络的概念及其在学习抽象层次结构中的根源。讲师描述了网络的层,从输入层开始,逐步通过学习越来越复杂的特征的几个隐藏层。简要提到了卷积滤波器的概念,但将在后面的讲座中更深入地介绍。讲师还指出,这些网络的灵感来自人脑神经元的生物结构。

  • 00:55:00 在本节中,讲师解释了深度学习神经网络的基础知识。他将神经元的结构描述为一种计算结构,它接收加权输入,超过阈值,然后将相同的输出发送给它的后代。神经网络中的学习嵌入在这些权重中,计算的函数是基于接收到的输入的转换概率。讲师强调,当神经网络超越线性函数并引入几乎可以学习任何函数的非线性时,它们就会变得强大。最初的非线性是 sigmoid 单元,代表一个神经元要么在 1 处放电,要么在超过阈值之前保持在 0 处。除此之外,还引入了 soft plus 单元来逼近更复杂的函数。

  • 01:00:00 在讲座的这一部分,演讲者解释了深度学习中激活函数的概念,以及它们如何帮助神经元激发响应输入。他介绍了各种激活函数,例如 soft plus、sigmoid 和整流线性单元 (ReLU) 等。演讲者还讨论了调整权重以匹配输出函数的学习过程,以及偏导数在调整权重更新以最小化误差方面的作用。他解释说,这是基于梯度的学习的基础。

  • 01:05:00 在讲座的这一部分中,引入了反向传播的概念,作为一种通过神经网络传播导数以调整权重的方法。链式法则用于计算每一层的导数作为前一层的函数,允许在每一层进行调整。可以在此过程中添加额外的附加功能,例如用于调整梯度的学习率、用于防止大权重的权重衰减以及考虑前一时间步长的增量以确定所需变化的方向和数量。

  • 01:10:00 在本节中,演讲者解释了在多层深度学习模型中优化权重的不同方法。这些方法包括使用链式法则计算输出相对于每个权重的导数,以及随机梯度下降随机抽取训练数据的子集以更新权重。此外,演讲者还讨论了模型容量和 VC 维度的概念,VC 维度描述了基于深度学习模型的参数和它可以计算的函数类型的整体建模能力。非参数模型的容量由训练集的大小定义。

  • 01:15:00 本节介绍k近邻的概念及其泛化性。虽然 k 最近邻是一种很好的基线方法,但它的泛化能力可能很差,因为它没有学习分离数据集的函数,因此很难在以前看不见的输入上表现良好。还讨论了模型容量在图表上的有效性,其中 x 轴显示参数或维度的有效数量,增加此数量可能会导致与数据更好的匹配,但泛化误差更高。还介绍了偏差或与给定数据的匹配程度,以及方差或与未来数据集的匹配程度。最后,可以通过权衡参数正则化和模型复杂性正则化来对模型进行正则化,这可以通过比较具有不同神经元复杂程度的数据集来证明。

  • 01:20:00 在讲座的这一部分,讲师讨论了向神经网络添加正则化的各种技术,例如提前停止、权重衰减、添加噪声作为正则化项和贝叶斯先验。还讨论了容量的概念,它取决于激活函数和权重的数量。讲师强调,更多层、更宽层和更多连接之间的权衡是一门艺术而不是理论,并且必须在复杂性之间取得适当的平衡。讲师鼓励学生积极地向同学介绍自己,并花时间见面并了解他们的个人资料和视频。
 

CNNs 卷积神经网络 - 第 03 讲(2021 年春季)



CNNs 卷积神经网络 - 生命科学中的深度学习 - 第 03 讲(2021 年春季)

该视频讲座涵盖生命科学深度学习中的卷积神经网络 (CNN) 主题。演讲者讨论了视觉皮层的原理及其与 CNN 的关系,包括人类和动物视觉系统的构建块,例如求和和加权的基本构建块以及神经元的偏置激活阈值。他们解释说,CNN 使用专门的神经元进行低级检测操作,使用隐藏单元层进行抽象概念学习。该讲座还涵盖了卷积层和池化层的作用、使用多个过滤器提取多个特征以及迁移学习的概念。最后,还讨论了非线性和使用填充来解决卷积中的边缘情况。总的来说,讲座强调了 CNN 在各种生命科学应用中的力量和潜力。

讲座的第二部分涵盖了与卷积神经网络 (CNN) 相关的各种概念。在演讲中,演讲者谈到了在 CNN 中保持输入大小的重要性、数据增强作为实现变换不变性的一种手段,以及不同的 CNN 架构及其应用。该讲座还涵盖了与深度 CNN 学习相关的挑战、超参数及其对整体性能的影响,以及超参数调整方法。演讲者强调了理解 CNN 背后基本原理的重要性,并强调了它们作为一种适用于多种环境的技术的多功能性。

  • 00:00:00 在本节中,演讲者介绍了卷积神经网络 (CNN) 的主题,并强调了它们在各个领域的深度学习中的重要性。演讲者认为 6s191 课程和 Tess Fernandez 的 Coursera 笔记是学习 CNN 的重要资源。演讲者解释了 CNN 如何受到人类大脑自身神经网络的启发,以及 50 年代和 60 年代对动物视觉皮层的神经科学研究结果。演讲者接着解释了神经科学基础研究发现的一些关键原则,包括只有有限感受野和细胞对直角边缘做出反应的概念。这些概念构成了当今使用的卷积滤波器和 CNN 的基础。

  • 00:05:00 在本节中,演讲者讨论了视觉皮层的原理以及它们与卷积神经网络 (CNN) 的关系。视觉皮层包含简单的原始操作,如边缘检测,这些操作由单个神经元构成,检测不同位置的明暗并对该信号进行阈值处理。存在对检测到的边缘或对象的位置不变的高阶神经元,这导致了 CNN 池化层中位置不变性的概念。演讲者还讨论了人类和动物视觉系统的构建模块,其中包含在神经网络中发现的类似原理,例如求和和加权的基本构建模块以及神经元的偏置激活阈值。

  • 00:10:00 在讲座的这一部分,演讲者讨论了神经元中的激活函数,它根据高于特定阈值的输入确定神经元是否激活。这个过程的非线性允许学习更复杂的函数,因为线性信息的线性变换仍然是线性变换。神经元连接到具有涌现特性并允许学习和记忆的网络中。人脑非常强大,包含 860 亿个神经元和千万亿个连接,这些连接被组织成简单、庞大和深层的网络,可以抽象和识别边缘和线条等复杂概念。给出了一个示例,说明如何根据响应亮区和暗区的正信号和负信号在较低级别的神经元上创建边缘检测器。

  • 00:15:00 在本节中,演讲者解释了大脑中的神经连接如何检测非常基本的线性和圆形基元,例如边缘和条形,并使用它们来感知颜色、曲率和方向等更复杂的特征。大脑视觉皮层的较高层对应于深度学习中的抽象层,它从更简单的部分构建复杂的概念。大脑的可塑性还允许它利用大脑的不同部分来感知相应的信号,动物实验表明大脑中的回路是可以互换的,并且可以在受伤时重新布线。此外,演讲者还指出了人类大脑和小鼠大脑之间的巨大差异,以及哺乳动物(尤其是灵长类动物)新皮质的扩张如何导致更高水平的抽象和社交智能。

  • 00:20:00 在本节中,讲师解释了神经网络如何能够学习非常适合我们所居住的物理世界的大量函数,尽管无法学习所有数学函数。该讲座还探讨了视觉错觉如何揭示大脑内部进行的计算的基元和构建块,深度学习可以利用这些来创造体验,比如看到一个人变成一个可怕的动物组合。然后讲座继续讨论卷积神经网络的关键组成部分,例如局部性和卷积滤波器的计算,它们是在本地而不是在完全连接的网络中计算的。

  • 00:25:00 在关于生命科学中的 CNN 和深度学习的讲座的这一部分,演讲者讨论了卷积神经网络的几个关键特征。这些包括使用执行低级检测操作的专门神经元,从更简单的部分学习抽象概念的隐藏单元层,引入非线性的激活函数,用于位置不变性和减少计算时间的池化层,多个过滤器捕获原始图像的不同方面,以及限制单个隐藏单元权重以进行正则化的方法。这些功能对于构建可以学习和识别复杂图像或基因组数据中的模式的有效 CNN 都很重要。

  • 00:30:00 在本节中,讲师解释说,人脑还使用各种机制来加强有用的连接,同时限制对特定任务的任何单一连接的过度依赖。他提到了随着时间的推移减少神经元放电和使用强化学习来改善运动任务的例子。他还将人脑中的这些原始学习机制与卷积神经网络中使用的反向传播算法相提并论。讲师鼓励学生超越当前架构进行思考,并考虑可以从单个基元派生的新计算架构。最后,他解决了聊天中的一个问题,即如何考虑在完全连接的网络中需要或不需要局部性的应用程序。

  • 00:35:00 在本节中,演讲者讨论了深度神经网络的两个部分:表示学习和分类。通过分层学习,像素组合变成特征提取,然后进行特征检测。这使得网络能够通过反向传播和特征提取这两个任务的耦合来学习复杂的非线性函数。演讲者提到这种范式非常强大,并且可以跨不同的应用领域进行推广。该领域仍处于起步阶段,有很大的创造力和探索空间,特别是在基因组学、生物学、神经科学、成像和电子健康记录方面。因此,这些应用领域可以推动新架构的开发,这些架构可能对不同领域的数据科学具有广泛的适用性。

  • 00:40:00 在本节中,演讲者解释了卷积神经网络的概念以及卷积在利用空间结构、执行局部计算以及在整个图像中共享参数方面的作用。通过对图像的每个补丁应用过滤器或内核,卷积用于计算特征图,告诉我们图像的每个补丁中存在多少特征,从而有效地进行特征提取。演讲者强调使用多个过滤器来提取多个特征,例如边缘和胡须,并在空间上共享每个过滤器的参数以从更少的参数中学习。

  • 00:45:00 在关于 CNN 的这一部分,演讲者解释说,每个特征提取过程(例如边缘检测)的参数是共享的,并且会立即应用于整个图像。隐藏层中的每个神经元都从补丁中获取输入,计算加权和,并应用偏置以使用非线性函数激活。卷积滤波器用于从图像中提取特征并学习表征,这些表征可以通过特定于任务的滤波器进行学习。不同的物种从一开始就进化出了硬编码的卷积滤波器,这些滤波器可以重复用于最有帮助的任务。

  • 00:50:00 在这一节中,讲师讲述了通过卷积神经网络学习过滤器的过程,它从图像中提取共同特征并为不同的任务识别特定特征。虽然某些过滤器是硬编码的,例如特定于特定物种的过滤器,但其他过滤器(如边缘和面部检测)对各种应用程序都有帮助。讨论了迁移学习的概念,其中可以将以前的卷积过滤器应用于新数据,以在重新训练新功能之前预学习中间和高级表示。从低级到高级的特征层次结构根据手头的分类任务进行调整。讲师还解释说,卷积是指将一种事物扭曲成另一种事物的效果,之后使用非线性进行检测。

  • 00:55:00 在本节中,演讲者讨论了非线性的概念,以及它们如何通过在观察到特定特征之前引入静默来进行检测。他们还讨论了池化层的使用,池化层在特定部分找到最大值并减小表示的大小,使某些检测到的特征更加稳健。然后全连接层学习更复杂的函数并捕获从网络中提取的特征组合,最终允许分类。演讲者还谈到了卷积中的边缘情况,以及如何在卷积之前用零填充图像来解决这个问题。

  • 01:00:00 在本节中,演讲者讨论了在卷积神经网络中保持输入大小的重要性以及实现此目的的不同方法,包括零填充和扩张卷积。引入数据增强的概念作为实现现实世界中变换不变性的一种方式,例如方向或形状的变化。通过首先转换图像,网络可以学习识别物体,而不管它们的位置或方向。演讲者强调了自下而上学习数百万个特征并转换图像以实现不变性的重要性。

  • 01:05:00 在本节中,演讲者总结了讲座前面几节中讨论的概念,包括局部性、过滤器和特征、激活函数、池化和多模态。然后,他展示了一个深度卷积神经网络的示例,该网络由 RGB 图像的输入体积组成,然后是 20 个步幅为 2 的滤波器,从而创建了一个体积为 10 的体积。演讲者强调,计算出的滤波器数量创建了一个相应的体积,它在网络的每一层都发生变化。他还演示了如何使用 Keras 引擎在 TensorFlow 中实现这些概念以进行深度学习,包括不同的过滤器大小、激活函数、池化和步幅大小。

  • 01:10:00 在本节中,演讲者讨论了卷积神经网络的不同架构及其应用,从用于文档识别的 LeNet-5 开始,它帮助建立了一系列卷积滤波器、子采样和构成构成的全连接层今天的 CNN。演讲者解释说,CNN 的训练是一门艺术,因为它需要更多的训练数据,因为参数和层数更多。还强调了规范化在训练中的重要性,因为不对称数据会影响模型的性能。总的来说,演讲者强调了 CNN 能够以自然而有效的方式完成分类任务。

  • 01:15:00 在本节中,讲师讨论了与深度卷积神经网络学习相关的几个挑战。挑战之一是梯度消失或爆炸,这可以通过仔细选择初始值和规范化数据来缓解。讲师还解释了如何选择批量大小,您可以在整个数据集上训练或使用小批量,并讨论不同的训练技术,例如 RMS prop 和模拟退火。本讲座还涵盖了超参数,即架构和训练参数,以及它们对整体性能的影响。最后,讲师介绍了两种超参数调整方法、网格搜索和随机搜索,并讨论了它们的优缺点。

  • 01:20:00 在本节中,演讲者强调了卷积神经网络背后基本原理的重要性,而不是专注于物流和传统方法。该讲座涵盖了 CNN 的主要特征,包括卷积、学习表示、检测、非线性和池化层。演讲者还强调了使训练对小扰动不变和解决不同类型架构的实际问题。此外,该课程将在以后的课程中讨论训练模型的艺术。总的来说,讲座将 CNN 介绍为一种适用于多种设置的极其通用的技术。
 

递归神经网络 RNN、图神经网络 GNN、长短期记忆 LSTM - 第 4 讲(2021 年春季)



递归神经网络 RNN、图形神经网络 GNN、长短期记忆 LSTM

该视频涵盖了一系列主题,从循环神经网络 (RNN) 及其编码时间上下文的能力开始,这对序列学习至关重要。演讲者介绍了隐马尔可夫模型的概念及其局限性,从而引发了对长短期记忆 (LSTM) 模块作为处理长序列的强大方法的讨论。该视频还讨论了 transformer 模块,该模块无需展开或使用 RNN 即可学习时间关系。介绍了图神经网络,及其在解决经典网络问题和计算生物学中的潜在应用。演讲最后讨论了图神经网络的研究前沿,例如它们在退化图模型和潜在图推理中的应用。

视频的第二部分讨论了递归神经网络 (RNN)、图形神经网络 (GNN) 和长短期记忆 (LSTM) 模块。它解释了传统的前馈神经网络在处理基于图的数据时有何局限性,但 GNN 可以处理范围广泛的不变性并在图中传播信息。演讲者还讨论了图卷积网络 (GCN) 及其优势和挑战。此外,该视频还描述了注意力功能在使 GNN 更加强大和灵活方面的重要性。

  • 00:00:00 在本节中,讲师介绍了课程中将涉及的主题,包括递归神经网络和长短期记忆模块。讲师讨论了机器如何使用隐马尔可夫模型和递归神经网络来理解上下文和注意力以及对时间上下文进行编码。本讲座还介绍了如何通过使用记忆模块来避免梯度消失,并介绍了可以在不展开序列的情况下学习时间关系的 Transformer 模块。该讲座还涉及图神经网络以及它们如何使用图连接模式来指导训练。讲师随后讨论了人脑阅读和理解上下文的能力,并介绍了基于上下文的音位恢复和填充缺失单词的示例。

  • 00:05:00 在视频的这一部分,演讲者讨论了大脑如何通过预测接下来会发生什么来处理语言和声音,这是理解的基础。在将机器学习应用于序列时,循环神经网络用于对时间上下文进行编码,以便将输入序列转换为存在于不同域中的输出序列,例如将声压序列转换为单词标识序列。演讲者还举例说明了与听觉和视觉上下文信息相关的认知效应,例如麦格克效应和延迟听觉反馈,并解释了它们的工作原理。

  • 00:10:00 在视频的这一部分,演讲者讨论了使用序列预测模型了解世界的力量。通过预测序列中的下一项,可以将无监督学习过程转变为有监督学习过程。这允许使用专为监督学习而设计的方法,而无需注释。演讲者解释说,可以学习一个通用函数并将其应用于整个序列,从而预测未来事件。通过结合隐藏节点和内部动力学,可以构建更复杂的模型,并可以长期存储信息。演讲者描述了如何推断隐藏状态向量的概率分布,以及如何通过向当前隐藏节点提供信息来使用输入直接或间接驱动隐藏节点。

  • 00:15:00 在本节中,演讲者讨论了隐马尔可夫模型 (HMM) 及其局限性。 HMM 有两种类型的参数:发射矩阵表示在给定隐藏状态的情况下观察到每个输出的概率,以及表示在给定当前隐藏状态的情况下转移到另一个隐藏状态的概率的转移矩阵。然而,在每个时间步,只能选择一个隐藏状态,并且对于 n 个状态,只能记住 log n 位信息。要编码更多的先前信息,将需要大量的状态。此限制由允许对信息进行显式编码的递归神经网络 (RNN) 解决。

  • 00:20:00 在本节中,我们将了解递归神经网络 (RNN) 的属性,它使我们能够使用分布式隐藏状态有效地存储大量信息,并通过非线性动态以更复杂的方式进行更新。线性动力系统或隐马尔可夫模型 (HMM) 中隐藏状态的后验概率分布是随机的,而 RNN 的隐藏状态是确定性的。与本质上随机的 HMM 或线性动态系统不同,RNN 可以具有各种行为,例如振荡或行为混乱,从而允许做出不可预测的决策。当时间展开时,前馈网络和 RNN 是相同的,使其等同于具有无限数量堆栈的前馈网络,具有相同的共享权重用于计算网络中的每个字符。

  • 00:25:00 在本节中,演讲者解释了可用于递归神经网络 (RNN) 的特定架构以及如何使用反向传播对其进行训练。一种方法是将输入馈送到隐藏单元,然后在整个序列之后有一个输出。另一种方法是在每个时间步都有一个输出预测,允许信息在隐藏单元之间流动并实现输出变量的预测。可以使用相同的反向传播算法来更新这些架构的权重。演讲者强调,权重在网络的不同层级之间共享,这样可以提高学习效率。

  • 00:30:00 在本节中,演讲者讨论了递归神经网络 (RNN) 中时间反向传播的概念,以及它如何允许对先前时间步长的记忆进行编码。他们解释说,这可以通过将前一个时间步长的输出流到当前隐藏单元或在训练期间将前一个话语的正确输出标签提供给当前模型来实现。训练过程涉及对每个权重求损失函数的导数,并使用它来更新线性约束下的权重。演讲者指出,虽然 RNN 可能看起来很复杂,但它们可以使用与其他神经网络相同的程序进行训练。

  • 00:35:00 在本节中,演讲者讨论了使用机器学习工具建模序列的概念以及如何处理长序列。他解释说,在翻译句子或转录口语等情况下,输入序列需要转换为输出序列。然而,当没有单独的目标序列时,可以通过尝试预测输入序列的下一项来获得教学信号。这种方法的挑战出现在处理非常长的序列时,其中特定单词的影响会随着时间的推移而衰减。为了解决这个问题,演讲者解释了各种方法,例如回声状态网络和动量的利用,但强调长短期记忆模块是最强大的方法。这些模块使用具有乘法交互作用的逻辑和线性单元来设计可以记住数百个时间步的值的存储单元。

  • 00:40:00 在本节中,演讲者解释了长短期记忆 (LSTM) 神经网络中模拟记忆单元的概念。记忆单元是一个具有自链接的线性单元,其权重为 1,确保信息保持不变且不会因任何类型的权重衰减而稀释。细胞由维持回音室的门控制,信息在回音室中不断重复,直到需要它,网络决定何时记住或忘记一条信息。读取和保持门的激活分别允许检索和维护信息。网络被赋予记忆、遗忘、存储和检索记忆的能力,并决定何时有助于记住或忘记特定信息。这些门的实现允许在递归神经网络中长时间保存信息。

  • 00:45:00 在本节中,演讲者讨论了循环神经网络 (RNN) 在阅读草书手写体中的应用。 2009 年,发现具有长短期记忆模块的 RNN 是完成此任务的最佳系统。使用一系列小图像代替笔坐标来训练网络。演讲者展示了在线手写识别的演示,其中随着时间的推移从手写中推断出字符,并访问每个字符的后验概率。维持系统的状态,不同的点获得不同的权重。演讲者解释了字符是如何学习的以及系统的哪些部分很重要。演讲者还讨论了 RNN 的隐藏单元和输出单元的初始化,以及如何将它们的初始状态视为学习参数而不是对它们进行显式编码。

  • 00:50:00 在本节中,视频介绍了神经网络中的一种新发展,称为变换器模块,它可以在不展开且不使用递归神经网络的情况下学习时间关系。 transformer 模块使用带有位置编码的输入来指示网络在序列中的位置,而无需随时间展开网络。编码器将输出嵌入相对于输入移动一个以预测句子中的下一个项目,而注意模块确定句子中最重要的点。该模块使用序列中一个词的查询表示、序列中所有词的键表示和序列中所有词的值表示来实现时间关系。

  • 00:55:00 在本节中,演讲者讨论了 Transformer,这是一种神经网络,可用于序列翻译或任何类型的顺序任务。它在产生每个单词时,每次都对整个句子的上下文信息进行编码,并且连续单词之间的关系被编码在这种输入输出关系中,它被移位了一个。演讲者还介绍了图神经网络并描述了它们如何用于解决经典网络问题,以及在计算生物学中的潜在应用。演讲最后讨论了图神经网络的研究前沿,例如它们在退化图模型和潜在图推理中的应用。

  • 01:00:00 在本节中,演讲者讨论了在图像等网格结构数据上使用卷积神经网络 (CNN) 的优势,以及在社交网络等非网格数据上使用图神经网络 (GNN) 的潜力,大脑连接图和化学分子。演讲者还讨论了 GNN 中可能存在的三种不同类型的特征:节点特征、边特征和图级特征。此外,演讲者强调了使用全连接网络进行图形预测的问题,包括参数数量随节点数量缩放,这使得它在许多情况下不切实际。

  • 01:05:00 在本节中,演讲者讨论了将传统前馈神经网络用于基于图形的数据的一些局限性,包括图形大小问题和节点排序缺乏不变性。然后,他们引入了图神经网络 (GNN),它可以处理广泛的不变性并在图中传播信息以计算节点特征并进行下游预测。 GNN 的基本公式涉及从节点周围的邻域中采样信息,并根据此信息更新节点的表示。演讲者指出,此过程类似于图像数据的卷积神经网络 (CNN) 中使用的过程。

  • 01:10:00 在本节中,演讲者讨论了双层图神经网络的概念以及它们如何针对图中的不同节点进行更新。他们解释说,图神经网络不同于其他类型的网络,因为它们整体上允许更多信息,而不仅仅是输入空间不同部分之间的高阶交互。演讲者还谈到了图卷积网络 (GCN) 以及它们如何考虑无向图,以及将权重矩阵应用于节点邻居的每个隐藏表示的更新规则。还讨论了图神经网络的可扩展性,建议对节点更新的贡献者数量进行二次采样,以防止网络崩溃。

  • 01:15:00 在本节中,演讲者解释了图神经网络 (GNN),这是一种用于图数据的神经网络。 GNN 比完全连接的网络对权重的依赖性更小,并且对排列不变,允许在大图上进行分类。 GNN 间接支持边缘特征,一种适应方法是使用边缘嵌入来完全通过网络传递消息。演讲者以引文网络为例,解释了更新机制在 GNN 中的工作原理。

  • 01:20:00 在视频的这一部分,演讲者解释了图形神经网络如何用于边到顶点的更新,以及注意力功能如何在使网络灵活和强大方面发挥重要作用。 GNN 边到顶点更新的目标是获取其中一条边的状态,这可以通过对事件节点的表示进行聚合并应用特定于边更新的非线性函数来实现。同样,顶点更新涉及来自节点入射边的信息。然而,基于边的激活变得巨大,使得处理大图变得棘手。注意力函数提供了一种显式向量表示,不包括所有边的信息,从而降低了模型的计算要求,同时仍保持其灵活性和功能。演讲者描述了注意力分数如何显示每个邻居对中央节点更新的贡献程度,从而可以推断出某种关系或贡献属性。

  • 01:25:00 在本节中,演讲者讨论图卷积网络 (GCN) 及其优势和挑战。 GCN 允许在整个图中应用多个层,并且每个更新都具有相同的形式。它们对于节点分类、图形分类和链接预测很有用。然而,由于整个图中的并行更新,仍然存在优化问题,并且可能需要修复归一化常数以避免不稳定。此外,与图注意力网络 (GAT) 等其他方法相比,GCN 可能会遇到表现力问题。尽管如此,GCN 仍然比需要边缘嵌入或神经消息传递的方法更快。

  • 01:30:00 在本节中,演讲者讨论了图神经网络 (GNN),这是一种可应用于图或数据网络的模型。 GNN 涉及计算图中任意两个节点的表示之间的点积,应用非线性函数(例如 sigmoid),然后生成该边存在的概率。 GNN 还支持在生物学中的基因相互作用等领域进行预测建模。演讲者总结了所讨论的各种类型的网络,包括卷积神经网络 (CNN)、递归神经网络 (RNN)、长短期记忆模块和 Transformer 模块。
 

可解释的深度学习 - 生命科学中的深度学习 - 讲座 05(2021 年春季)



可解释的深度学习 - 生命科学中的深度学习 - 讲座 05(2021 年春季)

该视频讨论了深度学习模型中可解释性的重要性,尤其是在决策可能产生可怕后果的生命科学领域。演讲者解释了两种类型的可解释性:从一开始就将其构建到模型的设计中,以及为已构建的模型开发事后可解释性方法。他们继续探索用于解释模型的不同技术,包括权重可视化、代理模型构建和激活最大化,并讨论了理解模型内部表示的重要性。讲师还解释了几种解释个人决策的方法,例如基于示例的方法和归因方法。此外,演讲者还讨论了解释复杂概念的挑战和神经网络模型解释的局限性,以及探索与深度学习神经网络中梯度不连续性相关的假设。

在讲座的第二部分,演讲者解决了生命科学领域深度学习模型中梯度不连续和饱和函数的挑战。他们提出了一些方法,例如对多个样本的输入的小扰动进行平均以获得更平滑的梯度,使用随机噪声突出图像分类中的显着特征,以及反卷积神经网络和引导反向传播等反向传播技术来解释基因调控模型。演讲者还讨论了归因方法的定量评估,包括像素翻转程序和删除和替换分数方法。最后,他们强调了深度学习模型中可解释性的必要性以及实现它的各种技术。

  • 00:00:00 在本节中,主持人讨论了深度学习中可解释性的重要性以及实现它的不同方法。他们解释说,虽然深度学习模型可以胜过人类,但重要的是要了解他们如何做出决策以及这些决策是否可信。可解释性有助于调试、发现和为决策提供解释。主持人继续讨论反鹰派和事后解释方法,以及解释模型与决策。然后,他们深入研究解释模型的具体方法,例如权重可视化、构建替代模型、激活最大化和基于示例的模型。最后,演示者讨论了归因方法并通过定性和定量措施评估这些方法的有效性。

  • 00:05:00 在本节中,强调了机器学习中可解释性的重要性,尤其是在生命科学领域,错误的决策可能会导致代价高昂的后果。在不了解其工作原理和原因的情况下构建巨型模型的传统方法已不再足够,相反,必须从黑盒模型中提取可解释的信息。可解释的机器学习提供经过验证的预测,不仅针对泛化误差进行了优化,还针对人类体验进行了优化。了解疾病的物理、生物和化学机制对于更好地培训医生和深入了解人脑的功能非常重要。此外,解释权对于消除由于数百年的歧视而可能在训练数据集中固有的偏见至关重要。

  • 00:10:00 在视频的这一部分,演讲者讨论了深度学习中的两种类型的可解释性:将可解释性构建到模型的设计中,以及通过开发在复杂模型构建后解释复杂模型的特殊技术来构建事后可解释性.他们解释说,深度学习有数百万个参数,因此无法从一开始就构建可解释的模型。因此,重点是开发基于局部程度的事后可解释性技术。演讲者还讨论了在模型和决策层面构建可解释神经网络的方法。

  • 00:15:00 在本节中,演讲者讨论了深度学习的两种可解释模型:解释模型本身的模型和解释决策的模型。决策可以基于归因方法或基于示例的方法。演讲者还谈到了分析表示本身以及从模型生成数据。他们介绍了四种表示分析方法,包括权重可视化、代理模型构建和理解最大化激活单元的输入。最后,演讲者强调了理解模型内部表示的重要性,特别是从模型左半部分提取的层次特征,可以深入了解深度学习模型如何进行推理。

  • 00:20:00 在本节中,讲师讨论了通过查看神经网络的内部工作原理来解释深度学习的想法。他解释说,就像科学家研究猫和猴子的视觉皮层以了解单个神经元如何在不同方向发射一样,我们可以观察神经网络中发射的神经元,以了解网络已经学会识别的原语或特征。然而,由于有数百万个参数和数千个内部节点,不可能将它们中的每一个都可视化。因此,讲师介绍了更简单、更易于解释的代理模型或近似模型的概念。本讲座还涵盖激活最大化,其目标是生成最大化特定神经元激活的数据。

  • 00:25:00 在本节中,演讲者讨论了一个优化问题,该问题涉及最大化给定输入的类后验概率,同时还使用正则化项来确保输出是人类可解释的。他们解释说,简单地基于类概率最大化可能会导致图像没有多大意义,因此需要额外的正则化项来限制输出的可解释性。他们还触及了潜在变量和参数的概念,可以帮助参数化噪声向量并提高解释质量。目标是生成与训练数据更匹配的数据,以便输出类似于类相关模式并且更容易为人类解释。

  • 00:30:00 目标是最大化或最小化某些特征,然后使用这些实例来了解模型如何做出决策。这可以通过可能输入空间内的激活最大化来完成,其中输入被限制为来自类似人类的数据分布。或者,可以使用生成模型从该分布的概率密度函数中采样。通过强制表示在代码空间内,生成的图像更具可解释性,可用于构建更具可解释性的模型。用于构建可解释模型的其他技术包括权重可视化、构建近似输出的代理模型,以及基于示例的解释,其中使用最大化或最小化某些特征的实例来理解模型的决策过程。

  • 00:35:00 在本节中,演讲者讨论了四种不同的解释模型决策的方法,特别是在实际应用方面。第一种方法是基于示例的,它涉及选择被错误分类并接近特定输入的示例,以教模型如何改进。第二种方法是主动归因,它涉及查看特定梯度为何有噪声。第三种方法是具有平滑梯度或内部梯度的基于梯度的归因,最后一种方法是具有卷积和引导黑色传播的基于反向传播的归因。还注意到模型级解释的局限性,特别是在确定解释分类的最佳图像时。

  • 00:40:00 在本节中,演讲者讨论了在寻找代表复杂概念的原型或典型图像(例如摩托车或向日葵)方面解释深度学习模型的挑战。引入基于示例的方法作为识别哪个训练实例对决策影响最大的方法,而不特别强调这些图像的重要特征。该方法旨在根据训练图像对特定图像分类的影响而不是像素接近度来确定最近的训练图像。演讲者还谈到了神经网络模型解释的脆弱性以及影响函数在理解基础学习过程中的使用。

  • 00:45:00 在本节中,演讲者介绍了两种解释深度学习模型的方法。第一种是基于示例的解释,它查看训练集中的单个示例以了解神经网络的决策过程。第二种是归因方法,它为图像中的每个像素分配一个属性值,以确定它对分类决策的贡献程度。这两种方法的目标都是让机器学习可以被人类解释和理解,并识别图像中最显着的特征。通过将属性值可视化为热图,研究人员可以更好地了解深度神经网络如何做出决策以及图像中的哪些像素对该决策负有最大责任。

  • 00:50:00 在本节中,演讲者解释了如何在训练期间使用与反向传播相同的方法来计算图像的显着性。他们不是看相对于权重的导数,而是看相对于像素的导数。然后通过将这些像素视觉归因于图像来计算显着图。然而,这些显着图往往有噪声且不精确。演讲者详细说明了两个假设来解释为什么会出现这种情况:分散的像素对神经网络决策过程很重要,或者梯度可能是不连续的。演讲者随后解释了这些假设如何指导开发解决噪声显着图的方法。

  • 00:55:00 在讲座的这一部分,演讲者讨论了与深度学习神经网络中梯度的不连续性相关的三个假设。第一个假设是正在学习的函数不平滑,随着层数的增加,发射变得极度不连续,导致错误分类。第二个是由于层数和非导数函数导致梯度不连续,导致噪声并允许在分类函数中进行欺骗。第三个假设表明该功能饱和,阻碍了学习任何东西的能力。为了改进这些关于输入的偏导数,讨论的一种可能性是添加噪声以扰动输入并使用扰动输入上的梯度或取多个扰动的平均值以消除噪声梯度。

  • 01:00:00 在本节中,演讲者讨论了由不连续梯度或饱和函数引起的深度学习挑战的解决方案。其中包括改变梯度或反向传播的方法,以及使用多幅图像添加噪声的方法。演讲者还讨论了用于解释基因调控模型的各种归因方法,例如分层相关传播和深度提升。为了解决梯度的不连续性,他们建议通过对许多样本的输入的小扰动进行平均来定义平滑梯度函数,从而有效地平滑梯度函数,使其像浅层网络而不是深层网络一样运行。此外,演讲者解释了向图像添加随机噪声如何有助于证明模型的稳健性并突出图像分类中反复使用的显着特征。

  • 01:05:00 在本节中,讲师讨论了解释生命科学领域深度学习模型的三个假设。第二个假设表明梯度对于任何一个特定图像都是不连续的,但是通过对该图像周围的多个图像进行采样,可以获得更平滑的梯度。第三个假设表明功能饱和,导致极端激活。为了解决这个问题,讲师建议缩小图像,使它们更接近可分配的功能。这是通过用于重新缩放图像像素的内部渐变来完成的。由于整流线性单元中归零值的挑战,还探索了基于背景的方法,例如反卷积神经网络和引导反向传播。

  • 01:10:00 在本节中,演讲者讨论了深度学习中反向传播的挑战以及如何使用反卷积神经网络解决这些挑战。通过将特征模式映射到输入空间并重建图像,反卷积神经网络可以获得有效的特征重建并通过去除负梯度来去除噪声。演讲者还解释了如何使用引导反向传播来组合来自前向和反向传播的信息,以生成代表原始图像的图像。此外,演讲者还讨论了评估这些归因方法的方法,包括基于连贯性和类别敏感性的定性和定量方法。最后,演讲者探讨了不同的归因方法,例如深度提升、显着图和平滑梯度,以及它们在捕获负责特定分类的特定像素方面的有效性。

  • 01:15:00 在本节中,演讲者讨论了深度学习中归因方法的定量评估。目标是评估这些方法是否正确捕获了感兴趣的目标对象并区分了不同的对象类别。演讲者介绍了像素翻转程序以去除具有高属性值的个体特征,并评估分类函数以衡量该方法的灵敏度。 saliency attribution和classification attribution的准确度可以用曲线来衡量,演讲者建议去掉再训练以达到更好的准确度。总体而言,本节讨论了评估深度学习归因方法有效性的定量方法。

  • 01:20:00 在本节中,演讲者解释了如何根据归因方法通过去除特定特征来衡量分类器的性能。 “删除并替换分数”方法涉及替换一定比例的最重要或最不重要的像素,并重新训练深度神经网络以衡量准确性的变化。这为评估解释决策的准确性提供了一个定量指标。演讲者还回顾了可解释性和使用归因方法和激活最大化来解释深度学习模型的不同技术的重要性,以及事后方法的挑战。

  • 01:25:00 在本节中,讲师讨论了如何约束深度学习模型以及使用反向传播、反卷积和引导反向传播发现的最显着特征。还强调了对这些划分方法进行评分的各种方法,包括连贯性、类别敏感性和用于删除具有高属性的特征的定量指标。讲师随后介绍了移除和重新训练方法,其中可以移除、重新训练单个像素,并测量精度的下降。讲座以对涵盖主题的回顾结束,并宣布了即将举行的讲座。
 

生成模型、对抗网络 GAN、变分自动编码器 VAE、表示学习 - 第 6 讲(2021 年春季)



生成模型、对抗网络 GAN、变分自动编码器 VAE、表示学习 - 第 6 讲(2021 年春季)

本视频讨论了机器学习中表示学习的概念,强调了其在分类任务中的重要性以及在开发新架构方面的创新潜力。通过自动编码器和变分自动编码器 (VAE) 等技术,引入了自我监督任务和借口任务作为无需标记数据即可学习表征的方法。演讲者还讨论了生成模型,例如 VAE 和生成对抗网络 (GAN),它们可以通过操纵潜在空间表示来生成新数据。讨论了每种方法的优缺点,强调了它们的有效性和局限性。总体而言,该视频全面概述了机器学习中表示学习和生成模型的不同方法。

该视频探讨了生成对抗网络 (GAN)、变分自动编码器 (VAE) 和生成模型中的表示学习的概念。 GAN 涉及具有相反目标的生成器和鉴别器,并且假样本的训练过程很慢,但分辨率和目标函数的改进可以产生逼真的图像。演讲者演示了 GAN 如何生成结构合理的房间并将一个房间转移到另一个房间。 VAE 明确地模拟密度函数并通过有意义的潜在空间参数捕获真实世界图像的多样性。演讲者鼓励开放架构和模型的创造力和实验,生成模型和表示学习在各个领域的应用是一个快速发展的领域,具有无限的可能性。

  • 00:00:00 在本节中,演讲者讨论了机器学习中表示学习的概念,以及它如何用于卷积神经网络 (CNN) 以了解世界。他们强调,深度学习的真正进步来自 CNN 通过特征提取学习非线性和世界表征的能力。演讲者认为分类任务正在推动特征提取,这就是世界所有知识表示的来源。他们还表明,在开发超越现有架构的各个领域的表示学习新架构方面存在创新潜力。最后,他们断言生成模型最令人兴奋的部分是潜在空间表示而不是标签,并且此类模型可用于学习世界模型而不依赖标签。

  • 00:05:00 在本节中,演讲者讨论了表示学习以及为此目的使用自监督学习。自监督学习涉及使用一部分数据来训练另一部分数据,并欺骗数据成为它自己的监督者。这允许学习可用于生成世界视图的很酷的表示。生成模型的工作原理是向后运行模型,从世界的压缩表示到它的更多示例。表示学习的另一种方法是前置任务,手头的任务只是学习表示的借口。给出的例子是预测自我,这就是自动编码器的全部内容。通过压缩表示并通过夹具将其重新扩展为图像本身的概念非常有意义,以至于可以学习潜在世界的表示。变分自动编码器对方差和分布进行显式建模。

  • 00:10:00 在本节中,演讲者讨论借口任务的概念,它指的是通过网络处理输入信号以学习网络的表示,并使用输入信号创建训练信号,这是一个任务真的很在乎。 pretext tasks 的例子包括预测前后图像,预测去除补丁后图像的剩余像素,以及给黑白图像着色。借口任务的目标是强迫自己学习世界的表征,从而导致有效的监督学习任务。理解这个概念的重要性至关重要,因为它会引出后续的讨论主题,例如自动编码器、变分自动编码器和生成对抗网络。

  • 00:15:00 在本节中,介绍了自我监督学习的概念,作为一种通过构建无需标记数据即可进行学习的借口任务来学习良好表征的方法。 Pretext 任务包括推断图像的结构、转换图像或使用多个图像等。借口任务的一个例子是推断图像块的相对方向,而另一个例子是必须重建原始图像的拼图任务。讨论了每种自监督方法的优缺点,强调了它们的有效性和局限性,例如假设训练图像中的摄影规范方向或有限的外部空间。

  • 00:20:00 在本节中,演讲者解释了借口任务的概念,构建了同一种借口任务的概念并将它们应用于不同的示例,以学习对世界的表征,这将使我们通过实际解决看似复杂的任务学习关于这个世界的一些有趣的事情。其中一个示例包括创建编码器和解码器表示以从未标记的数据中学习低维特征表示,即将无监督学习任务训练为有监督学习任务。目标是强制对数据变化进行有意义的表示,并使用特征来构建编码原始图像的解码版本,损失函数是原始图像和预测图像之间的差异。

  • 00:25:00 在本节中,演讲者解释了如何使用自动编码器来构建世界的表示并通过生成器函数生成图像。自动编码器中的 z 向量可以提供有关世界中不同特征的相对特征和存在的有意义的信息,这些信息可用于生成其他图像。编码器和解码器可以分别用于不同的任务,例如将解码器用作生成模型,将编码器用作特征空间向量进行表示学习。演讲者随后介绍了变分自动编码器 (VAE) 的概念,它是自动编码器的概率旋转,让我们从模型中采样以生成额外的数据。 VAE 从一组标量的多维表示和每个标量的相关方差中学习。通过从潜在空间向量的真实先验中采样,我们可以根据图像的各种属性生成图像。

  • 00:30:00 在本节中,演讲者讨论了生成模型及其通过调整自动编码器中的各种向量来捕捉世界的目标。这些向量最终成为世界的有意义的表示,允许通过改变参数对不同图像进行采样。训练生成模型的策略是通过学习模型参数来最大化训练数据的可能性。演讲者随后介绍了变分自动编码器,它通过对数据的均值和方差进行显式建模来概率地生成模型。通过让编码器提供单个 z 和 z 的方差,说话者能够从两个正态分布中采样并识别物体的不同变化,例如船。

  • 00:35:00 在本节中,演讲者解释了变分自动编码器 (VAE) 的概念及其工作原理。 VAE 由将输入数据映射到潜在空间的编码器网络、从潜在空间生成输出数据的解码器网络以及根据编码器网络学习到的表示生成图像的生成网络组成。演讲者解释说,VAE 损失函数是一个变分下界,它使用解码器网络最大化输入数据的重建和图像先验分布的近似。演讲者还提到 KL 散度项很难处理,但可以将其视为通过梯度下降进行优化的下限。
     
  • 00:40:00 在本节中,演讲者解释了如何使用生成模型(例如变分自动编码器 (VAE))来构建具有有意义特征的世界表示。通过仅使用二维编码图像,VAE 可以捕获所有可能字符的空间并生成可以仅使用二维坐标表示的任何类型的字符。通过对角化 z 的先验,网络正在学习独立的潜在变量,并且 z 的不同维度在良好的特征表示中编码可解释的变异因素。该编码器网络允许用户通过 z 的先验分布生成数据并解码潜在空间,使 VAE 成为表示学习的有用工具。

  • 00:45:00 在本节中,视频讨论了使用变分自动编码器 (VAE) 作为生成模型的一种原则性方法,该方法允许推断给定 x 的潜在空间,这可以作为其他任务的有用表示。但是,VAE 有一些缺点,例如最大化似然的下限,这不如明确评估似然。与生成对抗网络 (GAN) 相比,VAE 生成的样本也更加模糊且质量较低。目前正在进行关于提高 VAE 样本质量的研究,例如使用更灵活的近似值来获得更丰富的后验分布以及将结构纳入潜在变量。该视频还总结了前几节关于生成、无监督学习和潜在空间参数的要点。

  • 00:50:00 在本节中,将讨论生成对抗网络 (GAN) 的概念。 GAN 旨在通过从简单分布(例如随机噪声)中采样并学习转换以从训练集中创建图像来生成复杂的高维图像。该系统由一个生成假图像的生成器网络和一个区分真假图像的鉴别器网络组成。目的是通过愚弄鉴别器来训练生成器创建更逼真的图像,鉴别器在此过程中成为对手。该系统是自我监督的,这意味着不需要手动标记,并且取代了对人类评估员的需要。

  • 00:55:00 在本节中,演讲者解释了生成对抗网络 (GAN) 的概念,它使用最小最大游戏方法来训练生成器和鉴别器网络。鉴别器被训练来确定生成的图像是真实的还是假的,而生成器被训练来创建可以欺骗鉴别器相信它们是真实的图像。通过这个联合似然函数,同时训练两个网络的权重和参数,目的是让鉴别器输出真实图像的分数为 1,假图像的分数为 0。另一方面,生成器旨在通过生成与真实图像无法区分的图像来最小化该分数。

  • 01:00:00 在本节中,解释了生成对抗网络 (GAN) 的概念,其中生成器和鉴别器在类似游戏的场景中具有相反的目标。生成器试图生成假数据来愚弄已经学会正确分类真实数据的判别器。然而,当样本是假的时,训练速度很慢,因此使用了一种技巧,即改变生成器的目标,以最大限度地提高鉴别器对假数据错误的可能性。联合训练这两个网络可能具有挑战性,但逐步增加图像的分辨率可以提高稳定性。 GAN 训练算法涉及在通过提升随机梯度更新鉴别器和使用改进的目标函数更新生成器之间交替进行。

  • 01:05:00 在本节中,视频讨论了生成对抗网络 (GAN) 的概念以及构建生成器网络以创建逼真图像所涉及的训练过程。该视频解释了如何训练鉴别器网络来区分生成的图像和实际图像,以及如何训练生成器网络以将生成图像的质量提高到超越人类表现的程度。该视频进一步解释了如何使用分数阶卷积构建深度卷积架构,以及如何使用 ReLU 和 leaky ReLU 激活函数来获得逼真的图像。该视频展示了使用 GAN 生成结构合理的房间的潜力,并展示了如何通过在潜在空间坐标之间进行插值将一个房间转移到另一个房间。

  • 01:10:00 在本节中,演讲者讨论生成模型,例如 GAN、变分自动编码器 (VAE) 和表征学习。这些模型的目的是通过学习现实世界的基本模式和风格来生成多样化和逼真的样本。演讲者举例说明了这些模型如何能够执行各种图像处理任务,例如放大、领域知识转移和纹理合成。演讲者还强调了这些模型取得的进步,例如 Progressive GANs,它允许生成高分辨率图像,以及 Nvidia 的“此人不存在”网站,它使用大量参数空间来学习正交参数,使不同图像分量的分解。

  • 01:15:00 在本节中,演讲者解释了生成模型的分类,其中可能涉及对显式或隐式密度函数进行建模。生成对抗网络 (GAN) 通过耦合生成器和鉴别器网络隐式地模拟密度函数,而变分自动编码器 (VAE) 则显式地模拟密度函数。深度学习的力量在于表示学习,演讲者鼓励对这个年轻领域的许多开放架构和模型进行创造性和实验。使用借口任务,例如预测自我或填充缺失的补丁,可以帮助学习有意义的世界潜在表征,并转向真正的生成模型,这些模型可以从潜在空间参数的真实分布中采样。

  • 01:20:00 在本节中,演讲者讨论了通过变分自动编码器 (VAE) 中有意义的潜在空间参数捕捉真实世界图像多样性的概念。通过将潜在空间参数限制为正交且彼此不同,生成的图像可能与真人无法区分。此外,演讲者指出,生成模型和表示学习的应用是一个快速发展的领域,在各个领域都有无限的可能性。
 

调控基因组学 - 生命科学中的深度学习 - 第 07 讲(2021 年春季)



调控基因组学 - 生命科学中的深度学习 - 第 07 讲(2021 年春季)

讲座涵盖调控基因组学领域,包括基因调控的生物学基础、调控基因组学的经典方法、使用卷积神经网络的基序发现,以及使用机器学习模型来理解序列如何编码基因调控特性。演讲者解释了调控基序在基因调控中的重要性,以及这些基序的破坏如何导致疾病。他们引入了一种使用卷积神经网络的新模型,该模型将测序读数映射到基因组,并计算两条链上每个碱基对具有多少个五素数末端。该模型可用于不同蛋白质的多个读数,并且可以单独或同时使用多任务模型进行拟合。演讲者还展示了该模型如何分析任何类型的分析,包括基因组数据,使用解释框架揭示有关句法如何影响 TF 协同性的生物学故事。这些模型可以做出通过高分辨率 CRISPR 实验验证的预测。

该视频讨论了深度学习如何通过增强和去噪信号峰值来提高低覆盖率 ATAC-seq 数据的质量。 AttackWorks 是一种深度学习模型,它接收覆盖数据并使用残差神经网络架构来提高信号准确性并识别可访问的染色质位点。演讲者演示了如何使用 AttackWorks 处理低质量数据并提高研究单细胞染色质可及性的分辨率。他们还描述了一项针对造血干细胞的特定实验,该实验使用 ATAC-seq 来识别谱系启动中涉及的特定调控元件。演讲者邀请学生进行实习或合作。

  • 00:00:00 在本节中,讲师介绍调控基因组学领域,并邀请演讲嘉宾讨论有影响力的论文,并为学生提供合作和实习的机会。该讲座是关于基因调控的模块 2 的开始,涵盖了基因调控的生物学基础、调控基因组学的经典方法以及使用卷积神经网络发现基序。该讲座强调了遗传密码的复杂性,允许构建和发展一种自我修复的有机体,从头到脚,身体的各个方面都有错综复杂的相互联系。

  • 00:05:00 在本节中,讨论了细胞的复杂性以及它们如何在没有上下文信息的情况下记住自己的身份。还强调了细胞的调节回路,它基于一组原语和结构,使细胞能够记住基因组每个片段的状态。在结构和功能构建体中包装 DNA 是该过程不可或缺的一部分,使细胞能够在其内部压缩如此多的 DNA。这种包装是通过核小体完成的,核小体是 DNA 串状视图中的小珠子,由四种组蛋白组成,每种都有一个长氨基酸尾巴,可以用不同的组蛋白修饰进行翻译后修饰。这些修饰与额外的表观基因组标记(例如 CPG 二核苷酸)直接作用于 DNA,使细胞能够记住它们的身份。

  • 00:10:00 在本节中,演讲者讨论了表观基因组学中的三种修饰类型:DNA 可及性、组蛋白修饰和 DNA 甲基化。他解释了这些修饰如何影响基因调控和转录因子的结合。通过使用表观基因组学的语言,人们可以通过将 DNA 的压缩调整为启动子区域的特定特征来对体内的每种细胞类型进行编程。启动子、转录区域、抑制区域和增强子区域都由不同的标记集标记,可以识别和研究。特别是增强子,具有极高的动态性,并以 H3K4 单甲基化、H3K27 乙酰化和 DNA 可及性为标志。

  • 00:15:00 在本节中,演讲者解释了“染色质状态”的概念,即与增强子、启动子、转录和抑制区域等相对应的染色质的不同状态。多变量隐马尔可夫模型用于发现这些染色质状态,并用于定位身体不同细胞类型中的增强子区域、启动子区域和转录区域。还解释了蛋白质识别 DNA 的方式,转录因子使用 DNA 结合域识别基因组中的特定 DNA 序列。演讲者还谈到了 DNA 基序和位置权重矩阵,它们允许识别 DNA 序列的特异性,以及区分监管机构结合位点的信息论措施。

  • 00:20:00 在讲座的这一部分,演讲者讨论了调控基序在基因调控中的重要性,以及这些基序的破坏如何导致疾病。演讲者随后解释了三种探测基因调控的技术:染色质免疫沉淀、DNA 可及性和 ATAC-seq。这些技术可用于绘制增强子的位置,并通过使用图案和构建深度学习模型来发现 DNA 的语言。

  • 00:25:00 在视频的这一部分,演讲者讨论了使用机器学习模型来理解序列如何编码基因调控特性。她介绍了分析监管 DNA 的不同实验,并强调需要了解监管元素的复杂句法以推动特定反应。该问题被建模为机器学习任务,其中每个基因组被分成几千个碱基对的小块,并且这些碱基对中的每一个都与来自实验的一些信号相关联。

  • 00:30:00 在本节中,演讲者讨论了通过使用各种机器学习模型将序列映射到标量来总结遗传信息的传统方法。然而,这种方法会导致信息丢失,因为单核苷酸分辨率的读取覆盖率配置文件包含反映蛋白质 DNA 相互作用的几何结构,从而导致高分辨率足迹。在将信息汇总为标量时,这些复杂的细节会丢失。为了解决这个问题,演讲者强调需要建立一个新模型,以最基本的分辨率对数据进行建模,这是通过卷积神经网络实现的,该网络将测序读数映射到基因组并计算每个端点有多少个五素数两条链上都有碱基对。然后,他们使用一个神经网络进行这种翻译,从序列开始,转换为实数值读数,这些读数向轮廓移动,从而产生到轮廓模型的直接序列。

  • 00:35:00 在本节中,演讲者解释了使用损失函数对落在序列上的读数计数进行建模,以及这些读数如何分布在碱基对中。他们结合使用均方误差计算总计数和多项式负对数似然来精确分布每个碱基对的读数。该模型可用于不同蛋白质的多个读数,并且可以单独或同时使用多任务模型进行拟合。演讲者使用具有高分辨率足迹的芯片连接实验将此模型应用于小鼠胚胎干细胞中四种著名的多能转录因子。

  • 00:40:00 在本节中,演讲者重点介绍了模型在预测基因组中增强子时的准确性,尽管由于去噪、插补和其他因素,存在一些噪声或与观察到的数据存在差异,但模型仍然非常准确。为了评估模型的全基因组性能,他们使用两个指标:Jensen-Shannon 散度和重复实验之间的相似性,前者表现出比后者更好的性能,计算后者以提供上限和下限。然后,演讲者解释了他们的解释方法,使用 DeepLift 算法递归地分解神经元跨层和核苷酸的贡献,提供高分辨率解释序列的哪些部分驱动四个转录因子中的每一个的结合,揭示组合语法。

  • 00:45:00 在本节中,演讲者讨论了两种用于总结模型在整个基因组中学习的模式的方法。第一种方法,Modisco,采用感兴趣的蛋白质结合的所有序列,并推断每个序列中每个核苷酸的深度提升分数。然后根据相似性对序列进行聚类,并折叠成非冗余基序。第二种方法侧重于句法,或驱动合作绑定的图案的高阶排列。以纳米基序为例,神经网络能够检测核心位点侧翼的重要核苷酸,并在十个半碱基对处精确识别周期性模式,表明纳米以一种涉及发生在同一侧的方式结合 DNA的 DNA 螺旋结构。

  • 00:50:00 在本节中,演讲者讨论了 DNA 中的软句法偏好,这通过十个半碱基对的倍数的偏好间距得到证明。演讲者展示了该模型如何能够通过基因组中出现的细微信号尖峰来学习这种句法,从而使其能够与特定位点共定位并学习驱动绑定的句法。演讲者还描述了在计算机上进行的实验,以深入了解句法如何驱动不同蛋白质的结合,包括一个合成实验,其中两个基序嵌入随机序列并改变它们之间的间距以预测蛋白质的结合,以及in silico CRISPR 实验,其中实际增强子发生突变,模型预测四种蛋白质结合的影响。演讲者指出语法是在模型的更高层中学习的,并表明删除它会导致语法完全消失。

  • 00:55:00 在本节中,演讲者解释了一个合成实验,该实验使用由 OP4 和 nano 结合的增强子来显示删除特定基序的效果。该模型预测了删除图案的效果,实验显示了相同的效果,从而验证了模型的预测。演讲者介绍了 BPNet,该模型可以分析任何类型的分析,包括基因组数据,使用解释框架揭示有关句法如何影响 TF 协同性的生物学故事。这些模型可以做出通过高分辨率 CRISPR 实验验证的预测。演讲最后讨论了最近一篇关于使用 ATAC-seq 基于深度学习增强表观基因组数据的论文,这是演讲者团队与 Bowing Rosenthal 实验室之间的合作。

  • 01:00:00 在本节中,解释了通过测序实现染色质可及性的概念。覆盖轨道中的峰代表基因组的活性调节区域,允许识别不同类型细胞或组织中的活性调节元件。 Ataxi 也可以在单细胞水平上进行,为生物学提供更高的分辨率。然而,数据质量可能是一个问题,因为单细胞 Ataxi 实验中的测序深度、样品制备和细胞数量都会影响结果。 Attack 是为解决其中一些问题而开发的深度学习模型。

  • 01:05:00 在本节中,演讲者讨论了 AttackWorks 工具,该工具从嘈杂的实验中获取覆盖轨迹,并使用残差神经网络架构来降噪和增强共济失调信号,以及识别峰值或可访问的位置染色质位点。该模型使用一维卷积层和扩张卷积,并包括一个多部分损失函数,用于衡量去噪覆盖轨迹的准确性和峰值位置的分类准确性。与其他模型不同,AttackWorks 只接受覆盖数据而不是基因组序列,以便在不同类型的细胞之间更容易转移。演讲者解释了用于训练模型的简单训练策略,并展示了其在不同人类细胞类型上的使用示例结果。

  • 01:10:00 在本节中,演讲者解释了如何使用深度学习通过对信号进行去噪和增强以前难以识别的峰值来提高低覆盖率 ATAC-seq 数据的质量。他们展示了攻击如何工作的示例,一种深度学习模型,能够将峰值与附近的噪声区分开来,并准确识别不同细胞类型中可访问染色质的位置,即使在训练数据中不存在的新数据中也是如此。他们还讨论了攻击如何通过以更少的测序产生相同质量的结果来降低实验成本。此外,他们还展示了攻击如何通过清除背景噪声和识别与高质量数据密切匹配的峰值来处理低质量的 ATAC-seq 数据。最后,他们通过查看转录起始站点周围的覆盖范围来衡量攻击工作的性能。

  • 01:15:00 在本节中,演讲者讨论了如何应用深度学习来解决研究单细胞共济失调数据中的小细胞群的能力有限的问题。他们可以从丰富的细胞类型中随机选择一个细胞子集,并使用它们来获得噪声信号。然后他们可以训练一个攻击工作模型来获取来自几个细胞的信号并对其进行降噪以预测来自许多细胞的信号会产生什么
    看起来像。一旦他们有了这个经过训练的模型,他们就可以将其应用于极少数细胞的小群体,以预测如果他们有更多的细胞需要测序,数据会是什么样子。这种方法显着提高了他们研究单细胞染色质可及性的分辨率,并且他们表明该模型可以跨实验、细胞类型甚至物种转移。

  • 01:20:00 在本节中,演讲者讨论了造血干细胞的单细胞测序实验,它可以分化成淋巴系或红系细胞。该实验揭示了单细胞群的异质性,并确定了准备好分化成两个谱系之一的细胞亚群。该团队使用 ATAC-seq 对信号进行去噪并识别控制谱系启动过程的特定调控元件。他们感谢参与该项目的团队,并邀请学生前来实习或合作。
 

调控基因组学深度学习 - 调控因子结合、转录因子转录因子 - 第 8 讲(2021 年春季)



调控基因组学深度学习 - 调控因子结合、转录因子转录因子 - 第 8 讲(2021 年春季)

该视频讨论了深度学习在调控基因组学中的应用,并重点介绍了 DNA 序列如何揭示增强子和启动子区域中存在的不同基序及其 3D 循环。该视频解释了染色体确认捕获 (3C) 技术如何探测染色体组织,而 Hi-C 技术如何识别相互相互作用的拓扑相关域 (TAD) 以及基因组中的区室模式。在 DNA 序列的每个位置应用卷积过滤器来检测不同的特征或图案,深度学习框架可以学习 DNA 序列的共同属性、过滤器和图案,从而能够执行各种预测任务。该视频还提到了多任务学习的好处,并且使用深度学习网络中的附加层来识别和组合转录因子基序的多个构建块表示可以更有效地识别复杂基序。

本视频中的演讲者讨论了将深度学习用于调控基因组学,重点是转录因子结合和基因表达预测。他们探索使用卷积结构和扩张卷积来引入大面积 DNA,并在染色质数据和基因表达的多任务框架中进行预测。演讲者还介绍了使用残差连接来训练深度神经网络,并解释了该模型如何使用 IC 数据和模型预测 3D 接触。总的来说,深度学习可以成为分析基因组数据和根据具有足够数据和正确转换的 DNA 序列进行预测的强大工具。

  • 00:00:00 在本节中,演讲者讨论了使用 DNA 序列和深度学习来预测基因调控基因组的特征,重点是区分构成增强子和启动子区域的不同基序及其 3D 循环。演讲者描述了使用位置权重矩阵 (PWM) 来确定每个转录因子结合的特异性,然后用于预测基因调控功能。染色质免疫沉淀也作为一种用于分析基因组调控区域的技术被提及。

  • 00:05:00 在本节中,演讲者解释了理解三维染色质结构如何揭示不同转录因子的结合位置。细胞核包含细胞中的所有 DNA,并且在空间上进行组织,活性区域远离核层并更靠近细胞核的中心。染色体确认捕获 (3C) 是一种用于通过随机切割 DNA 链然后将它们粘合在一起以查看 DNA 的不同部分可能相互接触的位置来探测染色体组织的技术。这种技术可以揭示染色体实际上是如何相互循环的。

  • 00:10:00 在本节中,演讲者解释了如何使用切割和连接不同的 DNA 片段来创建嵌合分子,从而揭示 DNA 部分在基因组中的结合和映射位置。通过对这些嵌合区域进行测序和分析,研究人员可以深入了解基因组的三维包装以及不同区域如何相互作用。演讲者讨论了各种技术,例如 3C、4C、5C 和 ChIA-PET,这些技术允许分析基因组区域之间的相互作用,并使用基于抗体的方法选择性地研究受特定监管机构约束的区域。

  • 00:15:00 在本节中,演讲者解释了 Hi-C 技术的工作原理以及它如何深入了解基因组的组织方式。 Hi-C 技术涉及向基因组区域添加生物素化标记,然后拉下这些标记以对它们进行测序,这使科学家能够确定基因组的两个区域如何相互作用。生成的图片显示循环信息,并揭示靠近对角线的区域交互最多。 Hi-C 技术还可以识别拓扑关联域 (TAD),这些域之间的交互多于与域外部的交互,以及它们内部交互的分层模式。此外,该技术显示出一种棋盘模式,其中区域倾向于与相同类型的区域更多地相互作用,这使科学家能够可视化基因组的压缩和组织。

  • 00:20:00 在本节中,演讲者讨论了细胞核内不同染色体的地域性以及基因组中的 a 与 b 区室模式,这表明基因组的一部分处于非活动状态且更靠近外围,而活动部分更靠近中心。演讲者还提到了拓扑关联域,这些域是在其中相互作用强烈但不跨越它们的区域组。这些域中角峰的流行模型是它们是由环挤压过程产生的,该过程涉及调节剂 CTFC 和粘连蛋白的结合位点,推动 DNA 环通过。

  • 00:25:00 在本节中,视频解释了高级染色质解释和染色质三维折叠的环挤压模型,其中涉及将结合位点靠得更近并推动 DNA 有效地形成一个环。然后,该视频继续讨论在深度学习之前使用传统方法对调控基序进行计算分析,以及如何将相同的深度学习方法用于图像分析和调控基因组学,以及对 DNA 的一次热编码。这种方法涉及通过在识别常见序列模式和发现该主题的实例之间进行迭代来改进主题徽标。

  • 00:30:00 在本节中,演讲者解释了如何在深度学习架构的表征学习中使用卷积滤波器。 DNA 序列被转换为单热编码表示,每个字母有四个不同的输入通道。卷积过滤器应用于 DNA 序列的每个位置,以检测不同的特征或图案。然后学习这些基序,并可用于执行特定任务,例如确定转录因子是否为二进制。演讲者强调,深度学习框架可以学习所有这些卷积滤波器并改变层数、预测任务、输入输出关系等。最终,该架构可以提取 DNA 序列的共同属性、过滤器和基序,并使用它们来学习序列的表示,从而能够执行各种预测任务。

  • 00:35:00 在本节中,演讲者介绍了机器学习在生物学中对核酸序列的应用。他讨论了早期成功使用机器学习的缺点,例如字符串内核,以及它们如何无法考虑 k-mers 的空间定位或它们之间的任何关系。演讲者随后建议深度学习方法可能会克服这些限制,并允许更好地表示机器学习的 DNA 序列。

  • 00:40:00 在视频的这一部分,演讲者解释了在调控基因组学的深度学习中使用卷积滤波器的过程,这类似于图像分析中使用的过程。卷积过滤器的第一层识别在序列中扫描的位置权重矩阵,创建数字表示,然后应用批量归一化操作,然后是将负值设置为零的非线性函数。接下来,最大池化操作用于为每个过滤器通道取相邻位置的最大值。然后对模型多次应用卷积层,并在其间进行池化操作,以了解转录因子和结合位点之间的关系。

  • 00:45:00 在本节中,演讲者讨论了在调控基因组学的深度学习中进行预测。他们在长度轴上折叠对象并运行一个完全连接的层来进行预测。演讲者随后提供了 DNA 超敏反应的示例,以及如何有许多跨细胞类型可访问的位点以及许多必须了解的细胞类型特定峰。训练集、验证集和测试集包含 200 万个站点,这些站点被分解为 164 个二进制调用,以确定是否有来自此 DNA 超敏反应检测的重要信号。演讲者讨论了多任务学习的好处,其中所有卷积层和全连接层在所有任务之间共享,除了最终的线性变换。他们解释说,这种联合表示比为每个任务训练单独的模型提供更好的结果。

  • 00:50:00 在本节中,主持人讨论了他们的调控基因组学深度学习模型所涉及的任务,其中包括不同的细胞类型和分析,例如转录因子芯片序列和组蛋白修饰芯片序列。他们解释说,该模型使用的卷积神经网络比 k-mer SVM 更灵活,可以表示更多的东西。为了解模型在做什么,他们分析了从卷积滤波器获得的位置权重矩阵,并将它们与转录因子结合位点的 cisBP 数据库进行比较。他们发现过滤器主要识别与数据库基序相似的序列,并指出对 CTCF 等重要转录因子使用多个过滤器对于预测可访问性至关重要。

  • 00:55:00 在本节中,演讲者讨论了在深度学习网络中使用附加层来识别和组合转录因子基序的多个构建块表示的潜力,例如 CTCF。这可以更有效地识别复杂的图案,尽管它也可能使查明每个过滤器的确切位置和贡献变得具有挑战性。演讲者还提到了他们进行的几项分析,以深入了解模型中不同过滤器的信息内容和影响,这可能有助于更好地解释调控基因组学深度学习方法的结果。

  • 01:00:00 在视频的这一部分,演讲者讨论了使用已知基序通过突变序列中的每个核苷酸来进行预测和研究转录因子结合位点。然后,演讲者继续讨论通过计算 DNA 长区域中所有元素的函数来预测转录和基因表达的新问题。该解决方案涉及使用卷积结构并引入大的序列区域,模型大约有 100,000 个核苷酸,然后进行最大池化以使序列达到大约 128 个碱基对的分辨率。挑战在于如何跨基因组共享信息,为此可以使用不同的模块。递归神经网络被假设为完成这项工作的最佳工具。

  • 01:05:00 在本节中,演讲者谈到了一种称为扩张卷积的工具,他们使用该工具代替循环神经网络来避免长序列训练缓慢的问题。扩张卷积涉及在卷积中插入间隙并对其进行扩展,这使得感受野呈指数增长,从而产生一种非常有效的参数覆盖图像的方法。然后,演讲者讨论了他们如何使用扩张卷积在染色质数据和基因表达的多任务框架中进行预测。他们还提到了一种称为残差连接或跳过连接的附加技术,可以帮助训练深度神经网络。
     
  • 01:10:00 在本节中,演讲者讨论了使用残差网络使每一层更容易学习新信息,而无需重新学习之前的所有内容。这对于扩张卷积特别有用,它可以观察更远的不同位置。通过直接传递已经用残差连接学到的东西,他们可以将新信息添加到每个位置的向量并对其进行归一化或在其上进行卷积。剩余连接的数量取决于正在处理的序列的长度,因为它们应该能够看得足够远而不会超出序列边界。

  • 01:15:00 在视频的这一部分,演讲者讨论了对 100,000 的输入序列使用 5 到 10 个扩张卷积层,但指出这可能会根据序列的规模或 bin 大小而变化。这种情况下的输入是来自各种数据集的连续信号,演讲者指出它不能像基因表达那样容易地二值化。演讲者表示正损失函数对数据效果更好,并指出模型的质量受数据质量的影响,数据质量可能会有很大差异。演讲者简要提到了使用该模型预测与疾病相关的 SNP 中的突变,以及将计算生物学研究与疾病关联联系起来的重要性。最后,演讲者简要介绍了使用 IC 数据和模型预测 3D 接触。

  • 01:20:00 在本节中,演讲者解释了他们如何使用高 c 数据进行预测。数据是二维的,核苷酸横跨 x 轴和 y 轴,表示基因组的那部分与基因组中另一个 bin 之间的接触频率。使用均方误差和多任务学习,模型可以预测数据。然而,随着一百万个核苷酸的加入,GPU 内存限制成为一个问题。解决方案是使用位置 i 和位置 j 的平均值,得到深度学习工具可以分析的二维矩阵。在每一层之后使用 2D 卷积、扩张卷积和重新对称矩阵,该模型可以以 ctcf 为主要学习因子进行预测。

  • 01:25:00 在本节中,David Kelley 以 CTCF 为例,讨论了如何在调控基因组学中使用深度学习来分析 DNA 序列等基本输入并预测转录因子结合。有了足够的数据和正确的转换,神经网络架构可以成功地学习并根据基因组学数据做出预测。虽然合成数据是目前的主要焦点,但本演示文稿概述了深度学习在生物学和基因组学中的应用方式。
原因: