00:10:00 在视频的这一部分中,Greg Brockman 讨论了人类与 AI 合作解决复杂问题的潜力。他展示了一个事实核查工具的示例,该工具需要人工输入才能为另一个 AI 生成有用的数据,展示了人类如何在机器以可信赖和可检查的方式运行时提供管理、监督和反馈。布罗克曼认为,这将导致解决以前不可能解决的问题,包括重新思考我们如何与计算机交互。他演示了如何使用强大的 AI 语言模型 ChatGPT 分析包含 167,000 篇 AI 论文的电子表格,并通过探索性图表提供见解,展示 AI 协助数据分析和决策的潜力。
00:05:00 在这节课中,讲师介绍了机器学习中使用的不同类型的对象,例如标量、向量、矩阵和张量。输入空间被定义为这些对象的单个示例,其中特定数据集与特定索引和特征一起使用。还引入了标签空间,预测标签表示为 y hat。机器学习的目标是评估从输入数据中提取的特征,并使用将输入转换为输出的函数计算输出结果。讲师还解释了训练集和测试集之间的区别,以及该函数如何接收输入参数并使用权重向量和偏差计算输出。
01:15:00 本节介绍k近邻的概念及其泛化性。虽然 k 最近邻是一种很好的基线方法,但它的泛化能力可能很差,因为它没有学习分离数据集的函数,因此很难在以前看不见的输入上表现良好。还讨论了模型容量在图表上的有效性,其中 x 轴显示参数或维度的有效数量,增加此数量可能会导致与数据更好的匹配,但泛化误差更高。还介绍了偏差或与给定数据的匹配程度,以及方差或与未来数据集的匹配程度。最后,可以通过权衡参数正则化和模型复杂性正则化来对模型进行正则化,这可以通过比较具有不同神经元复杂程度的数据集来证明。
该视频探讨了生成对抗网络 (GAN)、变分自动编码器 (VAE) 和生成模型中的表示学习的概念。 GAN 涉及具有相反目标的生成器和鉴别器,并且假样本的训练过程很慢,但分辨率和目标函数的改进可以产生逼真的图像。演讲者演示了 GAN 如何生成结构合理的房间并将一个房间转移到另一个房间。 VAE 明确地模拟密度函数并通过有意义的潜在空间参数捕获真实世界图像的多样性。演讲者鼓励开放架构和模型的创造力和实验,生成模型和表示学习在各个领域的应用是一个快速发展的领域,具有无限的可能性。
00:25:00 在本节中,演讲者解释了如何使用自动编码器来构建世界的表示并通过生成器函数生成图像。自动编码器中的 z 向量可以提供有关世界中不同特征的相对特征和存在的有意义的信息,这些信息可用于生成其他图像。编码器和解码器可以分别用于不同的任务,例如将解码器用作生成模型,将编码器用作特征空间向量进行表示学习。演讲者随后介绍了变分自动编码器 (VAE) 的概念,它是自动编码器的概率旋转,让我们从模型中采样以生成额外的数据。 VAE 从一组标量的多维表示和每个标量的相关方差中学习。通过从潜在空间向量的真实先验中采样,我们可以根据图像的各种属性生成图像。
00:30:00 在本节中,演讲者讨论了生成模型及其通过调整自动编码器中的各种向量来捕捉世界的目标。这些向量最终成为世界的有意义的表示,允许通过改变参数对不同图像进行采样。训练生成模型的策略是通过学习模型参数来最大化训练数据的可能性。演讲者随后介绍了变分自动编码器,它通过对数据的均值和方差进行显式建模来概率地生成模型。通过让编码器提供单个 z 和 z 的方差,说话者能够从两个正态分布中采样并识别物体的不同变化,例如船。
00:40:00 在本节中,演讲者解释了如何使用生成模型(例如变分自动编码器 (VAE))来构建具有有意义特征的世界表示。通过仅使用二维编码图像,VAE 可以捕获所有可能字符的空间并生成可以仅使用二维坐标表示的任何类型的字符。通过对角化 z 的先验,网络正在学习独立的潜在变量,并且 z 的不同维度在良好的特征表示中编码可解释的变异因素。该编码器网络允许用户通过 z 的先验分布生成数据并解码潜在空间,使 VAE 成为表示学习的有用工具。
00:05:00 在本节中,讨论了细胞的复杂性以及它们如何在没有上下文信息的情况下记住自己的身份。还强调了细胞的调节回路,它基于一组原语和结构,使细胞能够记住基因组每个片段的状态。在结构和功能构建体中包装 DNA 是该过程不可或缺的一部分,使细胞能够在其内部压缩如此多的 DNA。这种包装是通过核小体完成的,核小体是 DNA 串状视图中的小珠子,由四种组蛋白组成,每种都有一个长氨基酸尾巴,可以用不同的组蛋白修饰进行翻译后修饰。这些修饰与额外的表观基因组标记(例如 CPG 二核苷酸)直接作用于 DNA,使细胞能够记住它们的身份。
00:10:00 在本节中,演讲者讨论了表观基因组学中的三种修饰类型:DNA 可及性、组蛋白修饰和 DNA 甲基化。他解释了这些修饰如何影响基因调控和转录因子的结合。通过使用表观基因组学的语言,人们可以通过将 DNA 的压缩调整为启动子区域的特定特征来对体内的每种细胞类型进行编程。启动子、转录区域、抑制区域和增强子区域都由不同的标记集标记,可以识别和研究。特别是增强子,具有极高的动态性,并以 H3K4 单甲基化、H3K27 乙酰化和 DNA 可及性为标志。
00:15:00 在本节中,演讲者解释了“染色质状态”的概念,即与增强子、启动子、转录和抑制区域等相对应的染色质的不同状态。多变量隐马尔可夫模型用于发现这些染色质状态,并用于定位身体不同细胞类型中的增强子区域、启动子区域和转录区域。还解释了蛋白质识别 DNA 的方式,转录因子使用 DNA 结合域识别基因组中的特定 DNA 序列。演讲者还谈到了 DNA 基序和位置权重矩阵,它们允许识别 DNA 序列的特异性,以及区分监管机构结合位点的信息论措施。
00:20:00 在讲座的这一部分,演讲者讨论了调控基序在基因调控中的重要性,以及这些基序的破坏如何导致疾病。演讲者随后解释了三种探测基因调控的技术:染色质免疫沉淀、DNA 可及性和 ATAC-seq。这些技术可用于绘制增强子的位置,并通过使用图案和构建深度学习模型来发现 DNA 的语言。
00:25:00 在视频的这一部分,演讲者讨论了使用机器学习模型来理解序列如何编码基因调控特性。她介绍了分析监管 DNA 的不同实验,并强调需要了解监管元素的复杂句法以推动特定反应。该问题被建模为机器学习任务,其中每个基因组被分成几千个碱基对的小块,并且这些碱基对中的每一个都与来自实验的一些信号相关联。
00:30:00 在本节中,演讲者讨论了通过使用各种机器学习模型将序列映射到标量来总结遗传信息的传统方法。然而,这种方法会导致信息丢失,因为单核苷酸分辨率的读取覆盖率配置文件包含反映蛋白质 DNA 相互作用的几何结构,从而导致高分辨率足迹。在将信息汇总为标量时,这些复杂的细节会丢失。为了解决这个问题,演讲者强调需要建立一个新模型,以最基本的分辨率对数据进行建模,这是通过卷积神经网络实现的,该网络将测序读数映射到基因组并计算每个端点有多少个五素数两条链上都有碱基对。然后,他们使用一个神经网络进行这种翻译,从序列开始,转换为实数值读数,这些读数向轮廓移动,从而产生到轮廓模型的直接序列。
00:45:00 在本节中,演讲者讨论了两种用于总结模型在整个基因组中学习的模式的方法。第一种方法,Modisco,采用感兴趣的蛋白质结合的所有序列,并推断每个序列中每个核苷酸的深度提升分数。然后根据相似性对序列进行聚类,并折叠成非冗余基序。第二种方法侧重于句法,或驱动合作绑定的图案的高阶排列。以纳米基序为例,神经网络能够检测核心位点侧翼的重要核苷酸,并在十个半碱基对处精确识别周期性模式,表明纳米以一种涉及发生在同一侧的方式结合 DNA的 DNA 螺旋结构。
00:50:00 在本节中,演讲者讨论了 DNA 中的软句法偏好,这通过十个半碱基对的倍数的偏好间距得到证明。演讲者展示了该模型如何能够通过基因组中出现的细微信号尖峰来学习这种句法,从而使其能够与特定位点共定位并学习驱动绑定的句法。演讲者还描述了在计算机上进行的实验,以深入了解句法如何驱动不同蛋白质的结合,包括一个合成实验,其中两个基序嵌入随机序列并改变它们之间的间距以预测蛋白质的结合,以及in silico CRISPR 实验,其中实际增强子发生突变,模型预测四种蛋白质结合的影响。演讲者指出语法是在模型的更高层中学习的,并表明删除它会导致语法完全消失。
该视频讨论了深度学习在调控基因组学中的应用,并重点介绍了 DNA 序列如何揭示增强子和启动子区域中存在的不同基序及其 3D 循环。该视频解释了染色体确认捕获 (3C) 技术如何探测染色体组织,而 Hi-C 技术如何识别相互相互作用的拓扑相关域 (TAD) 以及基因组中的区室模式。在 DNA 序列的每个位置应用卷积过滤器来检测不同的特征或图案,深度学习框架可以学习 DNA 序列的共同属性、过滤器和图案,从而能够执行各种预测任务。该视频还提到了多任务学习的好处,并且使用深度学习网络中的附加层来识别和组合转录因子基序的多个构建块表示可以更有效地识别复杂基序。
本视频中的演讲者讨论了将深度学习用于调控基因组学,重点是转录因子结合和基因表达预测。他们探索使用卷积结构和扩张卷积来引入大面积 DNA,并在染色质数据和基因表达的多任务框架中进行预测。演讲者还介绍了使用残差连接来训练深度神经网络,并解释了该模型如何使用 IC 数据和模型预测 3D 接触。总的来说,深度学习可以成为分析基因组数据和根据具有足够数据和正确转换的 DNA 序列进行预测的强大工具。
00:00:00 在本节中,演讲者讨论了使用 DNA 序列和深度学习来预测基因调控基因组的特征,重点是区分构成增强子和启动子区域的不同基序及其 3D 循环。演讲者描述了使用位置权重矩阵 (PWM) 来确定每个转录因子结合的特异性,然后用于预测基因调控功能。染色质免疫沉淀也作为一种用于分析基因组调控区域的技术被提及。
00:05:00 在本节中,演讲者解释了理解三维染色质结构如何揭示不同转录因子的结合位置。细胞核包含细胞中的所有 DNA,并且在空间上进行组织,活性区域远离核层并更靠近细胞核的中心。染色体确认捕获 (3C) 是一种用于通过随机切割 DNA 链然后将它们粘合在一起以查看 DNA 的不同部分可能相互接触的位置来探测染色体组织的技术。这种技术可以揭示染色体实际上是如何相互循环的。
00:10:00 在本节中,演讲者解释了如何使用切割和连接不同的 DNA 片段来创建嵌合分子,从而揭示 DNA 部分在基因组中的结合和映射位置。通过对这些嵌合区域进行测序和分析,研究人员可以深入了解基因组的三维包装以及不同区域如何相互作用。演讲者讨论了各种技术,例如 3C、4C、5C 和 ChIA-PET,这些技术允许分析基因组区域之间的相互作用,并使用基于抗体的方法选择性地研究受特定监管机构约束的区域。
00:20:00 在本节中,演讲者讨论了细胞核内不同染色体的地域性以及基因组中的 a 与 b 区室模式,这表明基因组的一部分处于非活动状态且更靠近外围,而活动部分更靠近中心。演讲者还提到了拓扑关联域,这些域是在其中相互作用强烈但不跨越它们的区域组。这些域中角峰的流行模型是它们是由环挤压过程产生的,该过程涉及调节剂 CTFC 和粘连蛋白的结合位点,推动 DNA 环通过。
00:25:00 在本节中,视频解释了高级染色质解释和染色质三维折叠的环挤压模型,其中涉及将结合位点靠得更近并推动 DNA 有效地形成一个环。然后,该视频继续讨论在深度学习之前使用传统方法对调控基序进行计算分析,以及如何将相同的深度学习方法用于图像分析和调控基因组学,以及对 DNA 的一次热编码。这种方法涉及通过在识别常见序列模式和发现该主题的实例之间进行迭代来改进主题徽标。
00:30:00 在本节中,演讲者解释了如何在深度学习架构的表征学习中使用卷积滤波器。 DNA 序列被转换为单热编码表示,每个字母有四个不同的输入通道。卷积过滤器应用于 DNA 序列的每个位置,以检测不同的特征或图案。然后学习这些基序,并可用于执行特定任务,例如确定转录因子是否为二进制。演讲者强调,深度学习框架可以学习所有这些卷积滤波器并改变层数、预测任务、输入输出关系等。最终,该架构可以提取 DNA 序列的共同属性、过滤器和基序,并使用它们来学习序列的表示,从而能够执行各种预测任务。
00:35:00 在本节中,演讲者介绍了机器学习在生物学中对核酸序列的应用。他讨论了早期成功使用机器学习的缺点,例如字符串内核,以及它们如何无法考虑 k-mers 的空间定位或它们之间的任何关系。演讲者随后建议深度学习方法可能会克服这些限制,并允许更好地表示机器学习的 DNA 序列。
00:45:00 在本节中,演讲者讨论了在调控基因组学的深度学习中进行预测。他们在长度轴上折叠对象并运行一个完全连接的层来进行预测。演讲者随后提供了 DNA 超敏反应的示例,以及如何有许多跨细胞类型可访问的位点以及许多必须了解的细胞类型特定峰。训练集、验证集和测试集包含 200 万个站点,这些站点被分解为 164 个二进制调用,以确定是否有来自此 DNA 超敏反应检测的重要信号。演讲者讨论了多任务学习的好处,其中所有卷积层和全连接层在所有任务之间共享,除了最终的线性变换。他们解释说,这种联合表示比为每个任务训练单独的模型提供更好的结果。
01:15:00 在视频的这一部分,演讲者讨论了对 100,000 的输入序列使用 5 到 10 个扩张卷积层,但指出这可能会根据序列的规模或 bin 大小而变化。这种情况下的输入是来自各种数据集的连续信号,演讲者指出它不能像基因表达那样容易地二值化。演讲者表示正损失函数对数据效果更好,并指出模型的质量受数据质量的影响,数据质量可能会有很大差异。演讲者简要提到了使用该模型预测与疾病相关的 SNP 中的突变,以及将计算生物学研究与疾病关联联系起来的重要性。最后,演讲者简要介绍了使用 IC 数据和模型预测 3D 接触。
01:20:00 在本节中,演讲者解释了他们如何使用高 c 数据进行预测。数据是二维的,核苷酸横跨 x 轴和 y 轴,表示基因组的那部分与基因组中另一个 bin 之间的接触频率。使用均方误差和多任务学习,模型可以预测数据。然而,随着一百万个核苷酸的加入,GPU 内存限制成为一个问题。解决方案是使用位置 i 和位置 j 的平均值,得到深度学习工具可以分析的二维矩阵。在每一层之后使用 2D 卷积、扩张卷积和重新对称矩阵,该模型可以以 ctcf 为主要学习因子进行预测。
01:25:00 在本节中,David Kelley 以 CTCF 为例,讨论了如何在调控基因组学中使用深度学习来分析 DNA 序列等基本输入并预测转录因子结合。有了足够的数据和正确的转换,神经网络架构可以成功地学习并根据基因组学数据做出预测。虽然合成数据是目前的主要焦点,但本演示文稿概述了深度学习在生物学和基因组学中的应用方式。
是时候关注人工智能了(ChatGPT 及其他)
是时候关注人工智能了(ChatGPT 及其他)
该视频讨论了人工智能 (AI) 的发展,以及它如何改变我们的工作和生活方式。有些人对人工智能的潜力感到兴奋,而另一些人则担心它的潜在影响。演讲者还简要介绍了最近的播客节目。
ChatGPT 惊人潜力的内幕|格雷格·布罗克曼 |泰德
ChatGPT 惊人潜力的内幕|格雷格·布罗克曼 |泰德
在视频的这一部分中,格雷格·布罗克曼 (Greg Brockman) 讨论了人工智能在改善教育方面的作用。他认为,传统的教育方法往往效率低下且效果不佳,学生难以保留知识,而教师则难以以一种让每个学生都参与的方式进行教学。布罗克曼建议,人工智能可以通过为每个学生提供个性化的学习体验来帮助解决这些问题。借助人工智能工具,可以实时监控学生的学习进度,根据他们的需求和偏好调整课程。这可能会带来更吸引人和更高效的学习体验,让学生保留更多知识,让教师专注于更重要的任务。 Brockman 还强调了在设计 AI 工具时考虑隐私的重要性,确保学生数据受到保护并仅用于教育目的。
麻省理工学院生命科学深度学习 - 2021 年春季
麻省理工学院生命科学深度学习 - 2021 年春季
“生命科学中的深度学习”课程将机器学习应用于各种生命科学任务,由机器学习和基因组学研究人员授课,教师为麻省理工学院的博士生和本科生。该课程涵盖机器学习基础、基因调控电路、疾病变异、蛋白质相互作用和折叠,以及在谷歌云平台中通过 Python 使用 TensorFlow 进行成像。该课程将包括四个问题集、一个测验和一个团队项目,其中穿插指导课程以帮助学生设计自己的项目。讲师强调了建立具有互补技能和兴趣的团队的重要性,并在整个学期中提供了各种里程碑和可交付成果。该课程旨在提供真实世界的经验,包括赠款和研究金提案撰写、同行评审、年度报告以及培养沟通和协作技能。演讲者讨论了传统人工智能和深度学习之间的区别,深度学习基于可观察到的刺激构建场景的内部表示,并强调了由于训练数据、计算能力和新算法的融合,深度学习在生命科学中的重要性.
该视频是深度学习在生命科学领域的入门讲座,阐述了机器学习和深度学习在探索复杂世界中的重要性。演讲的重点是贝叶斯推理的概念,以及它如何在经典和深度机器学习中发挥关键作用,以及生成式学习方法和判别式学习方法之间的差异。该讲座还强调了支持向量机、分类性能和线性代数在理解跨生物系统网络方面的力量。演讲者指出,该课程将涵盖深度学习中的各种主题,包括正则化、避免过度拟合和训练集。讲座最后解决了与人工神经元和深度网络的可解释性相关的问题,供以后的讲座使用。
机器学习基础 - 第 02 讲(2021 年春季)
机器学习基础 - 生命科学中的深度学习讲座 02(2021 年春季)
本讲座涵盖机器学习的基础,介绍训练和测试集等概念、判别和生成等模型类型、评估损失函数、正则化和过度拟合以及神经网络。讲师继续解释超参数的重要性,评估生命科学的准确性,相关性测试以及模型测试的概率计算。最后,讨论了深度神经网络的基础知识和神经元的结构,强调了非线性在学习复杂函数中的作用。
在讲座的第二部分,解释了深度学习中激活函数的概念,以及调整权重以匹配输出函数的学习过程使用偏导数调整权重更新以最小化误差,这是梯度的基础基于学习。引入反向传播的概念作为一种通过神经网络传播导数以调整权重的方法。讨论了在多层深度学习模型中优化权重的各种方法,包括随机梯度下降和模型容量的概念以及 VC 维度。还讨论了模型在图上的容量的有效性以及偏差和方差,以及各种正则化技术,例如早期停止和权重衰减。强调找到复杂性的正确平衡的重要性,并鼓励学生积极地向同学介绍自己。
CNNs 卷积神经网络 - 第 03 讲(2021 年春季)
CNNs 卷积神经网络 - 生命科学中的深度学习 - 第 03 讲(2021 年春季)
该视频讲座涵盖生命科学深度学习中的卷积神经网络 (CNN) 主题。演讲者讨论了视觉皮层的原理及其与 CNN 的关系,包括人类和动物视觉系统的构建块,例如求和和加权的基本构建块以及神经元的偏置激活阈值。他们解释说,CNN 使用专门的神经元进行低级检测操作,使用隐藏单元层进行抽象概念学习。该讲座还涵盖了卷积层和池化层的作用、使用多个过滤器提取多个特征以及迁移学习的概念。最后,还讨论了非线性和使用填充来解决卷积中的边缘情况。总的来说,讲座强调了 CNN 在各种生命科学应用中的力量和潜力。
讲座的第二部分涵盖了与卷积神经网络 (CNN) 相关的各种概念。在演讲中,演讲者谈到了在 CNN 中保持输入大小的重要性、数据增强作为实现变换不变性的一种手段,以及不同的 CNN 架构及其应用。该讲座还涵盖了与深度 CNN 学习相关的挑战、超参数及其对整体性能的影响,以及超参数调整方法。演讲者强调了理解 CNN 背后基本原理的重要性,并强调了它们作为一种适用于多种环境的技术的多功能性。
递归神经网络 RNN、图神经网络 GNN、长短期记忆 LSTM - 第 4 讲(2021 年春季)
递归神经网络 RNN、图形神经网络 GNN、长短期记忆 LSTM
该视频涵盖了一系列主题,从循环神经网络 (RNN) 及其编码时间上下文的能力开始,这对序列学习至关重要。演讲者介绍了隐马尔可夫模型的概念及其局限性,从而引发了对长短期记忆 (LSTM) 模块作为处理长序列的强大方法的讨论。该视频还讨论了 transformer 模块,该模块无需展开或使用 RNN 即可学习时间关系。介绍了图神经网络,及其在解决经典网络问题和计算生物学中的潜在应用。演讲最后讨论了图神经网络的研究前沿,例如它们在退化图模型和潜在图推理中的应用。
视频的第二部分讨论了递归神经网络 (RNN)、图形神经网络 (GNN) 和长短期记忆 (LSTM) 模块。它解释了传统的前馈神经网络在处理基于图的数据时有何局限性,但 GNN 可以处理范围广泛的不变性并在图中传播信息。演讲者还讨论了图卷积网络 (GCN) 及其优势和挑战。此外,该视频还描述了注意力功能在使 GNN 更加强大和灵活方面的重要性。
可解释的深度学习 - 生命科学中的深度学习 - 讲座 05(2021 年春季)
可解释的深度学习 - 生命科学中的深度学习 - 讲座 05(2021 年春季)
该视频讨论了深度学习模型中可解释性的重要性,尤其是在决策可能产生可怕后果的生命科学领域。演讲者解释了两种类型的可解释性:从一开始就将其构建到模型的设计中,以及为已构建的模型开发事后可解释性方法。他们继续探索用于解释模型的不同技术,包括权重可视化、代理模型构建和激活最大化,并讨论了理解模型内部表示的重要性。讲师还解释了几种解释个人决策的方法,例如基于示例的方法和归因方法。此外,演讲者还讨论了解释复杂概念的挑战和神经网络模型解释的局限性,以及探索与深度学习神经网络中梯度不连续性相关的假设。
在讲座的第二部分,演讲者解决了生命科学领域深度学习模型中梯度不连续和饱和函数的挑战。他们提出了一些方法,例如对多个样本的输入的小扰动进行平均以获得更平滑的梯度,使用随机噪声突出图像分类中的显着特征,以及反卷积神经网络和引导反向传播等反向传播技术来解释基因调控模型。演讲者还讨论了归因方法的定量评估,包括像素翻转程序和删除和替换分数方法。最后,他们强调了深度学习模型中可解释性的必要性以及实现它的各种技术。
生成模型、对抗网络 GAN、变分自动编码器 VAE、表示学习 - 第 6 讲(2021 年春季)
生成模型、对抗网络 GAN、变分自动编码器 VAE、表示学习 - 第 6 讲(2021 年春季)
本视频讨论了机器学习中表示学习的概念,强调了其在分类任务中的重要性以及在开发新架构方面的创新潜力。通过自动编码器和变分自动编码器 (VAE) 等技术,引入了自我监督任务和借口任务作为无需标记数据即可学习表征的方法。演讲者还讨论了生成模型,例如 VAE 和生成对抗网络 (GAN),它们可以通过操纵潜在空间表示来生成新数据。讨论了每种方法的优缺点,强调了它们的有效性和局限性。总体而言,该视频全面概述了机器学习中表示学习和生成模型的不同方法。
该视频探讨了生成对抗网络 (GAN)、变分自动编码器 (VAE) 和生成模型中的表示学习的概念。 GAN 涉及具有相反目标的生成器和鉴别器,并且假样本的训练过程很慢,但分辨率和目标函数的改进可以产生逼真的图像。演讲者演示了 GAN 如何生成结构合理的房间并将一个房间转移到另一个房间。 VAE 明确地模拟密度函数并通过有意义的潜在空间参数捕获真实世界图像的多样性。演讲者鼓励开放架构和模型的创造力和实验,生成模型和表示学习在各个领域的应用是一个快速发展的领域,具有无限的可能性。
调控基因组学 - 生命科学中的深度学习 - 第 07 讲(2021 年春季)
调控基因组学 - 生命科学中的深度学习 - 第 07 讲(2021 年春季)
讲座涵盖调控基因组学领域,包括基因调控的生物学基础、调控基因组学的经典方法、使用卷积神经网络的基序发现,以及使用机器学习模型来理解序列如何编码基因调控特性。演讲者解释了调控基序在基因调控中的重要性,以及这些基序的破坏如何导致疾病。他们引入了一种使用卷积神经网络的新模型,该模型将测序读数映射到基因组,并计算两条链上每个碱基对具有多少个五素数末端。该模型可用于不同蛋白质的多个读数,并且可以单独或同时使用多任务模型进行拟合。演讲者还展示了该模型如何分析任何类型的分析,包括基因组数据,使用解释框架揭示有关句法如何影响 TF 协同性的生物学故事。这些模型可以做出通过高分辨率 CRISPR 实验验证的预测。
该视频讨论了深度学习如何通过增强和去噪信号峰值来提高低覆盖率 ATAC-seq 数据的质量。 AttackWorks 是一种深度学习模型,它接收覆盖数据并使用残差神经网络架构来提高信号准确性并识别可访问的染色质位点。演讲者演示了如何使用 AttackWorks 处理低质量数据并提高研究单细胞染色质可及性的分辨率。他们还描述了一项针对造血干细胞的特定实验,该实验使用 ATAC-seq 来识别谱系启动中涉及的特定调控元件。演讲者邀请学生进行实习或合作。
看起来像。一旦他们有了这个经过训练的模型,他们就可以将其应用于极少数细胞的小群体,以预测如果他们有更多的细胞需要测序,数据会是什么样子。这种方法显着提高了他们研究单细胞染色质可及性的分辨率,并且他们表明该模型可以跨实验、细胞类型甚至物种转移。
调控基因组学深度学习 - 调控因子结合、转录因子转录因子 - 第 8 讲(2021 年春季)
调控基因组学深度学习 - 调控因子结合、转录因子转录因子 - 第 8 讲(2021 年春季)
该视频讨论了深度学习在调控基因组学中的应用,并重点介绍了 DNA 序列如何揭示增强子和启动子区域中存在的不同基序及其 3D 循环。该视频解释了染色体确认捕获 (3C) 技术如何探测染色体组织,而 Hi-C 技术如何识别相互相互作用的拓扑相关域 (TAD) 以及基因组中的区室模式。在 DNA 序列的每个位置应用卷积过滤器来检测不同的特征或图案,深度学习框架可以学习 DNA 序列的共同属性、过滤器和图案,从而能够执行各种预测任务。该视频还提到了多任务学习的好处,并且使用深度学习网络中的附加层来识别和组合转录因子基序的多个构建块表示可以更有效地识别复杂基序。
本视频中的演讲者讨论了将深度学习用于调控基因组学,重点是转录因子结合和基因表达预测。他们探索使用卷积结构和扩张卷积来引入大面积 DNA,并在染色质数据和基因表达的多任务框架中进行预测。演讲者还介绍了使用残差连接来训练深度神经网络,并解释了该模型如何使用 IC 数据和模型预测 3D 接触。总的来说,深度学习可以成为分析基因组数据和根据具有足够数据和正确转换的 DNA 序列进行预测的强大工具。