机器学习和神经网络 - 页 23

 

细胞成像分割的深度学习 - 第 20 讲



细胞成像分割的深度学习 - 第 20 讲 - 生命科学中的麻省理工学院机器学习(2021 年春季)

在此视频中,演讲者讨论了深度学习在细胞追踪中的应用,其中涉及确定延时成像中细胞的运动。他们解释说,传统的手动跟踪方法既昂贵又耗时,而深度学习方法可以显着加快这一过程,同时还能提供更高的准确性。演讲者讨论了用于细胞跟踪的各种深度学习架构,包括 U-Net、StarDist 和 DeepCell。他们还指出,细胞跟踪的挑战之一是区分靠近或重叠的细胞,而多目标跟踪或基于图形的方法等方法可以帮助解决这个问题。演讲者强调了对细胞跟踪的不同深度学习方法进行基准测试以及提供开放访问数据集以进行再现和比较的重要性。他们还强调了细胞追踪在癌症研究和药物发现等各个领域的潜在应用。

  • 00:00:00 在本节中,Juan Casado 讨论了基于图像的表型分析的概念,这是一种通过使用显微镜和其他成像技术了解生物系统的方法。他解释了生物结构(如细胞)的图像如何针对不同的表型(包括细胞大小和 DNA 含量)进行量化,并用于指导有关治疗和药物发现的决策。 Casado 举了一个成功的白血病候选药物的例子,它是通过使用显微镜图像精确测量细胞大小而发现的,最终获得了 FDA 的批准。他强调了基于图像的分析在生物学和药物开发领域的潜在影响。

  • 00:05:00 在本节中,重点是比较具有不同特征的细胞群并确定哪些治疗有效的挑战。这需要更多的信息和策略来从细胞图像中提取信息,而这正是基于图像的分析的用武之地。这涉及使用图像扩展细胞的形态或细胞状态,以提取用于药物发现和功能基因组学的定量信息。与这种方法相关的两个计算问题是细胞分割和单细胞表示学习,其目的是识别图像中单个细胞的位置,而无需花费时间和精力为不同的图像类型调整分割算法。最终,目标是为在自然图像中工作的细胞和相位检测器创建分割算法。

  • 00:10:00 在本节中,演讲者谈到了 2018 年生物图像挑战赛,该挑战赛旨在使计算机视觉技术用于生物学的分割。挑战涉及创建带注释的数据集,将其拆分为训练和测试分区,定义成功指标,并通过基于交集而非并集的评分系统向参与者提供反馈。参与者需要使用受监督的机器学习模型来学习输入和输出之间的关系,并生成他们作为输入提供的图像的分割图。获胜者是那些能够根据使用的指标更准确地分割最终测试集的人。

  • 00:15:00 在本节中,演讲者讨论了细胞成像分割比赛中的前三名参赛者,以及他们在机器学习模型中使用不同的架构。第三名团队使用 Mask RCNN 架构,它将图像分解为区域并生成候选对象,这些候选对象由网络审查以确定它们是否是真实对象,然后识别确切的边界框和掩码以将对象与对象分开背景。第二名团队使用了图像金字塔网络,该网络计算多个特征图以生成中间输出,并聚合来自所有不同分辨率的信息以生成最终输出。演讲者指出,尽管该架构在实现细胞分割的高精度方面发挥了作用,但定期校准和交叉验证实验的运行方式也至关重要。

  • 00:20:00 在本节中,演讲者讨论了一种新颖的图像分割方法。该解决方案不是使用二元掩码来确定图像中对象的位置,而是涉及预测距离图或角度图,这些距离图或角度图测量从细胞中心到不同方向的距离。输出是手动设计的,以提供更精确的物体位置测量,从而在比赛中获得第二名。虽然这个想法在当时很新颖,但随后的工作评估了它的价值并发现它是稳健的,尤其是对于具有许多物体的拥挤图像。使用的编码器-解码器架构并不创新,但新颖性来自于在 32 种不同模型中复制确切的架构,形成一个整体,这帮助他们赢得了比赛。
     
  • 00:25:00 在本节中,演讲者讨论了集成方法与更简单的细胞图像分割模型的性能。他们解释说,虽然集成方法可能需要大量计算,但更简单的模型在实践中可能仍然有效。他们还讨论了比赛的局限性,并指出分析整体中的各个模型以将它们精简为最准确的模型会很有帮助。然后,演讲者继续评估通过分割在促进生物学研究方面可以做出的改进,表明针对特定图像类型的优化算法可能非常耗时,而且准确性可能因图像类型而异。他们还指出,注释中的不平衡和分割某些图像类型的困难可能会在现实世界中带来挑战。

  • 00:30:00 在本节中,演讲者讨论了解析不同类型成像技术的挑战,从小荧光到难以分割的粉色和紫色图像。有不同的方法来分割图像,例如为每种图像类型训练一个模型或使用具有调整参数的经典算法。此外,现在有可用于细胞分割的预训练模型,例如 Nucleizer、CellPose 和 Mesmer。然而,分割仍然存在挑战,例如收集更大的数据集和优化专家在识别对象上花费的时间。演讲者还简要介绍了使用机器学习方法测量细胞表型的重要性,这些方法可以学习经典形态学测量之外的特征。

  • 00:35:00 在本节中,演讲者讨论了机器学习方法在用于药物发现的细胞成像分割中的应用。扰动实验用于用化合物处理细胞的地方,但批次效应会引起噪音并混淆对表型的理解。由于没有基本事实,因此使用弱监督学习方法,其中使用神经网络对应用的化合物进行分类。目标是获得以有意义的方式组织细胞的特征,这可以告知化合物是否相似。评估涉及观察具有相似生物效应的化合物簇,目的是将搜索空间缩小到有用的化合物。深度学习特征与经典特征的比较显示出显着差异。

  • 00:40:00 在本节中,演讲者讨论了深度学习在细胞成像分割中的应用,特别是在确定化合物之间具有生物学意义的联系以及识别突变对癌症的影响方面。通过将基因的原始类型与突变体进行比较,研究人员可以测量它们之间的表型相似性,以确定突变体是否导致癌症。然而,批量校正仍然是深度学习中的一个挑战,因为它会影响从图像中学习到的特征。演讲者建议使用域适应,其中使用具有两个头的神经网络进行复合分类和批次确定。然后使用负梯度破坏与批次相关的潜在信息,从而更清晰地确定表型。总的来说,演讲者得出结论,图像是生物发现的重要信息来源,但也承认表示学习和可解释模型方面的开放挑战。
 

深度学习图像配准与分析 - 第 21 讲



深度学习图像配准和分析 - 第 21 讲 - 生命科学中的麻省理工学院机器学习(2021 年春季)

在本次讲座中,Adrian Dalock 深入探讨了对齐医学图像及其背后的优化问题。他提出了一种称为体素变形的新方法,该方法涉及使用未标记的数据集来训练神经网络以进行图像配准。演讲者还讨论了神经网络从未见过的新数据和序列的鲁棒性挑战,并建议模拟各种极端条件来训练鲁棒模型。演讲者将经典配准模型与体素变形和合成变形模型进行了比较,后者非常稳健。最后,演讲者讨论了基于所需属性生成模板而不是直接学习模板的功能的开发,以及胶囊视频内窥镜检测结肠异常的潜在用途。

本次演讲的演讲者讨论了各种机器学习方法来克服医疗数据的缺乏,特别是在用于息肉检测的结肠镜检查视频的背景下。他们引入了一种深度学习图像配准和分析架构,该架构利用预训练的权重和随机初始化来解决域偏移并提高性能。讲座还涵盖了弱监督学习、自监督学习和弱监督视频分割。演讲者承认在医疗数据分析中使用机器学习方法所面临的挑战,并鼓励在实际医疗程序中测试这些方法以减少工作量。

  • 00:00:00 在讲座的这一部分,Adrian Dalock 讨论了对齐医学图像的重要性及其背后的优化问题。他解释说,将图像与公共参考系对齐是分析医学图像的核心,因为它可以识别结构和疾病,以及比较受试者。然而,传统的对齐步骤非常耗时,每个大脑最多需要两个小时,这阻碍了复杂模型的开发。 Dalock 引入了一种明显更快的方法,在 CPU 上不到一分钟,在 GPU 上不到一秒,从而可以在该领域进行更快、更高效的研究。他将对齐或配准定义为寻找与图像匹配的变形场,并在包括计算机视觉和计算生物学在内的各个领域进行了广泛研究。

  • 00:05:00 在本节中,演讲者讨论了图像配准方法的演变,从经典模型开始,逐步发展到三年前出现的基于学习的方法。然而,后一种方法虽然有效,但由于缺乏用于监督数据的地面真实变形场而受到阻碍。演讲者提出了一种新方法,该方法涉及使用未标记的数据集来训练神经网络,从而为图像配准提供更优雅、更高效的端到端解决方案。该框架涉及使用经典模型的损失函数来优化整个新神经网络,从而提高准确性和加快速度。

  • 00:10:00 在本节中,演讲者描述了一种使用深度学习技术进行图像配准的方法,该方法借鉴了经典方法,但优化了神经网络以输出变形场,而不是直接优化场。变形场应用于数据集中的所有图像,并使用随机梯度技术来优化网络。演讲者解释了如何使用可微损失来确保变形场的平滑性,并通过比较变形过程前后的解剖结构以及测量体积重叠来评估结果。所提出的方法称为体素变形,能够估计优化过程的输出并提供概率模型的近似值,提供图像、变形场和不确定性估计之间的优雅连接。

  • 00:15:00 在本节中,演讲者讨论了他们对仅使用几张图像训练体素变形神经网络的分析,表明即使只有 10 张图像,网络输出的变形场也接近最先进的水平.此外,演讲者还谈到了概述特定感兴趣区域的问题,例如大脑中的海马体,以及他们如何能够教网络识别该区域,而无需通过让它在执行过程中执行“软分割”来实际标记它。训练。最后,演讲者讨论了不同医学图像的挑战,以及仅在一种模式上训练网络如何限制它们与其他模式一起工作的能力,并提出了一个解决该问题的项目。

  • 00:20:00 在本节中,演讲者讨论了使神经网络对他们以前从未见过的新数据和序列具有鲁棒性的挑战。他们建议模拟各种极端条件,使网络暴露于显着的可变性,以便它决定忽略一些异常值,从而更好地泛化到现实世界的数据。为实现这一目标,他们随机变形图像、添加不同的噪声模式、随机填充值和强度并模拟各种效果以生成数据。他们尝试为注册和分割论文模拟不同的数据,并模拟随机形状,这为他们提供了一个可用于测试信息质量的变形场。

  • 00:25:00 在本节中,演讲者讨论了训练不同模型进行图像配准和分析的结果。他们使用不同的训练指标训练体素变形模型和两个版本的合成模型。经典模型表现良好,但具有可变性和稳健性的体素变形模型表现更好。用模拟大脑或斑点图像训练的模型与体素变形模型大致相同,但优于经典模型。然而,当涉及到模式之间的注册时,使用相同对比度指标训练的模型会崩溃。同时,synthmorph 模型非常稳健,即使是真实图像也是如此。但是,模型容量可能会导致无法捕获真实图像特征的问题。

  • 00:30:00 在讲座的这一部分,演讲者讨论了机器学习模型的能力以及该领域如何朝着使用更多参数的方向发展。他们用不同的模式模拟脑部扫描,并比较经典模型体素变形及其方法合成的性能。他们发现他们的方法是稳健的,因为它能够完全忽略对比度并仅提取必要的解剖结构,这是通过学习忽略对网络特征中对比度变化的响应来完成的。他们还介绍了他们的新方法 hypermorph,它学习超参数对注册字段的影响。这种方法的潜力在于它只需要训练一个模型并在之后对其进行调整,从而消除了训练多个模型的需要。

  • 00:35:00 在本节中,演讲者讨论了一种称为超网络的技术,该技术涉及训练一个以超参数值作为输入的小型网络,并输出一个较大网络的权重,该网络会生成用于图像配准的变形场。通过调整超参数值,可以在不需要重新训练的情况下调整变形场,并且单个超变形模型可以捕获大范围的变形场变化。该技术可应用于图像配准以外的各种机器学习设置,并且可用于允许交互式调整模型或根据验证数据对其进行调整。最佳超参数值因数据集、患者年龄和注册任务等因素而异。

  • 00:40:00 在讲座的这一部分,演讲者讨论了在进行图像配准时为大脑的不同区域选择不同的超参数值的重要性。他们还将在真实数据上训练的模型与在随机数据上训练的模型进行比较,解释了前者如何在不同区域更容易受到噪声的影响。然后他们介绍了一个项目,该项目的重点是在不构建质心大脑或使用模板的情况下将数据与公共参考系对齐的想法。相反,他们建议在配准图像的同时估计地图集,由此产生的工具被证明是灵活的,能够解决许多以前难以解决的问题,例如为不同的人群构建单独的模板。

  • 00:45:00 在本节中,演讲者讨论了深度学习图像配准和分析中“条件模板”的概念,它涉及学习一种根据所需属性(例如年龄、性别或遗传)生成模板的函数信息)而不是直接学习模板。通过输入患者数据和年龄信息,该网络能够学习平滑的年龄相关图谱,捕捉不同大脑之间的某些影响,例如脑室大小的变化。演讲者还讨论了使用类似方法进行遗传学相关分析的潜力,以及该领域中变分编码器和其他机器学习概念的使用。

  • 00:50:00 在讲座的这一部分,演讲者讨论了他们在胶囊视频内窥镜自动病理检测方面的工作背后的动机,这是挪威科技大学与挪威一家医院的合作。人类结肠易患结直肠癌和溃疡性结肠炎等疾病,这些疾病会侵蚀结肠壁的光滑度,并可能导致出血或其他并发症。医生建议 50 岁以上的人进行结肠镜检查,但患者可能不接受。胶囊视频内窥镜提供了另一种可视化结肠壁和检测异常的方法,它使用药丸大小的小型相机传输近 50,000 帧以产生大量数据。

  • 00:55:00 在本节中,演讲者讨论了胶囊视频内窥镜成像的挑战,其中可摄入的胶囊在通过消化道时捕捉图像。胶囊必须空腹服用,可能会漏掉结肠皱襞的特征。此外,胶囊在穿过小肠时可能会卡住或面临几何障碍,这可能会导致手术。生成的视频质量不如高清图像质量,颜色和过渡平滑度有限。尽管存在这些局限性,胶囊视频内窥镜仍可帮助诊断憩室炎等病症,医生可在视频中寻找异常情况以指导治疗。

  • 01:00:00 在讲座的这一部分,演讲者讨论了在医学数据分析中使用机器学习方法的挑战,特别是在用于息肉检测的结肠镜检查视频的背景下。主要问题是由于医学数据采集的昂贵和缓慢的性质以及难以获得不同病理学家的标签而导致数据缺乏。演讲者概述了几种克服数据不足的机器学习方法,例如迁移学习和监督学习,并解释了当前使用 RGB 图像、几何特征和 3D 卷积的深度学习方法。最后,演讲者介绍了用于息肉检测的 wine it 方法,该方法涉及使用配准来对齐结肠镜检查图像并提高息肉检测性能。

  • 01:05:00 在讲座的这一部分,演讲者讨论了一种深度学习图像配准和分析架构,该架构利用预训练的权重和随机初始化来解决域偏移并提高对象检测和图像分割的性能。该架构由两个编码器组成,一个从 ImageNet 预训练,另一个具有随机权重,以及对输入图像的增强。每个编码器的学习率取决于它们正在训练的层,并使用二元交叉熵和骰子损失函数。该架构在包含息肉的视频数据集上进行了测试,并使用相同输入的多个变体获得了 85.9 的 F1 分数。最后,演讲者展示了展示该架构有效性的视频。

  • 01:10:00 在本节中,讲师讨论了为图像配准问题收集标记数据的挑战,并介绍了弱监督多实例学习的概念。假设有一个阳性包,其中至少有一个感兴趣的病理学实例,而阴性包总是有阴性实例。该问题被表述为找出哪些帧包含病理,并且可以通过预测每个帧的个体贡献并优化聚合的最终视频标签上的损失来优化。值得注意的是,由于标记数据有限且缺少单个组件的数据,该问题具有挑战性,需要弱监督方法。

  • 01:15:00 在本节中,演讲者讨论了他们如何从具有病理和正常视频的视频中提取共振 50 特征,并通过包含带跳跃连接的双向 LSTM 的残差 LSTM 块传递它们。他们解释说,目标是找到每个帧对最终视频分类问题的贡献的 alpha。他们还讨论了利用高注意力价值框架来识别病理并将它们与负面类别区分开来。最终的损失函数是视频分类的交叉熵和正负库之间袋子的分离。然后,演讲者分享了他们如何进行称谓研究以确定在哪里学习注意力,最好的结果是参与最终的隐藏表示并将其应用于最终输出。该方法针对使用度量学习的其他方法进行了测试。

  • 01:20:00 在本节中,演讲者讨论了自我监督学习在医学成像中的应用及其带来的挑战。他们提到,一种已经取得一定成功的方法是使用拼图问题,其中图像被分成小块并重建。然而,医学成像的问题是没有旋转不变性,因此很难找到有意义的聚类。演讲者建议,通过领域知识改进视频帧定位,例如了解不同疾病的表现,可能是改进病理分类的有用方法。

  • 01:25:00 在本节中,演讲者讨论了弱监督视频分割以及检测帧定位位置的必要性,以便在医疗环境中提供更好的解释。他们还提到自我监督的预测试任务和对比学习的设计是该领域令人兴奋的新方法,每天都有新的工作发表。演讲者认可 icomet 项目并鼓励在实际医疗程序中测试这些方法以减少工作量。主持人对解决医疗问题的真正从业者表示赞赏,并感谢演讲者的信息讲座。
 

电子健康记录 - 第 22 讲



电子健康记录 - 第 22 讲 - 生命科学中的深度学习(2021 年春季)

机器学习在医疗保健领域的出现是由于医院采用电子病历以及可用于获得有意义的医疗保健见解的大量患者数据。利用在疾病登记处发现的纵向数据讨论了疾病进展建模,由于高维纵向数据、缺失和左右审查制度,这可能会带来挑战。本讲座探讨了使用深度马尔可夫模型等非线性模型来应对这些挑战,并有效地模拟纵向生物标志物的非线性密度。此外,演讲者还讨论了使用领域知识为转换函数开发新的神经架构,以及将领域知识纳入模型设计以实现更好泛化的重要性。还有关于治疗效果函数的模型复杂性实验,演讲者计划在更大的队列中重新讨论这个问题以确定进一步的发现。

  • 00:00:00 在本节中,Microsoft Research 的高级研究员 Rahul Krishnan 解释了由于电子健康记录数据的数字化,机器学习在医疗保健领域的出现。医院采用电子病历系统产生了大量患者数据,可用于获得有意义的医疗保健见解。 Krishnan 强调了疾病登记处的使用,这些登记处是更集中于单一疾病的数据集,由非营利组织发布,供研究人员研究和回答问题。无监督学习等机器学习技术正被用于研究这些数据集的子结构,并构建工具来帮助临床医生。该演示文稿侧重于疾病进展建模和该领域研究人员正在进行的一些工作。

  • 00:05:00 在本节中,演讲者讨论了利用疾病登记中发现的纵向数据进行疾病进展建模。疾病进展建模已经存在了几十年,并试图建立统计模型来捕获疾病登记中发现的复杂和混乱的数据,包括基线协变量、纵向生物标志物和治疗信息。这个问题通常被视为无监督学习,其中模型旨在最大化观察患者纵向生物标志物序列的对数概率,该序列以患者的基线信息和干预序列为条件。演讲者介绍了一种疾病进展建模的新方法,该方法将于今年在 ICML 上发表。

  • 00:10:00 在本节中,演讲者讨论了在多发性骨髓瘤(一种罕见的骨髓癌)背景下使用电子健康记录模拟疾病进展的挑战。由于这种疾病非常罕见,通常只有少数患者可以学习,因此很难进行良好的建模和密度估计。此外,医疗保健数据提出了挑战,例如具有非线性变化、缺失和左右审查的高维纵向数据。演讲者建议使用非线性模型,如深度马尔可夫模型来应对这些挑战,并有效地模拟纵向生物标志物的非线性密度。

  • 00:15:00 在本节中,讲座描述了电子健康记录的潜在变量模型,其中数据由潜在变量和随时间推移获得的观察结果生成。该模型假设医生开出的药物的选择取决于从先前观察中获得的临床生物标志物的值。演讲者还解决了缺失数据的问题,可以通过在最大似然估计期间边缘化缺失变量来克服这一问题。然而,对于使用推理网络的变分推理,该模型需要近似值来估计缺失数据,并且需要进一步研究以了解缺失性如何影响近似后验分布的偏差。

  • 00:20:00 在本节中,演讲者解释了如何通过对患者与医生的互动进行建模来预测患者的病史。该模型使用随时间变化的潜在表示来预测患者的医疗状况。演讲者强调了由于非线性和某些疾病的罕见性而对医学数据建模的挑战。他们探索使用领域知识为转换函数开发新的神经架构。演讲者还讨论了使用全局时钟和本地时钟分别跟踪治疗持续时间和发生重大进展事件之前经过的时间。他们解释了如何近似药物的机械效应并将这些知识整合到模型中。

  • 00:25:00 在本节中,演讲者讨论了使用药代动力学和药效学来估计用于治疗癌症的药物对患者肿瘤的影响。他们提出了三种新的神经结构来模拟联合给予患者的多种药物的效果,并使用注意力机制将它们结合起来以创建单一功能。目标是进行条件密度估计,使用领域知识来对抗过度拟合。该模型称为 SSNPK,适用于根据当前护理标准治疗的一组多发性骨髓瘤患者,随时间推移具有 16 种临床生物标志物、9 种治疗适应症和 16 种基线特征。

  • 00:30:00 在本节中,演讲者讨论了使用不同模型分析临床数据的结果,特别关注深度学习和状态空间模型的使用。他们比较了不同模型在泛化到新数据方面的有效性,发现使用 ssnpkpd 始终可以在线性和非线性基线中产生更好的性能。他们还进行消融分析以确定哪些生物标志物对模型中的增益贡献最大,并发现使用本地和全球时钟有助于对数据的动态进行建模。此外,他们使用经过训练的模型的潜在空间来进一步探索和理解数据随时间的行为。

  • 00:35:00 在讲座的这一部分,演讲者讨论了使用 SSNPKPD 模型根据患者的基线生物标志物预测其未来临床生物标志物的结果。与线性基线相比,该模型对数据的拟合度更高,表明 SSNPKPD 捕获的潜在表征保留了相关的患者病史,可用于预测未来的临床生物标志物。演讲者总结了演讲的主要内容,即将领域知识纳入模型设计以实现更好泛化的重要性,并强调了未来研究在医疗保健领域结合不同数据模式的机会。演讲者还指出了在更大队列中对结果的持续验证,以及将该模型纳入临床决策支持工具和基于模型的强化学习框架的可能性。

  • 00:40:00 在本节中,演讲者讨论了他们在治疗效果函数方面对模型复杂性的实验。他们通过创建处理效果函数的副本来尝试模型的变体,从三个到十二个不等,发现有一个点,额外的复杂性并没有显着提高性能,甚至降低了性能。然而,当他们移除一些治疗效果函数时,他们发现性能有所下降,但仍然优于线性模型。演讲者计划与 VA 一起在更大的队列中重新审视这个泛化问题,以确定这些发现的范围。
 

深度学习和神经科学 - 第 23 讲



深度学习和神经科学 - 第 23 讲 - 生命科学中的深度学习(2021 年春季)

该讲座讨论了深度学习和神经科学之间的相互作用,特别是在视觉科学领域。目标是对人类视觉智能进行逆向工程,这是指人类对光子撞击眼睛时表现出的行为能力。演讲者强调用机制的语言(例如模拟神经元网络)来解释这些功能,以启用可以使脑科学和人工智能都受益的预测性构建系统。该讲座探讨了深度学习模型如何成为大脑如何执行感觉系统过程的假设,以及超越仅仅模仿大脑进化的潜在应用。此外,讲座还展示了神经网络如何操纵记忆和改变事物含义的实际例子。

该视频讨论了深度学习在理解大脑认知功能并将这种理解用于工程目的方面的潜力。演讲者强调了循环神经网络与其在该领域的记忆和内部动力学能力的相关性。本讲座探讨了神经系统通过模仿进行学习的能力,以及如何将其用于学习工作记忆的表征、计算和操作。该视频还介绍了寻找反馈学习作为学习条件的证据的困难,以及纠错机制调整系统的潜力。讲座最后反思了课程中涵盖的主题的多样性,以及深度学习如何在未来帮助解释认知系统。

  • 00:00:00 在本节中,演讲者讨论了深度学习与神经科学之间的相互作用,特别是在视觉科学领域。他解释了深度学习模型如何被视为大脑功能各个方面如何运作的科学假设,以及神经科学家和认知科学家如何根据数据评估这些假设的质量。 Carlo 的演讲侧重于逆向工程人类视觉智能的目标,它指的是人类对光子撞击他们的眼睛做出反应而表现出的行为能力。他强调了用机制语言(例如模拟神经元网络)来解释这些功能的重要性,以实现可以同时有益于脑科学和人工智能的预测性构建系统。

  • 00:05:00 在本节中,讲师讨论了视觉智能以及大脑如何估计场景中的内容,例如识别汽车或人;然而,预测接下来会发生什么以及其他物理驱动的问题仍然是科学家理解的挑战。尽管如此,科学家们在对我们在每 200 毫秒的场景一瞥中处理的基本视觉效果进行建模方面取得了重大进展,这也称为核心对象识别。讲师提供了一些测试示例,这些测试可以衡量我们识别物体的能力并将它们与其他物种进行比较,例如计算机视觉系统和恒河猴等非人类灵长类动物。

  • 00:10:00 在本节中,演讲者讨论了人类和灵长类动物区分物体的能力。他指出,人类和灵长类动物在视觉识别任务上的表现相似,人类只是表现稍好一些。此外,演讲者还讨论了深度学习系统以及它们如何与人类和灵长类动物的视觉识别能力进行比较。然后演讲者转而讨论恒河猴大脑中涉及视觉识别任务的区域,并强调颞下皮层是最高级别的区域。最后,演讲者指出了颞下皮层中神经活动模式出现的典型时间尺度,以及它如何与明显的行为采样技能所需的时间相匹配。

  • 00:15:00 在视频讲座的这一部分,演讲者讨论了研究人员如何使用侵入式记录电极研究猴子等动物视觉皮层中单个神经元对图像的反应。通过测量神经元响应不同图像的电活动模式,研究人员可以使用平均尖峰率来量化响应。这些活动模式可以通过它们选择性的相似性聚集在一起,并且已经在视觉皮层中识别出某些类型的物体(如面部)的特殊聚集区域。长期记录阵列的使用允许研究人员从相同的神经部位记录数周或数月,并测量对数千张图像的反应。

  • 00:20:00 在本节中,演讲者解释了一项实验,在该实验中,当动物注视或执行任务或观察图像时记录神经数据。通过在小数据样本上训练线性解码器,出现的模式与在人类和猴子身上看到的模式无法区分。这允许开发一组强大的特征空间,可用于脑机接口应用程序以可视化某些感知。演讲者随后讨论了神经活动和图像之间发生的非线性转换,表明该领域是深度学习和视觉科学的结合点。

  • 00:25:00 在本节中,演讲者讨论了深度卷积网络最初是如何根据神经科学中已知的原理构建的,例如边缘检测、过滤、输出非线性和增益控制的概念。然而,由于这些模型是针对大脑视觉区域的神经数据进行测试的,因此它们存在不足,无法预测 V4 中单个神经元的反应模式。虽然这些模型是为神经科学家建立的假设,但它们不足以解释视觉系统的工作原理。尽管这些早期模型失败了,但它们为正在进行的工作提供了灵感,将深度网络中学习的过滤器与 V1 中观察到的过滤器分开。

  • 00:30:00 在本节中,演讲者讨论了神经科学与深度学习之间的协作如何优化人工神经网络中的未知参数,从而生成与灵长类动物大脑的神经反应模式非常相似的模型。演讲者指出,突破在于实现一个循环,使工程师能够优化深度卷积神经网络中过滤器的微观参数。通过这样做,所产生的模型被视为关于视觉系统中可能发生的事情的新假设,允许与大脑中的生物神经网络进行比较。演讲者继续举例说明如何进行这些比较,从而得出关于大脑功能的早期机械假设。总的来说,这种合作使得计算机腹侧流神经元的开发成为可能,这些神经元与生物腹侧流中的神经元非常相似,从而可以更深入地了解大脑如何处理视觉信息。

  • 00:35:00 在本节中,演讲者解释说,他们开发的深度学习模型是关于大脑如何执行感觉系统过程的假设,特别是在视觉对象识别领域。他们指出,这些模型并不完美,存在一些差异,他们的目标是在未来进行优化和改进。演讲者还讨论了深度学习在工程和人工智能中的更广泛应用,强调这些模型可以用作指导进一步科学理解和优化的工具。他们最后指出需要更多的数据和模型来更准确地表示大脑的过程。

  • 00:40:00 在本节中,演讲者讨论了深度学习和人工智能的创新潜力,而不仅仅是模仿大脑的进化。他们建议大部分创新将来自架构的选择,并且优化工具将可用于实现该优化。反复出现的问题可能会洞察认知的潜意识元素,大脑的解剖结构将反复出现的想法联系起来,这可能会导致下游区域涉及更多的认知。演讲者还谈到了跳跃连接、灰色区域,以及现在正在进行的工作是如何尝试解决这个问题的。

  • 00:45:00 在视频的这一部分,演讲者讨论了幼态的概念,以及它如何影响不同物种视觉皮层中硬编码功能和过滤器的比例。随着系统的向上移动,大脑的可塑性更强,猴子的区域达到一定程度,而人类的脑组织更多,灵活性更高。演讲者认为大脑有很大的灵活性空间,虽然它是我们灵长类动物系统的一部分,但大脑的一部分超出了这一范围,这没关系。下一位演讲者随后讨论了他们将大脑视为循环神经网络的工作,以及研究人工神经系统和真实神经系统之间的交叉点如何帮助我们理解它们的工作原理。

  • 00:50:00 在本节中,重点是如何使用高效和稀疏编码来学习人工和真实神经系统中的有效表示基础。通过研究循环网络中的类脑行为,可以找到扩展人工循环网络功能的原理,并有助于理解真实循环网络的工作原理。循环神经网络学习存储和修改内部表征和记忆,使它们能够以类似于鸡尾酒会效应的方式分离重叠信号。真实的神经系统在存储和操纵表征方面非常出色,正如在循环网络中称为工作记忆的大脑区域中所见。目标是找到扩展人工循环网络功能的原理,并帮助理解真实循环网络的工作原理。

  • 00:55:00 在讲座的这一部分,老鼠的位置是从称为位置细胞的神经元中解码出来的,它跟踪老鼠在空间中四处移动时的运动。老鼠甚至可以在移动之前操纵其神经表征来规划未来的轨迹。然后,讲座探讨了神经网络如何操纵记忆,例如鸣禽通过模仿成年人来学习唱歌的能力。本讲座讨论了神经网络如何通过观察示例来学习操纵信息的复杂过程,并介绍了混沌吸引子的概念作为记忆模型,以及称为储层的简单非线性动力系统作为神经网络模型。水库的控制参数用于修改网络对它学到的任何记忆的表示,讲座提供了这种控制如何改变某些事物的含义的实际例子。

  • 01:00:00 在本节中,演讲者讨论了上下文调节能力如何影响神经网络的学习和能力。他们解释说,使用上下文变量来偏置网络意味着需要更多数据来训练以学习通用参数。演讲者还谈到了使用储层计算方法在神经网络中存储记忆,以及学习模仿观察到的输入的简单方案如何足以存储记忆。然后,他们讨论了通过查看吸引子在 x1 方向上的平移并为每个平移更改上下文参数 c 的值来修改神经网络内部的记忆。

  • 01:05:00 在本节中,演讲者讨论了储层学习对其吸引子流形的内部表示进行内插和外推变换操作的能力。该团队提供了四个在 x1 方向上挤压的洛伦兹吸引子的训练示例,并进行了训练和反馈。水库被发现可以学习内插和外推任意的变换操作,包括拉伸或多变体。该团队还发现,reservoirs 可以预测洛伦兹吸引子的全局分叉结构,并可以预测其他几种动力学范式的分叉图,例如鞍模和超临界干草叉分叉。神经网络甚至可以学习预测非动态运动轨迹,例如改进的 Jansen 连杆的例子。

  • 01:10:00 在讲座的这一部分,演讲者讨论了一种称为可逆广义同步的方法,这是一种将刺激映射到神经系统中的神经动力学的思想形式化的方法。演讲者解释说,要形成表征,神经元必须形成分布式表征,而不是单独编码输入刺激的特定部分。他们还必须能够用自己的表现来驱动自己,这是将输入存储为记忆的关键机制。最后,演讲者展示了循环神经网络可以维持混乱的记忆,使它们能够翻译和转换记忆。

  • 01:15:00 在本节中,演讲者讨论了神经系统通过模仿所见示例进行学习的能力,以及如何将其用于学习工作记忆的表示、计算和操作。然后谈话转移到反馈学习的问题以及它如何应用于所展示的模型。虽然有证据表明视觉皮层某些部分的术语具有线性可分离性和可重构性,但演讲者指出很难找到反馈学习的证据,因为这是一种非常极端的学习条件。有人建议使用纠错机制来调整系统,但也讨论了根据外界预期判断结果的一组固定参数的想法,以及当预期偏离很大时形成显着记忆的想法。

  • 01:20:00 在本节中,讲师强调了深度学习在理解大脑认知功能和对其进行工程改造方面的潜力。具有记忆和内部动力学能力的递归神经网络在这一领域尤其重要。讲师鼓励将这些系统视为有生命和呼吸的实体,而不仅仅是函数逼近器。这些认知系统的核心在于 RNN,尽管它们可以通过输入和输出的卷积神经网络得到增强。海马体及其与神经系统不同方面的联系被引用为一个有趣的例子,说明记忆是如何在共同激发的神经元的相互作用系统中编码的。讲座最后反思了课程中涵盖的主题的多样性,以及深度学习如何在未来帮助解释认知系统。
 

MIT 6.S192 - 第 1 讲:计算美学、设计、艺术 |通过生成学习



MIT 6.S192 - 第 1 讲:计算美学、设计、艺术 |通过生成学习

本讲座涵盖与计算美学、设计和艺术相关的各种主题。讨论了人工智能在艺术创作民主化、设计自动化和推动艺术边界方面的作用,以及量化美学和使用高级和低级表示在设计中实现视觉平衡方面的挑战。讲师还强调了计算设计在揭示模式和有效传达信息方面的潜力,示例涉及颜色语义和杂志封面设计。众包实验用于确定颜色与各种主题的关联,并探索了该方法在不同领域的潜在应用。总体而言,讲座介绍了人工智能在创意应用中的作用,以及彻底改变我们创作艺术、设计和其他形式创意表达方式的潜力。

该视频讨论了如何使用计算美学、设计和艺术来使用生成模型(例如 StyleGAN 和 DALL-E)生成创意作品。讲师还强调了通过生成来学习的重要性,并鼓励观众分解问题并使用数据来提出创新和创造性的解决方案。但是,演讲者还谈到了生成模型的局限性,例如有偏见的数据以及概括和跳出框框思考的能力。尽管如此,讲师还是让学生回顾所提供的代码,并尝试使用各种技术来生成美观的图像,同时鼓励他们参与伯克利和麻省理工学院之间关于计算美学和设计的苏格拉底式辩论。

  • 00:00:00 在讲座的这一部分,演讲者讨论了在艺术、美学和创造力中实施 AI 的动机。他们解释说,艺术是人类进化和交流的一个关键方面,人工智能可以使艺术创作的途径民主化,培养创造力,并突破艺术的界限。每天上传数百万张照片,每天曝光 650 个广告,AI 可以帮助自动设计好的设计,并了解什么是好设计或坏设计。最后,演讲者认为人工智能将在未来发挥关键作用,人工智能将每秒创作电影、戏剧等,这引发了我们是否要塑造未来的问题。

  • 00:05:00 在本节中,演讲者讨论了人工智能在艺术、美学和创造力中的作用。他解释说,卷积神经网络 (CNN) 可能会偏向于纹理,但这可以通过生成不同的样式并将它们合并到数据中来消除偏差。此外,他提到在 2018 年,一幅使用生成模型制作的画以 50 万美元的价格售出。他还谈到了美学是否可以量化的问题,并指出哲学家和艺术家几代人一直在讨论这个话题。最后,他谈到了课程的目标,包括学习如何将 AI 算法应用于创意应用和解决有趣的问题。

  • 00:10:00 在视频的这一部分,讲师回答了一个问题,即深度学习的先验知识对于课程是否是必要的。他解释说,虽然该课程将涉及深度学习,但这不是主要重点,还有其他资源可用于学习该主题。然后,他继续讨论他之前关于量化美学的工作,指出衡量美学并不是一个新概念,并且已经建立了模型,例如 20 世纪初的 Birkhoff 模型,可用于在各种情况下量化美学,例如作为视觉设计、诗歌甚至界面。

  • 00:15:00 在本节中,演讲者以视觉平衡为例,讨论了美学的量化以及实现这一目标所面临的挑战。良好的表示是必要的,无论是高层次还是低层次。高级表示可以包括视觉平衡和节奏,而低级表示依赖于使用神经网络提取的特征。数据也是量化美学所必需的,包括使用了什么样的数据,来自哪里。演讲者解释了平衡通常是如何通过直觉传授给设计师的,但工程师想要量化它并确定其在设计中的意义。

  • 00:20:00 在本节中,演讲者讨论了设计中视觉正确性和平衡性的概念,也称为和谐。他谈到了阿恩海姆的工作,阿恩海姆建议将设计元素放置在特定热点可以创造视觉平衡。演讲者探讨了这一假设是否可以通过数据驱动分析得到证实,并使用显着性算法研究图像的显着部分,并将其结果叠加在结构网上。他使用爬虫从摄影网站收集了超过 120,000 张图像,以研究这些图像的显着性模式。

  • 00:25:00 在本节中,使用具有显着性算法的数据集来拟合高斯分布,以便在肖像、建筑和时尚等不同类别的聚合图像中找到模式。分析了显着的热点,类似于阿恩海姆的质心和三分法则理论。然而,结果可能会受到摄影师裁剪图像方式的影响,如关于三分法则有效性的研究所示。

  • 00:30:00 在本节中,讲师讨论了计算美学和设计的主题。他们提到了 AVA 数据集的可用性,其中包含美学、语义和摄影风格的注释。然后,讲师演示了深度学习算法如何学习和预测美学评级,并建议这可用于增强和调整图像。然后讲座继续讨论计算设计的潜力及其在揭示设计模式和更好地表达自我方面的重要性。

  • 00:35:00 在讲座的这一部分,演讲者介绍了计算设计的概念,并讨论了设计与艺术之间的区别。设计中的问题是给定的,设计师的工作是传达信息以解决该问题,而艺术家则自己定义问题并使用艺术技巧来解决它。设计原则(例如装饰上的交流)可能难以传达给机器,但各种理论、指标和规则(包括格式塔和色彩和谐)可用于自动创建和推荐内容。演讲者还提供了一个自动化设计软件的示例,该软件可以在给定的背景图像之上布置文本和设计元素。

  • 00:40:00 在视频的这一部分,演讲者讨论了他如何通过选择互补色并研究 Itten 和 Matsuda 以及研究色彩组合 30 年的 Kobiashi 所做的工作来创建杂志封面的自动设计,以及如何颜色可以与浪漫、柔和和整洁等词相关联。基于这项工作,演讲者创建了一个自动设计系统,可以根据用户选择的颜色向用户提供建议,并为杂志封面创建样式。此外,演讲者探讨了专业设计师的数据是否可以提取杂志封面调色板中的图案。

  • 00:45:00 在视频的这一部分,演讲者讨论了他们的项目,该项目涉及收集 12 种不同类型的杂志封面数据集,以便同时找到封面上使用的文本、类型和颜色组合。演讲者使用主题建模来提取不同的主题,这些主题是单词和颜色的组合,并展示了如何使用词云和调色板来可视化这些主题。发言人还讨论了使用众包来确定项目结果是否具有普遍性。

  • 00:50:00 在本节中,演讲者讨论了他们进行的一项众包实验,该实验旨在了解不同文化和人口统计是否同意颜色与各种主题的关联。该实验涉及展示从主题中随机选择的调色板,然后展示不同的词云并要求受试者匹配它们。来自不同国家的 1,000 多名参与者参与其中,由此产生的相关性或相关性矩阵揭示了一些有趣的模式。实验表明,在大多数情况下,参与者同意颜色与各种主题的关联,尽管也有一些例外。演讲者还强调了这种方法在为不同类型的产品设计调色板时的潜在应用。

  • 00:55:00 在讲座的这一部分,演讲者讨论了颜色语义在调色板推荐、图像检索、重新着色甚至网页设计等任务中的各种应用。她演示了如何使用算法根据特定概念或主题推荐颜色和杂志封面,以及如何随着时间的推移分析和可视化网页设计中的模式。在识别特定时代的调色板和网站设计趋势方面也证明了卷积神经网络的使用。
  • 01:00:00 在本节中,演讲者讨论了计算设计和美学在预测设计年份中的应用。他们解释说,模型不仅考虑了颜色,还考虑了排版等高级功能。没有提到分类的准确性,但指出它高于偶然性。计算设计还被用于分析广告、创建徽标和图标以及设计时尚调色板。

  • 01:05:00 在本节中,演讲者讨论了生成模型在时尚、产品设计和艺术中的应用。他展示了用于理解时尚元素(例如颜色和标签)的数据集示例,并提到了使用类似数据集来推荐产品设计的同事。演讲者还谈到了生成模型,这些模型可以输入草图并输出产品设计或改变图像以使其看起来像不同的时尚产品。此外,他还涉及与计算艺术和创造力相关的主题,包括风格转换和内容生成工具。

  • 01:10:00 在视频的这一部分,教授讨论了计算艺术和人工智能在生成创意作品中的应用,包括图像和风格转换、内容生成和视频生成模型。讨论包括这些领域近期工作的几个示例,包括 StyleGAN、OpenAI 的 DALL-E 和用于视频姿势修改的生成模型。尽管取得了这些进步,但问题仍然是机器是否真的可以成为艺术家,或者创造力和艺术是否只属于人类。

  • 01:15:00 在本节中,演讲者通过生成和分享一些结果来讨论他们对学习方向的兴奋。他们解释说,通过生成来学习很有趣,因为这是一种训练人工智能根据人类学习解决问题的方式开发算法的方法。演讲者还谈到了一个关于量化美学的问题,并提到弥合人类语言高级术语和计算术语之间差距的一种方法是使用数据和模型,结合文化概念,甚至通过众包征求人们的意见。

  • 01:20:00 在视频的这一部分,演讲者讨论了在机器学习中使用数据以避免偏见并得出有趣结果的重要性。他鼓励听众思考如何设计能够带来创新和创造性解决方案的算法或表示。演讲者认为创造力和创新是人工智能的重要组成部分,并举例说明了它们如何用于对象和概念的设计。他强调,边生成边学习是培养解决问题能力的有效方法,并鼓励听众将较大的问题分解成较小的子集,一次解决一个问题。

  • 01:25:00 在视频的这一部分,演讲者讨论了创造力和 AI 中泛化和跳出框框思考的概念。演讲者提出了生成模型是否能够泛化和分布外思维的问题。为探讨这一主题,演讲者介绍了生成对抗网络 (GAN) 的可控性概念,并展示了通过在生成器的潜在空间中行走来操纵图像的能力。他们表明,当前的 GAN 模型可以表现出放大和缩小、移动和旋转等变换。演讲者解释了寻找潜在向量来操纵图像的过程,并以此展示生成模型在创造力和创新方面的潜力。

  • 01:30:00 在视频的这一部分中,演讲者讨论了 BigGAN 等生成模型的局限性以及它们拥有这些模型的原因。他解释说,偏见可能会被引入模型,这些偏见也存在于类的语义中。这意味着模型可以概括,但不如人类。演讲者继续表明该模型可以脱离数据集的分布并在一定程度上改变图像的外观,但前提是基础数据集是多样化的。该论文建议,克服偏差数据局限性的一种方法是增强它,例如通过放大或旋转图像。

  • 01:35:00 在视频的这一部分,讲师讨论了使用潜在空间通过变换生成美观的图像。这些转换可以通过在潜在空间中行走或转向来改变图像颜色、缩放、旋转、类似相机的变化等来实现。讲师还讨论了使用神经网络来检测图像美感,提供有关步行方向或变换是否生成更美观的图像的反馈。该讲座鼓励学生参与伯克利和麻省理工学院即将举行的关于计算美学和设计的苏格拉底式辩论。此外,讲师还要求学生查看提供的代码,并尝试使用各种技术来生成美观的图像。

  • 01:40:00 在视频的这一部分,演讲者讨论了他们工作的存储库,并鼓励观众使用 PyTorch 而不是 TensorFlow 来运行提供的笔记本。他们还解释了用于可视化代码结果的 Colab 系统,并强调了生成图像和报告结果的重要性。演讲者还提醒观众,他们可以通过电子邮件向他们提出任何问题,并感谢他们参与课程。
 

麻省理工学院 6.S192 - 第 2 讲:苏格拉底辩论,Alyosha Efros 和 Phillip Isola



麻省理工学院 6.S192 - 第 2 讲:苏格拉底辩论,Alyosha Efros 和 Phillip Isola

在此视频中,Alyosha Efros 和 Phillip Isola 讨论了使用图像创建共享体验的想法。他们认为这有助于唤起回忆并营造怀旧感。

这段视频是麻省理工学院两位教授关于数据在人工智能中的作用的辩论。 Efros 认为数据对 AI 至关重要,而 Isola 反驳说数据可能会阻碍 AI 的发展。

  • 00:00:00 在本次讲座中,Alyosha Efros 和 Phillip Isola 讨论了将生成模型视为一种新型数据的观点。 Efros 认为,当前的生成模型时代就像数据一样,但更好。 Isola 描述了生成模型的工作原理,以及如何使用它们来创建有趣的内容。

  • 00:05:00 在本次讲座中,Alyosha Efros 和 Phillip Isola 讨论了生成模型的力量。生成模型允许我们创建装饰有额外功能的数据点,例如可用于修改图像的潜在变量。这为创造力和科学可视化开辟了很多可能性。

  • 00:10:00 视频讨论了通过潜在空间操纵图像的想法。他们解释了如何通过搜索将映射到图像空间中有意义的变换的方向来实现这一点。他们举了一个例子,通过放大图像使图像更令人难忘。最后,他们讨论了如何使用这种技术
    将令人难忘的事物的含义形象化。

  • 00:15:00 该视频讨论了生成模型的概念,生成模型是一种可以用来创建新图像的数据类型。该视频展示了这些模型通过将不同图像的不同部分添加在一起来组合创建新图像的能力。该视频还讨论了生成模型的局限性,例如它们对某些对象的偏见或无法准确描绘某些场景。

  • 00:20:00 Alyosha Efros 和 Phillip Isola 讨论数据加加的概念,这是一种思考数据的方式,包括数据本身和用于生成数据的方法。 Efros 认为这种观点很有用,因为它允许在数据点之间进行更有意义的插值。 Isola 质疑人们如何选择两个数据点之间的路径,而 Efros 解释说模型会选择最短的路径,这通常看起来是最自然的。

  • 00:25:00 在此视频中,Phillip Isola 和 Alyosha Efros 争论“Dall-E”算法的优点。 Efros 认为该算法令人印象深刻,因为它能够理解语言。 Isola 反驳说,该算法实际上并不是在理解语言,而是在理解单词和语法。

  • 00:30:00 演讲者争辩说,GAN 并不是真正的创意,因为它们仅在高度精选的数据上进行训练。他建议,如果您负担得起,双向映射是最好的方法。

  • 00:35:00 在本次讲座中,Alyosha Efros 和 Phillip Isola 讨论了数据驱动与基于模型的人工智能研究方法的优点。 Efros 认为,模型将越来越多地成为数据的主要接口,数据科学家将需要学习如何使用模型而不是数据集。 Isola 对此表示赞同,并补充说用于训练这些模型的数据集正变得越来越大和复杂。

  • 00:40:00 该视频是 Alyosha Efros 和 Phillip Isola 的讲座,主题是艺术背景。 Efros 谈到了迈克尔·加林斯基 (Michael Galinsky) 的名为 Malls Across America 的艺术作品中的一张照片如何给他留下了深刻的印象,以及观看照片的背景如何影响其意义。伊索拉谈到一张女孩望着大海的照片如何能唤起那些在拍摄时还活着的人的回忆和感受。

  • 00:45:00 该视频是两位教授之间关于怀旧概念以及如何将其用于欣赏艺术的讨论。他们以两个朋友在门前的照片为例,因为他们有共同的回忆,这对他们两个才有意义。他们认为,这种怀旧有多种形式,对于那些能够回忆起回忆的人来说,这可能是一种愉快的体验。

  • 00:50:00 在此视频中,Alyosha Efros 和 Phillip Isola 讨论了使用图像唤起特定城市的人们之间的共享体验的想法。他们认为这有助于唤起回忆并营造怀旧感。

  • 00:55:00 爱德华·莫奈 (Edouard Monet) 的画作《奥林匹亚》(Olympia) 在 1865 年发行时因其裸体和扁平的肤色而成为一个巨大的丑闻。有些人认为画中手的位置让人抓狂。

  • 01:00:00 本次讲座是关于如何根据观看的语境以不同的方式解读艺术。所用的例子是阿梅代奥·莫迪利亚尼 (Amedeo Modigliani) 的画作《斜倚的维纳斯》(Reclining Venus),这幅画在首次展出时引起了公愤,因为它被视为对一幅名画裸体女性的拙劣模仿。然而,当在其他裸体女性画作的背景下观看时,它可以被视为一件有效的艺术作品。

  • 01:05:00 在 YouTube 视频“MIT 6.S192 - 第 2 讲:一场苏格拉底辩论,Alyosha Efros 和 Phillip Isola”中,两人讨论了俄罗斯画家 Zlotnikov 和美国画家 Hurst 的绘画背后的意义。 Efros 认为,绘画的方向取决于它们所唤起的自由和拥挤的感觉。伊索拉反驳说,方向是由马列维奇的黑色方形画决定的,他认为这是特定方向的最终解决方案。

  • 01:10:00  Phillip Isola 和 Alyosha Efros 争论艺术的意义,特别是马列维奇的黑色方形画作。伊索拉认为这幅画是无意义的能指,而埃弗罗斯则认为这是马列维奇的自然发展。

  • 01:15:00 这个视频的重点是我们可能高估了机器的复杂性,对我们来说看似神奇的东西可能只是简单过程的结果。 Braiterberg 的书“Vehicles”被用作复杂行为如何从简单的交互中产生的例子。

  • 01:20:00 在本次讲座中,Efros 和 Isola 讨论了创造力和新颖性的本质。 Efros 认为,两者都是渐进式变化的结果,而且创作过程通常非常顺利。伊索拉反驳说,新奇往往是随机性和运气的结果。

  • 01:25:00 这是两个人之间关于语境在艺术和科学中的作用的辩论。一个人认为语境是艺术有意义的必要条件,而另一个人则认为语境不是必需的,没有它艺术也可以是新颖的。

  • 01:30:00 在本次讲座中,Efros 和 Isola 讨论了运气在科学成功中的作用。 Efros 认为运气起着重要作用,而 Isola 则认为有多种方法可以规划成就。

  • 01:35:00 在本次讲座中,Alyosha Efros 和 Phillip Isola 就运气在创造力中的作用进行了辩论,Efros 认为运气不只是运气。 Isola 认为,数据加加(数据与运营的结合)是创造力的关键,一旦拥有正确的数据,可能性就会无穷无尽。

  • 01:40:00 这段 YouTube 视频是 Alyosha Efros 和 Phillip Isola 之间关于使用数据和模型之间的差异以及数据是否会过时的辩论。 Efros 认为,随着模型变得越来越先进,数据已经变得不那么重要,最终模型将在智能方面超越人类。 Isola 认为,数据仍然是黄金标准,模型永远不能超越它们所基于的数据。

  • 01:45:00 在这场辩论中,麻省理工学院教授 Alyosha Efros 和 Phillip Isola 讨论了艺术与人工智能之间的关系。 Efros 认为,计算是思考这种关系的最佳方式,艺术与进化之间存在着密切的联系。 Isola 同意这两者之间存在联系,但认为当前的模型无法从数据中推断出新信息,而这是真正具有创造力的 AI 的关键。

  • 01:50:00 很高兴与 Phillip 和 Alyosha 谈论艺术和计算。他们都认为艺术处于新思维范式的前沿,计算可以用来帮助探索新想法。

  • 01:55:00 在本次讲座中,Alyosha Efros 和 Phillip Isola 就数据在人工智能中的作用进行了苏格拉底式辩论。 Efros 认为数据对 AI 至关重要,而 Isola 反驳说数据可能会阻碍 AI 的发展。
 

麻省理工学院 6.S192 - 第 3 讲:Jun-Yan Zhu 的“高效 GAN”



麻省理工学院 6.S192 - 第 3 讲:Jun-Yan Zhu 的“高效 GAN”

该讲座涵盖了训练 GAN 模型的挑战,包括需要高计算量、大量数据以及需要大量训练课程的复杂算法。然而,讲师介绍了使 GAN 学习更快并在更少的数据集上进行训练的新方法,例如使用 GAN 压缩、可区分增强和数据增强的通用框架压缩教师模型。该讲座还演示了使用 GAN 进行交互式图像编辑,并强调了大型和多样化数据集对于成功进行 GAN 训练的重要性。 GitHub 上提供了运行模型的代码,其中包含针对不同类型数据运行模型的分步说明。本讲座最后讨论了模型压缩对于实际目的的重要性。

  • 00:00:00 在本节中,演讲者介绍了高效 GAN 的概念以及 GAN 的成本。虽然 GAN 已用于各种内容创建和创意任务,但开发新算法或执行实时性能需要高端 GPU。为了开发 GauGAN 项目,研究人员需要数百个高端 GPU 进行训练,即使经过一年的开发,团队也不得不购买昂贵的笔记本电脑来携带该项目。训练 GAN 和开发算法的成本很高,目前,大学很难与 NVIDIA 或 DeepMind 等大公司竞争。

  • 00:05:00 在本节中,演讲者解释了更多用户有效利用 GAN 的三个主要障碍,即需要高计算量、大量数据以及需要大量训练的复杂算法。他解释说,由于训练模型所需的高质量图像和预处理步骤,GAN 的计算成本很高。此外,大型数据集和对标签的需求进一步使 GAN 的训练更具挑战性。但是,他介绍了可以使 GAN 学习得更快并在更少的数据集上进行训练的新方法,这可以帮助资源有限的内容创作者和艺术家训练和测试他们自己的模型。

  • 00:10:00 在这节课中,朱俊彦介绍了一种使用GANs压缩的通用框架来压缩教师模型的方法。目标是找到一个具有更少过滤器的学生模型,该模型可以产生与教师模型相同类型的输出。该方法涉及创建一个损失函数,以确保学生的斑马输出的分布看起来与教师的输出非常相似,学生的中间特征表示与教师的非常相似,并且根据对抗性损失,学生的输出看起来像斑马.该过程还涉及搜索最佳通道数,这可以在减少模型大小和训练时间的同时产生相同的结果。在不同配置之间共享权重的过程使得可以训练多个配置而无需单独训练它们,从而减少了训练时间。

  • 00:15:00 在本节中,Jun-Yan Zhu 讨论了通过不同配置训练和评估 GAN 模型的过程,以及使用各种损失函数来模拟教师模型并在不同配置之间共享权重。展示了不同大小和计算成本的模型的结果,以及压缩模型以在移动设备上实现实时性能的想法。还介绍了这一想法在 StyleGAN2 中的应用,展示了如何在应用原始模型的最终输出之前使用低成本模型进行图像编辑。

  • 00:20:00 在本节中,演讲者演示了使用 GAN 进行交互式图像编辑的演示。该演示的目标是使用户能够在各种属性中编辑图像,例如添加微笑或更改头发颜色,并根据他们的更改获得即时反馈。该系统采用较小的模型,生成与大模型一致的输出,以确保预览保持信息丰富。编辑完成后,可以运行原始模型以生成高质量的输出。与现有的非深度学习内容创建软件相比,交互式编辑速度更快,并提供高质量的结果。

  • 00:25:00 在讲座的这一部分,朱俊彦教授讨论了训练 GAN 模型的挑战,指出需要大量高质量的数据才能实现有效的性能。虽然可以使用渲染软件或其他工具来加快流程并生成预览,但训练自定义模型需要收集大量带注释的数据。 Zhu 给出了在只有 50 或 100 张人脸的数据集上训练 stylegan2 模型的示例,这导致图像失真。该讲座强调了大型和多样化的数据集对于成功进行 GAN 训练的重要性。

  • 00:30:00 在本节中,演讲者讨论了在 GAN 模型中拥有足够数量的训练数据的重要性。他们证明,在较小的数据集上进行训练时,鉴别器很容易过拟合并正确分类所有图像,但在泛化到真实图像时会遇到困难。这会导致生成器产生许多垃圾图像或崩溃。演讲者强调,如果将 GAN 用于自己的目的或用于小数据集,过度拟合会变得更加严重,获得足够的数据对于创建高效的 GAN 至关重要。

  • 00:35:00 在本节中,教授讨论了数据增强以对抗机器学习中的过度拟合的想法,这涉及创建单个图像的多个版本以增加数据集而不收集新样本。然而,将此方法应用于 GAN 训练更为复杂,因为生成的图像也具有应用于真实图像的相同变换或增强效果,这可能导致复制伪影。为了避免这个问题,教授建议增强真实和虚假图像,并且只对鉴别器训练这样做,以平衡生成器和鉴别器之间增强数据的差异。

  • 00:40:00 在本节中,演讲者讨论了可区分增强的概念,作为弥合 GAN 中生成器目标和鉴别器目标之间差距的方法。主要思想是以可区分的方式增强假图像和真实图像,以便鉴别器的梯度可以反向传播到生成器。演讲者通过示例展示了可微分增强可以用最少的训练数据获得更好的结果,从而减少对大规模数据集的需求。演讲者得出结论,可区分增强是训练 GAN 时要记住的一项关键技术。

  • 00:45:00 在本节中,讲师解释说,运行模型的所有代码都可以在 GitHub 上找到,并提供了在不同类型的数据(甚至是个人面部图像)上运行模型的分步说明。他们还讨论了可供设计师和艺术家使用的特定工具,讲师提到 David Bau 将讨论用于可视化和监控内部单元的在线工具。还讨论了模型压缩过程,目标是开发一次压缩模型并将其部署到多个设备的能力,这对于实际目的很重要,因为它可以节省开发人员的时间,同时减少用户访问模型所需的时间.
 

MIT 6.S192 - 第 5 讲:David Bau 的“用 GAN 的神经元绘画”



MIT 6.S192 - 第 5 讲:David Bau 的“用 GAN 的神经元绘画”

David Bau 讨论了机器学习的发展和创建自编程系统的潜力。他介绍了生成对抗网络 (GAN) 并解释了如何训练它们生成逼真的图像。 Bau 讨论了他识别 Progressive GAN 中特定神经元与生成图像中某些语义特征之间相关性的过程。他演示了如何在 GAN 的帮助下向图像添加各种元素,例如门、草和树。此外,他还讨论了向 GAN 添加新元素的挑战以及围绕现实世界渲染的伦理问题。

  • 00:00:00 在本节中,David Bau 讨论了机器学习的演变,从其起源于统计分析到其创建自编程系统的潜力。作为一名学术研究人员,他认为现在是就该领域的方向和机器学习模型的影响提出问题的有趣时机。他将在演讲中解决的主要问题是图像生成,他介绍了收集真实图像数据集并训练生成器网络以重新创建它们的过程。

  • 00:05:00 在本节中,David Bau 介绍了生成对抗网络 (GAN) 并解释了如何对其进行训练以生成逼真的图像。他描述了 GAN 的技巧是如何首先训练一个鉴别器来分类图像是真实的还是假的,然后将这个鉴别器连接到生成器以创建欺骗鉴别器的图像。然而,他指出,生成器可以学习使用与真实图像不相似的简单模式来欺骗鉴别器,因此 GAN 的诀窍是迭代该过程并在生成器和鉴别器之间来回切换以产生越来越多的逼真的图像。最后,他展示了 GAN 生成的图像示例,这些图像通常很难与真实图像区分开来。

  • 00:10:00 在本节中,演讲者讨论了在 GAN 生成的图像中看到的一些伪像,例如水印,以及它们来自训练集的来源。演讲者接着解释了他如何发现与水印印象相关的神经元以及如何关闭它们。通过关闭水印神经元,从生成器获得的输出变得没有任何水印或相关伪影,这是一个令人兴奋的发现,证明网络中存在控制生成图像的不同特征的开关。

  • 00:15:00 在本节中,David Bau 讨论了他识别 Progressive GAN 中特定神经元与生成图像中某些语义特征之间相关性的过程。他解释说,这是通过单独测试每个神经元以查看它最活跃的地方来实现的,表明它与之相关的某些特征。通过这个过程,他能够识别出与树木相关的神经元,构建出门窗、椅子甚至圆顶等部件。 Bau 指出,这是在没有任何监督训练或标签的情况下实现的,并展示了网络如何学会区分这些特征的不同示例,并用不同的组件表示它们。

  • 00:20:00 在本节中,David Bau 讨论了在生成厨房的模型中映射所有不同神经元的目标,这导致了不同类型的相关神经元的目录。 Bau 发现模型的中间层具有与语义对象高度相关的神经元,而后面的层具有更多的物理相关性。 Bau 发现这种相关性是如此惊人,以至于它导致了有趣的应用,包括在图像生成中打开和关闭不同的对象。 Bau 演示了关闭一些树神经元如何从场景中移除树木,以及生成器如何填充树木后面的内容。相反,打开神经元会导致场景中出现一扇门,生成器会在此处填充门的适当大小、方向和样式。

  • 00:25:00 在视频的这一部分,David Bau 展示了他如何借助 GAN 向图像添加各种元素,例如门、草和树。通过只激活与特定对象或元素相关的特定神经元,他可以操纵图像的语义。他还讨论了 GAN 的局限性,例如只能编辑随机生成的图像,这可以通过需要学习如何反向运行模型的反演问题来解决。

  • 00:30:00 在本节中,David Bau 讨论了使用生成对抗网络 (GAN) 生成图像的局限性,因为它可能会揭示网络无法做到的事情。然而,可以微调网络权重以生成一个非常接近的网络,该网络可以准确地击中目标图像,同时保持网络相对不变,从而仍然可以进行编辑。 Bau 演示了使用这种技术修改真实照片,通过网络反转照片,获取起始图像,微调网络以输出目标图像,然后编辑图像。该过程允许添加或删除与图像的建筑风格相匹配的对象,例如圆顶和门。

  • 00:35:00 在这部分视频中,David Bau 解释了他如何使用 GAN 技术通过微调网络对特定图像进行过拟合来修改图像。通过以尽量不过多改变核心屏幕层的方式改变网络的预训练权重,Bau 能够编辑图像并为目标图像创建粗略的近似值。然而,网络并没有概括这些知识,这意味着它不能对目标图像以外的任何图像产生有意义的变化。

  • 00:40:00 在本节中,David Bau 讨论了向生成对抗网络 (GAN) 添加新元素的挑战。尽管可以训练系统生成特定对象的图像,但如果没有先验数据集或编码规则,则很难教给它新概念。因此,Bau 开发了一种技术来修改预训练模型的权重以适应新规则,例如在塔顶添加树木或在建筑物前绘制凯迪拉克,而无需重新训练模型。他演示了 StyleGAN2 中的应用程序,用户可以在其中指定规则并根据自己的喜好操作输出。

  • 00:45:00 在本节中,David Bau 讨论了他如何从生成的图像中选择一些示例,并使用 GAN 找到负责其形状的共享神经元。选择后,他可以重新定义它们的表示并通过计算对 GAN 模型的正确更改来生成新图像,例如将尖塔的顶部变成树。 Bau 表明这个过程受到他搜索结果中所有尖塔图像的影响,从而导致尖塔图像的全新表示。此外,Bau 解释说,GAN 的每一层都可以被认为是解决一个简单的匹配键值对问题,该键值对用作上下文表示的内存。他指出,权重矩阵是最小二乘问题的解,改变一层的key-value对中的规则也是最小二乘问题,同样可以写成比较。

  • 00:50:00 在本节中,David Bau 讨论了一种方法,可以在不更改整个规则的情况下更改网络已记住的一件事,从而允许创建代表尚不存在的事物的模型。这是通过找到一个键并写入一个新值,使用特定方向的一级更新来仅更改键的值来实现的。这允许用户更改 GAN 内部的规则,并使用它们根据自己的想象力创造事物,而不仅仅是基于训练数据。这种方法也可以在没有足够数据的情况下使用,为使用机器学习创造新世界提供了一条潜在途径。

  • 00:55:00 在本节中,David Bau 讨论了他的方法改变世界规则的潜力,方法是让规则更容易被人类看到和操纵,并让人们建立一个更美好的世界。他还解决了一个问题,即这种方法是否适用于多种不同的模型,或者只有从模型中取出一顶帽子并将其戴在喇叭上才能成功。他解释说,目前,该方法只能重新连接一个模型,但能够将计算从一个神经网络转移到另一个神经网络是一个明显的目标。最后,他谈到了围绕现实世界渲染的伦理问题,以及它如何被滥用,引用了深度造假现象和使用人脸生成器创建数百万虚假 Facebook 个人资料。

  • 01:00:00 在本节中,David Bau 讨论了使用深度神经网络生成逼真图像的影响和潜在后果。虽然检测假图像的取证工作是必要的,但他强调,了解内部结构并了解这些模型如何在内部工作更令人兴奋。理解深度网络的透明度是必不可少的,因为这些神经网络不善于回答它们为什么做出某些决定的问题。 Bau 的目标是分解网络内部应用的规则以做出决定,并开发一种询问原因的方法,帮助将透明度定义为深度神经网络的一个重要道德方面。此外,Bau 在扫描解剖方面的工作表明,您可以识别导致外观不佳的伪影的神经元,这可以提高这些网络的输出质量。

  • 01:05:00 在本节中,David Bau 讨论了一些 GAN 如何在其生成的图像中存在伪影或扭曲,有时可以通过某些学习方法去除或减少这些伪影或扭曲。他建议,虽然当前一代的 GAN 可能比他试验过的更先进,但这种现象是否仍然存在仍然值得研究。大卫指出,提出正确的问题并学会这样做在该领域至关重要,并邀请任何对他的工作感兴趣的人与他联系。
 

麻省理工学院 6.S192 - 第 7 讲:“机器眼中的艺术史形态”,作者 Ahmed Elgemal



麻省理工学院 6.S192 - 第 7 讲:“机器眼中的艺术史形态”,作者 Ahmed Elgemal

计算机科学教授兼艺术与人工智能实验室创始人 Ahmed Elgamal 讨论了人工智能在理解和生成人类水平创意产品方面的应用。 Elgamal 讨论了艺术史的科学方法以及推进 AI 以像人类一样理解艺术的重要性。他还讨论了使用机器学习对艺术风格进行分类、分析内部表征、识别艺术风格之间的差异以及通过 AI 量化艺术创造力。 Elgamal 还提出了艺术史上主要对象的概念,并探索了人工智能创造艺术的潜力,认识到当前人工智能方法在创造性追求中的局限性。然而,Elgamal 还讨论了正在进行的实验,以推动 AI 网络边界以创造抽象而有趣的艺术。

Ahmed Elgammal 还讨论了调整测试的结果,以确定人类是否可以使用艺术作品作为基线来区分 GAN 创作的艺术与人类创作的艺术。人类认为 GAN 机器创作的艺术作品在 75% 的时间里都是人类创作的,这强调了风格模糊的概念及其在将计算机视觉和机器学习与艺术史和艺术兴趣联系起来方面的重要性。

  • 00:00:00 在本节中,罗格斯大学计算机科学系教授、艺术与人工智能实验室创始人 Ahmed Elgammal 教授讨论了他对艺术的热情以及他如何意识到将 AI 与艺术相结合的重要性.他解释说,艺术远不止是物体识别,还涉及多层次的背景、理解情感以及历史和社会背景,这些都需要与人类相似的认知和智力能力。他认为理解和产生人类水平的创意产品是证明人工智能算法智能的基础,并讨论了将美学和主观性与客观性和科学性相结合的问题。 Elgammal 教授提倡对艺术史采取科学方法,并强调推进 AI 以像人类一样理解艺术的重要性。

  • 00:05:00 在本节中,Ahmed Elgemal 讨论了艺术的任何方面,甚至创意和主观元素,都可以通过机器的眼睛进行客观研究的想法。他解释说,他的目标是了解通过 AI 看艺术的意义,以及它如何推动 AI 和对艺术史的理解。 Elgemal 谈到了他在量化艺术和风格的不同元素和原则方面的工作,包括如何描述艺术风格随时间变化的顺序和演变,以及影响这些变化的因素。他还讨论了当前人工智能方法在理解艺术风格概念方面的局限性。

  • 00:10:00 在本节中,演讲者讨论了一个监督机器学习问题,用于对不同的艺术风格进行分类,使用视觉编码来捕获不同级别的特征。这类研究的进展是从猪年到深度学习的比较。该机器能够将艺术风格分类为与一年级艺术史学生相同的水平。演讲者认为,通过机器对艺术进行分类对于理解风格的特征以及推动风格变化的因素很重要。机器对这些风格的内部表征很难解释,但研究机器如何识别风格与艺术史学家如何看待风格之间的关系可以提供有用的信息。例如,海因里希·沃尔夫林 (Heinrich Wolfflin) 的风格理论提出了可以区分不同风格元素的视觉图式。

  • 00:15:00 在本节中,Elgemal 讨论了使用机器学习对艺术风格进行分类并分析了机器分类的内部表示。他们训练了几个 CNN 模型,包括 VGGNet 和 ResNet,以监督方式进行风格分类。通过分析内部表示,他们发现少数因素可以解释西方艺术史上的大部分变化,前两种变化模式解释了高达 74% 的变化,与使用的网络无关。他们还发现,在对艺术风格进行分类时,物体或构图无关紧要。这种方法提供了一种数据驱动的方式来理解机器如何对艺术进行分类,并提供对艺术史结构的洞察。

  • 00:20:00 在本节中,讲师讨论了虽然机器不知道各种艺术风格的时间线,但它们可以通过提供的图像学习自己对这些风格进行分类。机器将艺术按历史顺序排列这一事实证实了这一点,因为风格的发展与时间之间存在 0.7 的相关性。讲师深入探讨了有助于解释 75% 的艺术史的两个因素,即平面与后退以及线性与绘画。他指出,在西方文明的过去 500 年里,艺术史经历了一个 360 度的循环,这在一张图表中得到了体现,该图表是根据机器从观察艺术风格中学习到的表征创建的。

  • 00:25:00 在本节中,演讲者讨论了使用 AI 确定艺术风格之间的差异。虽然某些风格(例如文艺复兴时期和巴洛克风格)可以使用特定因素(例如颜色和纹理)来区分,但其他风格(例如印象派)无法通过这些因素来识别。 AI 网络的激活流形展示了艺术运动如何随时间发生变化,特别强调塞尚的作品,塞尚在印象派和 20 世纪早期的立体主义和抽象主义风格之间架起了一座桥梁。此外,某些文艺复兴时期的艺术品被从文艺复兴时期的云中拉出来,像埃尔格列柯和杜勒这样的艺术家影响了现代艺术。然后谈话过渡到通过 AI 量化艺术创造力的讨论。

  • 00:30:00 在本节中,Elgemal 讨论了一种算法的开发,该算法可根据绘画的背景和艺术史来评估其创造力。他认为,评估创造力的能力对于创造艺术的机器至关重要,并且算法必须以可量化的方式定义创造力。 Elgemal 认为,一个产品被称为创意有两个主要条件:与之前的工作相比,它必须是新颖的,并且它必须具有一定的价值,这意味着它会变得有影响力。他研究了描述创造力的不同方式,并探讨了评估创造力的算法的局限性,认为它们必须考虑艺术史的背景。

  • 00:35:00 在本节中,Ahmed Elgamal 讨论了算法在艺术史上的局限性,包括他所说的可用数据的“封闭世界限制”和所用视觉编码的“艺术概念量化限制”。他建议算法的参数可用于解释创造力分数并了解它们如何影响结果。 Elgamal 提出了绘画之间的有向图,其权重反映了它们的视觉相似性,并使用它来创建基于影响力和新颖性的创造力公式。得到的公式是网络中心性问题的一个实例,可以解释为在 alpha 设置为 1 的马尔可夫链中随机游走。

  • 00:40:00 在本节中,讲师讨论了如何通过反转页面排名的加权变量,使用特征向量中心性来衡量社交网络中的网络中心性。这甚至可以扩展到将原创性和影响力分开,并且可以使用未监督的 wikiart 和存档等集合来评估算法的准确性。讲师解释说,在测试时,结果表明该机器能够将毕加索的阿尔及尔女郎等各种创意艺术品识别为立体主义的开端。

  • 00:45:00 在本节中,Ahmed Elgemal 讨论了使用存档机对艺术作品创造力的评估,这是由于蒙德里安艺术作品的约会错误而产生的。该方法包括将文艺复兴时期或巴洛克时期的艺术品移至后期,同时将现代艺术品移回文艺复兴时期。结果表明,将文艺复兴时期和巴洛克时期的艺术品及时前移时,创造力会持续下降,而将现代艺术品倒回文艺复兴时期时,创造力会增加。所使用的算法能够量化创造力并给出捕捉新颖性和影响力的分数,验证该算法评估艺术品创造力的能力。

  • 00:50:00 在本节中,Ahmed Elgemal 讨论了艺术史上主要对象的概念以及它们如何催生新的风格。他将质数对象与数学中的质数进行比较,将它们不可预测的性质与它们影响后续工作的能力相提并论。 Elgemal 还探讨了人工智能创造艺术的潜力,讨论了创造性对抗网络及其学习风格和偏离规范的能力。然而,Elgemal 认识到 GAN 中的生成器是有限的,因为它被训练来创建愚弄鉴别器的样本,没有任何创造力的动机。

  • 00:55:00 在这一部分,演讲者讨论了艺术家如何不断创新以打破习惯,但如果他们创新太多,人们就很难享受它。他们的目标是推动网络创新,但将其保持在同一分布范围内以突破界限。演讲者解释说,他们在鉴别器中添加了风格歧义损失,以查看生成器创建的艺术是否符合风格或在分类方面是否模糊,这将有助于机器探索不同的边界。他们进行了实验并得出结论,通过添加风格模糊性,机器生成了有趣的抽象艺术作品,这些艺术作品具有新的构图和颜色组合,符合吸引人的分布。

  • 01:00:00 在本节中,Ahmed Elgammal 探讨了调整测试的结果,以确定人类是否可以区分 GAN 和人类创作的艺术。以著名展览的艺术品为基线,发现人类认为 GAN 机器制作的艺术有 75% 的时间是人类创作的,相比之下,抽象艺术的这一比例为 85%,而来自 Art 的艺术只有 48%巴塞尔收藏。 Elgammal 还讨论了风格模糊的概念及其允许创作属于没有特定风格的艺术的艺术的能力。他强调了将计算机视觉和机器学习与艺术史和艺术兴趣联系起来的重要性。
 

MIT 6.S192 - 第 8 讲:Rebecca Fiebrink 的“机器学习如何使人类创造者受益”



MIT 6.S192 - 第 8 讲:Rebecca Fiebrink 的“机器学习如何使人类创造者受益”

Rebecca Fiebrink 是音乐和 AI 领域的研究员,她强调了人际互动的重要性,以及让人类参与机器学习的使用和开发以实现创造性目的的重要性。她讨论了她的工具 Wekinator,它可以在人类创作的实时音乐中使用机器学习。她演示了构建各种手势控制的乐器,例如鼓机、称为 Blotar 的声音合成算法和称为 blowtar 的管乐器。她强调了机器学习如何对创作者有益,使他们能够探索复杂而细微的声音调色板,并使传感器和实时数据的数据分析更加容易。她还阐述了交互式操作训练数据的好处,并解释了机器学习如何使我们能够以更自然的方式与计算机交流,以及如何为创造性工作过程增添惊喜和挑战。

  • 00:00:00 在视频的这一部分,音乐和人工智能 (AI) 领域的研究员丽贝卡·菲布林克 (Rebecca Fiebrink) 讨论了人类互动的重要性,以及让人类参与机器学习开发和使用的循环的重要性创作目的。她质疑这样一种假设,即使用机器学习来自主生成类似人类的创意输出本身就是对人类创造者的支持。 Fiebrink 的研究已经扩展到艺术实践和游戏等其他领域,她强调需要思考机器学习对人类创作者的理论和实践有用性。

  • 00:05:00 在本节中,演讲者讨论了想要在音乐和艺术领域使用数据或机器学习的创作者可用的工具集的差距。虽然有几个人在使用 c + 库或 Python,但几乎没有任何可用的工具可以实时使用或处理媒体数据,尤其是声音数据。许多创作者已经获得了计算机科学或电气工程的博士学位,并且对于想要处理数据的创作者来说,还有更多可用工具的空间。对于想要理解周围各种类型的数据(例如在线存储库或在线资源,如 Google 图像、生物传感器或社交媒体数据)的创作者来说,机器学习可能是一个很好的工具。

  • 00:10:00 在本节中,Rebecca Fiebrink 解释了她在构建一款名为 Wekinator 的软件方面的工作,该软件可以在人类创作的实时音乐中使用机器学习。她强调,构建一种响应手势的新仪器不同于使用现成的地面实况训练集。为了让事情变得更简单,Wekinator 允许用户实时演示训练示例,然后测试模型以查看它在哪里出错。 Wekinator 还允许用户在现场修改训练示例。然后,她演示了使用 Wekinator 软件构建一个非常简单的手势控制鼓机,该软件使用网络摄像头捕捉运动并将输入下采样到 10 x 10 颜色网格,该网格提供 100 个数字,以便更容易预测手势或运动。

  • 00:15:00 在本节中,演讲者演示了如何使用 Wekinator 和回归来创建一种乐器,该乐器控制一种名为 Blotar 的声音合成算法。该乐器允许用户控制大范围的声音,包括许多不同的预设,改变九个控制参数。演讲者展示了机器学习如何使专业作曲家能够探索复杂而细微的声音调色板,从而使他们受益。

  • 00:20:00 在本节中,丽贝卡·菲布林克 (Rebecca Fiebrink) 演示了她如何使用机器学习通过游戏控制器控制一种名为 blowtar 的管乐器。她解释说,在仪器的九维空间中手动找到合适的位置对于专业程序员来说是一项挑战,但机器学习可以轻松编写复杂的功能。她展示了如何通过对系统进行培训,对乐器进行改进,直到产生所需的结果,并且可以在表演或作曲工作中保存和使用。作为该工具的研究人员,Fiebrink 讨论了创作者使用机器学习来改进他们的作品的各种方式,以及它所教授的内容。

  • 00:25:00 在本节中,演讲者使用 Anne Hege 通过 Wekinator 和 Michelle Nagai 的作品等示例讨论机器学习如何使创作者受益并使更多人能够有效地处理数据,尤其是传感器和实时数据分析音乐器材。他们还强调了机器学习如何通过 Wekinator 在艺术、木偶戏、残疾人技术和设计交互式原型等领域的使用,使构建交互变得更有创意和更容易。作者解释说,通过机器学习创造性地构建交互通常需要与传统机器学习不同的方法,因为它的目标是构建一个生成可信输出的模型,而模型在不符合目的时的行为如何成为一个挑战。

  • 00:30:00 在本节中,Fiebrink 探讨了以做出准确预测为目标构建机器学习模型与以构建有用或有趣的目标为目标构建交互式机器学习模型之间的区别。在构建交互式机器学习模型时,数据被认为是创建者与计算机之间通信的接口,这意味着数据是主观选择的,不太可能独立同分布 (iid),这是一个常见的假设在机器学习中。这可能导致从很少的战略性示例中学习。 Fiebrink 演示了像 k 最近邻这样的简单算法在交互使用时如何仍然可以用少量数据产生良好的决策边界,从而允许进行动手实验和数据管理。

  • 00:35:00 在本节中,Rebecca Fiebrink 讨论了在创意领域交互式操作训练数据的好处。她解释说,允许人们探索许多替代想法对于创造满足设计要求的东西至关重要。 Fiebrink 发现,使用 Wekinator 等机器学习算法可以让人们非常快速地重新训练模型并立即看到结果,从而可以非常有效地支持快速原型制作。她还指出,在绘画或演奏乐器等领域,即使对于专业程序员来说,在代码中捕捉人类实践或行为也是一项挑战。

  • 00:40:00 在本节中,Rebecca Fiebrink 解释了机器学习如何使我们能够以更自然的方式与计算机交流,因为它允许人们通过示例来交流他们的想法,这类似于我们在谈论时的交流方式相互进行创造性的活动。机器学习还使新手更容易通过利用大数据集来创建以符合标准。然而,Fiebrink 最近的一个名为 Sound Control 的项目展示了允许更多人个性化界面并通过机器学习为自己和他人制作东西的可能性。通过与音乐教师和治疗师的合作,Sound Control 使他们能够为孩子们制作定制乐器,同时也引导他们做其他意想不到的有用的事情,例如制作听力游戏、即兴游戏和表演活动。

  • 00:45:00 在本节中,丽贝卡·菲布林克 (Rebecca Fiebrink) 讨论了机器学习如何在创意工作过程中提供富有成效的惊喜和挑战。使用像 Wekinator 这样的工具,她强调了拥有创造性工具的重要性,这些工具可以将意想不到的想法添加到工作过程中。因此,她警告不要忽视其他类型的机器学习,甚至是处理数据的非机器学习方法。她建议使用数据和机器学习进行构建可以让人们做他们以前做不到的事情,并探索创造性的应用程序如何作为案例研究来让人们在数据和机器学习方面的其他体验更加强大。

  • 00:50:00 在本节中,演讲者回答了听众提出的关于将机器学习与声音结合使用的挑战的问题。演讲者承认,声音在文化主观性方面提出了一些独特的挑战,但总的来说,可以使用典型的机器学习过程来处理声音,并获得与其他媒体类似的结果。演讲者强调数据及其用于解决问题域的方式比媒体本身更重要。演讲者还讨论了如何将机器学习用作创造事物的界面,以及讨论人与机器保持一致的重要性以及谁应该定义目标。

  • 00:55:00 在本节中,演讲者讨论了为机器学习定义目标的困难,以及其中有多少是创建者创建数据集、尝试一些东西,然后使用数据来引导模型的实验过程朝着某个方向。该过程的体验方面允许创建者通过反复试验在特定上下文中了解机器学习,并且该方面可以成为人们了解机器学习的有力工具。 Carrie Cai 和其他人最近的研究还表明,类似的实验探索程序可以帮助人们建立信任并理解正在建模的内容,即使在这些人可能不具备机器学习专业知识的应用程序中也是如此。