00:00:00 在本节中,Juan Casado 讨论了基于图像的表型分析的概念,这是一种通过使用显微镜和其他成像技术了解生物系统的方法。他解释了生物结构(如细胞)的图像如何针对不同的表型(包括细胞大小和 DNA 含量)进行量化,并用于指导有关治疗和药物发现的决策。 Casado 举了一个成功的白血病候选药物的例子,它是通过使用显微镜图像精确测量细胞大小而发现的,最终获得了 FDA 的批准。他强调了基于图像的分析在生物学和药物开发领域的潜在影响。
01:00:00 在讲座的这一部分,演讲者讨论了在医学数据分析中使用机器学习方法的挑战,特别是在用于息肉检测的结肠镜检查视频的背景下。主要问题是由于医学数据采集的昂贵和缓慢的性质以及难以获得不同病理学家的标签而导致数据缺乏。演讲者概述了几种克服数据不足的机器学习方法,例如迁移学习和监督学习,并解释了当前使用 RGB 图像、几何特征和 3D 卷积的深度学习方法。最后,演讲者介绍了用于息肉检测的 wine it 方法,该方法涉及使用配准来对齐结肠镜检查图像并提高息肉检测性能。
01:05:00 在讲座的这一部分,演讲者讨论了一种深度学习图像配准和分析架构,该架构利用预训练的权重和随机初始化来解决域偏移并提高对象检测和图像分割的性能。该架构由两个编码器组成,一个从 ImageNet 预训练,另一个具有随机权重,以及对输入图像的增强。每个编码器的学习率取决于它们正在训练的层,并使用二元交叉熵和骰子损失函数。该架构在包含息肉的视频数据集上进行了测试,并使用相同输入的多个变体获得了 85.9 的 F1 分数。最后,演讲者展示了展示该架构有效性的视频。
00:40:00 在本节中,演讲者讨论了他们在治疗效果函数方面对模型复杂性的实验。他们通过创建处理效果函数的副本来尝试模型的变体,从三个到十二个不等,发现有一个点,额外的复杂性并没有显着提高性能,甚至降低了性能。然而,当他们移除一些治疗效果函数时,他们发现性能有所下降,但仍然优于线性模型。演讲者计划与 VA 一起在更大的队列中重新审视这个泛化问题,以确定这些发现的范围。
00:00:00 在本节中,演讲者讨论了深度学习与神经科学之间的相互作用,特别是在视觉科学领域。他解释了深度学习模型如何被视为大脑功能各个方面如何运作的科学假设,以及神经科学家和认知科学家如何根据数据评估这些假设的质量。 Carlo 的演讲侧重于逆向工程人类视觉智能的目标,它指的是人类对光子撞击他们的眼睛做出反应而表现出的行为能力。他强调了用机制语言(例如模拟神经元网络)来解释这些功能的重要性,以实现可以同时有益于脑科学和人工智能的预测性构建系统。
01:25:00 在视频的这一部分,演讲者讨论了创造力和 AI 中泛化和跳出框框思考的概念。演讲者提出了生成模型是否能够泛化和分布外思维的问题。为探讨这一主题,演讲者介绍了生成对抗网络 (GAN) 的可控性概念,并展示了通过在生成器的潜在空间中行走来操纵图像的能力。他们表明,当前的 GAN 模型可以表现出放大和缩小、移动和旋转等变换。演讲者解释了寻找潜在向量来操纵图像的过程,并以此展示生成模型在创造力和创新方面的潜力。
该讲座涵盖了训练 GAN 模型的挑战,包括需要高计算量、大量数据以及需要大量训练课程的复杂算法。然而,讲师介绍了使 GAN 学习更快并在更少的数据集上进行训练的新方法,例如使用 GAN 压缩、可区分增强和数据增强的通用框架压缩教师模型。该讲座还演示了使用 GAN 进行交互式图像编辑,并强调了大型和多样化数据集对于成功进行 GAN 训练的重要性。 GitHub 上提供了运行模型的代码,其中包含针对不同类型数据运行模型的分步说明。本讲座最后讨论了模型压缩对于实际目的的重要性。
00:00:00 在本节中,演讲者介绍了高效 GAN 的概念以及 GAN 的成本。虽然 GAN 已用于各种内容创建和创意任务,但开发新算法或执行实时性能需要高端 GPU。为了开发 GauGAN 项目,研究人员需要数百个高端 GPU 进行训练,即使经过一年的开发,团队也不得不购买昂贵的笔记本电脑来携带该项目。训练 GAN 和开发算法的成本很高,目前,大学很难与 NVIDIA 或 DeepMind 等大公司竞争。
00:05:00 在本节中,演讲者解释了更多用户有效利用 GAN 的三个主要障碍,即需要高计算量、大量数据以及需要大量训练的复杂算法。他解释说,由于训练模型所需的高质量图像和预处理步骤,GAN 的计算成本很高。此外,大型数据集和对标签的需求进一步使 GAN 的训练更具挑战性。但是,他介绍了可以使 GAN 学习得更快并在更少的数据集上进行训练的新方法,这可以帮助资源有限的内容创作者和艺术家训练和测试他们自己的模型。
00:15:00 在本节中,Jun-Yan Zhu 讨论了通过不同配置训练和评估 GAN 模型的过程,以及使用各种损失函数来模拟教师模型并在不同配置之间共享权重。展示了不同大小和计算成本的模型的结果,以及压缩模型以在移动设备上实现实时性能的想法。还介绍了这一想法在 StyleGAN2 中的应用,展示了如何在应用原始模型的最终输出之前使用低成本模型进行图像编辑。
00:20:00 在本节中,演讲者演示了使用 GAN 进行交互式图像编辑的演示。该演示的目标是使用户能够在各种属性中编辑图像,例如添加微笑或更改头发颜色,并根据他们的更改获得即时反馈。该系统采用较小的模型,生成与大模型一致的输出,以确保预览保持信息丰富。编辑完成后,可以运行原始模型以生成高质量的输出。与现有的非深度学习内容创建软件相比,交互式编辑速度更快,并提供高质量的结果。
00:25:00 在讲座的这一部分,朱俊彦教授讨论了训练 GAN 模型的挑战,指出需要大量高质量的数据才能实现有效的性能。虽然可以使用渲染软件或其他工具来加快流程并生成预览,但训练自定义模型需要收集大量带注释的数据。 Zhu 给出了在只有 50 或 100 张人脸的数据集上训练 stylegan2 模型的示例,这导致图像失真。该讲座强调了大型和多样化的数据集对于成功进行 GAN 训练的重要性。
00:30:00 在本节中,演讲者讨论了在 GAN 模型中拥有足够数量的训练数据的重要性。他们证明,在较小的数据集上进行训练时,鉴别器很容易过拟合并正确分类所有图像,但在泛化到真实图像时会遇到困难。这会导致生成器产生许多垃圾图像或崩溃。演讲者强调,如果将 GAN 用于自己的目的或用于小数据集,过度拟合会变得更加严重,获得足够的数据对于创建高效的 GAN 至关重要。
00:35:00 在本节中,教授讨论了数据增强以对抗机器学习中的过度拟合的想法,这涉及创建单个图像的多个版本以增加数据集而不收集新样本。然而,将此方法应用于 GAN 训练更为复杂,因为生成的图像也具有应用于真实图像的相同变换或增强效果,这可能导致复制伪影。为了避免这个问题,教授建议增强真实和虚假图像,并且只对鉴别器训练这样做,以平衡生成器和鉴别器之间增强数据的差异。
00:40:00 在本节中,演讲者讨论了可区分增强的概念,作为弥合 GAN 中生成器目标和鉴别器目标之间差距的方法。主要思想是以可区分的方式增强假图像和真实图像,以便鉴别器的梯度可以反向传播到生成器。演讲者通过示例展示了可微分增强可以用最少的训练数据获得更好的结果,从而减少对大规模数据集的需求。演讲者得出结论,可区分增强是训练 GAN 时要记住的一项关键技术。
00:45:00 在本节中,讲师解释说,运行模型的所有代码都可以在 GitHub 上找到,并提供了在不同类型的数据(甚至是个人面部图像)上运行模型的分步说明。他们还讨论了可供设计师和艺术家使用的特定工具,讲师提到 David Bau 将讨论用于可视化和监控内部单元的在线工具。还讨论了模型压缩过程,目标是开发一次压缩模型并将其部署到多个设备的能力,这对于实际目的很重要,因为它可以节省开发人员的时间,同时减少用户访问模型所需的时间.
David Bau 讨论了机器学习的发展和创建自编程系统的潜力。他介绍了生成对抗网络 (GAN) 并解释了如何训练它们生成逼真的图像。 Bau 讨论了他识别 Progressive GAN 中特定神经元与生成图像中某些语义特征之间相关性的过程。他演示了如何在 GAN 的帮助下向图像添加各种元素,例如门、草和树。此外,他还讨论了向 GAN 添加新元素的挑战以及围绕现实世界渲染的伦理问题。
00:00:00 在本节中,David Bau 讨论了机器学习的演变,从其起源于统计分析到其创建自编程系统的潜力。作为一名学术研究人员,他认为现在是就该领域的方向和机器学习模型的影响提出问题的有趣时机。他将在演讲中解决的主要问题是图像生成,他介绍了收集真实图像数据集并训练生成器网络以重新创建它们的过程。
00:05:00 在本节中,David Bau 介绍了生成对抗网络 (GAN) 并解释了如何对其进行训练以生成逼真的图像。他描述了 GAN 的技巧是如何首先训练一个鉴别器来分类图像是真实的还是假的,然后将这个鉴别器连接到生成器以创建欺骗鉴别器的图像。然而,他指出,生成器可以学习使用与真实图像不相似的简单模式来欺骗鉴别器,因此 GAN 的诀窍是迭代该过程并在生成器和鉴别器之间来回切换以产生越来越多的逼真的图像。最后,他展示了 GAN 生成的图像示例,这些图像通常很难与真实图像区分开来。
00:10:00 在本节中,演讲者讨论了在 GAN 生成的图像中看到的一些伪像,例如水印,以及它们来自训练集的来源。演讲者接着解释了他如何发现与水印印象相关的神经元以及如何关闭它们。通过关闭水印神经元,从生成器获得的输出变得没有任何水印或相关伪影,这是一个令人兴奋的发现,证明网络中存在控制生成图像的不同特征的开关。
00:15:00 在本节中,David Bau 讨论了他识别 Progressive GAN 中特定神经元与生成图像中某些语义特征之间相关性的过程。他解释说,这是通过单独测试每个神经元以查看它最活跃的地方来实现的,表明它与之相关的某些特征。通过这个过程,他能够识别出与树木相关的神经元,构建出门窗、椅子甚至圆顶等部件。 Bau 指出,这是在没有任何监督训练或标签的情况下实现的,并展示了网络如何学会区分这些特征的不同示例,并用不同的组件表示它们。
00:20:00 在本节中,David Bau 讨论了在生成厨房的模型中映射所有不同神经元的目标,这导致了不同类型的相关神经元的目录。 Bau 发现模型的中间层具有与语义对象高度相关的神经元,而后面的层具有更多的物理相关性。 Bau 发现这种相关性是如此惊人,以至于它导致了有趣的应用,包括在图像生成中打开和关闭不同的对象。 Bau 演示了关闭一些树神经元如何从场景中移除树木,以及生成器如何填充树木后面的内容。相反,打开神经元会导致场景中出现一扇门,生成器会在此处填充门的适当大小、方向和样式。
00:25:00 在视频的这一部分,David Bau 展示了他如何借助 GAN 向图像添加各种元素,例如门、草和树。通过只激活与特定对象或元素相关的特定神经元,他可以操纵图像的语义。他还讨论了 GAN 的局限性,例如只能编辑随机生成的图像,这可以通过需要学习如何反向运行模型的反演问题来解决。
00:30:00 在本节中,David Bau 讨论了使用生成对抗网络 (GAN) 生成图像的局限性,因为它可能会揭示网络无法做到的事情。然而,可以微调网络权重以生成一个非常接近的网络,该网络可以准确地击中目标图像,同时保持网络相对不变,从而仍然可以进行编辑。 Bau 演示了使用这种技术修改真实照片,通过网络反转照片,获取起始图像,微调网络以输出目标图像,然后编辑图像。该过程允许添加或删除与图像的建筑风格相匹配的对象,例如圆顶和门。
00:35:00 在这部分视频中,David Bau 解释了他如何使用 GAN 技术通过微调网络对特定图像进行过拟合来修改图像。通过以尽量不过多改变核心屏幕层的方式改变网络的预训练权重,Bau 能够编辑图像并为目标图像创建粗略的近似值。然而,网络并没有概括这些知识,这意味着它不能对目标图像以外的任何图像产生有意义的变化。
00:40:00 在本节中,David Bau 讨论了向生成对抗网络 (GAN) 添加新元素的挑战。尽管可以训练系统生成特定对象的图像,但如果没有先验数据集或编码规则,则很难教给它新概念。因此,Bau 开发了一种技术来修改预训练模型的权重以适应新规则,例如在塔顶添加树木或在建筑物前绘制凯迪拉克,而无需重新训练模型。他演示了 StyleGAN2 中的应用程序,用户可以在其中指定规则并根据自己的喜好操作输出。
00:45:00 在本节中,David Bau 讨论了他如何从生成的图像中选择一些示例,并使用 GAN 找到负责其形状的共享神经元。选择后,他可以重新定义它们的表示并通过计算对 GAN 模型的正确更改来生成新图像,例如将尖塔的顶部变成树。 Bau 表明这个过程受到他搜索结果中所有尖塔图像的影响,从而导致尖塔图像的全新表示。此外,Bau 解释说,GAN 的每一层都可以被认为是解决一个简单的匹配键值对问题,该键值对用作上下文表示的内存。他指出,权重矩阵是最小二乘问题的解,改变一层的key-value对中的规则也是最小二乘问题,同样可以写成比较。
00:50:00 在本节中,David Bau 讨论了一种方法,可以在不更改整个规则的情况下更改网络已记住的一件事,从而允许创建代表尚不存在的事物的模型。这是通过找到一个键并写入一个新值,使用特定方向的一级更新来仅更改键的值来实现的。这允许用户更改 GAN 内部的规则,并使用它们根据自己的想象力创造事物,而不仅仅是基于训练数据。这种方法也可以在没有足够数据的情况下使用,为使用机器学习创造新世界提供了一条潜在途径。
00:55:00 在本节中,David Bau 讨论了他的方法改变世界规则的潜力,方法是让规则更容易被人类看到和操纵,并让人们建立一个更美好的世界。他还解决了一个问题,即这种方法是否适用于多种不同的模型,或者只有从模型中取出一顶帽子并将其戴在喇叭上才能成功。他解释说,目前,该方法只能重新连接一个模型,但能够将计算从一个神经网络转移到另一个神经网络是一个明显的目标。最后,他谈到了围绕现实世界渲染的伦理问题,以及它如何被滥用,引用了深度造假现象和使用人脸生成器创建数百万虚假 Facebook 个人资料。
01:00:00 在本节中,David Bau 讨论了使用深度神经网络生成逼真图像的影响和潜在后果。虽然检测假图像的取证工作是必要的,但他强调,了解内部结构并了解这些模型如何在内部工作更令人兴奋。理解深度网络的透明度是必不可少的,因为这些神经网络不善于回答它们为什么做出某些决定的问题。 Bau 的目标是分解网络内部应用的规则以做出决定,并开发一种询问原因的方法,帮助将透明度定义为深度神经网络的一个重要道德方面。此外,Bau 在扫描解剖方面的工作表明,您可以识别导致外观不佳的伪影的神经元,这可以提高这些网络的输出质量。
01:05:00 在本节中,David Bau 讨论了一些 GAN 如何在其生成的图像中存在伪影或扭曲,有时可以通过某些学习方法去除或减少这些伪影或扭曲。他建议,虽然当前一代的 GAN 可能比他试验过的更先进,但这种现象是否仍然存在仍然值得研究。大卫指出,提出正确的问题并学会这样做在该领域至关重要,并邀请任何对他的工作感兴趣的人与他联系。
计算机科学教授兼艺术与人工智能实验室创始人 Ahmed Elgamal 讨论了人工智能在理解和生成人类水平创意产品方面的应用。 Elgamal 讨论了艺术史的科学方法以及推进 AI 以像人类一样理解艺术的重要性。他还讨论了使用机器学习对艺术风格进行分类、分析内部表征、识别艺术风格之间的差异以及通过 AI 量化艺术创造力。 Elgamal 还提出了艺术史上主要对象的概念,并探索了人工智能创造艺术的潜力,认识到当前人工智能方法在创造性追求中的局限性。然而,Elgamal 还讨论了正在进行的实验,以推动 AI 网络边界以创造抽象而有趣的艺术。
Ahmed Elgammal 还讨论了调整测试的结果,以确定人类是否可以使用艺术作品作为基线来区分 GAN 创作的艺术与人类创作的艺术。人类认为 GAN 机器创作的艺术作品在 75% 的时间里都是人类创作的,这强调了风格模糊的概念及其在将计算机视觉和机器学习与艺术史和艺术兴趣联系起来方面的重要性。
00:00:00 在本节中,罗格斯大学计算机科学系教授、艺术与人工智能实验室创始人 Ahmed Elgammal 教授讨论了他对艺术的热情以及他如何意识到将 AI 与艺术相结合的重要性.他解释说,艺术远不止是物体识别,还涉及多层次的背景、理解情感以及历史和社会背景,这些都需要与人类相似的认知和智力能力。他认为理解和产生人类水平的创意产品是证明人工智能算法智能的基础,并讨论了将美学和主观性与客观性和科学性相结合的问题。 Elgammal 教授提倡对艺术史采取科学方法,并强调推进 AI 以像人类一样理解艺术的重要性。
00:05:00 在本节中,Ahmed Elgemal 讨论了艺术的任何方面,甚至创意和主观元素,都可以通过机器的眼睛进行客观研究的想法。他解释说,他的目标是了解通过 AI 看艺术的意义,以及它如何推动 AI 和对艺术史的理解。 Elgemal 谈到了他在量化艺术和风格的不同元素和原则方面的工作,包括如何描述艺术风格随时间变化的顺序和演变,以及影响这些变化的因素。他还讨论了当前人工智能方法在理解艺术风格概念方面的局限性。
00:25:00 在本节中,演讲者讨论了使用 AI 确定艺术风格之间的差异。虽然某些风格(例如文艺复兴时期和巴洛克风格)可以使用特定因素(例如颜色和纹理)来区分,但其他风格(例如印象派)无法通过这些因素来识别。 AI 网络的激活流形展示了艺术运动如何随时间发生变化,特别强调塞尚的作品,塞尚在印象派和 20 世纪早期的立体主义和抽象主义风格之间架起了一座桥梁。此外,某些文艺复兴时期的艺术品被从文艺复兴时期的云中拉出来,像埃尔格列柯和杜勒这样的艺术家影响了现代艺术。然后谈话过渡到通过 AI 量化艺术创造力的讨论。
00:05:00 在本节中,演讲者讨论了想要在音乐和艺术领域使用数据或机器学习的创作者可用的工具集的差距。虽然有几个人在使用 c + 库或 Python,但几乎没有任何可用的工具可以实时使用或处理媒体数据,尤其是声音数据。许多创作者已经获得了计算机科学或电气工程的博士学位,并且对于想要处理数据的创作者来说,还有更多可用工具的空间。对于想要理解周围各种类型的数据(例如在线存储库或在线资源,如 Google 图像、生物传感器或社交媒体数据)的创作者来说,机器学习可能是一个很好的工具。
00:40:00 在本节中,Rebecca Fiebrink 解释了机器学习如何使我们能够以更自然的方式与计算机交流,因为它允许人们通过示例来交流他们的想法,这类似于我们在谈论时的交流方式相互进行创造性的活动。机器学习还使新手更容易通过利用大数据集来创建以符合标准。然而,Fiebrink 最近的一个名为 Sound Control 的项目展示了允许更多人个性化界面并通过机器学习为自己和他人制作东西的可能性。通过与音乐教师和治疗师的合作,Sound Control 使他们能够为孩子们制作定制乐器,同时也引导他们做其他意想不到的有用的事情,例如制作听力游戏、即兴游戏和表演活动。
00:55:00 在本节中,演讲者讨论了为机器学习定义目标的困难,以及其中有多少是创建者创建数据集、尝试一些东西,然后使用数据来引导模型的实验过程朝着某个方向。该过程的体验方面允许创建者通过反复试验在特定上下文中了解机器学习,并且该方面可以成为人们了解机器学习的有力工具。 Carrie Cai 和其他人最近的研究还表明,类似的实验探索程序可以帮助人们建立信任并理解正在建模的内容,即使在这些人可能不具备机器学习专业知识的应用程序中也是如此。
细胞成像分割的深度学习 - 第 20 讲
细胞成像分割的深度学习 - 第 20 讲 - 生命科学中的麻省理工学院机器学习(2021 年春季)
在此视频中,演讲者讨论了深度学习在细胞追踪中的应用,其中涉及确定延时成像中细胞的运动。他们解释说,传统的手动跟踪方法既昂贵又耗时,而深度学习方法可以显着加快这一过程,同时还能提供更高的准确性。演讲者讨论了用于细胞跟踪的各种深度学习架构,包括 U-Net、StarDist 和 DeepCell。他们还指出,细胞跟踪的挑战之一是区分靠近或重叠的细胞,而多目标跟踪或基于图形的方法等方法可以帮助解决这个问题。演讲者强调了对细胞跟踪的不同深度学习方法进行基准测试以及提供开放访问数据集以进行再现和比较的重要性。他们还强调了细胞追踪在癌症研究和药物发现等各个领域的潜在应用。
深度学习图像配准与分析 - 第 21 讲
深度学习图像配准和分析 - 第 21 讲 - 生命科学中的麻省理工学院机器学习(2021 年春季)
在本次讲座中,Adrian Dalock 深入探讨了对齐医学图像及其背后的优化问题。他提出了一种称为体素变形的新方法,该方法涉及使用未标记的数据集来训练神经网络以进行图像配准。演讲者还讨论了神经网络从未见过的新数据和序列的鲁棒性挑战,并建议模拟各种极端条件来训练鲁棒模型。演讲者将经典配准模型与体素变形和合成变形模型进行了比较,后者非常稳健。最后,演讲者讨论了基于所需属性生成模板而不是直接学习模板的功能的开发,以及胶囊视频内窥镜检测结肠异常的潜在用途。
本次演讲的演讲者讨论了各种机器学习方法来克服医疗数据的缺乏,特别是在用于息肉检测的结肠镜检查视频的背景下。他们引入了一种深度学习图像配准和分析架构,该架构利用预训练的权重和随机初始化来解决域偏移并提高性能。讲座还涵盖了弱监督学习、自监督学习和弱监督视频分割。演讲者承认在医疗数据分析中使用机器学习方法所面临的挑战,并鼓励在实际医疗程序中测试这些方法以减少工作量。
电子健康记录 - 第 22 讲
电子健康记录 - 第 22 讲 - 生命科学中的深度学习(2021 年春季)
机器学习在医疗保健领域的出现是由于医院采用电子病历以及可用于获得有意义的医疗保健见解的大量患者数据。利用在疾病登记处发现的纵向数据讨论了疾病进展建模,由于高维纵向数据、缺失和左右审查制度,这可能会带来挑战。本讲座探讨了使用深度马尔可夫模型等非线性模型来应对这些挑战,并有效地模拟纵向生物标志物的非线性密度。此外,演讲者还讨论了使用领域知识为转换函数开发新的神经架构,以及将领域知识纳入模型设计以实现更好泛化的重要性。还有关于治疗效果函数的模型复杂性实验,演讲者计划在更大的队列中重新讨论这个问题以确定进一步的发现。
深度学习和神经科学 - 第 23 讲
深度学习和神经科学 - 第 23 讲 - 生命科学中的深度学习(2021 年春季)
该讲座讨论了深度学习和神经科学之间的相互作用,特别是在视觉科学领域。目标是对人类视觉智能进行逆向工程,这是指人类对光子撞击眼睛时表现出的行为能力。演讲者强调用机制的语言(例如模拟神经元网络)来解释这些功能,以启用可以使脑科学和人工智能都受益的预测性构建系统。该讲座探讨了深度学习模型如何成为大脑如何执行感觉系统过程的假设,以及超越仅仅模仿大脑进化的潜在应用。此外,讲座还展示了神经网络如何操纵记忆和改变事物含义的实际例子。
该视频讨论了深度学习在理解大脑认知功能并将这种理解用于工程目的方面的潜力。演讲者强调了循环神经网络与其在该领域的记忆和内部动力学能力的相关性。本讲座探讨了神经系统通过模仿进行学习的能力,以及如何将其用于学习工作记忆的表征、计算和操作。该视频还介绍了寻找反馈学习作为学习条件的证据的困难,以及纠错机制调整系统的潜力。讲座最后反思了课程中涵盖的主题的多样性,以及深度学习如何在未来帮助解释认知系统。
MIT 6.S192 - 第 1 讲:计算美学、设计、艺术 |通过生成学习
MIT 6.S192 - 第 1 讲:计算美学、设计、艺术 |通过生成学习
本讲座涵盖与计算美学、设计和艺术相关的各种主题。讨论了人工智能在艺术创作民主化、设计自动化和推动艺术边界方面的作用,以及量化美学和使用高级和低级表示在设计中实现视觉平衡方面的挑战。讲师还强调了计算设计在揭示模式和有效传达信息方面的潜力,示例涉及颜色语义和杂志封面设计。众包实验用于确定颜色与各种主题的关联,并探索了该方法在不同领域的潜在应用。总体而言,讲座介绍了人工智能在创意应用中的作用,以及彻底改变我们创作艺术、设计和其他形式创意表达方式的潜力。
该视频讨论了如何使用计算美学、设计和艺术来使用生成模型(例如 StyleGAN 和 DALL-E)生成创意作品。讲师还强调了通过生成来学习的重要性,并鼓励观众分解问题并使用数据来提出创新和创造性的解决方案。但是,演讲者还谈到了生成模型的局限性,例如有偏见的数据以及概括和跳出框框思考的能力。尽管如此,讲师还是让学生回顾所提供的代码,并尝试使用各种技术来生成美观的图像,同时鼓励他们参与伯克利和麻省理工学院之间关于计算美学和设计的苏格拉底式辩论。
麻省理工学院 6.S192 - 第 2 讲:苏格拉底辩论,Alyosha Efros 和 Phillip Isola
麻省理工学院 6.S192 - 第 2 讲:苏格拉底辩论,Alyosha Efros 和 Phillip Isola
在此视频中,Alyosha Efros 和 Phillip Isola 讨论了使用图像创建共享体验的想法。他们认为这有助于唤起回忆并营造怀旧感。
这段视频是麻省理工学院两位教授关于数据在人工智能中的作用的辩论。 Efros 认为数据对 AI 至关重要,而 Isola 反驳说数据可能会阻碍 AI 的发展。
将令人难忘的事物的含义形象化。
麻省理工学院 6.S192 - 第 3 讲:Jun-Yan Zhu 的“高效 GAN”
麻省理工学院 6.S192 - 第 3 讲:Jun-Yan Zhu 的“高效 GAN”
该讲座涵盖了训练 GAN 模型的挑战,包括需要高计算量、大量数据以及需要大量训练课程的复杂算法。然而,讲师介绍了使 GAN 学习更快并在更少的数据集上进行训练的新方法,例如使用 GAN 压缩、可区分增强和数据增强的通用框架压缩教师模型。该讲座还演示了使用 GAN 进行交互式图像编辑,并强调了大型和多样化数据集对于成功进行 GAN 训练的重要性。 GitHub 上提供了运行模型的代码,其中包含针对不同类型数据运行模型的分步说明。本讲座最后讨论了模型压缩对于实际目的的重要性。
MIT 6.S192 - 第 5 讲:David Bau 的“用 GAN 的神经元绘画”
MIT 6.S192 - 第 5 讲:David Bau 的“用 GAN 的神经元绘画”
David Bau 讨论了机器学习的发展和创建自编程系统的潜力。他介绍了生成对抗网络 (GAN) 并解释了如何训练它们生成逼真的图像。 Bau 讨论了他识别 Progressive GAN 中特定神经元与生成图像中某些语义特征之间相关性的过程。他演示了如何在 GAN 的帮助下向图像添加各种元素,例如门、草和树。此外,他还讨论了向 GAN 添加新元素的挑战以及围绕现实世界渲染的伦理问题。
麻省理工学院 6.S192 - 第 7 讲:“机器眼中的艺术史形态”,作者 Ahmed Elgemal
麻省理工学院 6.S192 - 第 7 讲:“机器眼中的艺术史形态”,作者 Ahmed Elgemal
计算机科学教授兼艺术与人工智能实验室创始人 Ahmed Elgamal 讨论了人工智能在理解和生成人类水平创意产品方面的应用。 Elgamal 讨论了艺术史的科学方法以及推进 AI 以像人类一样理解艺术的重要性。他还讨论了使用机器学习对艺术风格进行分类、分析内部表征、识别艺术风格之间的差异以及通过 AI 量化艺术创造力。 Elgamal 还提出了艺术史上主要对象的概念,并探索了人工智能创造艺术的潜力,认识到当前人工智能方法在创造性追求中的局限性。然而,Elgamal 还讨论了正在进行的实验,以推动 AI 网络边界以创造抽象而有趣的艺术。
Ahmed Elgammal 还讨论了调整测试的结果,以确定人类是否可以使用艺术作品作为基线来区分 GAN 创作的艺术与人类创作的艺术。人类认为 GAN 机器创作的艺术作品在 75% 的时间里都是人类创作的,这强调了风格模糊的概念及其在将计算机视觉和机器学习与艺术史和艺术兴趣联系起来方面的重要性。
MIT 6.S192 - 第 8 讲:Rebecca Fiebrink 的“机器学习如何使人类创造者受益”
MIT 6.S192 - 第 8 讲:Rebecca Fiebrink 的“机器学习如何使人类创造者受益”
Rebecca Fiebrink 是音乐和 AI 领域的研究员,她强调了人际互动的重要性,以及让人类参与机器学习的使用和开发以实现创造性目的的重要性。她讨论了她的工具 Wekinator,它可以在人类创作的实时音乐中使用机器学习。她演示了构建各种手势控制的乐器,例如鼓机、称为 Blotar 的声音合成算法和称为 blowtar 的管乐器。她强调了机器学习如何对创作者有益,使他们能够探索复杂而细微的声音调色板,并使传感器和实时数据的数据分析更加容易。她还阐述了交互式操作训练数据的好处,并解释了机器学习如何使我们能够以更自然的方式与计算机交流,以及如何为创造性工作过程增添惊喜和挑战。