Машинное обучение и нейронные сети - страница 25

 

MIT 6.S192 - Лекция 16: «Визуальное восприятие искусства человеком как вычисление» Аарон Херцманн



MIT 6.S192 - Лекция 16: «Человеческое визуальное восприятие искусства как вычисление» Аарон Херцманн

В лекции исследуются неоднозначность восприятия и неопределенность в искусстве, а также использование генеративно-состязательных сетей (GAN) для создания неоднозначных изображений. В нем обсуждается влияние продолжительности просмотра на восприятие и взаимосвязь между энтропией изображения и человеческими предпочтениями. Лектор предлагает эволюционную теорию искусства, согласно которой искусство создается агентами, способными к социальным отношениям. Также обсуждается использование ИИ в искусстве с выводом о том, что, хотя алгоритмы могут быть полезными инструментами, они не могут заменить людей-художников. Лекция завершается несколькими замечаниями о таких понятиях, как ценность.

  • 00:00:00 В этом разделе спикер обсуждает неоднозначность восприятия и неопределенность, которые являются важными темами в современном искусстве. Он объясняет, что изображения с различными интерпретациями могут привести к изменению продолжительности просмотра и могут переключаться между различными восприятиями, влияя на выбор, который делают люди. Визуальная неопределенность - это термин, используемый для описания изображений, которые, кажется, дают простую связную интерпретацию, но не могут быть разрешены в связной форме, и эта тема стала популярной в современную эпоху, особенно с кубизмом. В литературе по психологии обсуждалась и изучалась двусмысленность восприятия и способы описания этого пространства двусмысленности, но до появления в последние годы генеративных противников были трудности с поиском сопоставимых стимулов и измерением двусмысленности.

  • 00:05:00 В этом разделе спикер обсуждает использование GAN в создании произведений искусства и естественную визуальную неоднозначность, которую могут демонстрировать эти типы изображений. Команда использовала эти изображения в исследовании, в котором участникам показывали изображение в течение короткого периода времени и просили описать его. Результаты показали, что изображения с более высоким уровнем перцептивной неопределенности и двусмысленности приводили к большему диапазону описаний участников. Кроме того, продолжительность периода просмотра повлияла на количество и разнообразие слов, используемых для описания изображения, при этом участники сходились к более последовательным интерпретациям при более длительном воздействии.

  • 00:10:00 В этом разделе лектор обсуждает взаимосвязь между энтропией изображения и человеческим предпочтением неоднозначных изображений. Команда обнаружила, что есть две категории пользователей: одна предпочитает изображения с низкой энтропией, а другая предпочитает изображения с высокой энтропией. Однако кластеризация пользователей по этим категориям оказалась успешной только для прогнозирования предпочтений для определенных типов изображений и требует большей обработки естественного языка для извлечения правильной информации. Двигаясь дальше, исследуется определение искусства и могут ли компьютеры создавать искусство. Текущее определение искусства оказывается неадекватным, поскольку оно не обобщает рассмотрение новых форм искусства, таких как те, которые могут быть созданы инопланетянами. Вместо этого спикер предлагает эволюционную теорию искусства, согласно которой искусство создается агентами, способными к социальным отношениям и, как таковым, к социальной активности. Это приводит к выводу, что компьютеры могут быть художниками, но этот диалог ошибочен, поскольку может дать неспециалистам неправильное понимание.

  • 00:15:00 В этом разделе спикер обсуждает использование идей вычислений для понимания человеческого восприятия искусства и того, как создается искусство. Он утверждает, что компьютеры не могут быть художниками, пока они не обладают личностью или социальными отношениями. Однако компьютеры являются мощными инструментами художественного творчества и предоставляют новые инструменты для художественного творчества. Спикер также опровергает идею о том, что искусство ИИ потеряет свою ценность по мере того, как станет более доступным, отметив, что лучшие художники ИИ экспериментируют с кодированием и тщательно отбирают результаты.

  • 00:20:00 В этом разделе Герцманн обсуждает использование искусственного интеллекта (ИИ) в искусстве и задается вопросом, можно ли считать художников машинами, которые могут создавать произведения искусства на основе человеческих предпочтений. Он утверждает, что современные алгоритмы ИИ просто следуют инструкциям и не обладают творческим потенциалом человека-художника. Тем не менее, он воодушевлен потенциалом алгоритмов для моделирования художественного процесса и предпочтений, что позволяет им быть полезными инструментами в создании и курировании искусства. В конечном счете, Герцманн не верит, что алгоритмы могут заменить людей-художников, поскольку искусство является продуктом культуры и времени.

  • 00:25:00 В этом разделе после обсуждения таких понятий, как стоимость, делается несколько заключительных замечаний.
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
MIT 6.S192 - Lec. 16: "Human Visual Perception of Art ..." Aaron Hertzmann (see comments for part I)
  • 2021.02.01
  • www.youtube.com
Human Visual Perception of Art as Computation, Part IIAaron HertzmannPrincipal Scientist, Adobehttps://research.adobe.com/person/aaron-hertzmann/Note we only...
 

MIT 6.S192 — Лекция 17: «Использование ИИ на службе графического дизайна» Зои Былинской



MIT 6.S192 — Лекция 17: «Использование ИИ на службе графического дизайна» Зои Былинской

В этой лекции Зоя Былинская, научный сотрудник Adobe, исследует пересечение графического дизайна и искусственного интеллекта (ИИ). Былинский подчеркивает, что ИИ призван помогать, а не заменять дизайнеров, автоматизируя утомительные задачи и создавая варианты дизайна. Былинский приводит примеры инструментов с помощью ИИ, в том числе инструментов интерактивного дизайна и создания значков с помощью ИИ. Былинский также обсуждает проблемы и потенциал применения ИИ в графическом дизайне, в том числе необходимость творческого мышления, кураторства и работы с профессионалами из разных областей. Она консультирует кандидатов, интересующихся искусственным интеллектом и машинным обучением для графического дизайна, чтобы они могли продемонстрировать свой проектный опыт и воспользоваться исследовательскими возможностями.

  • 00:00:00 В этом разделе Зоя Былинская, научный сотрудник Adobe, объясняет, как можно использовать ИИ на службе графического дизайна. Былинский рассказывает о пересечении графического дизайна и искусственного интеллекта и о том, как разнообразные стилистические формы графического дизайна могут быть деконструированы в вычислительные модули, которые можно изучать и автоматизировать. Она подчеркивает, что ИИ не предназначен для замены дизайнеров, а скорее для того, чтобы позволить дизайнерам автоматизировать утомительные задачи и быстро исследовать, чтобы автоматически генерировать варианты дизайна, сохраняя при этом дизайнера в центре процесса проектирования и курирования. Былинский приводит два примера этих целей: изменение размера и компоновка дизайна для разных форм-факторов и соотношений сторон, а также перебор множества возможных визуальных представлений при создании значка, логотипа или аналогичного элемента дизайна.

  • 00:05:00 В этом разделе Зоя Былинская обсуждает, как автоматизация проектирования может увеличить скорость процесса проектирования за счет сведения к минимуму утомительной работы и облегчения более эффективного процесса итерации. Былинский продолжает объяснять, как машинное обучение может прогнозировать визуальное значение в дизайне, создавая более эффективные рекомендации для графических дизайнеров, изучая, что визуально бросается в глаза и привлекает внимание в различных проектах. Используя инструмент аннотации, Былински и ее коллеги курировали набор данных из тысячи пар изображений и аннотаций, чтобы обучить свою модель этой концепции важности, которая использовала модули классификации для прогнозирования наиболее заметных областей дизайна во время тестирования, направляя дизайнеров на где разместить другие элементы дизайна.

  • 00:10:00 В этом разделе Зоя Былинская обсуждает два приложения для использования искусственного интеллекта (ИИ) в графическом дизайне. Первое приложение включает интерактивный инструмент проектирования, который использует небольшую нейронную сеть для непрерывного пересчета прогнозируемой важности различных элементов дизайна в режиме реального времени. Инструмент также имеет гистограмму и позволяет пользователям настраивать уровень важности каждого элемента для управления дизайном. Второе приложение включает в себя идею генерации значков, где ИИ используется для создания новых значков, соответствующих общим визуальным концепциям. Былинский объясняет, что оба этих приложения предлагают многообещающие новые направления для использования моделей важности в инструментах графического дизайна с помощью ИИ.

  • 00:15:00 В этом разделе спикер объясняет, с какой проблемой сталкиваются дизайнеры, когда пытаются создать новую иконографию для концепции, в которой нет существующих иконок, например доставки суши. Этот процесс требует ручной работы, поиска связанных концепций для вдохновения, а также рекомбинации и редактирования существующих иконок. Чтобы упростить этот процесс, спикер представляет новый конвейер, управляемый ИИ, для создания составных значков. Эта система объединяет пространство, стиль и семантику для создания составных значков, которые стилистически совместимы и семантически релевантны запрашиваемому понятию. Конвейер, управляемый ИИ, включает в себя разбиение запроса на связанные слова, поиск стилистически совместимых значков и их объединение для передачи желаемого сообщения.

  • 00:20:00 В этом разделе Былинский обсуждает проект под названием Iconate, в котором искусственный интеллект предлагает совместимые комбинации значков и макеты для создания новых дизайнов. Система изучает пространство для встраивания, чтобы предложить стилистически совместимые значки, и подход на основе шаблона для определения макета для составляющих значков. Iconate обучался с использованием набора данных CompyCon1k, состоящего из 1000 составных значков с аннотированными отдельными компонентами. Былинский объясняет, что система позволяет пользователям создавать составные значки намного быстрее, чем с помощью автономных инструментов дизайна, и ее можно использовать для быстрого создания значков для любой концепции, которую может придумать пользователь. Она также выделяет другие инструменты дизайна на основе ИИ, такие как системы синтеза логотипов и уточнения макета, которые направлены на облегчение процесса проектирования, а не на замену человеческого творчества.

  • 00:25:00 В этом разделе спикер обсуждает использование ИИ при создании инфографики, включая текст, статистику и небольшие визуализации. Она также отмечает, что эта работа распространяется на различные сообщества и конференции, и приводит примеры из компьютерного зрения, такие как создание дизайна графического интерфейса с использованием GAN. Она отмечает, что существует множество доступных ресурсов, в том числе наборы данных для компьютерного графического дизайна и творчества, и кратко упоминает набор данных Behance Artistic Media Data Set и набор данных Automatic Understanding of Image and Video Advertisings.

  • 00:30:00 В этом разделе спикер обсуждает доступные модели и инструменты для автоматизации компонентов в рамках рабочего процесса проектирования, отмечая, что многие из автоматических инструментов не очень креативны, но есть еще большой потенциал для будущих открытий в пространство автоматизированных, но очень творческих рабочих процессов. Она призывает студентов самостоятельно исследовать это пространство и генерировать междисциплинарные мысли, которые могут привести к захватывающим приложениям на стыке вычислений и дизайна. Обсуждение также затрагивает ограничения существующих моделей преобразования текста в визуальные в графическом дизайне и потенциал новых моделей, которые могут генерировать векторную графику.

  • 00:35:00 В этом разделе спикер обсуждает проект, целью которого было создание подписи к заданной инфографике для поиска инфографики в сети и аннотирования ее для слабовидящих. Однако они столкнулись с проблемой, поскольку не могли использовать существующие детекторы объектов для извлечения изображений и значков из инфографики. Это привело к разработке способа обучения детектора значков с использованием синтетических данных, что в конечном итоге позволило обнаруживать значки. Позже студенты исследовали возможность изучения совместных вложений между значками и текстом рядом, что можно было бы использовать для понимания того, как абстрактные понятия визуализируются в сложных графических проектах. Спикер подчеркивает, что ИИ призван не заменить дизайнеров, а помочь им, и что курирование останется важным аспектом работы.

  • 00:40:00 В этом разделе спикер обсуждает роль дизайнеров в области графического дизайна, созданного искусственным интеллектом. Хотя обучение моделей созданию проектов возможно, их трудно научить создавать совершенно новые проекты. Таким образом, дизайнеры могут вводить новые активы и компоненты, выходящие за рамки текущего многообразия, которые затем можно использовать для автоматического управления и создания новых проектов. Спикер также подчеркивает необходимость курирования, поскольку дизайнеры могут помочь определить пары мусора и не мусора, чтобы улучшить процесс обучения. Кроме того, спикер отмечает, что адаптация дизайна к различным культурам по-прежнему остается проблемой из-за отсутствия достаточных данных. Наконец, спикер объясняет роль ученых-исследователей в таких компаниях, как Adobe, которые стремятся продвигать большие исследовательские идеи, которые могут быть включены в существующие команды разработчиков для дальнейшей разработки.

  • 00:45:00 В этом разделе Зоя Былинская обсуждает проблемы применения ИИ в графическом дизайне для создания практических продуктов. Она подчеркивает необходимость концептуализации проблем таким образом, чтобы их можно было перенести на различные технологические продукты, предлагая исследовательские идеи компаниям и работая вместе с профессионалами из разных областей для получения опыта. Былинский советует студентам и стажерам разработать мощный набор вычислительных инструментов, чтобы повысить свои шансы на получение должности инженера, исследователя или стажера по продуктам.

  • 00:50:00 В этом разделе спикер фокусируется на навыках, которые он ищет у кандидата, интересующегося искусственным интеллектом и машинным обучением для графического дизайна. Они подчеркивают необходимость владения программными инструментами и машинным обучением. Они рекомендуют демонстрировать опыт не только в форме курса, но и в форме проекта с примерами на Github. Они предполагают, что кандидаты должны проявлять творческий подход и инновации, выходя за рамки существующих моделей и библиотек, чтобы концептуализировать новые идеи и применять их по-новому. Кандидаты должны иметь исследовательский опыт или технические должности в университетской лаборатории. Они рекомендуют обращаться к профессорам и предлагать поработать в течение определенного периода над определенными проблемами. Наконец, они подчеркивают важность рекомендаций от других исследователей, свидетельствующих о творческих способностях кандидата, технических силах и пригодности для исследований.
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
MIT 6.S192 - Lecture 17: "Using A.I. in the service of graphic design" by Zoya Bylinskii
  • 2021.01.30
  • www.youtube.com
Dr. Zoya BylinskiiResearch Scientist, Creative Intelligence Lab, Adobehttps://research.adobe.com/person/zoya-bylinskii/More about the course: http://deepcrea...
 

MIT 6.S192 — Лекция 19: Простое создание 3D-контента с согласованными нейронными полями, Аджай Джейн



MIT 6.S192 — Лекция 19: Простое создание 3D-контента с согласованными нейронными полями, Аджай Джейн

В этой лекции Аджай Джейн представляет свою работу по нейронным представлениям сцен, уделяя особое внимание модели Neural Radiance Fields, которая использует входные виды с разреженной выборкой для построения представления трехмерной геометрии и цвета сцены. Джейн обсуждает проблемы, связанные с подгонкой поля нейронного излучения к одной сцене, а также способы повышения эффективности данных в процессе обучения за счет добавления фотометрических потерь и потери семантической согласованности. Он также рассказывает об использовании CLIP для удаления артефактов в NeRF и генерации 3D-объектов из подписей в проекте Dream Fields. Другие темы включают создание согласованных объектов переднего плана в сценах, получение наборов данных 3D-объектов с субтитрами, снижение затрат на рендеринг и оптимизацию производительности системы.

  • 00:00:00 В этом разделе видео Аджай Джейн рассказывает о своем путешествии и научных интересах в области генеративных моделей и инструментов искусственного интеллекта. Он также обсуждает различные типы представления сцен, уделяя особое внимание объемным подходам, которые легче обучать и использовать в контексте обучения по сравнению с представлениями сетки, обычно используемыми в графических приложениях. Джайн также подчеркивает недавний интерес к представлениям нейронных сцен.

  • 00:05:00 В этом разделе спикер обсуждает концепцию представления нейронных сцен, уделяя особое внимание модели под названием Neural Radiance Fields. Эта модель решает проблему синтеза видов, когда входные виды сцены с разреженной выборкой используются для создания представления трехмерной геометрии и цвета сцены, что позволяет выполнять рендеринг с новых точек зрения. Поле нейронного излучения оценивается по этим изображениям и позволяет плавно интерполировать виды с разреженной выборкой. Модель также может моделировать эффекты, зависящие от вида, такие как блики на блестящих поверхностях. Нейронная сеть представлена в виде функции, отображающей координаты трехмерного пространства и направления взгляда, и предсказывает цвет и плотность для каждой координаты. Рендеринг выполняется с помощью трассировки лучей и объемного рендеринга.

  • 00:10:00 В этом разделе спикер обсуждает процесс рендеринга цвета в соответствии с представлением нейронной сцены, чтобы оптимизировать веса нейронной сети для достижения желаемых цветов. Они объясняют, что MLP, который кодирует сцену, позволяет дифференцированную визуализацию точек обзора, что упрощает оптимизацию. Этот процесс называется обратной графикой и включает в себя переход от 2D-пространства к оптимизации базового 3D-представления, которое будет восстанавливать эти виды. Докладчик также объясняет, как входные координаты передаются в нейронную сеть с использованием подхода синусоидального позиционного кодирования, который проецирует 5-мерный ввод в пространство более высокого измерения.

  • 00:15:00 В этом разделе видео обсуждаются проблемы с подгонкой поля нейронного излучения к одной сцене, поскольку для обучения обычно требуется большой объем данных. Видео демонстрирует одну синтетическую сцену, для которой потребовалось сто изображений, в то время как для некоторых уличных сцен потребовалось меньше изображений. Затем в видео обсуждается способ повышения эффективности данных в процессе обучения путем добавления дополнительных потерь к обучению Neural Radiance Field, называемых фотометрическими потерями, в ненаблюдаемых местах. Это позволяет отображать новые виды даже до того, как сцена сойдется.

  • 00:20:00 В этом разделе спикер обсуждает концепцию потери семантической согласованности, которая позволяет упорядочить сцены с любой точки зрения во время обучения. С помощью визуального кодировщика каждое входное представление представляется в пространстве признаков, что позволяет кодировать идентичность объекта и другие признаки, согласованные между точками зрения. Выбор функции имеет решающее значение, поскольку он должен кодировать идентичность и свойства объекта, а не детали низкого уровня, такие как цвета пикселей. Спикер предлагает использовать сеть CLIP, потому что она научилась сопоставлять изображения с соответствующими подписями, что позволяет кодировать классы объектов, позы объектов и детали всей сцены. Докладчик показывает, что косинусное сходство вложений из кодировщика изображений CLIP в конкретной сцене из разных положений камеры очень похоже, но сильно различается в пространстве пикселей.

  • 00:25:00 В этом разделе видео спикер рассказывает о своих экспериментах по использованию CLIP для удаления артефактов в NeRF за счет максимального сходства пространства признаков, а затем обсуждает использование CLIP для создания 3D-объектов из подписи во второй своей работе. Поля мечты. Они оптимизируют представление общей сцены, чтобы оно выглядело как диетический NeRF с дополнительными регуляризаторами, а затем визуализируют новые представления для каждой перспективы. Они используют кодировщик текста CLIP, чтобы максимизировать сходство в пространстве признаков между сценой и заголовком вместо оптимизации сходства признаков в пространстве признаков изображения. Они отмечают, что автоматическое создание субтитров с помощью CLIP затруднено из-за сложности процесса поиска и оптимизации.

  • 00:30:00 В этом разделе Аджай Джайн обсуждает процесс создания согласованных объектов переднего плана в 3D-сценах с помощью Dream Fields. Выбирая случайным образом позы в сцене и визуализируя изображения, они пытаются убедиться, что семантические функции соответствуют функциям подписи. Однако наивное применение этого подхода без регуляризации может привести к вырожденным сценам. Поэтому они упорядочивают сцену, комбинируя случайно выбранные фоны и высокопрозрачные объекты переднего плана, чтобы способствовать разреженности сцены. Благодаря этой регуляризации они могут создавать более согласованные объекты переднего плана в сцене. Кроме того, они экспериментируют с различными шаблонами подписей, чтобы измерить композиционное обобщение модели.

  • 00:35:00 В этом разделе докладчик обсуждает проблемы с получением наборов данных 3D-объектов с субтитрами и то, как они решили эту проблему с помощью CLIP, предварительно обученного кодировщика 2D-изображений и текста. Проект Dream Fields переводит это 2D-представление в 3D посредством общего представления геометрии. Спикер также рассказывает о методах, используемых для улучшения качества генерируемых 3D-объектов и стоимости процесса оптимизации. Цель проекта — упростить создание 3D-контента и создать активы, полезные для последующих приложений, а код доступен для всех, кто хочет его попробовать.

  • 00:40:00 В этом разделе Аджай Джайн объясняет, что трехмерная структура объектов возникает только благодаря общему представлению, которое удовлетворяет CLIP с любой точки зрения. Для трехмерной структуры, полученной из данных, нет априорной информации, поэтому некоторая согласованность трехмерных данных отсутствует, и это дает возможность для будущей работы. Джайн также упоминает, что когда основная геометрия не видна, согласованность не сохраняется, что приводит к повторяющимся структурам. Нейронная сеть, созданная на основе отображения функции из координат, должна быть подвергнута постобработке, которая включает преобразование вывода нейронного поля в файл .fbx или сетку с некоторыми алгоритмами, позволяющими это преобразование.

  • 00:45:00 В этом разделе спикер обсуждает стратегии снижения затрат на рендеринг в объемных представлениях поля нейронного излучения, включая рендеринг изображений с низким разрешением и использование одного графического процессора с малым объемом памяти для значительного ускорения процесса. Они также объясняют, как можно обрабатывать прозрачные объекты в этом типе представления, и упоминают будущие шаги, чтобы сделать этот подход более практичным для 3D-художников, например, синтез деформируемых объектов и включение обратной связи с человеком во время обучения. Наконец, они совместно используют блокнот Colab для внедрения системы и настройки параметров качества для различных подсказок.

  • 00:50:00 В этом разделе спикер обсуждает кривые обучения и процесс оптимизации, связанный с созданием 3D-контента с использованием согласованных нейронных полей. Они объясняют различные факторы, влияющие на процесс оптимизации, такие как прозрачность пикселей в сцене и количество дополнений данных за итерацию. Они также предлагают настроить параметры конфигурации для уменьшения использования памяти, что включает в себя уменьшение количества сэмплов и использование CLIP b32 вместо CLIP b16 по умолчанию. Наконец, они упоминают возможность распараллеливания нескольких графических процессоров для оптимизации производительности.
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
  • 2022.04.19
  • www.youtube.com
Ajay JainDoctoral student (Ph.D.), UC Berkeleyhttps://ajayj.comMore about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can...
 

MIT 6.S192 — Лекция 20: Генеративное искусство с использованием диффузии, Прафулла Дхаривал



MIT 6.S192 — Лекция 20: Генеративное искусство с использованием диффузии, Прафулла Дхаривал

В этой лекции Прафулла Дхаривал из OpenAI обсуждает прогресс генеративного моделирования для сложных творческих задач, особенно с моделями распространения. Процесс включает в себя начало с изображения и медленное добавление к нему гауссова шума, а затем обращение процесса вспять путем получения некоторого зашумленного повреждения и удаления шума для создания менее шумных изображений. Генеративная модель получается путем обучения модели обращению шума, подобного этому, создания изображения из чистого шума во время тестирования путем пошагового запуска модели в обратном направлении. Обратное предсказание процесса также выглядит как распределение Гаусса, когда количество добавленного шума очень мало, что используется для предсказания среднего значения и дисперсии модели. Дхаривал также обсуждает, как использовать модели распространения для рисования и устранения потенциальных опасностей контента, созданного ИИ.

  • В этом разделе видео Прафулла Дхаривал из OpenAI обсуждает свой опыт и мотивы проведения исследований в области ИИ. Он также демонстрирует несколько примеров мощных творческих моделей машинного обучения, таких как GPT-3 и JukeBox, которые могут генерировать стихи и музыку, соответственно, всего из нескольких примеров. Видео также включает в себя образец вывода из JukeBox, который сгенерировал музыку и текст вместе, поскольку они взаимозависимы. Зрителям предлагается задавать вопросы в любой момент во время презентации.

  • 00:05:00 В этом разделе Прафулла Дхаривал обсуждает прогресс генеративного моделирования для сложных творческих задач. Спикер объясняет, что один из способов понять, действительно ли модели чему-то учатся, — посмотреть, могут ли они создавать сложные и трудные для понимания вещи. Обучение моделей созданию изображений, аудио и видео — одна из самых сложных задач в этих областях, но был достигнут значительный прогресс в попытках создавать вещи из моделей или генеративного моделирования. Дхаривал обсуждает, как работают генеративные модели, какие входные данные они требуют и как они оцениваются. Спикер также рассказывает о недавнем прогрессе диффузионных моделей, которые могут генерировать реалистичные лица и различные категории изображений. Дхаривал показывает, что эти модели лучше, чем GAN, при создании изображений.

  • В этом разделе лекции Прафулла Дхаривал обсуждает генеративное искусство с использованием диффузионных моделей. Модели работают, начиная с изображения и медленно добавляя к нему гауссовский шум, пытаясь обратить процесс вспять, принимая некоторые шумовые повреждения и удаляя шум, чтобы создать менее шумные изображения. Генеративная модель получается путем обучения модели обращению шума, подобного этому, создания изображения из чистого шума во время тестирования путем пошагового запуска модели в обратном направлении. Обратное предсказание процесса также выглядит как распределение Гаусса, когда количество добавленного шума очень мало, что используется для предсказания среднего значения и дисперсии модели.

  • В этом разделе Прафулла Дхаривал обсуждает процесс использования диффузии для устранения шума, добавленного к изображению. Процесс включает в себя предсказание гауссова в обратном направлении и использование обучающих трюков для упрощения процесса. Модель принимает изображение x0, случайный шум и их комбинацию для создания зашумленного x_t, а сеть обучается прогнозировать шум, добавленный к изображению, с использованием потерь L2. Модели, используемые для этой задачи, обычно представляют собой сверточные модели в стиле UNet, которые понижают дискретизацию изображения и изучают признаки на разных уровнях детализации, а затем повышают его дискретизацию обратно для прогнозирования шума. Этот процесс можно использовать для получения генеративной модели путем прогнозирования среднего значения обратного процесса.

  • В этом разделе мы узнаем, как сделать класс диффузионной модели условным, предоставив модели метки во время обучения, чтобы модель могла создать изображение из p для x при заданном y, распределении изображений, представленном меткой. Кроме того, модель может быть обусловлена изображениями с низким разрешением и повышать их дискретизацию до изображений с высоким разрешением. Однако этот тип модели создает некогерентные выборки, поэтому вводится трюк с наведением. Это включает в себя обучение классификатора на зашумленных изображениях, а затем использование градиента классификатора, чтобы направить модель распространения к созданию изображений, которые с большей вероятностью будут классифицированы как желаемая метка.

  • В этом разделе Дхаривал объясняет необходимость использования классификатора в процессе выборки, поскольку градиенты используются непосредственно из классификатора. Модифицированный обратный процесс использует термин с дополнительной дисперсией, который представляет собой управление размером шага в процессе с масштабированием от дополнительного параметра s. Параметр s помогает модели сосредоточиться на режимах распределения и более узких результатах. Небольшое значение s не оказывает сильного влияния на классификатор, в то время как большое значение сильно влияет на него. Масштабный коэффициент управляет указаниями, полученными от классификатора, и влияет на распределение, в котором он сворачивается.

  • В этом разделе Прафулла Дхаривал обсуждает использование моделей распространения для создания произведений искусства на основе текстовых описаний. Обусловливая модели распространения текстовыми описаниями, модель можно подтолкнуть к созданию изображений, соответствующих тексту. CLIP можно использовать для измерения того, насколько близко изображение и текст выровнены, а градиент можно использовать, чтобы направить процесс генерации модели в сторону текстового описания. В качестве альтернативы руководство без классификатора можно использовать для обучения модели распространения с метками и без них, а затем разницу между двумя прогнозами можно использовать в качестве направления подталкивания во время тестирования. Параметр масштаба используется для управления степенью смещения в сторону распределения на основе меток.

  • 00:35:00 В этом разделе докладчик обсуждает форму руководства для текстовых условных моделей, называемую руководством без классификатора. Этот метод включает в себя использование самой диффузионной модели для руководства, запрашивая модель предсказать, каким путем она должна пойти, чтобы увеличить вероятность того, что сгенерированное изображение относится к правильному классу. Спикер также затрагивает вопрос о постепенном добавлении элементов к изображению и предлагает два возможных способа достижения этого, один из которых заключается в итеративной модификации сгенерированного изображения с использованием шума и повторном запуске процесса с новыми подсказками. Докладчик представляет образцы, сравнивающие эффективность наведения CLIP и наведения без классификатора, причем последнее дает наилучшие результаты.

  • В этом разделе Прафулла Дхаривал обсуждает новый класс моделей для создания изображений, в котором используется метод диффузии. Он объясняет, что эта модель не работает авторегрессивно, а создает целостное изображение, что позволяет выполнять более сложные задачи, такие как рисование. In-paint включает в себя маскирование части изображения, а затем использование модели для заполнения этой части. Это также может быть достигнуто с помощью текстового условия в отрисовке, где предоставляется текстовая метка, сообщающая модели, как закрашивать область. Итеративное рисование можно использовать для добавления объектов к изображению по одному, например, добавления картины корги на стене над диваном. Модель генерировала более реалистичные выборки, чем более старые модели, такие как DALL·E, и использовала меньше параметров.

  • В этом разделе лекции Прафулла Дхаривал обсуждает, как можно использовать in -painting для удаления объектов с изображения или заполнения любой недостающей информации. Он также объясняет закрашивание, которое включает в себя перемещение прямоугольника за пределы изображения и просьбу модели заполнить эту область. Кроме того, Дхаривал отмечает, что выпущенные ноутбуки используют отфильтрованную модель GLIDE, поскольку оригинал может генерировать проблемные изображения. Несмотря на разрыв в производительности, меньшая модель по-прежнему может генерировать реалистичные изображения. Он демонстрирует примеры художественных работ, созданных пользователями в Твиттере, находя крутые подсказки и дополняя их с помощью техники перерисовки. Наконец, есть вопрос об опасности, создаваемой оригинальной моделью GLIDE, на которую Дхаривал рекомендует прочитать статью для получения более подробной информации.

  • В этом разделе спикер обсуждает компромиссы между полезностью моделей и потенциальной опасностью генерируемого контента. Спикер подчеркивает сложность обеспечения того, чтобы модели производили только безопасный контент, учитывая, что они являются мощными инструментами, которые могут легко создавать вводящие в заблуждение или насильственные данные. Чтобы отфильтровать небезопасные части модели, команда должна обучить классификаторы идентифицировать потенциально проблемные точки данных. Далее докладчик обсуждает практические аспекты развертывания модели, такие как выбор масштабов и временных шагов для процесса распространения, а также способы добавления пользовательских масок в файлы изображений для закрашивания определенной области.

  • 00:55:00 В этом разделе Прафулла Дхаривал рекомендует дополнительную литературу для тех, кто интересуется теорией, лежащей в основе моделей, используемых в генеративном искусстве. Он предлагает прочитать «Документ о вероятностных моделях диффузии с шумоподавлением» Джонатана Хо, а также их собственную статью «Модели диффузии превосходят GAN по синтезу изображений» для получения дополнительной информации о руководстве CLIP и руководстве без классификатора. Кроме того, Дхаривал рекомендует статью Янга Сонга «Генеративное моделирование путем оценки градиентов распределения данных», в которой рассматривается проблема с другой точки зрения сопоставления результатов, с другой точки зрения для понимания моделей распространения. Во время вопросов и ответов Дхаривал отмечает, что существует связь между используемым двумерным шумом и выходными данными модели, но она является косвенной. Он предлагает сэмплировать шум один раз в начале, а затем запускать детерминированный обратный процесс для сэмплирования из модели, чтобы сделать эту взаимосвязь более ясной.

  • В этом разделе докладчики обсуждают процесс шумоподавления и роль обработки текста в создании изображений без CLIP. Они объясняют, что обучение модели без текстовых меток затрудняет создание выборки для данного распределения текста, но модель распространения обучена быть текстовой условной. Хотя руководство можно использовать поверх как безусловных, так и условных моделей, исходная модель также может использовать руководство для улучшения своей способности создавать изображение с учетом текста. Выступающие призывают зрителей читать блоги и изучать другие блокноты Colab для получения дополнительной информации.
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
  • 2022.04.19
  • www.youtube.com
Prafulla DhariwalResearch Scientist, OpenAIhttps://prafulladhariwal.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessib...
 

MIT 6.S192 - Лекция 21: Между искусством, разумом и машинами, Сара Шветтманн



MIT 6.S192 - Лекция 21: Между искусством, разумом и машинами, Сара Шветтманн

В этой лекции Сара Шветтманн обсуждает пересечение искусства, разума и машин. Она углубляется в визуальное восприятие и задачу восприятия богатого трехмерного мира через двухмерное полотно, что требует от мозга решения обратной задачи и создания наилучшего объяснения поступающей информации. Шветтманн также рассказывает о проектах, связанных с глубокими генеративными моделями, обученными на произведениях искусства, таких как использование инверсии GAN для встраивания изображений коллекции Met в пространство признаков базовой модели для понимания структуры человеческого творчества и создание словаря визуальных понятий для произвольного Скрытое пространство GAN путем выборки пространства заметных или возможных преобразований и использования этих выборок направлений в качестве экрана для проецирования суждений человеческого восприятия. В этом процессе важны человеческое взаимодействие и маркировка, и полученный словарь можно применять к другим моделям и использовать для различных манипуляций с изображениями. Несмотря на шум в данных из-за разного выбора слов, их метод дистилляции словарей с использованием библиотеки аннотаций любого размера можно масштабировать и может включать обучение автора субтитров автоматической маркировке направлений.

Сара Шветтманн также обсуждает различные способы исследования и определения значения направлений в рамках моделей, обученных человеческому творчеству. Она представляет эксперимент по захвату и изучению визуальных указаний без языка, который позволяет людям определять желаемое преобразование исключительно визуально, взаимодействуя с небольшой группой изображений, отобранных из скрытого пространства или пространства признаков. Этот метод полезен для маркировки и понимания изображений с нюансами, которые трудно объяснить. Более того, скрытое пространство может стать экраном, на который можно спроецировать человеческий опыт, что позволит исследователям лучше понять аспекты человеческого восприятия, которые иначе трудно формализовать.

  • 00:00:00 В этом разделе Сара Шветтманн обсуждает свой опыт в нейробиологии и то, как она заинтересовалась точкой встречи между собой и миром, особенно в тех областях, где пересекаются визуальное искусство и аспекты познания более высокого уровня. Она описывает визуальное восприятие как фундаментально конструктивное, требующее некоторого творчества для решения некорректно поставленных обратных задач, и отмечает, что задняя часть человеческого глаза представляет собой плоское двумерное полотно, состоящее из иерархии ячеек, образующих двумерное полотно, принимающее во внимание входящие данные изображения и представляет изображения с точки зрения паттернов активации через мозаику клеток.

  • 00:05:00 В этом разделе лекции Сара Шветтманн обсуждает проблему переживания богатого трехмерного мира при просмотре его через двухмерное полотно. Хотя классические задачи компьютерного зрения могут распознавать трехмерную структуру объекта, они не могут передать связанные с ним значения и ассоциации. Нашему мозгу приходится решать обратную задачу, чтобы перейти от малой двумерной информации к богатой трехмерной, что является некорректной задачей, поскольку существует бесконечно много конфигураций, которые могут вызвать одну и ту же двухмерную проекцию. Восприятие принципиально конструктивно и требует от мозга наилучшего объяснения поступающей информации, превращая ее в акт творчества. Одним из популярных способов решения этой проблемы логического вывода является использование моделей мира, таких как байесовские подходы или подходы глубокого обучения. Затем Шветтманн приводит пример живой демонстрации, где визуальная информация ограничивается одной линией красного лазерного света, заставляя аудиторию делать выводы о том, что сидит на столе, покрытом черным бархатом.

  • 00:10:00 В этом разделе видео Сара Шветтманн обсуждает, как наши ментальные модели о формах и формах могут помочь в формировании нашего восприятия. Она представляет пример, когда одна линия лазерного луча движется по поверхности нескольких разных форм, и как мы можем сделать вывод о том, какие формы эти, основываясь на том, как свет огибает поверхность. Это приводит к обсуждению интуитивной физики и того, как мозг представляет физические свойства, такие как масса, которые можно использовать в качестве входных данных для абстрактного обобщенного механизма физического моделирования. Шветтманн также затрагивает тему моделей в искусстве, объясняя, как трудно разработать вычислительный формализм для определенных произведений искусства, где неясны основные измерения.

  • 00:15:00 В этом разделе Dr. Сара Шветтманн рассказывает о курсе Vision in Art and Neuroscience, который предлагает Массачусетский технологический институт. Это углубленный семинар, посвященный принципам, лежащим в основе зрения, с помощью литературы по нейробиологии, вычислений и художественной практики. Шветтманн приводит примеры из фотографий Майнора Уайта и обсуждает, как различные факторы могут влиять на достоверное восприятие. Курс также включает в себя секцию студии, где студенты изучают, как воплощать и визуализировать принципы видения в художественном контексте. Кроме того, курсовая работа завершается созданием художественной выставки, что дает студентам уникальную возможность продемонстрировать свои собственные работы.

  • 00:20:00 В этом разделе Сара Шветтманн обсуждает проект, посвященный тому, как можно использовать глубокие генеративные модели для понимания структуры человеческого творчества. Метрополитен-музей предоставил набор данных из нескольких сотен тысяч цифровых изображений произведений из своей коллекции. Исследователи спросили, могут ли они построить глубокие генеративные модели, связанные с этими архивами, которые включают созданную работу в их культурный контекст. Они использовали инверсию GAN (генеративно-состязательная сеть), чтобы встроить каждое изображение в наборе данных в пространство признаков базовой модели. Это позволило им определить подпространства этих больших моделей, с которыми они могли взаимодействовать, вместо того, чтобы переобучать модель на своем наборе данных. Проект был направлен на эксперименты с историей культуры на временной шкале, которая допускала быструю эволюцию в настоящем.

  • 00:25:00 В этом разделе Шветтманн обсуждает проект, над которым она работала с участием коллекции Met и BigGAN ImageNet. Они выбрали категории, которые были общими между ними, и создали потерю из двух частей, чтобы максимизировать сходство между изображением Met и изображением BigGAN на пиксельном и семантическом уровнях. Они смогли визуализировать отдельные вложения и выполнить интерполяцию между существующими изображениями на графике, чтобы создать гипотетические или сказочные изображения, которые существуют между пространствами существующих работ в коллекции. Проект был выставлен в Met, и была доступна версия веб-приложения. Проект продолжает развиваться с использованием StyleGAN2-ADA для обучения на небольших наборах данных.

  • 00:30:00 В этом разделе Шветтманн рассказывает о проекте, который включает в себя создание многослойных картин маслом из коротких прогулок в скрытом пространстве с использованием робота-художника, чтобы визуально представить работу по управляемости, описанную в курсе. Этот проект выставлен в галерее современного искусства Университета Северного Техаса. Она также обсуждает важность понимания и интерпретации измерений, лежащих в основе генеративных моделей, обученных на произведениях искусства из музейных цифровых коллекций, с целью создания альтернативных и воображаемых историй искусства, построенных на основе уникальных скрытых прогулок. Цель состоит в том, чтобы понять общие аспекты языка изображений, которые могут присутствовать в совершенно разных жанрах искусства.

  • 00:35:00 В этом разделе Шветтман обсуждает пересечение моделирования творчества и машинного обучения, особенно в отношении моделирования отдельных методов и стилей художественного творчества. Она также отмечает, что генеративные модели, обученные на произведениях искусства, могут дать представление о структуре, лежащей в основе творчества, и могут использоваться в качестве инструментов для совместной работы. Затем Шветтманн продолжает исследовать способы, которыми люди могут взаимодействовать с генеративными моделями, чтобы узнать больше о человеческом зрении и создать общий словарь, например, при разработке экспериментов, которые позволяют визуализировать и взаимодействовать с латентными прогулками. Взаимодействие человека в этом процессе включает в себя выбор репрезентативных изображений для обучающих наборов данных и выбор произвольных обходов скрытого пространства, а следующим шагом является создание более систематического языка для различных обходов.

  • 00:40:00 В этом разделе Сара Шветтманн обсуждает использование человеческого взаимодействия для обозначения и выбора различных прохождений через скрытое пространство для внесения нюансов в развитие искусства. Она подчеркивает важность прямого взаимодействия с моделями, а не использования посредника, а также вовлечения в процесс разных людей, чтобы они могли использовать свои знания для создания уникального синтеза с генеративной моделью. Затем Шветтманн обсуждает проект, направленный на создание словаря визуальных понятий для произвольного латентного пространства GAN, который включает выборку пространства существенных или возможных преобразований и использование этих образцов направлений в качестве экрана для проецирования суждений человеческого восприятия. Цель состоит в том, чтобы разделить понятия на словарь открытых композиционных визуальных понятий и определить общий словарь между глубокими функциями в представлении модели и понятиями, значимыми для людей в понимании визуальной сцены.

  • 00:45:00 В этом разделе лекции Сара Шветтманн обсуждает, как людей можно использовать для маркировки набора данных для словаря, который одновременно разнообразен и специфичен. Определяя взаимно ортогональные селективные направления слоев, которые минимизируют изменения в представлении объектов на каком-либо уровне BigGAN, Шветтманн может фиксировать целенаправленные изменения и изменения на разных уровнях абстракции. Эти минимально значимые преобразования затем помечаются людьми-зрителями, которые затем Шветтманн разлагает на словарь визуальных понятий, состоящий из отдельных направлений, помеченных отдельными словами. Было обнаружено, что более 2000 понятий соответствуют множеству различных типов визуальных изменений, что позволяет выполнять такие манипуляции, как масштабирование, вращение, изменение цвета и даже изменение настроения. С помощью этого процесса Шветтманн может распутывать преобразования, соответствующие концептам, отмеченным зрителем, например, сделать кухню более современной, и применять эти преобразования к другим изображениям.

  • 00:50:00 В этом разделе Сара Шветтманн обсуждает компонуемый и обобщаемый характер предложенного ими метода поиска измерений визуального интереса, значимых для людей, в скрытом пространстве модели, обученной на изображениях реального мира. Они провели ряд поведенческих экспериментов, чтобы оценить успех своего метода, и обнаружили, что возможно добавление понятий, изученных в одной категории, в другую категорию. Метод не зависит от модели и может быть применен к другим моделям, в том числе обученным на архивах художественных изображений. Существуют также различные методы, которые можно использовать для выборки скрытого пространства, но метод выбора слоя оказался наиболее эффективным для выделения конкретных изменений. Вмешательство человека по-прежнему необходимо для аннотирования, но будущая работа может включать в себя обучение автора надписей на более крупном наборе размеченных данных или использование чего-то вроде CLIP для автоматических аннотаций, сохраняя при этом возможность для экспертов аннотировать специализированные модели.

  • 00:55:00 В этом разделе видео Сара Шветтманн обсуждает процесс аннотирования проекта и принятие решений, лежащих в основе выбора направлений для визуализации. Команда собрала как минимум две аннотации для каждого направления, чтобы измерить согласие между субъектами, и использовала BLEU и BERTscores для согласия между аннотаторами. Они визуализировали по 64 z на категорию и кучу разных минимально значимых для них направлений. Решение было несколько случайным, но метод, который они использовали, может выделить словари, используя библиотеку аннотаций любого размера. Теперь они решают, стоит ли увеличивать масштаб и собирать больше аннотаций, чтобы научить субтитров автоматически маркировать направления. Что касается маркировки, то для аннотаторов не было стандартов по выбору слов, что приводило к некоторому шуму в данных. Хотя они провели пробный запуск и просмотрели примеры перед аннотациями, соглашение между аннотаторами было основано исключительно на необработанном окне восприятия, которое обеспечивал их выбор слов.

  • 01:00:00 В этом разделе спикер обсуждает свое исследование по оценке лексики, используемой для описания изменений в небе. Они обнаружили, что использование BERTscores для оценки семантического сходства аннотаций было более эффективным, чем просто просмотр соответствия на основе слов. Они также обсуждают идею объединения похожих аннотаций под одним зонтиком для увеличения мощности, но отмечают красоту разных слов, используемых для описания изменений. Затем спикер и член аудитории обсуждают нелинейные прогулки по подпространствам в скрытых пространствах и отсутствие нормализации визуального значения, соответствующего прилагательным. В заключении спикер рассказывает о бета-методе создания общего словарного запаса между людьми и моделями.

  • 01:05:00 В этом разделе Сара Шветтманн описывает свой эксперимент по захвату и изучению визуальных указаний без использования языка. Этот метод вдохновлен «работой управляемости» и позволяет людям определять желаемое преобразование чисто визуально, взаимодействуя с небольшой группой изображений, выбранных из скрытого пространства или пространства признаков. Пользователи могут сортировать изображения в направлении конкретной визуальной функции, которую они хотят определить, и этот метод симпатико с управляемостью. Они определили преобразование исключительно путем изучения гиперплоскости, которая отделяет различные классы изображений и выборочных изображений от скрытого пространства. Можно определить эти направления с некоторой степенью достоверности, используя несколько изображений в каждой категории, что упрощает взаимодействие пользователя с такими системами. Этот метод удобен для маркировки и понимания изображений с нюансами, которые трудно объяснить.

  • 01:10:00 В этом разделе лекции Сара Шветтманн обсуждает скрытое пространство и то, как его можно использовать для исследования и придания значения направлениям, найденным в моделях, которые были обучены человеческому творчеству. Изучая, как модель изучает визуальные различия между категориями, исследователи могут узнать значимые параметры, такие как полнота, которые можно применять к сценам, выходящим за рамки того, на чем была обучена модель. Благодаря этому процессу скрытое пространство может стать экраном, на который можно спроецировать человеческий опыт, что позволит исследователям лучше понять аспекты человеческого восприятия, которые иначе трудно формализовать. Результатом является сотрудничество между человеком и машиной, которое может производить изысканные результаты.

  • 01:15:00 В этом разделе Сара Шветтманн обсуждает идею скрытых пространств и связь между нашим воображением и моделями, которые мы создаем. Она выражает свою признательность за эти отношения, а затем заканчивает видео, разрешая все оставшиеся вопросы аудитории.
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
  • 2022.04.19
  • www.youtube.com
Sarah SchwettmannPostDoc in MIT CSAILhttps://www.cogconfluence.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessibility...
 

MIT 6.S192 - Лекция 22: Вероятностные модели диффузии, Яша Золь-Дикштейн



MIT 6.S192 - Лекция 22: Вероятностные модели диффузии, Яша Золь-Дикштейн

В этой лекции Яша Золь-Дикштейн обсуждает диффузионные модели, которые используются для обучения задачам, отдельным от обучающих данных. Модели являются вероятностными и могут использоваться для кодирования или декодирования данных. Процесс прямой диффузии является фиксированным процессом, и обратный процесс также верен.

В этой лекции обсуждаются вероятностные модели диффузии и объясняется, что, несмотря на взаимно однозначное соответствие между скрытым пространством и пространством изображений, можно работать с несколькими классами в рамках одной модели. Затем в лекции объясняется, как использовать эти модели для создания новых изображений.

  • 00:00:00 В этом выступлении Яша Золь-Дикштейн обсуждает модели распространения, которые используются для создания изображений в различных дисциплинах, включая искусство. Он также делится примерами того, как модели распространения используются вместе с текстом для создания более качественных изображений.

  • 00:05:00 В этой лекции Яша Золь-Дикштейн обсуждает физическую интуицию, стоящую за моделями диффузии, и показывает, как их можно использовать для создания выборок из распределения данных. Затем он обсуждает связи между моделями диффузии и нейронными ОДУ.

  • 00:10:00 В этом видео профессор Яша Золь-Дикштейн с факультета электротехники Массачусетского технологического института обсуждает диффузионные модели, которые используются для изучения поведения систем во времени. Одним из ключевых преимуществ диффузионных моделей является то, что их можно использовать для создания выборок данных, представляющих систему по мере ее развития во времени, без потери информации о базовой структуре системы.

  • 00:15:00 В этой лекции Яша Золь-Дикштейн объясняет, как работают модели распространения. Во-первых, он показывает, как одномерный пример иллюстрируется тремя миллионами измерений. Далее он объясняет, как модели распространения работают в 2D и 3D. Наконец, он демонстрирует, как модели диффузии можно использовать для изучения функций, описывающих среднее значение и ковариацию последовательности гауссианов.

  • 00:20:00 В этой лекции Яша Золь-Дикштейн рассказывает о математических основах моделей диффузии, объясняя, как их обучать с помощью вариационной границы. Он также обсуждает неравенство Дженсена и то, как снизить логарифмическую вероятность модели. Если прямое и обратное распределения по траекториям точно перекрываются, логарифмическая вероятность может быть записана как сумма расхождений KL, причем оба распределения являются гауссовыми.

  • 00:25:00 В этой лекции д. Золь-Дикштейн обсуждает расхождение KL между двумя распределениями вероятностей, объясняя его важность для контролируемого обучения. Далее он говорит, что, как правило, KL вычисляется из данных в модель и что он связан с логарифмической вероятностью данных. Он также отмечает, что может быть сложно вычислить дивергенцию KL в противоположном направлении.

  • 00:30:00 В этой лекции Яша Золь-Дикштейн объясняет, как использовать стохастические дифференциальные уравнения (СДУ) для моделирования распространения шума в распределении данных. Он объясняет, как преобразовать процесс диффузии в стохастическое дифференциальное уравнение и как использовать градиент функции оценки логарифмического правдоподобия для обучения приближению тета к функции оценки.

  • 00:35:00 В этой лекции обсуждается алгоритм диффузионного моделирования и его преимущества перед другими методами моделирования. Алгоритм описывается в терминах SDE с дискретным временем и функцией оценки, а процесс выборки описывается в терминах нейронной сети. Лекция заканчивается демонстрацией некоторых методов генерации выборки.

  • 00:40:00 В этой лекции рассказывается о разнице между стохастической и детерминированной моделями и о том, как конвертировать между ними. В лекции также обсуждаются преимущества и недостатки использования SDE по сравнению с ODE для моделирования.

  • 00:45:00 В этой лекции Яша Золь-Дикштейн рассказывает о теории моделей диффузии, объясняя, чем они отличаются от обычных линейных моделей и как их можно использовать для различных целей, например для управления генерацией выборок шума в контролируемых условиях. Он также упоминает правило Байеса, которое можно использовать для обучения второго члена диффузионной модели, не требуя предварительного знания условного распределения.

  • 00:50:00 В этой лекции Яша Золь-Дикштейн объясняет, как модели диффузии можно использовать для создания правдоподобных рисунков или цветов на изображениях. Он также упоминает, что кодировка модели однозначно идентифицируема, что является положительным или отрицательным в зависимости от того, как вы на это смотрите. Наконец, он показывает, как модель можно использовать для создания новых художественных произведений без переобучения модели.

  • 00:55:00 В этой лекции обсуждаются диффузионные модели, которые используются для обучения задачам, отдельным от обучающих данных. Модели являются вероятностными и могут использоваться для кодирования или декодирования данных. Процесс прямой диффузии является фиксированным процессом, и обратный процесс также верен.

  • 01:00:00 В этой лекции обсуждаются вероятностные модели диффузии и объясняется, что, несмотря на взаимно однозначное соответствие между скрытым пространством и пространством изображения, можно работать с несколькими классами в рамках одной модели.
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
  • 2022.04.19
  • www.youtube.com
Jascha Sohl-DicksteinSenior Staff Research Scientist in the Brain Group at Googlehttp://www.sohldickstein.com/More about the course: http://deepcreativity.cs...
 

GenRep: генеративные модели как источник данных для обучения многоракурсному представлению в ICLR2022

Код: https://github.com/ali-design/GenRep



GenRep: генеративные модели как источник данных для обучения многоракурсному представлению в ICLR2022

Докладчики обсуждают концепцию модельных зоопарков, когда предварительно обученные генеративные модели становятся доступными без доступа к базовым данным. Используя контрастное обучение, исследователи могут создавать разные виды одного и того же объекта, которые будут попадать в одну и ту же окрестность в пространстве представления. Они обнаружили, что простые преобразования Гаусса в скрытом пространстве эффективны и что создание большего количества выборок из IGM приводит к лучшим представлениям. Экспертные IGM, такие как StyleGAN Car в определенных областях, могут превзойти представления, полученные на основе реальных данных. Веб-сайт проекта и код Github доступны для дальнейшего изучения.

  • 00:00:00 В этом разделе докладчики обсуждают концепцию модельных зоопарков, когда предварительно обученные генеративные модели становятся доступными без доступа к базовым данным. Далее они объясняют, как можно управлять неявными генеративными моделями, чтобы предлагать множество преобразований сгенерированных изображений. Используя контрастное обучение, исследователи могут создавать разные виды одного и того же объекта, которые будут попадать в одну и ту же окрестность в пространстве представления. Перемещаясь в скрытом пространстве, создавая различные представления для привязки и комбинируя преобразования вместе, исследователи могут изучать репрезентации этих IGM. Это исследование показало, что если применить оба преобразования, предлагаемые IGM, они могут приблизиться к производительности реальных данных и конкурировать с ними. Результаты оказались на удивление выше реальных данных в случае StyleGAN Car.

  • 00:05:00 В этом разделе спикер обсуждает использование контрастного обучения и управляемости при создании различных представлений для репрезентативного обучения. Они обнаружили, что простые преобразования Гаусса в скрытом пространстве эффективны и что создание большего количества выборок из IGM приводит к лучшим представлениям. Они также обнаружили, что экспертные IGM, такие как StyleGAN Car, в определенных областях могут превзойти представления, полученные на основе реальных данных. Веб-сайт проекта и код Github доступны для дальнейшего изучения.
GenRep: Generative Models as a Data Source for Multiview Representation Learning in ICLR2022
GenRep: Generative Models as a Data Source for Multiview Representation Learning in ICLR2022
  • 2022.03.22
  • www.youtube.com
Authors: Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip IsolaProject Website: https://ali-design.github.io/GenRep/Why you could think of generative models...
 

MIT18.065. Матричные методы в анализе данных, обработке сигналов и машинном обучении



Введение в курс профессора Стрэнга

Профессор Стрэнг представляет свой новый курс 18.065, который охватывает четыре ключевые темы: линейную алгебру, глубокое обучение, оптимизацию и статистику. Курс будет посвящен лучшим матрицам, симметричным и ортогональным матрицам и их связи с линейной алгеброй. Он также будет охватывать глубокое обучение, которое лежит в основе линейной алгебры и включает сложные вычисления, которые могут потребовать использования графических процессоров в течение нескольких дней или даже недель. Курс затронет статистику, которая играет роль в поддержании чисел в функции обучения в хорошем диапазоне, а также оптимизацию и теорию вероятностей, которые важны для алгоритмов обучения, и дифференциальные уравнения, которые играют ключевую роль в научных и инженерных приложениях. . Курс включает в себя упражнения, задачи и обсуждения, чтобы обеспечить полное представление предмета.

  • 00:00:00 В этом разделе профессор Стрэнг представляет свой новый курс 18.065 и новый учебник по линейной алгебре и обучению на основе данных. Он объясняет, что курс охватывает два основных и два дополнительных, но важных математических предмета. Первым большим предметом является линейная алгебра, которая становится все более важной на практике, и профессор Стрэнг фокусируется на лучших матрицах, симметричных и ортогональных матрицах и их соотношении. Второй важной темой является глубокое обучение, которое касается создания функции обучения, которая распознает закономерности во входных данных и производит выходные данные, используя умножение матриц и очень простую нелинейную функцию. Курс также охватывает оптимизацию и теорию вероятностей, которые важны для алгоритмов обучения, и дифференциальные уравнения, которые играют ключевую роль в научных и инженерных приложениях.

  • 00:05:00 В этом разделе профессор Стрэнг представляет четыре ключевые темы, которые будут затронуты в курсе: линейная алгебра, глубокое обучение, оптимизация и статистика. Линейная алгебра лежит в основе понимания глубокого обучения, которое включает в себя сложные вычисления, которые могут потребовать использования графических процессоров в течение нескольких дней или даже недель. Курс также затронет статистику, которая играет роль в поддержании числа в функции обучения в хорошем диапазоне. Хотя этот курс не будет посвящен статистике, он будет использоваться в контексте глубокого обучения. Курс охватывает широкий спектр материалов, помимо видео, включая упражнения, задачи и обсуждения, чтобы обеспечить полное представление предмета.
Course Introduction of 18.065 by Professor Strang
Course Introduction of 18.065 by Professor Strang
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Интервью с Гилбертом Стрэнгом о преподавании матричных методов в анализе данных, обработке сигналов и машинном обучении



Интервью с Гилбертом Стрэнгом о преподавании матричных методов в анализе данных, обработке сигналов и машинном обучении

Гилберт Стрэнг, известный математик, подчеркивает важность проектов по сравнению с экзаменами в преподавании глубокого обучения, важной части машинного обучения, которое в значительной степени зависит от линейной алгебры. Он считает, что проекты позволяют учащимся понять, как применять глубокое обучение в реальном мире, и являются более эффективным способом обучения. Стрэнг также подчеркивает, что преподавание заключается в обучении и работе со студентами, а не только в выставлении им оценок. Он советует новым профессорам использовать крупный мел и не торопиться, чтобы оставаться с классом, чтобы добиться успеха в обучении.

  • 00:00:00 В этом разделе Гилберт Стрэнг обсуждает, как он начал преподавать глубокое обучение, важную часть машинного обучения, которая сильно зависит от линейной алгебры. Он также подчеркивает, что проекты намного лучше экзаменов, поскольку они дают учащимся представление о том, как использовать глубокое обучение в реальных ситуациях, и являются более эффективным способом обучения. Когда студенты задают свои вопросы и пишут свои программы, они могут создавать интересные и запоминающиеся проекты. Однако Стрэнг признает, что понятия не имел, чего ожидать, когда впервые начал преподавать курс таким образом, и потребовалось некоторое время, чтобы выяснить логистику фасилитации проектов.

  • 00:05:00 В этом разделе видео Гилберт Стрэнг обсуждает свою философию оценивания работ учащихся. Он считает, что его основная работа как учителя — учить или учиться вместе со студентами, а не оценивать их. Он признает, что оценка важна, но это не его главная забота. Он советует новым профессорам использовать крупный мел и не торопиться, а оставаться в классе. Он считает, что преподавание — это лучшая работа.
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
  • 2019.08.19
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert Strang, Sarah HansenView the complete cou...
 

Лекция 1: Пространство столбца A содержит все векторы Ax



Лекция 1: Пространство столбца A содержит все векторы Ax

Эта лекция посвящена понятию пространства-столбца матрицы, которое представляет собой набор всех векторов, которые могут быть получены путем умножения матрицы на все возможные векторы. Лектор объясняет, что пространство столбца зависит от матрицы и может быть всем пространством R3 или меньшим его подмножеством. Далее профессор обсуждает концепции пространства строк, рангов столбцов и рангов строк, а также отношения между этими рангами. В лекции также кратко затрагивается первая великая теорема линейной алгебры, которая утверждает, что ранг столбца матрицы равен рангу строки матрицы. Кроме того, профессор обсуждает методы умножения матриц и количество умножений, необходимых для этого процесса. В целом, лекция предлагает введение в линейную алгебру и ее важность в обучении на основе данных.

  • 00:00:00 В этом разделе профессор представляет себя и курс, который фокусируется на обучении на основе данных и включает много линейной алгебры. Он упоминает общедоступный сайт с оглавлением будущей книги, а также тот факт, что не будет викторин, только домашние задания, которые будут охватывать как вопросы линейной алгебры, так и практические приложения, такие как распознавание рукописного текста и сшивание изображений. Затем профессор начинает с основ линейной алгебры, демонстрируя правильный способ умножения матрицы на вектор, а позже исследует умножение матриц на матрицы.

  • 00:05:00 В этом разделе лектор объясняет важность представления о матрице как о целом объекте, который умножает вектор, чтобы получить другой вектор. Он вводит понятие пространства-столбца матрицы, которое представляет собой набор всех векторов, которые могут быть получены путем умножения матрицы на все возможные векторы. Он объясняет, что пространство столбца зависит от матрицы и может быть всем пространством R3 или меньшим его подмножеством. В конечном счете, лектор подчеркивает, что линейная алгебра дает возможность ответить на вопросы о наборах векторов, таких как пространство столбцов матрицы.

  • 00:10:00 В этом разделе лектор объясняет, что пространство столбцов случайной матрицы 3x3 не обязательно может быть всеми нашими тремя, а вместо этого может быть плоскостью или даже линией. Он приводит пример матрицы, пространство столбцов которой представляет собой просто строку, и другой пример матрицы, третий столбец которой представляет собой комбинацию первых двух, что делает ее пространство столбцов плоскостью, а не всем пространством. Затем он вводит матрицы первого ранга, которые являются строительными блоками линейной алгебры и науки о данных, и показывает, как их можно рассматривать как столбец, умноженный на умножение строки.

  • 00:15:00 В этом разделе лектор обсуждает пространство столбцов матрицы, которое представляет собой множество всех возможных комбинаций ее столбцов. Он объясняет концепцию независимых столбцов и количество независимых столбцов в матрице, что называется ее рангом. Ранг — это количество независимых столбцов, заполняющих пространство, а базис состоит из независимых столбцов. Лектор демонстрирует, как найти естественный способ создания основы для столбцового пространства путем поиска векторов, не являющихся комбинациями уже выбранных. Он демонстрирует матрицу с тремя столбцами, два из которых независимы и составляют основу пространства столбцов, а третий не является независимым и не может быть частью основы.

  • 00:20:00 В этом разделе лекции преподаватель объясняет процесс матричной факторизации и знакомит с первой матричной факторизацией, известной в преподавании близлежащих алгебр. Процесс включает в себя создание матрицы R, которая сообщает пользователю, как получить столбцы одной матрицы из столбцов другой матрицы. Форма R определяется исходной матрицей, и инструктор продолжает объяснять, как ввести правильные числа, чтобы получить правильную матричную факторизацию. В лекции также кратко затрагивается первая великая теорема линейной алгебры, которая утверждает, что ранг столбца матрицы равен рангу строки матрицы.

  • 00:25:00 В этом разделе лектор знакомит с концепцией пространства строк и его связи с пространством столбцов. Он объясняет, что пространство строк матрицы — это комбинация ее строк, а пространство столбцов матрицы — это комбинация ее столбцов. Далее он объясняет, что размерность пространства строк — это ранг строки матрицы, который можно определить, найдя основу для пространства строк. Лектор указывает на важность этого факта и предлагает доказательство, показывающее, что строки матрицы могут служить основой для ее строкового пространства.

  • 00:30:00 В этом разделе лекции профессор объясняет, как проверить, являются ли два вектора базой для пространства строк, проверив, являются ли они независимыми и производят ли их комбинации все строки. Он демонстрирует это на примере с умножением матриц и показывает, что факторизация a = CR является ключевой идеей при нахождении пространства строк. Пространство столбцов, также известное как диапазон, также обсуждается с акцентом на различных языках и различных способах выражения фундаментальных математических понятий.

  • 00:35:00 В этом разделе лектор обсуждает понятия ранга столбца и ранга строки, которые представляют собой количество столбцов и строк соответственно в матрице, которые являются линейно независимыми, а также взаимосвязь между этими двумя рангами. Он объясняет, что для большой матрицы нецелесообразно проверять все элементы, и необходимо использовать случайную выборку, например, взяв случайный вектор X и просмотрев соответствующую ему ось. Лектор также затрагивает факторизацию, такую как взятие столбцов или строк матрицы, а также ступенчатую форму матрицы с уменьшенной строкой.

  • 00:40:00 В этом разделе видео профессор Гилберт Стрэнг объясняет, что задачи линейной алгебры будут частью домашнего задания курса. Тем не менее, что делает этот курс особенным, так это другие домашние задания онлайн, которые можно выполнять с помощью MATLAB, Python или Julia. Он рассказывает о том, как концепция курса принадлежит профессору Рао из Мичиганского университета, который ранее создал онлайн-задачи для успешного прохождения курса ЭО в Мичигане. Профессор Джонсон, являющийся частью этого курса, каждый семестр дает уроки Джулии, которые могут посещать студенты. В то время как MATLAB дал толчок к глубокому обучению, Julia также становится популярным языком для глубокого обучения благодаря простоте использования.

  • 00:45:00 В этом разделе лекции инструктор раскрывает тему умножения матрицы на вектор. Хотя многим это может показаться простым, инструктор исследует более глубокий способ понимания умножения матриц, где оно становится комбинацией столбцов и строк. Этот подход является обобщением идеи AX=B, где AB — сумма внешних произведений. Лекция кратко затрагивает количество отдельных умножений, необходимых для матрицы M на N, умноженной на матрицу N на P.

  • 00:50:00 В этом разделе лектор обсуждает количество умножений, необходимых для умножения матриц, на примере старого метода и нового метода. В старом методе для получения скалярного произведения требуется n умножений, а в ответе есть m и p скалярных произведений, в результате чего в сумме получается m и p умножений. Однако новый метод требует mp умножений для каждого столбца и строки умножения, а их n, что приводит к mp умножению на n умножений. Несмотря на разные методологии, оба метода дают один и тот же ответ, и лектор указывает, что он обсудит это подробнее в пятницу.
Причина обращения: