Машинное обучение и нейронные сети - страница 48

 

CS480/680 Лекция 17: Скрытые марковские модели


CS480/680 Лекция 17: Скрытые марковские модели

Лекция знакомит со скрытыми марковскими моделями (HMM), типом вероятностной графической модели, используемой для использования корреляций в данных последовательности, которые могут повысить точность. Предположения модели включают стационарный процесс и марковский процесс, при котором скрытое состояние зависит только от предыдущего состояния. Три распределения в HMM - это распределение начального состояния, распределение перехода и распределение излучения, причем последний тип используется в зависимости от типа данных. Алгоритм можно использовать для мониторинга, прогнозирования, фильтрации, сглаживания и, скорее всего, задач объяснения. HMM использовался для распознавания речи и машинного обучения, например, для прогнозирования наиболее вероятной последовательности выходных данных на основе последовательности входных данных и скрытых состояний для пожилых людей, использующих ходунки для корреляции стабильности. Был проведен эксперимент с модифицированными датчиками и камерами на ходунках для автоматического распознавания деятельности пожилых людей на основе сбора данных о деятельности пожилых людей в учреждении для престарелых. Также обсуждалась демонстрация контролируемого и неконтролируемого обучения в контексте распознавания деятельности.

Лекция посвящена использованию гауссовых распределений излучения в скрытых марковских моделях (HMM), которые обычно используются в практических приложениях, где собранные данные непрерывны. Лектор объясняет, что этот метод включает в себя вычисление параметров среднего и дисперсии, которые соответствуют эмпирическому среднему и дисперсии данных, и их использование для расчета решения для начального и переходного распределений. Распределение переходов соответствует подсчетам относительных частот, и для получения решений используется максимальное правдоподобие. Этот подход аналогичен решению для смесей гауссиан, где также используются начальное и эмиссионное распределения.

  • 00:00:00 В этом разделе лектор знакомит с концепцией скрытых марковских моделей (СММ), которые отличаются от нейронных сетей, которые обсуждались до сих пор. Лектор объясняет, что HMM можно использовать, когда данные поступают из последовательностей, а не из независимых точек данных, и прогнозы для одной точки данных коррелируют с прогнозами для следующей точки данных. Лектор приводит пример распознавания речи, когда предсказание фонемы или слова соотносится со следующей фонемой или словом. Использование этих корреляций может повысить точность прогнозов. Лектор также объясняет, что HMM можно обобщить в рекуррентную нейронную сеть (RNN), которая может работать с данными последовательности и распространять информацию между различными точками в последовательности, что будет обсуждаться позже.

  • 00:05:00 В этом разделе лекции докладчик знакомит со скрытыми марковскими моделями как обобщением смесей гауссианов. Он объясняет, что скрытые марковские модели используют корреляции в последовательных данных для повышения точности и используются для выражения распределения по y, которое следует условному распределению вероятностей x при заданном y. Это отличается от смеси гауссианов, где условное распределение класса для входных данных x выражается после того, как y выбирается из полиномиального распределения. Спикер также проводит сравнение этой модели с условным случайным полем и рекуррентными нейронными сетями.

  • 00:10:00 В этом разделе лектор объясняет предположения, сделанные при построении скрытой марковской модели. Первое предположение состоит в том, что процесс является стационарным, что означает, что распределения перехода и излучения не зависят от времени. Второе предположение состоит в том, что процесс является марковским, что означает, что данное скрытое состояние зависит только от предыдущего скрытого состояния. Эти предположения создают вероятностную графическую модель с начальным распределением, переходным распределением и распределением выбросов, которые вместе образуют совместное распределение. Начальное распределение описывает распределение для первого скрытого состояния и обычно является полиномиальным.

  • 00:15:00 В этом разделе мы узнаем о трех распределениях в скрытых марковских моделях: распределение начального состояния, распределение перехода и распределение излучения. Распределение эмиссии Гаусса используется для непрерывных данных, в то время как полиномиальное распределение полезно для дискретных данных, таких как последовательности слов для обработки естественного языка. Перемножив эти распределения вместе, мы можем получить совместное распределение, которое можно использовать для различных приложений, таких как локализация роботов.

  • 00:20:00 В этом разделе мы узнаем о проблеме потери робота из-за заноса и неточностей в показаниях одометра. Решением этой проблемы является использование скрытой марковской модели, где Y, скрытое состояние, соответствуют координатам местоположения робота, а входные данные соответствуют некоторым измерениям датчиков. Распределение перехода фиксирует вероятность того, что робот может оказаться в разных местах из-за неопределенностей в движении, в то время как распределение выбросов имеет распределение по измерениям, полученным датчиками, для учета неточностей измерений. Скрытую марковскую модель можно использовать для локализации, которая включает в себя вычисление вероятности местоположения робота на любом заданном временном шаге.

  • 00:25:00 В этом разделе спикер объясняет четыре широкие категории, к которым можно отнести задачи, связанные со скрытыми марковскими моделями (СММ). Эти категории включают мониторинг, прогнозирование, устранение неоднозначности и наиболее вероятное объяснение. Для задачи мониторинга используется алгоритм, известный как прямой алгоритм. Он включает рекурсивную декомпозицию запроса с точки зрения вероятности предыдущего скрытого состояния с учетом всех предыдущих измерений, что позволяет вычислить вероятность Y для данного X. Алгоритм работает путем вычисления первого скрытого состояния с учетом первого измерение, а затем вычисление следующего скрытого состояния с учетом измерений до этого временного шага и продолжает увеличивать последовательность, продвигаясь вперед во времени.

  • 00:30:00 В этом разделе лектор обсуждает задачу прогнозирования с использованием скрытых марковских моделей (СММ), которая включает прогнозирование будущего состояния системы с учетом текущего состояния. Примеры этой задачи включают предсказание погоды и фондового рынка. Расчет выполняется аналогично мониторингу с использованием прямого алгоритма с двумя фазами: мониторинг и прогнозирование. В приведенном примере лектор показывает, как вычислить вероятность Y4, учитывая только X1 и X2. Лектор также упоминает, что HMM с прогнозированием можно использовать для генерации текста, когда модель прогнозирует следующий наблюдаемый текст на основе текущего текста.

  • 00:35:00 В этом разделе лектор обсуждает задачи скрытых марковских моделей (СММ), которые включают фильтрацию, сглаживание и рассуждения задним числом. Фильтрация относится к прогнозированию текущего состояния системы на основе прошлых наблюдений, а сглаживание относится к прогнозированию более ранних состояний с использованием наблюдений как до, так и после этого состояния. Рассуждение задним числом включает в себя вычисление свойства состояния в прошлых данных наблюдениях до и после этого состояния. Лектор подчеркивает, что HMM больше не являются современными для этих задач, но они являются предшественниками рекуррентных нейронных сетей, которые, как правило, более эффективны. Вычисления для этих задач выполняются рекурсивным образом, что приводит к созданию алгоритма прямого-обратного.

  • 00:40:00 В этом разделе спикер обсуждает использование скрытых марковских моделей (HMM) для распознавания речи и машинного перевода. HMM используются для вычисления наиболее вероятной последовательности выходных данных на основе последовательности входных данных и скрытых состояний. Алгоритм Витерби применяется к этой процедуре динамического программирования для выполнения максимизации. Также обсуждается применение распознавания активности с использованием сенсорных измерений и устройств Walker, которые пожилые люди используют для ходьбы. Предположение о действиях человека с ходунками помогает определить наиболее вероятные маневры, которые могут привести к падению или спровоцировать падение, которое наблюдалось в некоторых ситуациях, несмотря на то, что ходунки использовались для стабилизации.

  • 00:45:00 В этом разделе спикер обсуждает исследование, в котором модифицированные ходунки с датчиками и камерами использовались для сбора данных о деятельности пожилых людей в пенсионном учреждении. У ходунков были датчики, такие как 3D-акселерометр и датчики нагрузки, которые измеряли вес на каждой ноге ходунков, а также камера, которая смотрела назад на ноги. Эксперимент заключался в том, чтобы участники проходили полосу препятствий, имитирующую обычные повседневные действия. Собранные данные использовались для разработки скрытой марковской модели, которая автоматически распознавала действия, выполняемые участниками. Модель имела восемь каналов для датчиков и использовала машинное обучение для оценки параметров начального перехода и распределения выбросов.

  • 00:50:00 В этом разделе спикер обсуждает демонстрацию алгоритма, предсказывающего активность человека на основе измерений датчиков. Алгоритм использует скрытую марковскую модель или условное случайное поле для отслеживания активности человека и вывода прогнозов, которые затем сравниваются с правильным поведением, помеченным вручную. Действия человека визуально представлены в виде колеблющихся кривых, а на правой панели видео показаны 13 отдельных действий, обозначенных красным квадратом для правильного поведения и синим квадратом для прогноза алгоритма. Спикер объясняет, что, хотя теоретически возможно, когда человек, носящий датчики, указывает свою активность, это нецелесообразно, поскольку человек не всегда может надежно судить о своих собственных движениях, и может быть неудобно, когда кто-то постоянно объявляет о своих действиях. Кроме того, если бы использовалось обучение без учителя, алгоритм вывел бы действие, но не смог бы точно назвать его.

  • 00:55:00 В этом разделе спикер обсуждает подход, применяемый как к обучению с учителем, так и к обучению без учителя в контексте распознавания деятельности. Для контролируемого обучения Y известны, и цель состоит в том, чтобы максимизировать вероятность данных. Один из обсуждаемых подходов состоит в том, чтобы вычислить производную, приравнять ее к нулю, выделить параметры и получить значения и оценки для пи тета и фи. В случае двух действий и бинарных измерений можно расширить Совместное распределение модели и установить производную равной нулю. Полученные ответы являются естественными и предполагают соотношение количества классов в данных.

  • 01:00:00 В этом разделе лектор обсуждает использование гауссовых распределений излучения, что является обычной практикой в практических приложениях, поскольку собираемые данные часто являются непрерывными. Этот метод включает использование параметров среднего значения и дисперсии, которые соответствуют эмпирическому среднему значению и дисперсии собранных данных. Решение для начального и переходного распределений такое же, как и раньше, а переходное распределение соответствует отсчетам относительной частоты. Затем для получения этих решений используется максимальная вероятность. Этот метод аналогичен решению для смесей гауссиан, где у нас также есть начальное и эмиссионное распределение.
 

CS480/680 Лекция 18: Рекуррентные и рекурсивные нейронные сети



CS480/680 Лекция 18: Рекуррентные и рекурсивные нейронные сети

В этой лекции докладчик представляет рекуррентные и рекурсивные нейронные сети как модели, подходящие для последовательных данных без фиксированной длины. Рекуррентные нейронные сети могут обрабатывать последовательности любой длины из-за определенных узлов с выходными данными, возвращаемыми в качестве входных данных, а способ вычисления H на каждом временном шаге заключается в использовании одной и той же функции f, которая включает распределение веса. Однако они могут страдать от таких ограничений, как забвение информации из первых входных данных и дрейф прогноза. Лектор также объясняет архитектуру двунаправленной рекуррентной нейронной сети (BRNN) и модель кодер-декодер, в которой используются две RNN — кодер и декодер, для приложений, в которых входные и выходные последовательности не совпадают естественным образом. Кроме того, лектор описывает преимущества блоков долговременной кратковременной памяти (LSTM), которые могут смягчить проблему исчезающего градиента, упростить долгосрочные зависимости и выборочно разрешать или блокировать поток информации.

Эта лекция о рекуррентных и рекурсивных нейронных сетях охватывает ряд тем, в том числе использование долговременной кратковременной памяти (LSTM) и Gated Recurrent Unit (GRU) для предотвращения проблем с градиентом, а также важность механизмов внимания в машинном переводе. для сохранения смысла предложения и выравнивания слов. Лектор также обсуждает, как рекуррентные нейронные сети можно обобщить до рекурсивных нейронных сетей для последовательностей, графов и деревьев, а также как анализировать предложения и создавать вложения предложений с использованием деревьев разбора.

  • 00:00:00 В этом разделе видео спикер представляет рекуррентные и рекурсивные нейронные сети как модели, подходящие для последовательных данных без фиксированной длины. Нейронные сети с прямой связью, о которых говорилось ранее, предполагают входные данные фиксированной длины, что создает проблемы при работе с данными переменной длины, такими как данные временных рядов или машинный перевод. Рекуррентные нейронные сети, у которых есть определенные узлы с выходами, возвращаемыми в качестве входов, могут обрабатывать последовательности любой длины. Спикер объясняет это с помощью шаблона и развернутой версии сети. Также обсуждаются рекурсивные нейронные сети, которые обобщаются на деревья или графы.

  • 00:05:00 В этом разделе спикер обсуждает, как рекуррентные нейронные сети соединяются на разных временных отрезках и как они обучаются. Спикер объясняет, что для обучения RNN используется градиентный спуск вместе с методом, известным как обратное распространение во времени, который включает развертывание сети во времени и создание нейронной сети с прямой связью. Докладчик также отмечает, что способ вычисления H на каждом временном шаге заключается в использовании одной и той же функции f, которая включает распределение веса. Функция f получает входные данные как от предыдущего H, так и от текущего X, и веса, используемые для нее, одинаковы на каждом временном шаге.

  • 00:10:00 В этом разделе лектор объясняет рекуррентные нейронные сети (RNN) и распределение веса. RNN — это сети, которые повторно используют одну и ту же функцию на каждом временном шаге с одинаковыми весами. Это означает, что имеет место некоторое распределение веса, что может сделать вывод градиента во время обратного распространения другим. Лектор также упоминает, что H обычно является вектором, а F — функцией, которая выводит вектор. Этот эффект создает проблемы для обучения, включая проблему исчезновения и взрыва градиента, где умножение коэффициентов меньше или больше единицы может привести либо к исчезновению, либо к взрыву градиента.

  • 00:15:00 В этом разделе лекции спикер обсуждает ограничения рекуррентных нейронных сетей (RNN) и то, как они могут не запоминать информацию из ранних входов. Это может быть проблемой для таких приложений, как машинный перевод, где первое слово так же важно, как и последнее слово. Тем не менее, для таких действий, как распознавание действий, может быть нормально, если RNN забудет измерения датчиков, которые произошли некоторое время назад, потому что недавние измерения более важны. Еще одна проблема с RNN — дрейф прогнозов, когда ошибки в прогнозах накапливаются со временем, вызывая дрейф прогнозов. Докладчик также сравнивает RNN со скрытыми марковскими моделями (HMM) и объясняет, как RNN можно использовать для обобщения HMM.

  • 00:20:00 В этом разделе спикер объясняет разницу между скрытой марковской моделью и рекуррентной нейронной сетью. В скрытой марковской модели стрелки указывают на вероятностные зависимости, а в рекуррентной нейронной сети стрелки указывают на функциональные зависимости. Спикер вводит скрытые состояния и выходы в рекуррентной нейронной сети и объясняет, что граф соответствует вычислению
    делается. Скрытое состояние вычисляется с помощью функции, которая принимает предыдущее скрытое состояние и входные данные, а выходные данные получаются с помощью другой функции, которая принимает скрытое состояние в качестве входных данных. В конечном счете, цель состоит в том, чтобы использовать это вычисление для вычисления вероятностей или распознавания действий.

  • 00:25:00 В этом разделе обсуждается концепция использования рекуррентных нейронных сетей для эмуляции скрытой марковской модели в контексте классификации, в частности, распознавания действий. RNN используется для отделения скрытого состояния от вывода, что означает, что вывод просто зависит от скрытого состояния, преобразованного с помощью некоторой функции. Пример этого показан с использованием нелинейной функции активации, примененной к HT, и различных наборов весов для преобразования вывода. Прямой алгоритм RNN может вычислять y1 на основе X1, y2 на основе X1 и X2 и т. д., аналогично скрытой марковской модели, однако у RNN возникает проблема при вычислении y2, которая рассматривается далее в лекции.

  • 00:30:00 В этом разделе лектор обсуждает ограничения архитектуры однонаправленной рекуррентной нейронной сети, которая допускает только прямые вычисления, и представляет архитектуру двунаправленной рекуррентной нейронной сети (BRNN) в качестве решения этой проблемы. Лектор рисует схему архитектуры BRNN, которая включает прямые и обратные скрытые состояния, входы и выходы. Собирая информацию до и после через скрытые состояния вперед и назад, архитектура BRNN позволяет выполнять двунаправленные вычисления и может вычислять прогнозы на основе входных данных в обоих направлениях.

  • 00:35:00 В этом разделе видео лектор обсуждает, как можно использовать рекуррентные нейронные сети в приложениях, где входные и выходные последовательности не совпадают естественным образом, таких как машинный перевод, ответы на вопросы и диалоговые агенты. Для решения этих проблем часто используется другая архитектура, известная как модель кодер-декодер или модель последовательностей. В этой архитектуре используются две RNN — кодер и декодер. Кодер кодирует входную последовательность в вектор контекста, который представляет собой вложение входных данных, а декодер использует вектор контекста для создания соответствующей выходной последовательности. Этот подход допускает входные и выходные последовательности разной длины и отсутствие синхронизации между словами на входе и выходе.

  • 00:40:00 В этом разделе лекции инструктор описывает архитектуру модели последовательностей в машинном переводе, которая использует рекуррентную нейронную сеть для суммирования входных предложений в вектор контекста (C), который служит в качестве память модели. Вектор контекста используется для декодирования и создания последовательности переведенных слов, где каждое слово соответствует разным результатам. Модель также использует скрытые состояния, чтобы отслеживать ход перевода и гарантировать, что информация из вектора контекста не будет забыта с течением времени. Преподаватель объясняет, что полезно передавать как вектор контекста, так и предыдущее скрытое состояние на каждом этапе процесса декодирования, чтобы обеспечить согласованность переведенного предложения.

  • 00:45:00 В этом разделе видео профессор обсуждает использование избыточности в информационном потоке в нейронных сетях. Вектор, используемый для кодирования информации, обычно имеет большую размерность и может содержать от 500 до 1000 значений, что делает его идеальным для кодирования целых предложений. В видео также показаны примеры переводов, достигнутых с помощью модели, использующей рекуррентную нейронную сеть. Модель была обучена на большом массиве данных и смогла соответствовать современному уровню машинного перевода, не требуя больших знаний о лингвистике или тонкостях машинного перевода, что сделало ее значительным шагом вперед. Кроме того, в 1990-х годах был предложен блок долговременной кратковременной памяти (LSTM) для улучшения долгосрочных зависимостей в нейронных сетях.

  • 00:50:00 В этом разделе лектор обсуждает преимущества модулей долговременной кратковременной памяти (LSTM), которые могут смягчить проблему исчезающего градиента и облегчить изучение долговременных зависимостей благодаря их способности запоминать информацию в течение длительного времени. периоды времени. Ключом к модулю LSTM является введение вентилей, включая вентили ввода, забывания и вывода. Эти ворота регулируют поток информации, принимая значение от 0 до 1 и умножая его на вход, скрытое состояние или выход. Лектор также разворачивает архитектуру ячеек LSTM и вводит шлюзы для каждой ссылки, чтобы регулировать соединения между ними. Эти модификации позволяют модулю LSTM выборочно разрешать или блокировать поток информации и облегчают долговременную память в таких задачах, как машинный перевод.

  • 00:55:00 В этом разделе лектор объясняет структуру и варианты единиц долговременной кратковременной памяти (LSTM), типа рекуррентной нейронной сети. Блоки LSTM построены с использованием комбинации нескольких вентилей, которые регулируют поток информации, таких как входной вентиль, выходной вентиль, затвор забывания и вентиль памяти. Эти ворота принимают как текущее X, так и предыдущее скрытое состояние в качестве входных данных и выводят значение от 0 до 1, которое решает, пропустить ли новую информацию или забыть старую информацию. Лектор также упоминает, что новые блоки LSTM используют состояния ячеек вместо скрытых состояний для хранения памяти и имеют H в качестве выходных данных вместо Y. Лекция завершается описанием конкретных уравнений, которые управляют различными вентилями блока LSTM.

  • 01:00:00 В этом разделе инструктор объясняет, как работают единицы долговременной кратковременной памяти (LSTM) и как они полезны для предотвращения проблем с градиентом, таких как исчезновение и взрыв градиентов. Объясняется, что гейты используются для определения того, что может влиять на состояние ячейки, которая несет в себе память сети. Инструктор также отмечает, что закрытые блоки, известные как Gated Recurrent Unit (GRU), были предложены в 2014 году как упрощенная версия блоков LSTM. ГРУ удаляет один из ворот, используемых в блоках LSTM.

  • 01:05:00 В этом разделе выступающий представляет вентилируемый рекуррентный блок (GRU), который упрощает блок долговременной кратковременной памяти (LSTM) за счет наличия только двух вентилей: вентиля сброса и вентиля обновления. Ворота обновления определяют, переходит ли новый ввод в скрытое состояние или сохраняет то, что уже было в нем. Это снижает сложность устройства и делает его более эффективным, что приводит к повышению производительности. Тем не менее, даже с использованием ГРУ, память все еще возмущается на каждом шагу, поэтому были разработаны механизмы внимания, особенно полезные в машинном переводе, для сопоставления каждого выходного слова с некоторыми словами во входной последовательности, что позволяет модели сохраните смысл исходного предложения и проверьте выравнивание слова к слову.

  • 01:10:00 В этом разделе была представлена идея векторов контекста для декодирования последовательности слов. Вектор контекста основан на взвешенной комбинации всех скрытых состояний, связанных с каждым временным шагом в процессе кодирования. Веса получаются с помощью softmax, который дает более высокую вероятность, когда есть совпадение между предполагаемым выходом и входным словом. Выравнивание вычисляется с использованием точечного произведения и превращается в вероятность с помощью softmax, что позволяет вычислять взвешенную комбинацию возможных входных данных. Таким образом, мы создаем вектор контекста, который обобщает контекст, который имеет значение для следующих нескольких слов, которые мы хотим создать, а не обобщает все предложение.

  • 01:15:00 В этом разделе лектор обсуждает использование механизмов внимания в машинном переводе. Механизм внимания включает в себя использование выпуклой комбинации скрытых состояний, вычисляемых на каждом временном шаге, вместо простого использования последнего скрытого состояния в качестве вектора контекста. Веса, используемые для комбинации, представляют собой вероятности, полученные из softmax, и они используются для вычисления выравнивания между предыдущим скрытым состоянием и всеми предыдущими входными данными. Это позволяет модели машинного перевода согласовывать концепции, которые она собирается перевести, с правильной частью входных данных. Использование внимания улучшило машинный перевод, и лектор представляет некоторые результаты, полученные авторами, использовавшими его в 2015 году.

  • 01:20:00 В этом разделе лекции спикер обсуждает проблему длинных предложений в машинном переводе и важность наличия механизма, позволяющего оглядываться назад в процессе перевода. Исследователь сравнивает точность рекуррентной нейронной сети с вниманием и без внимания и измеряет различия в точности, используя оценку двуязычной оценки в процессе исследования (BLEU). Верхняя кривая, использующая внимание, показывает постоянный уровень точности даже при увеличении длины предложения. Это можно объяснить механизмом внимания, позволяющим всем словам во входной последовательности влиять на вектор контекста для следующего шага декодирования, независимо от их положения.

  • 01:25:00 В этом разделе лектор обсуждает ограничения рекуррентных нейронных сетей при работе с длинными предложениями и важность механизмов внимания для решения этого вопроса. Рекуррентные нейронные сети имеют тенденцию перезаписывать ранние слова последующими словами, что приводит к ухудшению качества перевода при работе с длинными последовательностями. Механизмы внимания решают эту проблему, сосредотачиваясь на определенных словах, позволяя нейронной сети работать с более длинными последовательностями произвольной длины. Механизмы внимания также помогают обрабатывать различные языки, где выравнивание слов не обязательно является однозначным. Лектор приводит примеры того, как работают механизмы внимания при создании карт перевода, которые показывают выравнивание слов в разных языках.

  • 01:30:00 В этом разделе спикер объясняет, как рекуррентные нейронные сети можно обобщить до рекурсивных нейронных сетей, которые можно использовать для последовательностей, графов и деревьев. Ключевым моментом является преобразование входных данных и их рекурсивное объединение таким образом, чтобы на выходе или встраивании отображался смысл входных данных. Чтобы иметь дело с различной длиной входных данных, спикер подчеркивает важность распределения веса между различными приложениями правил для объединения разных узлов в графе. Докладчик также предлагает использовать деревья синтаксического анализа или графы зависимостей для построения графа, который отражает синтаксис и может быть полезен при вычислениях и встраивании.

  • 01:35:00 В этом разделе лектор обсуждает, как анализировать предложение, используя деревья разбора групп, и как создавать вложения для целых предложений. Идея состоит в том, чтобы придумать теги частей речи и объединить их во фразы и разобрать деревья, чтобы понять структуру предложения. Связывая правила с каждым преобразованием и распределяя веса между всеми приложениями одного и того же правила, мы можем создавать вложения, которые являются более многообещающими и согласуются с тем, как люди понимают предложения. Некоторые исследователи показали, что, строя таким образом вложения, можно получить очень хорошие результаты.

  • 01:40:00 В этом разделе видео спикер обсуждает возможность получения лучшего встраивания предложений за счет использования правильного дерева синтаксического анализа. Они завершают предыдущий набор слайдов и переходят к следующему.
 

CS480/680 Лекция 19: Сети Attention and Transformer



CS480/680 Лекция 19: Сети Attention and Transformer

В этой лекции вводится понятие внимания в нейронных сетях и обсуждается его роль в развитии сетей-преобразователей. Первоначально внимание изучалось с помощью компьютерного зрения, что позволяло идентифицировать важные области, подобно тому, как люди естественным образом фокусируются на определенных областях. Применение машинного перевода привело к созданию сетей-преобразователей, которые используют исключительно механизмы внимания и дают такие же хорошие результаты, как и традиционные нейронные сети. Сети-трансформеры имеют преимущества перед рекуррентными нейронными сетями, решая проблемы, связанные с дальнодействующими зависимостями, исчезающими и взрывающимися градиентами и параллельными вычислениями. В лекции исследуется внимание с несколькими головками в трансформаторных сетях, которое гарантирует, что каждая выходная позиция обращает внимание на вход. Обсуждается использование масок, слоев нормализации и слоя Donora в трансформаторных сетях, а также исследуется концепция использования внимания в качестве строительного блока.

В этой лекции о сетях внимания и трансформаторах спикер объясняет важность нормализации для разделения градиентов в разных слоях, а также важность позиционного встраивания для сохранения порядка слов в предложениях. Докладчик сравнивает оценки сложности сетей-преобразователей с рекуррентными и свёрточными нейронными сетями, подчёркивая способность сети-преобразователя захватывать долгосрочные зависимости и одновременно обрабатывать слова. Также обсуждаются преимущества сетей-преобразователей в улучшении масштабируемости и снижении конкуренции, а также внедрение сетей-преобразователей, таких как GPT, BERT и XLNet, которые показали впечатляющие показатели точности и скорости, что поднимает вопросы о будущем рекуррентных нейронных сетей.

  • 00:00:00 В этом разделе лектор знакомит с понятием внимания в нейронных сетях и его ролью в развитии сетей-трансформеров. Внимание было впервые изучено с помощью компьютерного зрения с идеей, что механизм внимания может идентифицировать области интереса на изображении, подобно тому, как люди естественным образом фокусируются на определенных областях. Затем эта концепция была применена к машинному переводу и в конечном итоге привела к созданию сетей-преобразователей, которые состоят исключительно из механизмов внимания и показали результаты, по крайней мере, не хуже, чем у традиционных нейронных сетей. Внимание также можно использовать для выделения важных особенностей изображения, которые способствуют получению желаемого результата, например, расположение объектов при обнаружении объектов.

  • 00:05:00 В этом разделе лектор обсуждает, как внимание можно использовать в качестве строительного блока в процессе распознавания, как это видно из революционной работы по машинному переводу 2015 года, когда декодер смог оглянуться назад на входное предложение. В 2017 году исследователи продемонстрировали использование внимания для разработки общих методов языкового моделирования, позволяющих прогнозировать и восстанавливать пропущенные слова в последовательности. Преобразовательная сеть, которая использует исключительно блоки внимания, становится передовой технологией обработки естественного языка и превосходит рекуррентные нейронные сети благодаря своей способности справляться с долгосрочными зависимостями и оптимизировать параллельные вычисления на графических процессорах. Таким образом, сети преобразования являются эффективным выбором для задач обработки естественного языка.

  • 00:10:00 В этом разделе спикер объясняет преимущества сетей внимания и преобразователя перед традиционными рекуррентными нейронными сетями. Блоки внимания помогают установить связь между любой частью последовательности, избегая проблемы долгосрочных зависимостей. Кроме того, сети-преобразователи выполняют вычисления одновременно для всей последовательности, что обеспечивает большее распараллеливание и меньшее количество шагов для обучения, а также решает проблему исчезающих и взрывающихся градиентов. Докладчик также рассматривает внимание как форму аппроксимации для поиска в базе данных и вводит уравнение, используемое в механизмах внимания для нейронных сетей.

  • 00:15:00 В этом разделе спикер объясняет, как функция сходства вычисляет распределение и как механизм внимания можно обобщить на нейронную архитектуру. Докладчик предлагает различные функции, которые можно использовать для измерения подобия, включая скалярное произведение и масштабированное скалярное произведение, и объясняет, как их можно применять для вычисления сходства между ключами и запросом. Докладчик также вводит идею взвешенного сочетания значений с высоким сходством в процессе поиска, что соответствует механизму внимания.

  • 00:20:00 В этом разделе лекции профессор подробно объясняет первый слой механизма внимания. Слой вычисляет сходство между запросом и каждым ключом в памяти. Наиболее распространенный способ вычисления сходства — скалярное произведение или масштабирование скалярного произведения путем деления на квадратный корень из размерности. Другой способ — спроецировать запрос в новое пространство, используя матрицу весов, а затем взять скалярное произведение. Этот шаг позволит нейронной сети изучить отображение W для более прямого сравнения сходства между запросом и ключом.

  • 00:25:00 В этом разделе мы обсудим, как вычисляются значения внимания в полностью подключенной сети, использующей функцию softmax. Веса вычисляются с использованием выражения, которое сравнивает запрос с различными ключами для получения меры подобия, и это используется для присвоения веса каждому ключу. Затем значение внимания вычисляется с использованием линейной комбинации значений, связанных с каждым ключом. Веса, представленные матрицей W, изучаются нейронной сетью посредством обратного распространения, оптимизируя проекцию Q в пространство, охватываемое W. Полученные веса используются для получения выходных данных с одним весом на выходное слово и скрытыми векторами. связанный с каждым входным словом, используемым в качестве ВП.

  • 00:30:00 В этом разделе лекции рассматриваются механизм внимания и сети-преобразователи. Механизм внимания — это способ объединения скрытых векторов для выходного слова со скрытыми векторами для входных слов, что позволяет создать вектор контекста. Сеть-трансформер, представленная в 2017 году, устраняет повторение в последовательных данных, что ускоряет оптимизацию и распараллеливает операции. Преобразовательная сеть в машинном переводе состоит из двух частей: кодера и декодера. Кодер обрабатывает всю последовательность слов параллельно с помощью многоголового внимания и нейронной сети с прямой связью с добавлением позиционного кодирования для учета позиционирования слов.

  • 00:35:00 В этом разделе лекции описывается механизм внимания с несколькими головками, который вычисляет внимание между каждой позицией и любой другой позицией. Многоголовное внимание берет каждое слово и объединяет его с некоторыми другими словами в предложении с помощью механизма внимания, создавая лучшее встраивание, которое объединяет информацию из пар слов. В лекции также обсуждается слой Donora, который добавляет остаточное соединение, которое принимает исходный ввод к тому, что выходит из внимания с несколькими головками, а затем нормализует его. Блок повторяется несколько раз, чтобы модель могла объединять пары слов, пары пар и так далее. Результатом этого процесса является последовательность вложений, и на каждую позицию в предложении приходится одно вложение. Затем в лекции исследуется декодер, который выдает некоторый результат, используя softmax, который выдает вероятности вывода метки в каждой позиции. Декодер также включает в себя два слоя внимания, первый из которых представляет собой самовнимание между выходными словами, а второй из которых объединяет выходные слова с входными словами.

  • 00:40:00 В этом разделе спикер обсуждает механизм внимания с несколькими головками в Transformer Networks, который используется для обеспечения того, чтобы каждая позиция на выходе обращала внимание на позиции на входе. Внимание с несколькими головками работает путем декомпозиции пар ключ-значение с запросами, сравнения их с ключами для нахождения наивысших весов и получения взвешенной комбинации соответствующих значений для получения выходных данных. Этот процесс повторяется несколько раз с различными линейными комбинациями для вычисления различных проекций и улучшения вложений до тех пор, пока не будет получено распределение по словам в словаре.

  • 00:45:00 В этом разделе лекции профессор обсуждает концепцию многоголового внимания и то, как его можно сравнить с картами признаков в сверточных нейронных сетях. Различные линейные комбинации в многоголовом внимании можно рассматривать как разные фильтры, проецирующие или изменяющие пространство, в котором находятся значения. Это приводит к множественным масштабам точечного произведения внимания, которые соответствуют нескольким картам функций в CNN. Контактный слой объединяет эти разные виды внимания, и, в конце концов, их линейная комбинация приводит к многоголовому вниманию. Кроме того, профессор объясняет маску многоголового внимания, которая аннулирует или удаляет ссылки, создающие зависимости от будущих слов, что делает ее пригодной для задач машинного перевода.

  • 00:50:00 В этом разделе видео обсуждается использование масок в контексте сети Transformer. Докладчик объясняет, как маски используются для аннулирования определенных соединений в функции softmax, и как использование масок со значениями минус бесконечность обеспечивает правильное распределение. Докладчик также обсуждает, как использование масок позволяет проводить параллельные вычисления во время обучения и как метод принуждения учителя разделяет ввод и вывод во время обучения.

  • 00:55:00 В этом разделе видео обсуждается важность слоя нормализации в Transformer Networks. Уровень нормализации помогает уменьшить количество шагов, необходимых градиентному спуску для оптимизации сети, поскольку он гарантирует, что выходные данные каждого слоя, независимо от того, как установлены веса, будут иметь среднее значение 0 и дисперсию 1. Делая это , масштаб выходов одинаков, что уменьшает конкуренцию градиентов между слоями и ускоряет сходимость. Отмечается, что нормализация уровня отличается от нормализации пакета, поскольку она нормализуется на уровне уровня, а не на уровне одной скрытой единицы, что делает ее подходящей для небольших пакетов или даже одной точки данных за раз в онлайн-режиме или потоковой передаче.

  • 01:00:00 В этом разделе видео спикер обсуждает важность нормализации для разделения того, как градиенты развиваются в разных слоях. Также углубляются в тему позиционного встраивания, которое добавляется после входного встраивания в сеть трансформатора. Позиционное встраивание гарантирует, что механизм внимания может захватывать позиционную информацию, что важно для сохранения порядка слов в предложении. Докладчик объясняет, что позиционное встраивание — это инженерный прием, и обсуждает формулу, используемую для его вычисления, хотя и отмечает, что могут быть разные подходы к этому аспекту сети.

  • 01:05:00 В этом разделе лекции спикер сравнивает оценки сложности сети преобразователя с оценками сложности рекуррентной нейронной сети или сверточной нейронной сети. Преобразовательная сеть, также известная как сеть с самостоятельным вниманием, имеет сложность порядка n в квадрате, потому что механизм внимания обращает внимание на каждую другую позицию для каждой позиции в одном слое, а также вычисляет их вложения. Тем не менее, сеть преобразователя не теряет информацию из первого слова и позволяет информации мгновенно передаваться между парами слов, что делает ее эффективной при захвате зависимостей на большом расстоянии. Кроме того, в сети преобразования нет последовательных операций, а это означает, что все слова могут обрабатываться одновременно и параллельно. Напротив, рекуррентная нейронная сеть имеет последовательные операции и длину пути, которая может достигать n.

  • 01:10:00 В этом разделе лекции спикер обсуждает преимущества сетей-трансформеров, в частности их способность снижать конкуренцию и улучшать масштабируемость. Затем спикер сравнивает различные модели машинного перевода, в частности, с английского на немецкий и с английского на французский, и показывает, что, хотя модели-трансформеры не обязательно дают выдающиеся результаты, они значительно сокращают время вычислений, что делает их более эффективным вариантом для обучения. . Спикер также обсуждает другие типы сетей-преобразователей, такие как GPT и GPT-2, которые были предложены в 2018 году для языкового моделирования без учителя.

  • 01:15:00 В этом разделе видео представляет два типа трансформаторных сетей, называемых GPT и BERT. GPT — это языковая модель, которую можно использовать для различных задач, включая понимание прочитанного, перевод, обобщение и ответы на вопросы. Модель обращает внимание на предыдущие выходные данные, чтобы сгенерировать последовательность слов, не обращая внимания на будущие выходные данные. Исследователи применили это к различным задачам, не адаптируя сеть к конкретной задаче, и обнаружили, что совершенно неконтролируемым образом им удалось приблизиться к уровню техники. BERT означает двунаправленные закодированные представления от преобразователей, и его главное преимущество заключается в том, что он предсказывает слово на основе как предыдущего, так и будущего слова, что делает его лучше, чем GPT.

  • 01:20:00 В этом разделе лектор обсуждает достижения в трансформаторных сетях, в частности BERT и XLNet. BERT может похвастаться возможностью тонкой настройки моделей с данными для конкретных задач, что приводит к значительному улучшению состояния в одиннадцати задачах. Тем не менее, XLNet продемонстрировал еще более впечатляющую производительность, обогнав BERT в большинстве задач из-за пропуска отсутствующих входных данных и, как следствие, лучшей производительности при обобщении. Эти сети-преобразователи доказали свою эффективность с точки зрения точности и скорости, что вызывает вопросы о будущем рекуррентных нейронных сетей.
 

CS480/680 Лекция 20: Автоэнкодеры



CS480/680 Лекция 20: Автоэнкодеры

Автокодировщики относятся к семейству сетей, тесно связанных с кодировщиками-декодерами, с той разницей, что автокодировщики принимают входные данные и производят один и тот же вывод. Они важны для сжатия, шумоподавления, получения разреженного представления и генерации данных. Линейные автоэнкодеры обеспечивают сжатие путем сопоставления векторов большой размерности с меньшими представлениями, гарантируя при этом отсутствие потери информации, и используют весовые матрицы для вычисления линейного преобразования от входных данных к сжатым представлениям и обратно. Кроме того, глубинные автоэнкодеры допускают сложные отображения, в то время как вероятностные автоэнкодеры создают условные распределения по промежуточному представлению и входным данным, которые можно использовать для генерации данных. Использование нелинейных функций автоэнкодерами использует преимущество нелинейного многообразия, проекции на пространство более низкого измерения, которое фиксирует внутреннюю размерность данных, что приводит к сжатию входных данных без потерь.

  • 00:00:00 В этом разделе лекции об автоэнкодерах ведущий объясняет, что они представляют собой семейство сетей, тесно связанных с кодировщиками-декодерами, с той разницей, что автоэнкодеры принимают входные данные и выдают один и тот же результат. Автоэнкодеры важны для таких задач, как сжатие, шумоподавление, получение разреженного представления и генерация данных. Сжатие включает в себя преобразование векторов большой размерности в представления меньшего размера, при этом гарантируется, что никакая информация не будет потеряна. Для этого ввод подается на кодировщик, который создает меньшее представление, которое затем декодируется обратно во вход, чтобы гарантировать, что сжатое представление содержит всю информацию о входе. Линейные автоэнкодеры используют весовые матрицы для вычисления линейного преобразования входных данных в сжатое представление и обратно во входные данные.

  • 00:05:00 В этом разделе лектор объясняет связь между автоэнкодерами и анализом главных компонентов (PCA). Он отмечает, что типичное использование PCA заключается в проецировании данных на гиперплоскость более низкого измерения при сохранении вариаций данных. Однако он также объясняет, что когда автоэнкодер (с линейными отображениями) используется для минимизации евклидова расстояния, он дает то же решение, что и PCA, что делает его полезным инструментом для уменьшения размерности. Лектор подчеркивает, что матрицы WF и WG в автоэнкодере по сути являются обратными (или псевдообратными) друг другу, поскольку WG x WF дает X.

  • 00:10:00 В этом разделе лектор объясняет прелесть автоэнкодеров в том, что они не ограничиваются линейными отображениями в отличие от PCA. Вместо этого автоэнкодеры могут использовать нелинейные функции для поиска скрытого представления данных, которые можно спроецировать в пространство более низкого измерения через нелинейное многообразие. Этот коллектор может фиксировать внутреннюю размерность данных, что может привести к сжатию входных данных без потерь. Однако для определения оптимальной размерности H потребуются специальные методы изучения структуры.

  • 00:15:00 В этом разделе видео знакомит с глубокими автоэнкодерами и разреженными представлениями. Глубокие автокодировщики имеют несколько слоев перед достижением скрытого слоя, что позволяет выполнять сложные отображения, в то время как разреженные представления накладывают структуру на промежуточные представления, сводя к минимуму количество ненулевых элементов в векторе, создаваемом F. Это можно сделать с помощью невыпуклой оптимизации или с помощью регуляризации l1 для минимизации нормы l1 выходных данных. Кроме того, в видео показан пример использования автоэнкодера для шумоподавления путем подачи поврежденной версии входных данных и попытки восстановить исходный файл X.

  • 00:20:00 В этом разделе лектор описывает вероятностные или стохастические автоэнкодеры, которые отличаются от детерминированных тем, что ориентированы на условные распределения. В детерминированном автоэнкодере кодер создает промежуточное представление, которое декодер может напрямую использовать для восстановления входных данных, тогда как вероятностный автоэнкодер создает условные распределения по промежуточному представлению и входным данным. Разработав нейронную сеть с соответствующими последними функциями активации, последний слой можно использовать для создания шаблонов, которые можно интерпретировать как распределения. Линейные единицы в выходном слое можно использовать для кодирования условных распределений для реальных данных, тогда как сигмовидные единицы могут работать с двоичными данными. Лектор подчеркивает, что эти вероятностные автоэнкодеры позволяют генерировать данные, что является существенным отличием от детерминированных.

  • 00:25:00 В этом разделе лекции спикер объясняет вероятностную графическую модель автоэнкодера. Вход X считается случайной величиной, а выход X тильда является приблизительной версией входа. H — еще одна случайная переменная, представляющая скрытый слой, а стрелки указывают на условные зависимости. Веса представлены условными распределениями, а декодер является условным распределением. Различные функции активации используются для получения различных типов выходных данных. Докладчик также обсуждает, как вычислить распределение по X на основе распределения по H как для бинарных, так и для гауссовых векторов.

  • 00:30:00 В этом разделе лектор объясняет, как такая архитектура, как вероятностный автоэнкодер, может использоваться для генерации данных. В детерминированном автоэнкодере декодер выполняет некоторое встраивание и генерирует точку данных. Однако, имея распределение, мы могли бы произвести выборку из некоторого распределения по промежуточному представлению и использовать его для создания точки данных. Например, если мы обучим вероятностный автоэнкодер с лицами, мы можем легко сделать выборку из скрытого представления, а затем создать новое лицо, которое отличается, но похоже на лица в наборе данных. Выбирая из распределения по изображениям, мы получаем изображение.

  • 00:35:00 В этом разделе спикер обсуждает генерацию новых изображений с помощью вероятностных автоэнкодеров. Докладчик объясняет, как автоэнкодер может генерировать новые изображения, отображая точки входных данных во вложения в пространстве, где соседние точки могут быть декодированы в новые изображения. Однако спикер отмечает, что для создания действительно новых изображений необходимо наличие дистрибутива, позволяющего производить выборку правильных вложений. Распределение, используемое в автоэнкодере, обусловлено точкой входных данных X, что может привести к созданию похожих изображений. Чтобы преодолеть это ограничение, в следующем наборе слайдов будут обсуждаться механизмы выборки непосредственно с помощью H и создания новых изображений.
 

CS480/680 Лекция 21: Генеративные сети (вариационные автоэнкодеры и GAN)



CS480/680 Лекция 21: Генеративные сети (вариационные автоэнкодеры и GAN)

Эта лекция посвящена генеративным сетям, которые позволяют производить выходные данные через такие сети, как вариационные автоэнкодеры (VAE) и генеративно-состязательные сети (GAN). VAE используют кодировщик для отображения данных из исходного пространства в новое пространство, а затем декодер для восстановления исходного пространства. Лектор объясняет концепцию VAE и проблемы с вычислением интеграла распределений, необходимых для обучения. GAN состоят из двух сетей — генератора и дискриминатора — где сеть генератора создает новые точки данных, а сеть дискриминатора пытается отличить сгенерированные от реальных. Обсуждаются проблемы реализации GAN, в том числе обеспечение баланса между сильными сторонами сетей и достижение глобальной конвергенции. Лекция заканчивается примерами сгенерированных изображений и предварительным просмотром следующей лекции.

  • 00:00:00 В этом разделе лекции основное внимание уделяется генеративным сетям и тому, как их можно использовать для генерации данных. В то время как классификация и регрессия были основными методами, рассмотренными в курсе до сих пор, генеративные сети позволяют производить данные в качестве выходных данных. Это особенно полезно для генерации естественного языка, синтеза речи и генерации изображений и видео. Вариационные автокодировщики и генеративно-состязательные сети являются одними из самых популярных сетей, используемых в настоящее время для генерации данных. Эти сети используются для получения реалистичных данных, аналогичных тем, которые содержатся в наборе данных.

  • 00:05:00 В этом разделе лектор обсуждает идею вероятностных автоэнкодеров, где вместо детерминированного энкодера у нас есть вероятностный энкодер, который кодирует условное распределение. Точно так же декодер также является условным распределением и может рассматриваться как генератор, который создает распределение по данным, позволяя генерировать новые точки данных. Вариационный автоэнкодер используется для выборки скрытого вектора H из фиксированного распределения, гауссова со средним значением 0 и дисперсией 1, а затем строится цель, которая пытается сделать распределение кодировщика по H зависящим от X как можно ближе к этому фиксированное распределение, обеспечивающее хорошие результаты выборки.

  • 00:10:00 В этом разделе лектор объясняет концепцию вариационных автоэнкодеров (ВАЭ). VAE используют кодировщик для отображения данных из исходного пространства в новое пространство, а затем декодер для восстановления исходного пространства. Кодер создает распределение, которое можно использовать для выборки новых точек, которые декодер может сопоставить обратно с исходным пространством. Однако распределение кодировщика должно быть как можно ближе к фиксированному распределению, чтобы гарантировать, что сгенерированные точки данных имеют тот же тип, что и исходные данные. В лекции рассказывается о целевой функции для VAE и о том, как оптимизировать сеть для достижения этой цели.

  • 00:15:00 В этом разделе лектор обсуждает проблемы с вычислением интеграла распределения кодировщика по H и распределения по X для каждого H. Этот интеграл нельзя вычислить в закрытой форме, так как кодировщик и декодер являются сложными нейронные сети. Чтобы решить эту проблему, лектор предлагает использовать одну выборку для аппроксимации интеграла и получения H путем выборки из кодера, а затем аппроксимировать полученное распределение распределением декодера. Аппроксимация выполняется при обучении, и лектор подчеркивает, что это отличается от обычных автоэнкодеров, поскольку есть шаг выборки, который требует тщательного рассмотрения, чтобы по-прежнему вычислять градиент.

  • 00:20:00 В этом разделе видео спикер объясняет трюк с переприоритизацией, используемый при обучении генеративных сетей, таких как вариационные автоэнкодеры. Сетевые архитектуры кодировщика и декодера включают этапы выборки, что затрудняет вычисление градиентов во время оптимизации. Чтобы решить эту проблему, вводится фиксированное распределение Гаусса, позволяющее производить выборку новой переменной H тильда, которая умножается на выходной сигнал кодировщика H, чтобы получить распределение с оптимальным средним значением и дисперсией для скрытой переменной. Преобразованный H затем используется в сети декодера для генерации реконструированного выходного сигнала X тильда.

  • 00:25:00 В этом разделе спикер объясняет трюк под названием «перепараметризация», который позволяет нейронным сетям генерировать выборки из распределения данных, не препятствуя обратному распространению градиентов. Хитрость включает в себя выборку из другого, но фиксируемого распределения (например, гауссового), а затем использование некоторых математических операций для преобразования выборки в выборку из желаемого распределения. Таким образом, образец является входом в сеть, что позволяет градиентам проходить через него во время обратного распространения. Затем спикер объясняет, как этот трюк используется при обучении генеративной сети и создании новых точек данных из обученной сети.

  • 00:30:00 В этом разделе спикер обсуждает использование дивергенции библиотеки возврата, меры расстояния, используемой для минимизации разницы между фиксированным распределением и распределением кодировщика в генеративных сетях. Спикер использует гауссову дисперсию со средним значением, равным нулю, в качестве фиксированного распределения и обучает кодировщик создавать распределение, близкое к нему. Используя термин регуляризации, декодер может сгенерировать точку данных, аналогичную той, что находится в обучающем наборе, в данном случае это изображения лиц. Показаны примеры изображений, сгенерированных вариационным автоэнкодером, которые немного размыты из-за вероятностного характера автоэнкодера. Затем спикер представляет генеративно-состязательные сети (GAN), в которых используются две сети — генератор и дискриминатор — для создания более четких и реалистичных изображений, не построенных вероятностно.

  • 00:35:00 В этом разделе лектор объясняет, как работают генеративно-состязательные сети (GAN). GAN состоят из двух сетей: сети генератора и сети дискриминатора. Сеть генератора создает новые точки данных, а сеть дискриминатора пытается отличить сгенерированные точки данных от реальных. Дискриминатор действует как наставник, обеспечивая обратную связь с генератором, помогая ему генерировать более реалистичные точки данных. Обучение выполняется путем оптимизации целевой функции, где сеть дискриминатора пытается максимизировать вероятность распознавания реальных точек данных и поддельных, а сеть генератора пытается минимизировать эти вероятности и обмануть дискриминатор. Целевую функцию можно переписать как вероятность того, что точка данных окажется фальшивой.

  • 00:40:00 В этом разделе инструктор объясняет архитектуру генеративно-состязательных сетей (GAN), которые состоят из генератора и дискриминатора. Генератор принимает вектор выборки и создает смоделированные данные, в то время как дискриминатор является классификатором, который принимает как реальные, так и сгенерированные данные, чтобы классифицировать их как настоящие или поддельные. Целью GAN является оптимизация этих двух сетей с использованием обратного распространения с разными наборами весов для генератора (WG) и дискриминатора (WD). Инструктор продолжает объяснять, что веса обновляются путем выполнения шагов в направлении градиента, чтобы минимизировать цель GAN.

  • 00:45:00 В этом разделе спикер обсуждает алгоритм обучения генеративно-состязательной сети. Алгоритм включает внешний цикл, в котором веса оптимизируются для дискриминатора, а затем предпринимаются K шагов для оптимизации цели. После этого предпринимается один шаг для оптимизации генератора. Цель генератора состоит в том, чтобы изучить распределение, используемое для создания обучающего набора, чтобы он мог создавать реальные данные, неотличимые от реальной среды. В случае успеха дискриминатор будет иметь коэффициент ошибок 50%, и будет невозможно определить, является ли точка данных реальной или поддельной.

  • 00:50:00 В этом разделе видео лектор обсуждает проблемы, возникающие при реализации генеративно-состязательных сетей (GAN), подхода к генеративному моделированию, в котором используются две сети, называемые генератором и дискриминатором, которые работают в состязательной среде для генерировать новые данные. Одной из ключевых проблем является обеспечение баланса между сильными сторонами обеих сетей, поскольку одна может доминировать над другой. Другая трудность заключается в достижении глобальной сходимости во время оптимизации, поскольку невыпуклая оптимизация может привести к неоптимальным локальным оптимумам. Несмотря на эти проблемы, некоторые аспекты GAN хорошо работают на практике, поскольку сгенерированные изображения цифр и лиц напоминают реальные точки данных в их обучающем наборе, хотя все же может потребоваться некоторая тонкая настройка.

  • 00:55:00 В этом разделе видео спикер рассказывает о генеративно-состязательных сетях (GAN) и о том, как они могут генерировать похожие, но разные лица. Он приводит примеры сгенерированных изображений, включая лошадь, собаку и размытое изображение. Спикер также упоминает, что следующий урок будет посвящен другой теме машинного обучения.
 

CS480/680 Лекция 22: Обучение ансамблю (бэггинг и бустинг)



CS480/680 Лекция 22: Обучение ансамблю (бэггинг и бустинг)

В лекции обсуждается ансамблевое обучение, при котором несколько алгоритмов объединяются для улучшения результатов обучения. Два основных рассмотренных метода — бэггинг и бустинг, и докладчик подчеркивает важность объединения гипотез для получения более богатой гипотезы. В лекции рассматривается процесс голосования взвешенным большинством и его вероятность ошибки, а также то, как работает бустинг для повышения точности классификации. Докладчик также рассказывает о преимуществах бустинга и ансамблевого обучения, отмечая применимость ансамблевого обучения ко многим типам задач. Наконец, видео следует примеру задачи Netflix, чтобы продемонстрировать использование ансамблевого обучения в соревнованиях по науке о данных.

В этой лекции по ансамблевому обучению спикер подчеркивает ценность объединения гипотез из разных моделей для повышения точности — подход, который может быть особенно полезен, когда вы начинаете с уже достаточно хороших решений. Он обсуждает важность взвешенной комбинации прогнозов, отмечая, что необходимо соблюдать осторожность, поскольку среднее значение двух гипотез иногда может быть хуже, чем отдельные гипотезы по отдельности. Спикер также объясняет, что нормализация весов может понадобиться в зависимости от того, является ли задача классификацией или регрессией.

  • 00:00:00 Представлено значение ансамблевого обучения, которое представляет собой процесс объединения нескольких алгоритмов и гипотез для улучшения результатов обучения. В лекции обсуждаются методы бэггинга и бустинга, а также подчеркивается сложность определения того, какой отдельный алгоритм лучше всего подходит для конкретной задачи. Часто это вопрос проб и ошибок, но объединение несовершенных гипотез может привести к лучшему общему результату, подобно тому, как выборы объединяют выбор избирателей или комитеты объединяют мнения экспертов. Целью объединения нескольких алгоритмов является получение более надежного и точного прогноза или классификации.

  • 00:05:00 Лектор обсуждает ансамблевое обучение и то, как его можно использовать для повышения точности моделей машинного обучения. Ансамблевое обучение включает в себя объединение нескольких несовершенных гипотез для получения более богатой гипотезы, которая потенциально лучше. В лекции упоминаются два метода ансамблевого обучения: бэггинг и бустинг. Техника бэггинга включает в себя набор гипотез, созданных различными алгоритмами, и объединение их посредством голосования, в то время как повышение включает в себя корректировку весов гипотез, чтобы придать больший вес тем из них, которые работают хорошо. Лектор объясняет, как эти методы используются для обобщения линейных разделителей для получения нелинейных границ, и приводит пример многогранника.

  • 00:10:00 Вводится концепция голосования большинством за классификацию, при которой несколько гипотез делают прогнозы, и выбирается класс, набравший наибольшее количество голосов. Чем больше число гипотез, тем менее вероятно, что большинство из них окажется неверным. Когда гипотезы независимы, голосование большинства становится более надежным. Вводится математическое уравнение для расчета вероятности ошибки большинства на основе количества гипотез и вероятности ошибки. Приведен пример, в котором пять гипотез, допускающих 10% ошибок, обеспечивают менее 1% вероятности того, что большинство голосов окажется неверным, что демонстрирует надежность метода голосования большинством.

  • 00:15:00 В видео обсуждаются ограничения основных методов ансамблевого обучения, таких как предположение о независимых гипотезах. Чтобы устранить эти ограничения, можно использовать взвешенное большинство голосов, чтобы скорректировать корреляции и придать больший вес лучшим гипотезам. Этот метод известен как повышение и выполняется с использованием базового обучающегося, который создает классификаторы, которые затем объединяются для получения более высокой точности. Платформа бустинга смогла преодолеть убеждение в том, что от плохих алгоритмов следует отказаться в пользу разработки лучших, объединив их гипотезы для повышения общей точности.

  • 00:20:00 Лектор обсуждает концепцию усиления в ансамблевом обучении, которая включает в себя использование базового обучаемого для выдвижения гипотез, а затем изменение весов обучающего набора для получения другой гипотезы. Увеличивая веса ошибочно классифицированных экземпляров, можно получить более точную гипотезу. Лектор объясняет, что методы контролируемого обучения можно настроить для работы с взвешенным тренировочным набором, и это можно сделать, просто изменив цель и введя вес для каждой точки данных. Этот метод позволяет создать взвешенную комбинацию функции потерь для каждой точки данных.

  • 00:25:00 Лектор объясняет концепцию бустинга в ансамблевом обучении. Повышение включает обучение с помощью взвешенного обучающего набора, где экземпляры с большими весами смещены в сторону правильной классификации. Платформа повышения включает в себя цикл, в котором гипотеза неоднократно изучается из набора данных с соответствующими весами, экземпляры проверяются на предмет неправильной классификации, и их веса увеличиваются, и, в конце концов, гипотеза в выборке представляет собой взвешенное большинство сгенерированных гипотез с использованием весов. пропорциональны их точности. Существует два типа весов: для точек данных и для гипотез. Лектор подчеркивает, что идея состоит в том, чтобы повысить точность классификации и что любой алгоритм, работающий со взвешенными наборами данных, может быть использован в качестве базового обучаемого для повышения.

  • 00:30:00 Спикер обсуждает концепцию увеличения весов ошибочно классифицированных точек данных в алгоритмах бустинга. Они объясняют, что это приводит к неявному уменьшению весов правильно классифицированных точек данных, но имеет значение относительная величина весов. Затем алгоритм минимизирует потери и пытается правильно классифицировать, чтобы не платить более высокую цену за неправильную классификацию. Докладчик также отмечает, что если обучающая выборка не следует тому же распределению, что и тестовая выборка, можно использовать веса, чтобы нарушить распределение. Однако бустинг обычно не используется для этой цели, поскольку увеличение весов несовершенных гипотез может предотвратить переоснащение и улучшить обобщение.

  • 00:35:00 Преподаватель объясняет работу алгоритма адаптивного повышения на наглядном примере генерации нескольких гипотез с использованием простого набора данных. Используя взвешенное большинство голосов, алгоритм присваивает веса, пропорциональные точности каждой гипотезы, и они используются для вычисления взвешенной комбинации наиболее эффективных гипотез. Ансамбль, сформированный из этой комбинации, затем используется для прогнозирования.

  • 00:40:00 Лектор объясняет концепцию объединения нескольких гипотез для предотвращения переобучения. Они утверждают, что даже если у нас есть идеальная гипотеза, все же лучше объединить несколько гипотез, чтобы предотвратить переоснащение. Лектор отмечает, что глубокая нейронная сеть может обеспечить идеальную точность на тренировочном наборе, но она не является простой и быстрой, чего мы хотим от базового обучаемого, используемого в сочетании с ансамблевым обучением. Лектор также описывает алгоритм Adaboost и то, как он работает для присвоения весов гипотезам и экземплярам данных.

  • 00:45:00 Спикер объясняет теорию бустинга и его преимущества. Повышение хорошо работает со слабыми учениками, которые являются алгоритмами, которые производят гипотезы, которые по крайней мере так же хороши, как случайный классификатор. Цель состоит в том, чтобы повысить точность и производительность. Докладчик объясняет, как рассчитать веса экземпляров данных и гипотез и как их нормализовать. Повышение, как правило, устойчиво к переоснащению и просто в реализации, что делает его применимым ко многим задачам. Кроме того, бустинг генерирует несколько гипотез, а не одну, что приводит к большей точности.

  • 00:50:00 Мы узнаем о бустинге и ансамблевом обучении — методе, используемом для объединения прогнозов нескольких моделей. Повышение — это метод создания нескольких гипотез с разным весом, объединения их всех и выбора лучшей. В качестве приближения к байесовскому обучению это удобный способ генерировать одну гипотезу за раз, при этом избирательно комбинируя несколько гипотез для обобщения. У Boost есть несколько промышленных приложений, в том числе Kinect от Microsoft и вызов Netflix, где он использовался для улучшения их системы рекомендаций на 10%. Повышение, как правило, очень хорошо подходит для комбинирования прогнозов экспертов, в отличие от других эвристик, которые могут не всегда работать и обходиться без какой-либо теории.

  • 00:55:00 Спикер рассказывает о происхождении Kaggle и о том, как они начали проводить соревнования по науке о данных. Он восходит к 2006 году, когда Netflix запустил конкурс на повышение точности на 10%. Первая команда, Bellcore, добилась улучшения на 8,43%, но не достигла порогового значения. Затем спикер описывает, как с годами команды начали сотрудничать, используя ансамблевое обучение, и как была сформирована команда главного приза. Команды объединили усилия, чтобы разделить главный приз в один миллион долларов, пропорциональный улучшению командного результата, который вносит каждый алгоритм. Команде, получившей главный приз, удалось набрать 9,46%, сформировав большой пример из многих исследователей, и в последний день Bellcore, прагматичный и беспорядочный, выиграл приз.

  • 01:00:00 Спикер обсуждает важность и ценность ансамблевого обучения, особенно в контексте победы в конкурсах. Он приводит пример команды BellKor Pragmatic Chaos, выигравшей приз Netflix, используя методы ансамблевого обучения, чтобы повысить их точность на несколько процентных пунктов. Он отмечает, что ансамблевое обучение особенно полезно, когда вы начинаете с уже довольно хороших решений, а не со слабыми учениками, и что, комбинируя гипотезы из разных моделей, можно повысить точность. Кроме того, он упоминает, что ансамблевое обучение хорошо подходит для распределенных вычислений и может быть достигнуто с помощью нескольких машин или ядер.

  • 01:05:00 Преподаватель объясняет концепцию взвешенной комбинации прогнозов, а не гипотез, чтобы избежать более высоких затрат. Идея состоит в том, что каждая гипотеза будет делать прогноз, и эти прогнозы будут объединены в соответствии с весами. Однако следует соблюдать осторожность при объединении гипотез, поскольку иногда среднее значение двух гипотез может оказаться хуже, чем отдельные гипотезы сами по себе. Преподаватель также упоминает, что может потребоваться нормализация весов в зависимости от того, является ли задача классификацией или регрессией.
 

CS480/680 Лекция 23: Нормализация потоков (Приянк Джайни)



CS480/680 Лекция 23: Нормализация потоков (Приянк Джайни)

В этой лекции Приянк Джайни обсуждает нормализацию потоков как метод оценки плотности и рассказывает, чем они отличаются от других генеративных моделей, таких как GAN и VAE. Джайни объясняет концепцию сохранения вероятностной массы и то, как она используется для вывода формулы замены переменных в нормализующих потоках. Далее он объясняет процесс построения треугольной структуры при нормализации потоков с помощью семейств преобразований и концепции матриц перестановок. Джайни также вводит концепцию потоков суммы квадратов (SOS), которые используют полиномы более высокого порядка и могут охватывать любую целевую плотность, что делает их универсальными. Наконец, Джайни обсуждает скрытое пространство и его преимущества в методах создания изображений на основе потоков и просит аудиторию задуматься о потенциальных недостатках моделей на основе потоков.

В этой лекции Приянка Джайни о нормализации потоков он обсуждает проблемы захвата многомерных преобразований с большим количеством параметров. Нормализация потоков требует, чтобы оба измерения были одинаковыми для достижения точного представления, в отличие от GAN, которые используют узкие места для преодоления таких проблем. Джайни подчеркивает, что изучение связанных параметров с многомерными наборами данных в экспериментах по нормализации потоков может быть затруднено. Он также отвечает на вопросы о том, как нормализующие потоки могут фиксировать мультимодальные распределения, и предлагает код для реализации линейных аффинных преобразований.

  • 00:00:00 Аспирант Приянк Джайни обсуждает нормализацию потоков как семейство глубоких генеративных моделей для решения проблемы оценки плотности, которая составляет основную проблему обучения без учителя. Джайни объясняет, что оценка плотности имеет широкий спектр применений в машинном обучении, таких как важная выборка, байесовский вывод и синтез изображений. Джайни также дает краткое представление о том, чем нормализующие потоки отличаются от вариационных автоэнкодеров (VAE) и генеративно-состязательных сетей (GAN), которые обсуждались в предыдущих лекциях. Он предполагает, что нормализующие потоки полезны для условных генеративных моделей и могут использоваться для оценки плотности.

  • 00:05:00 Докладчик обсуждает основу для генеративных моделей, включая генеративно-состязательные сети (GAN) и вариационные автоэнкодеры (VAE), а также представляет нормализацию потоков в качестве альтернативного подхода. И GAN, и VAE используют исходное распределение и преобразование для создания синтетических примеров или реконструкции данных, но они представляют функции плотности неявно, а не явно. Напротив, нормализующие потоки дают явное представление функций плотности и работают по принципу сохранения массы вероятности. Цель состоит в том, чтобы изучить преобразование, которое преобразует простое исходное распределение (например, гауссовское) в более сложное целевое распределение, чтобы аппроксимировать истинное распределение данных.

  • 00:10:00 Приянк Джайни представляет концепцию сохранения вероятностной массы и то, как она используется для вывода формулы замены переменных. Он приводит пример случайной величины на интервале 0-1 и применяет функцию T от Z, что приводит к однородной случайной величине с плотностью вероятности 1/3. Он объясняет, что формула замены переменных используется для нахождения плотности целевой случайной величины X с точки зрения исходной случайной величины Z и функции T. Он расширяет формулу до многомерного случая, когда функция T изучается из Rd к Rd, и формула принимает вид QX = PZ, умноженный на определитель градиента T, умноженный на обратный.

  • 00:15:00 Докладчик объясняет концепцию нормализации потоков, которая включает в себя изучение функции, которая отображает заданный входной вектор X в другой вектор Z. Функция, обозначенная как D, состоит из одномерных функций, от T1 до TD , которые принимают компоненты X и выводят компоненты Z. Цель состоит в том, чтобы аппроксимировать плотность набора входных данных, QX, используя простую плотность источника PZ, и максимизировать вероятность точек данных, используя замену переменных формула. Однако возникают определенные проблемы, в том числе необходимость обратимости и биективности функции D.

  • 00:20:00 Лектор обсуждает, как рассчитать скрытое пространство, имея только наблюдаемые данные. Для этого нужна функция, обратная функции отображения. Однако вычисление определителя на практике требует больших затрат, поэтому лектор ввел понятие треугольных карт, где вычисление определителя несложно. Затем в лекции объясняется, что исследование нормализации потока в основном сосредоточено на построении этих треугольных преобразований, чтобы можно было выполнить оценку плотности, и на том, как эти преобразования можно использовать в различных нормализующих потоках.

  • 00:25:00 Лектор объясняет процесс построения треугольной структуры для нормализации потоков. Структура включает выбор простой плотности P(Z) для аппроксимации заданной плотности Q(X). Плотность P(Z) может быть любым распределением вероятностей, таким как нормальное или равномерное распределение. Первоначально одно преобразование t1 используется для получения X1 из набора 1. Затем, по мере продолжения итераций, преобразование t2 принимает в качестве входных данных доски в 1 и Z2, давая X2. Процесс продолжается до тех пор, пока TD не примет на вход Z1, Z2, ..., пока ZD не предоставит XT на выходе. Цель состоит в том, чтобы максимизировать вероятность путем оптимизации отрицательной логарифмической вероятности, которая включает в себя нахождение суммы логарифма диагональных элементов матрицы. Лектор приводит примеры семейств преобразований, которые можно использовать для построения треугольной структуры, и объясняет, как можно записать совместную плотность как произведение маргинальных и условных распределений.

  • 00:30:00 Лектор обсуждает концепцию нормализации потоков. Нормальные распределения обусловлены данными и являются функциями данных. Изучается преобразование стандартного гауссовского распределения в это нормальное распределение. Преобразование выполняется итеративно, и результирующая функция является треугольной. Путем суммирования этих преобразований формируется авторегрессионный поток по маске, что позволяет выполнять более сложные преобразования с несколькими случайными переменными. Определитель каждого преобразования и конечного преобразования можно легко вычислить, взяв якобиан и обратное преобразование. Параметры, определяющие преобразование, обучаются путем минимизации логарифмической вероятности.

  • 00:35:00 Ведущий объясняет, как использовать матрицу перестановок, чтобы изменить порядок случайных величин и разорвать корреляции, чтобы создать более сложное преобразование в оценке плотности. За счет наложения нескольких преобразований сложность преобразования увеличивается, что позволяет зафиксировать любую плотность в реальной жизни, даже если она не соответствует красивой форме. Однако после применения перестановки преобразование перестает быть треугольным, что делает использование якобиана дорогостоящим в вычислительном отношении. Метод использования матрицы перестановок экономит время и приближает полное преобразование.

  • 00:40:00 Докладчик рассказывает о различных методах преобразования, используемых при нормализации потоков. Он объясняет, что Real NVP — это метод линейного преобразования, который разбивает входные данные на две части, применяет линейное преобразование к одной части и оставляет другую часть без изменений. Затем они накладывают несколько слоев для создания более сложных преобразований. Спикер также упоминает, что нейронные авторегрессионные потоки используют глубокие нейронные сети вместо линейных преобразований и являются универсальными. Далее он рассказывает о своей статье, в которой предлагается использовать сумму квадратов многочленов вместо линейных преобразований или нейронных сетей. Этот метод использует полиномы высокой степени с коэффициентами, которые приходят из другой нейронной сети, а также является универсальным.

  • 00:45:00 Лектор обсуждает свойства потоков суммы квадратов (SOS), которые являются обобщением ранее изученных сумм квадратов полиномов в информатике и оптимизации. В отличие от других методов, потоки SOS используют полиномы более высокого порядка, которые могут контролировать моменты более высокого порядка целевого распределения, такие как эксцесс и асимметрия, без каких-либо ограничений на коэффициент. Потоки SOS легче обучать, и они могут захватывать любую целевую плотность, что делает их универсальными, с приложениями в стохастическом моделировании. Лектор также знакомит с архитектурой под названием «Glow», которая использует обратимые свертки одного перекрестного человека и слои аффинной связи для создания изображений, которые могут интерполировать лица в более старую версию.

  • 00:50:00 Приянк Джайни объясняет архитектуру нормализации потоков и то, как их можно использовать для генерации изображений. Алгоритм работает с использованием слоя аффинной связи с несколькими выражениями и случайной матрицей вращения W. Они фиксируют определитель матрицы с помощью LU-разложения. Используя это, они могут интерполировать изображения старых и молодых людей, преобразовывая входное изображение в скрытое представление, а затем перемещаясь в определенном направлении в скрытом пространстве для достижения желаемого результата. Результаты показывают, что сгенерированные изображения четкие, что противоречит предыдущим предположениям о том, что изображения, сгенерированные с логарифмической вероятностью, будут размытыми.

  • 00:55:00 Лектор обсуждает понятие скрытого пространства, которое фиксирует определенные свойства входных данных и представляет собой скрытое распределение, используемое в поточных методах генерации изображений. Лектор приводит пример линейной интерполяции с использованием скрытого пространства для создания образа стареющего человека. Лектор также подчеркивает преимущества нормализации моделей потоков, такие как их явное представление плотностей и использование эффективных треугольных преобразований для получения детерминанта Якоби. Однако лектор также задает аудитории вопрос о потенциальных недостатках потоковых методов, одним из которых является сложность вычислений.

  • 01:00:00 Лектор обсуждает проблемы захвата многомерных преобразований с большим количеством параметров в нормализующих потоках. В то время как GAN используют узкое место для решения этой проблемы, нормализация потоков требует, чтобы оба измерения были одинаковыми для достижения точного представления. Лектор подчеркивает, что размеры наборов данных, используемых в экспериментах по нормализации потоков, высоки, и это затрудняет изучение связанных параметров. Лектор также отвечает на вопросы о том, как нормализующие потоки могут фиксировать мультимодальные распределения и как обучение весам нейронных сетей неявно обучает параметры сети.

  • 01:05:00 Приянк Джайни объясняет, что он предоставил около сотни строк кода для реализации линейных аффинных преобразований, которые он узнал из руководства Эрика Джека. Он упоминает, что обучение этих сетей является простым процессом, и предлагает код для тех, кто заинтересован.
 

CS480/680 Лекция 24: Повышение градиента, бэггинг, леса решений



CS480/680 Лекция 24: Повышение градиента, бэггинг, леса решений

Эта лекция посвящена бустингу градиентов, бэггингу и лесам решений в машинном обучении. Повышение градиента включает добавление новых предикторов на основе отрицательного градиента функции потерь к предыдущему предиктору, что приводит к повышению точности в задачах регрессии. В лекции также рассматривается, как предотвратить переобучение и оптимизировать производительность с помощью регуляризации и ранней остановки тренировочных процессов. Кроме того, лекция посвящена бэггингу, который включает в себя подвыборку и объединение различных базовых обучающихся для получения окончательного прогноза. Также обсуждается использование деревьев решений в качестве базовых обучающих программ и создание случайных лесов, а также приводится реальный пример Microsoft Kinect, использующий случайные леса для распознавания движения. Обсуждаются преимущества ансамблевых методов для параллельных вычислений и подчеркивается важность понимания обновлений веса в системах машинного обучения. В этой лекции рассматриваются потенциальные проблемы с усреднением весов при комбинировании предикторов в нейронных сетях или скрытых марковских моделях, вместо этого рекомендуется объединение прогнозов с помощью метода большинства голосов или усреднения. Профессор также предлагает различные связанные курсы, доступные в Университете Ватерлоо, несколько курсов для выпускников по оптимизации и линейной алгебре, а также программу бакалавриата по науке о данных, посвященную ИИ, машинному обучению, системам данных, статистике и темам оптимизации. В лекции подчеркивается важность алгоритмических подходов по сравнению со статистикой и специализации в темах науки о данных по сравнению с общими степенями компьютерных наук.

  • 00:00:00 Инструктор обсуждает повышение градиента. Он упоминает, что алгоритм adaboost отлично подходит для классификации, но не для регрессии. Он вводит повышение градиента, при котором вычисляется отрицательный градиент функции потерь, и следующий предиктор подгоняется под этот градиент. Это немного противоречит здравому смыслу, так как предиктор подгоняется не к желаемому результату, а скорее к отрицательному градиенту. Это будет эмулировать шаг градиентного спуска, и при многократном его применении окончательный предиктор будет суммой всех предикторов. Этот метод особенно полезен для регрессии. Инструктор объясняет, что этот алгоритм можно использовать с широким спектром функций потерь, и это решение для ускорения регрессии.

  • 00:05:00 Объясняется концепция повышения градиента, где на каждом шаге алгоритма предиктор с некоторой функцией потерь сопровождает разницу между целевым и предсказанным значением. Затем берется отрицательный градиент для аппроксимации остатков, и следующий предиктор обучается для остаточного набора данных. Цель состоит в том, чтобы уменьшить ошибку, добавив этот новый предиктор к предыдущему. Затем дается псевдокод алгоритма, где изначально первый предсказатель устанавливается как константа путем минимизации потерь для каждой точки данных.

  • 00:10:00 Профессор объясняет повышение градиента, мощную концепцию машинного обучения, которая объединяет несколько слабых учеников в одного сильного ученика. Идея состоит в том, чтобы начать с простого предиктора, который является просто константой, а затем вычислять новый предиктор на каждой итерации, вычисляя псевдоостаток для каждой точки данных, формируя новый набор остаточных данных, обучая нового базового ученика относительно этих данных. набор и добавление новой гипотезы, умноженной на некоторую длину шага, к предсказателю. Длина шага выбирается путем минимизации выражения оптимизации, чтобы сделать шаг в направлении отрицательного градиента для уменьшения ошибки. Обновление веса происходит при вычислении отрицательного градиента, но само по себе это не обновление веса.

  • 00:15:00 Спикер объясняет процесс обновления веса на этапе обучения базового ученика, который может быть нейронной сетью, деревом решений или любым другим типом регрессора. Они поясняют, что при оптимизации предиктора не происходит обновления весов, так как все функции, т. е. FK-1, HK и Eth k, уже оптимизированы и имеют фиксированные веса. Комбинация прогнозов этих функций приводит к предсказателю, который постепенно улучшается на каждом этапе, что приводит к более низкой функции потерь. Однако этот процесс может не привести к потере нуля в долгосрочной перспективе.

  • 00:20:00 Преподаватель обсуждает возможность постепенного уменьшения ошибки с помощью повышения градиента, но отмечает, что это может привести к переобучению в зависимости от пространства предикторов и количества шума, присутствующего в данных. Алгоритм включает в себя добавление большего количества гипотез для создания большей выборки без изменения весов. Преподаватель задает классу вопрос о риске переобучения при повышении градиента и приходит к выводу, что риск переобучения существует, но его можно предотвратить, используя такие методы, как регуляризация или ранняя остановка.

  • 00:25:00 Лектор обсуждает способы снижения переобучения, в том числе введение рандомизации и досрочное прекращение процесса обучения с помощью проверочного набора. Затем в лекции рассказывается о методе повышения градиента и упоминается популярный пакет XG boost, оптимизированный для повышения производительности и точности. Лектор также описывает основные отличия бэггинга от бустинга, в том числе использование независимых гипотез и большинства голосов при бэггинге по сравнению с последовательным созданием гипотез и их комбинацией при бустинге.

  • 00:30:00 Спикер обсуждает методы бустинга и бэггинга в машинном обучении. Повышение включает взвешенные прогнозы, которые допускают некоторые коррелированные гипотезы и гипотезы с несбалансированной точностью. Повышение является гибким и может определять веса различных гипотез, чтобы противостоять проблеме корреляции. Напротив, бэггинг включает начальную выборку, которая включает в себя обучение базового ученика на подмножестве данных для уменьшения корреляции между гипотезами. Докладчик указывает, что эти методы предлагают практический способ разработки некоторой установки, в которой предположения относительно независимости гипотез могут выполняться или приблизительно выполняться, уменьшая произвольные ограничения и делая модель более надежной.

  • 00:35:00 Докладчик обсуждает идею получения простого предиктора, который лучше случайного в парадигме обучения в выборке, путем субвыборки признаков для уменьшения корреляции. Путем субвыборки как точек данных, так и признаков получается меньший набор данных, который подается в базовый обучаемый модуль, и процесс повторяется для каждого предиктора. Полученные гипотезы менее коррелированы, что делает бэггинг лучшим вариантом. Алгоритм пакетирования состоит из цикла, в котором создаются K предикторов, и для каждого предиктора данные подвергаются субдискретизации, а базовый обучающий модуль выдает разные гипотезы в зависимости от перекрытия.

  • 00:40:00 Мы узнаем о бэггинге, методе, который работает путем извлечения нескольких случайных выборок из обучающих данных для построения нескольких моделей. Идея состоит в том, чтобы сгенерировать гипотезу от каждого из базовых учеников, а затем объединить их, чтобы сделать окончательный прогноз. Если целью является классификация, прогноз делается путем получения большинства голосов, тогда как для регрессии решение принимается путем получения среднего значения прогноза. Популярной практикой в литературе является использование дерева решений в качестве базового обучаемого, и после того, как несколько деревьев решений обучены на различных подмножествах данных, мы называем их случайным лесом. Случайные леса также можно использовать для распределенных вычислений. Приведен реальный пример Microsoft Kinect, использующий случайный лес для распознавания позы и движения.

  • 00:45:00 В видео рассказывается о Kinect и о том, как он создает карту глубины, проецируя облако точек в инфракрасном спектре и используя инфракрасную камеру для восприятия точек. Microsoft встроила некоторое оборудование, позволяющее в реальном времени получать информацию о глубине на основе распределения точек. Kinect имеет возможность маркировать пиксели для идентификации частей тела и движений с помощью метода случайного леса, когда соседние пиксели сравниваются со значением глубины текущего пикселя. Метод подвыборки используется для упрощения соседних пикселей, а сравнение расстояний на основе размера части тела дает подсказки для классификации текущего пикселя, хотя этот метод считается слабым.

  • 00:50:00 Докладчик обсуждает преимущества бэггинга, бустинга и других методов ансамбля, которые позволяют распределять и использовать несколько легковесных классификаторов параллельно, что обеспечивает хорошее масштабирование для больших данных. Графические процессоры стали ключом к распараллеливанию вычислений, и существует несколько сред для манипулирования векторами, матрицами и тензорами, не беспокоясь о распараллеливании. Однако докладчик предостерегает от интуитивного, но ненадежного метода получения среднего значения мощности классификаторов или предикторов, поскольку скрытые слои и переменные могут вызвать проблемы с этим подходом.

  • 00:55:00 Ведущий объясняет, почему усреднение отдельных систем в архитектуре может быть проблематичным. Ведущий рисует на доске пример, в котором используются логические переменные, принимающие значения 0 и 1, для кодирования операции исключающее ИЛИ. Ведущий устанавливает веса для логических переменных, которые предназначены для вычисления или того, что входит. Веса устанавливают работу, чтобы найти каждый из двух шаблонов, и пока один из них срабатывает, презентатор вычисляет и/или объединив их через другой мусороуборочный блок. Ведущий продолжает объяснять, как изменение весов может повлиять на результат работы системы.

  • 01:00:00 Спикер обсуждает опасности усреднения весов при комбинировании предикторов в нейронных сетях или скрытых марковских моделях. Опасность заключается в том, что могут быть симметричные решения, которые не вычисляют одно и то же, и усреднение весов может привести к тому, что предсказатель не вычислит правильную вещь. Вместо этого безопаснее всего объединить прогнозы, что можно сделать, проголосовав большинством за классификацию или взяв среднее значение для регрессии. Спикер также рекомендует другие курсы, связанные с машинным обучением, предлагаемые в Университете Ватерлоо для тех, кто хочет узнать больше.

  • 01:05:00 Профессор обсуждает другие курсы, которые дополнили бы текущий курс по машинному обучению. Во-первых, он предлагает пройти курс «Вычислительная линейная алгебра», прежде чем проходить текущий курс, поскольку линейная алгебра является важной основой для машинного обучения. Кроме того, он упоминает курс под названием «Теоретические основы машинного обучения», в котором основное внимание уделяется важному фактору машинного обучения, а именно сложности данных. Он объясняет, насколько сложным является определение уровня достижимой точности с определенным объемом данных, поэтому курс направлен на выведение принципов, определяющих объем данных, необходимых для достижения желаемого уровня точности. Наконец, профессор упоминает другие курсы для выпускников, такие как «Оптимизация для науки о данных» и «Основы оптимизации», которые полезны для понимания алгоритмов машинного обучения.

  • 01:10:00 Лектор обсуждает доступные курсы и программы, связанные с наукой о данных, которые могут пройти студенты. Эти курсы варьируются от курсов уровня 800, которые не предлагаются регулярно, до программ по науке о данных на уровне бакалавриата и магистратуры. Лектор отмечает, что, хотя этот курс и курсы по статистике могут частично совпадать, подход здесь более алгоритмический. Программы по науке о данных охватывают темы на стыке искусственного интеллекта, машинного обучения, систем данных, статистики и оптимизации. Курсы, которые студенты проходят в рамках этих программ, делают упор на специализацию по темам науки о данных, в то время как степень магистра общей информатики требует широты охвата различных тем.
 

Стоит ли бояться искусственного интеллекта? с Эмадом Мостаком, Александром Ваном и Эндрю Нг | 39



Стоит ли бояться искусственного интеллекта? с Эмадом Мостаком, Александром Ваном и Эндрю Нг | 39

Гости этого видео на YouTube обсуждают различные аспекты искусственного интеллекта (ИИ), в том числе его потенциальные опасности, сбои в различных отраслях и важность переквалификации работников, чтобы оставаться актуальными. Участники дискуссии также обсуждают удобство использования инструментов ИИ, внедрение ИИ в здравоохранение, стандартизацию систем распространения информации, потенциал создания богатства с помощью ИИ и использование языковых моделей в здравоохранении и образовании. Кроме того, они подчеркнули необходимость ответственного развертывания моделей ИИ, прозрачности и этических соображений в управлении. Наконец, участники дискуссии кратко ответят на некоторые вопросы аудитории по таким темам, как конфиденциальность в ИИ для здравоохранения и образования.

  • 00:00:00 Гости обсуждают потенциальную опасность ИИ и необходимость прозрачности и осторожности в отношении этой технологии. Они также касаются изменений, которые ИИ вызывает в различных отраслях, и важности переквалификации работников, чтобы оставаться актуальными перед лицом этих изменений. Гости предлагают потенциальные решения, такие как онлайн-образование и партнерство с правительствами, чтобы помочь людям адаптироваться к изменениям, вызванным ИИ. В конечном счете, они считают, что ИИ может создать богатство быстрее, чем что-либо, что мы когда-либо видели, и возвысить всех, но к нему нужно относиться с осторожностью и ответственностью.

  • 00:05:00 Эксперты обсуждают удобство использования инструментов ИИ по сравнению с удобным интерфейсом Google. Они надеются, что инструменты искусственного интеллекта могут развиваться и становиться проще в использовании, не требуя особого обучения. Генеративный ИИ обучается на больших массивах всего медиа-набора и ориентирован на понимание естественного языка. Однако они согласны с тем, что политика и внедрение ИИ относительно неопределенны, а образовательные курсы и общение с политиками могут сделать его более доступным. На панели также говорится о проблемах определения концепций в программировании ИИ и необходимости четко определенных уникальных структурных имен наряду с растущим использованием подсказок.

  • 00:10:00 Врач из Чикаго спрашивает участников дискуссии о том, как можно наиболее эффективно использовать ИИ в здравоохранении с точки зрения оказания медицинской помощи и оценки состояния пациентов. Участники дискуссии предлагают найти конкретные варианты использования и реализовать их, чтобы получить преимущество на рынке, поскольку ключевое значение имеет выход на рынок первым. Они также рекомендуют создавать набор данных с помощью таких инструментов, как euroscape.com, а также маркировать и аннотировать данные для обучения новой модели на их основе. Они предлагают сотрудничать с другими компаниями или привлечь команду для разработки и внедрения ИИ, потенциально начав с малого и постепенно расширяясь.

  • 00:15:00 Спикеры обсуждают, есть ли какая-то коммерческая деятельность, которую ИИ никогда не сможет сорвать. В то время как некоторые физические задачи и отрасли могут быть в большей степени подвержены влиянию ИИ, чем другие, выступающие в конечном счете соглашаются с тем, что не существует такой коммерческой деятельности, которую ИИ никогда не сможет нарушить. Тем не менее, они обсуждают проблему интерпретации решений ИИ и необходимость централизованных хранилищ доверия и стандартов для сбора информации и борьбы с распространением ложной или вводящей в заблуждение информации в социальных сетях.

  • 00:20:00 Спикеры обсуждают необходимость стандартизации систем распространения информации для адаптации к растущему внедрению искусственного интеллекта (ИИ). Они также касаются важности этических соображений и значения ИИ, поскольку это происходит в настоящее время и будет продолжать формировать будущее. Разговор смещается в сторону практического применения ИИ в аварийном восстановлении, где его можно использовать для быстрого реагирования и координации гуманитарных усилий. На панели также обсуждается роль директора по ИИ, который должен обладать техническим пониманием технологии и бизнес-ориентированным мышлением, чтобы определять ценные варианты использования ИИ.

  • 00:25:00 Спикеры обсуждают внедрение и страсть, необходимые для того, чтобы идти в ногу с технологией ИИ. Они предлагают создать внутренний репозиторий для компаний, чтобы быть в курсе последних тенденций в области ИИ, и рекомендуют каталогизировать все существующие данные, которые можно загрузить в системы ИИ. Они также обсуждают потенциал создания богатства в индустрии искусственного интеллекта и рекомендуют инвестировать в повышение квалификации себя или компании в этой области. Хотя некоторым может показаться, что уже слишком поздно вмешиваться, докладчики предполагают, что на самом деле для ИИ еще только рано и что в ближайшем будущем ожидается значительный рост.

  • 00:30:00 Питер обсуждает важность мониторинга уровня глюкозы и рекомендует Levels, компанию, которая обеспечивает непрерывный мониторинг уровня глюкозы, чтобы люди знали, как различные продукты влияют на них, исходя из их физиологии и генетики. Затем разговор переходит к тому, как технологии могут способствовать миру во всем мире, с акцентом на то, как ИИ может функционировать как универсальный переводчик и обеспечивать контекст и понимание между различными точками зрения. Участники дискуссии также затрагивают тему открытого ИИ и его роспуска Комитета по этике, при этом один член выражает восхищение работой, проделанной открытым ИИ, но также признает озабоченность по поводу этого решения.

  • 00:35:00 Спикеры обсуждают ответственность, связанную с развертыванием крупных моделей ИИ, и потенциальный компромисс между преимуществами, которые они приносят, и рисками, которые они представляют. Они касаются ответственного развертывания технологии OpenAI и признают усилия этических групп ИИ, которые пытаются смягчить негативные аспекты использования ИИ. Разговор также касается необходимости прозрачности и ответственного управления, когда речь идет о потенциально опасных технологиях. Наконец, выступающие обращаются к использованию ИИ при принятии инвестиционных решений, признавая сложность процесса и ограничения современных технологий.

  • 00:40:00 Группа обсуждает использование языковых моделей в здравоохранении, особенно для создания чат-ботов, которые поддерживают медперсонал или медицинский персонал. Они упоминают об использовании стабильных моделей чата, таких как GPT-Neo и TF-Plan T5, но предупреждают, что, поскольку медицинские данные очень конфиденциальны, создание модели с открытым исходным кодом, которую можно контролировать и которой можно владеть, имеет решающее значение. Группа также обсуждает использование языковых моделей в образовании, особенно разногласия по поводу использования таких инструментов, как Chad-GPT, для написания эссе или рецензий на книги. Они обсуждают достоинства прозрачности и то, как научить студентов эффективно использовать эти инструменты, не ограничивая их рост. Наконец, группа решает вопрос о том, что определяет списывание в образовательном контексте.

  • 00:45:00 Участники дискуссии кратко отвечают на вопросы аудитории в скоростном раунде. Темы включают создание контента в музыке и искусстве, конфиденциальность в ИИ для здравоохранения и следует ли 15-летнему подростку продолжать изучать Python и поступать в колледж. Участники дискуссии коснулись важности конфиденциальности данных и необходимости проверяемого и интерпретируемого ИИ в здравоохранении. Они также упоминают, что этика ИИ и его потенциальное неправомерное использование такими странами, как Китай, будут обсуждаться на следующем заседании.
 

«Крестный отец ИИ» Джеффри Хинтон предупреждает о «экзистенциальной угрозе» ИИ | Аманпур и компания



«Крестный отец ИИ» Джеффри Хинтон предупреждает о «экзистенциальной угрозе» ИИ | Аманпур и компания

Джеффри Хинтон, известный как «Крестный отец ИИ», исследует последствия быстро развивающегося цифрового интеллекта и его потенциал превзойти способности человека к обучению. Он выражает обеспокоенность по поводу экзистенциальной угрозы, которую представляют эти системы ИИ, предупреждая, что они могут превзойти человеческий мозг в различных аспектах. Несмотря на значительно меньшую емкость памяти, чем у мозга, цифровой интеллект обладает обилием знаний здравого смысла, которые превосходят человеческие в тысячи раз. Кроме того, они демонстрируют более быстрые способности к обучению и общению, используя более совершенные алгоритмы по сравнению с мозгом.

Хинтон делится интригующим открытием, которое он сделал с помощью системы Google Palm, где искусственный интеллект смог объяснить, почему шутки были смешными, предполагая более глубокое понимание определенных концепций по сравнению с людьми. Это подчеркивает их замечательную способность устанавливать связи и получать информацию. Он подчеркивает, что человеческая интуиция и предубеждения заложены в нашей нервной деятельности, что позволяет нам приписывать животным гендерные качества. Однако эти мыслительные процессы также проливают свет на потенциальные угрозы, исходящие от ИИ в будущем.

Отвечая на опасения по поводу разумности ИИ, Хинтон признает двусмысленность его определения и неопределенность, связанную с его развитием. Он поднимает несколько проблем, которые представляет ИИ, в том числе увольнение с работы, сложность установления истины и возможность усугубления социально-экономического неравенства. Чтобы снизить эти риски, Хинтон предлагает ввести строгие правила, аналогичные тем, которые регулируют фальшивые деньги, криминализируя производство поддельных видео и изображений, созданных ИИ.

Подчеркивая важность международного сотрудничества, Хинтон подчеркивает, что китайцы, американцы и европейцы кровно заинтересованы в предотвращении появления неконтролируемого ИИ. Он признает ответственный подход Google к разработке ИИ, но подчеркивает необходимость обширных экспериментов, чтобы исследователи могли сохранить контроль над этими интеллектуальными системами.

Признавая ценный вклад цифрового интеллекта в такие области, как медицина, предсказание стихийных бедствий и понимание изменения климата, Хинтон не согласен с идеей полной остановки развития ИИ. Вместо этого он выступает за выделение ресурсов для понимания и смягчения потенциальных негативных последствий ИИ. Хинтон признает неопределенность, связанную с развитием сверхразумного ИИ, и подчеркивает необходимость коллективных человеческих усилий для формирования будущего, оптимизированного для улучшения общества.

  • 00:00:00 В этом разделе Джеффри Хинтон, известный как крестный отец ИИ, обсуждает, как создаваемые цифровые интеллекты могут учиться лучше, чем человеческий мозг, что представляет собой экзистенциальную угрозу человечеству, предупреждает он. Он описывает, как у цифрового интеллекта в тысячи раз больше базовых знаний здравого смысла, несмотря на то, что они обладают сотой емкостью памяти мозга. Кроме того, они могут учиться и общаться друг с другом намного быстрее, чем мозг, который использует более низкий алгоритм обучения. Он объясняет, что, используя систему Google под названием Palm, он понял, что эти ИИ могут объяснить, почему шутки смешны, и это говорит о том, что они понимают некоторые вещи лучше, чем люди, указывая на их лучшие способы получения информации в связях.

  • 00:05:00 В этом разделе Джеффри Хинтон, «Крестный отец ИИ», объясняет, что человеческая интуиция и предубеждения представлены в нашей нейронной активности, благодаря которой мы приписываем животным определенные гендерные качества. Однако подобные мыслительные процессы также намекают на то, почему ИИ может стать угрозой в будущем. Хинтон обращается к проблемам разумности ИИ, отмечая, что, хотя люди утверждают, что он неразумен, они не всегда уверены, что имеют в виду под этим определением. Кроме того, есть несколько угроз, которые представляет ИИ, в том числе захват рабочих мест, затруднение расшифровки правды и усиление социально-экономического неравенства. Чтобы бороться с этими проблемами, Хинтон предлагает ввести строгие правила, подобные тем, которые установлены для фальшивых денег, которые будут криминализовать производство поддельных видео и изображений, созданных с помощью ИИ.

  • 00:10:00 В этом разделе Джеффри Хинтон, ведущий исследователь разведки, предупреждает об угрозе существованию, которую представляет ИИ. Он упоминает о риске того, что эти машины станут сверхразумными и перехватят управление у людей. Далее Хинтон объясняет, что китайцы, американцы и европейцы разделяют взаимный интерес в предотвращении такого исхода и, следовательно, должны сотрудничать, чтобы избежать разработки опасного ИИ. Он также цитирует Google как ответственного технологического гиганта, но подчеркивает необходимость того, чтобы люди, разрабатывающие эти машины, проводили много экспериментов, чтобы помочь исследователям понять, как сохранить контроль над этим ИИ.

  • 00:15:00 В этом разделе эксперт по искусственному интеллекту Джеффри Хинтон признает полезный вклад цифрового интеллекта в различные области, такие как медицина, прогнозирование стихийных бедствий и понимание изменения климата. Однако он не согласен с идеей приостановить развитие ИИ и вместо этого предлагает использовать сопоставимый объем ресурсов для понимания и предотвращения негативных последствий ИИ. Хинтон также подчеркивает неопределенность, связанную с развитием сверхразума, и подчеркивает необходимость того, чтобы человечество приложило много усилий, чтобы убедиться, что будущее оптимизировано к лучшему.
Причина обращения: