Машинное обучение и нейронные сети - страница 8

 

Нейронные сети — это деревья решений (с Александром Мэттиком)




Нейронные сети — это деревья решений (с Александром Мэттиком)

Нейронные сети — это деревья решений — это тип алгоритма машинного обучения, который подходит для задач с четко определенной статистикой. Они особенно хорошо учатся на табличных данных, которые легко хранить и понимать. В этом видео Александр Маттик из Кембриджского университета обсуждает недавно опубликованную статью о нейронных сетях и деревьях решений.

  • 00:00:00 В статье обсуждается, как представить нейронную сеть в виде набора сплайнов, которые можно представить как области линейного преобразования со смещением. Статья была опубликована в 2018 году.

  • 00:05:00 Нейронные сети — это тип модели машинного обучения, которую можно использовать для анализа данных. Деревья решений — это тип модели машинного обучения, которую можно использовать для принятия решений, но их способность интерпретировать нейронные сети ограничена.

  • 00:10:00 Нейронные сети — это тип алгоритма машинного обучения, который можно использовать для прогнозирования на основе данных. Нейронные сети состоят из ряда взаимосвязанных узлов или «нейронов», которые предназначены для обучения на основе данных, чтобы делать прогнозы. Размер нейронной сети определяет, насколько глубоким может быть дерево решений, и чем шире нейронная сеть, тем сложнее становится делать точные прогнозы.

  • 00:15:00 В этом видео объясняется, что нейронные сети отличаются от деревьев решений тем, что деревья решений должны работать с семейством функций, для которых мы теперь должны выполнить оптимальное разбиение, тогда как нейронные сети могут просто работать с несколькими функциями и надеяться к лучшему. Эта разница упрощает использование нейронных сетей и позволяет им быть более эффективными в некоторых случаях, но это также означает, что они не всегда оптимальны.

  • 00:20:00 В видео обсуждается идея о том, что нейронные сети можно рассматривать как деревья решений, и что представление дерева решений выгодно с точки зрения вычислительной сложности. В документе также есть экспериментальные результаты, которые предполагают, что это так.

  • 00:25:00 В этом видео Александр Маттик объясняет, что нейронные сети на самом деле представляют собой деревья решений, тип алгоритма машинного обучения, который подходит для задач с четко определенной статистикой. Далее он говорит, что деревья решений особенно хороши для изучения табличных данных, которые легко хранить и понимать.

  • 00:30:00 В этом видео Александр Маттик из Кембриджского университета обсуждает недавно опубликованную статью о нейронных сетях и деревьях решений. Нейронные сети — это модели деревьев решений (NNDT), которые похожи на классификаторы, предварительно обученные на больших наборах данных. NNDT извлекают из данных множество различных признаков, тогда как классификаторы, предварительно обученные на больших наборах данных, извлекают лишь несколько признаков. NNDT также более эффективны, чем классификаторы, предварительно обученные на больших наборах данных, с точки зрения объема данных, которые они могут обрабатывать.
Neural Networks are Decision Trees (w/ Alexander Mattick)
Neural Networks are Decision Trees (w/ Alexander Mattick)
  • 2022.10.21
  • www.youtube.com
#neuralnetworks #machinelearning #ai Alexander Mattick joins me to discuss the paper "Neural Networks are Decision Trees", which has generated a lot of hype ...
 

Это меняет правила игры! (Объяснение AlphaTensor от DeepMind)




Это меняет правила игры! (Объяснение AlphaTensor от DeepMind)


AlphaTensor — это новый алгоритм, который может ускорить умножение матриц за счет разложения ее на тензор более низкого ранга. Это прорыв в умножении матриц, который потенциально может сэкономить много времени и энергии.
В этом видео объясняется, как AlphaTensor, инструмент, разработанный Google DeepMind, может изменить правила игры в области искусственного интеллекта.

  • 00:00:00 AlphaTensor — это новая система, которая ускоряет умножение матриц, лежащее в основе многих научных областей. Это могло бы сделать мир лучше, поскольку умножение матриц необходимо во многих областях науки.

  • 00:05:00 AlphaTensor меняет правила игры, потому что вычислять сложения между двумя матрицами быстрее, чем их умножать. Это большое преимущество современных процессоров, так как большая часть времени тратится на умножение чисел, а не на сложение.

  • 00:10:00 Это позволяет быстрее умножать матрицы. Объяснение показывает, как возможно ускорение из-за того, что нас интересует только количество умножений, и что алгоритм можно найти, разложив тензор на составляющие его матрицы.

  • 00:15:00 AlphaTensor — это инструмент, созданный DeepMind, который можно использовать для разложения матрицы на отдельные компоненты, что позволяет ускорить умножение матриц.

  • 00:20:00 Это алгоритм декомпозиции, который можно применить к трехмерным тензорам. Он основан на произведении трех векторов и может применяться к тензорам любого ранга.

  • 00:25:00 Позволяет упростить декомпозицию тензоров. Это может быть полезно при решении задач с векторами и матрицами.

  • 00:30:00 Он может ускорить умножение матриц, разложив их на тензор более низкого ранга. Это прорыв в умножении матриц, который потенциально может сэкономить много времени и энергии.

  • 00:35:00 AlphaTensor меняет правила игры, поскольку позволяет более эффективно обучать алгоритмы обучения с подкреплением. AlphaTensor — это более совершенная версия архитектуры нейронной сети Torso, и ее можно использовать для оптимизации политики для заданного пространства действий.

  • 00:40:00 AlphaTensor меняет правила игры, потому что он позволяет использовать эффективный поиск по дереву Монте-Карло низкого ранга, чтобы найти первый шаг в игре в шахматы. Этот алгоритм используется, чтобы научиться играть в игру и делать прогнозы будущих ходов. Кроме того, контролируемое обучение используется для обеспечения обратной связи с сетью о том, какие шаги следует предпринять.

  • 00:45:00 AlphaTensor — это новый алгоритм от DeepMind, способный превзойти самые известные алгоритмы умножения и декомпозиции матриц на современных GPU и TPU.

  • 00:50:00 Алгоритм AlphaTensor от DeepMind оказался быстрее на определенном оборудовании, чем другие алгоритмы, и может помочь повысить эффективность компьютерных программ.

  • 00:55:00 В этом видео объясняется, как AlphaTensor, инструмент, разработанный Google DeepMind, может изменить правила игры в области искусственного интеллекта.
This is a game changer! (AlphaTensor by DeepMind explained)
This is a game changer! (AlphaTensor by DeepMind explained)
  • 2022.10.07
  • www.youtube.com
#alphatensor #deepmind #ai Matrix multiplication is the most used mathematical operation in all of science and engineering. Speeding this up has massive cons...
 

Нейронная сеть, визуальное введение | Визуализация глубокого обучения, глава 1



Нейронная сеть, визуальное введение | Визуализация глубокого обучения, глава 1

Видео представляет собой четкое наглядное введение в базовую структуру и концепции нейронной сети, включая искусственные нейроны, функции активации, весовые матрицы и векторы смещения. Он демонстрирует использование нейронной сети для поиска закономерностей в данных, определения границ и сложных границ решений в наборах данных. Также подчеркивается важность функции активации, поскольку она помогает преодолевать более сложные границы принятия решений и классифицировать данные. Видео завершается признанием поддержки пионеров глубокого обучения и изучением того, как выглядит обученная нейронная сеть.

  • 00:00:00 Создатель знакомит с понятием нейронной сети и ее структурой. Цель нейронной сети — найти шаблоны в данных, и это многоуровневая структура с входным слоем, скрытыми слоями и выходным слоем. Нейронная сеть состоит из множества нейронов или кругов, где входной слой состоит из значений пикселей изображения, а выходной слой состоит из классифицированного вывода. Создатель объясняет, что обучая нейронную сеть, мы определяем граничные линии, чтобы найти, где находится вход, а выход можно определить с помощью тяжелого набора wxb. Создатель идет дальше, чтобы объяснить, как добавление дополнительных измерений к проблеме увеличивает сложность персептронов.

  • 00:05:00 Видео охватывает основы искусственных нейронов и функций активации, включая ступенчатую функцию Хевисайда, сигмовидную кривую и выпрямленную линейную единицу (ReLU). Видео также объясняет концепцию линейно разделимых наборов данных и то, как нейронные сети используют функции активации для моделирования сложных границ решений. Вводятся понятия весовых матриц и векторов смещения, а также визуализация преобразований нейронных сетей и линейных преобразований. Наконец, видео демонстрирует нейронную сеть с двумя входами, двумя выходами и одним скрытым слоем с использованием рандомизированных весов и смещений.

  • 00:10:00 В видео рассматривается важность функции активации, которая помогает преодолевать более сложные границы принятия решений с помощью двухмерного и трехмерного визуального представления нейронной сети. Видео демонстрирует, как вращение, сдвиг и масштабирование были автоматически выполнены до добавления вектора смещения, а функция активации (ReLU) помогает свернуть положительные входные данные и выявить треугольную форму со складками только в первом октанте. В видео также подчеркивается важность нейронных сетей не только для моделирования функций, но и для классификации данных путем присвоения цифры одному из 10 значений и выбора цифры с наибольшим значением на основе значений конечного слоя. Видео завершается признанием поддержки пионеров глубокого обучения и изучением того, как выглядит обученная нейронная сеть.
The Neural Network, A Visual Introduction | Visualizing Deep Learning, Chapter 1
The Neural Network, A Visual Introduction | Visualizing Deep Learning, Chapter 1
  • 2020.08.23
  • www.youtube.com
A visual introduction to the structure of an artificial neural network. More to come!Support me on Patreon! https://patreon.com/vcubingxSource Code: https://...
 

Искусственный интеллект Google: насколько мы близки на самом деле? | Подкаст технических новостей | Уолл Стрит Джорнал




Искусственный интеллект Google: насколько мы близки на самом деле? | Подкаст технических новостей | Уолл Стрит Джорнал

В этом сегменте обсуждается спор о том, может ли система искусственного интеллекта Google, Lambda, стать разумной. Хотя эксперты отвергли эту идею, существуют опасения по поводу того, что это может произойти, и потенциальных опасностей, создаваемых политиками и нормативными актами. Обсуждение подчеркивает, что больше внимания уделяется последствиям гиперкомпетентности систем ИИ, их дискриминации или манипулированию, а не вреду, который может быть нанесен из-за того, что они просто не работают должным образом.

  • 00:00:00 В этом разделе Карен Хоу из Wall Street Journal обсуждает, как компании делятся между практическим и амбициозным использованием искусственного интеллекта (ИИ), при этом многие инвестируют в технологию ИИ, направленную на создание сверхразума, который в конечном итоге может делать все. лучше, чем люди. Сообщество ИИ разделилось по этому вопросу, и некоторые эксперты предупреждают об опасности переоценки возможностей систем генерации языков и доверия к этим системам гораздо больше, чем им следует доверять. В 2017 году система искусственного интеллекта Facebook неправильно перевела «доброе утро» с арабского на «сделай им больно» на английском и «напади на них» на иврите, что привело к аресту палестинца. Между тем, другой инженер Google считает, что экспериментальный чат-бот стал разумным, но большинство экспертов отвергает это утверждение.

  • 00:05:00 В этом разделе видео обсуждается полемика вокруг идеи о том, что система искусственного интеллекта Google, Lambda, потенциально может стать разумной благодаря эксперименту, проведенному мистическим священником. Хотя Google, а также научное сообщество заявляют, что системы ИИ не обладают разумом, мнение о том, что они могут стать разумными, широко распространилось, что создает потенциальную опасность для политиков и регулирующих органов. Разговор был сосредоточен на вреде, который исходит от систем ИИ, которые являются сверхкомпетентными и дискриминирующими или манипулирующими, но не на вреде, который исходит от систем ИИ, которые просто не работают.
 

Визуализация глубокого обучения 2. Почему нейронные сети так эффективны?



Визуализация глубокого обучения 2. Почему нейронные сети так эффективны?

В этом видео рассматривается эффективность нейронных сетей, подробно рассматривается функция softmax, границы принятия решений и преобразования входных данных. Видео объясняет, как сигноидную функцию можно использовать для назначения вероятности каждому выходу вместо традиционной функции argmax. Затем демонстрируется использование функции softmax для группировки похожих точек и их линейного разделения во время обучения. Однако при выходе за пределы начальной обучающей области нейронная сеть линейно расширяет границы решений, что приводит к неточным классификациям. В видео также объясняется, как первый нейрон в нейронной сети можно преобразовать в плоское уравнение для границ решений, и демонстрируется интерактивный инструмент для визуализации преобразования рукописных цифр в нейронной сети.

  • 00:00:00 Идея сигмоиды может быть использована для сглаживания ступенчатой функции Хевисайда и назначения вероятности или диапазона входных данных для каждого выхода. Это особенно важно при обучении нейронной сети, поскольку обеспечивает дифференцируемость. В этом примере нейронная сеть имеет входной слой из двух нейронов и выходной слой из пяти нейронов. Скрытый слой состоит из 100 нейронов, использующих функцию активации relu. Последний слой использует softmax для назначения выходных данных координат x и y максимальным значением пяти нейронов. С помощью функции argmax можно определить индекс максимального значения, что упрощает классификацию наборов данных.

  • 00:05:00 Видео описывает функцию softmax, которая принимает вектор из n элементов в качестве входных данных и выводит вектор вероятности из n элементов в качестве выходных данных. Во время обучения нейронная сеть определяет набор весов и смещений, которые заставляют ее классифицировать входные данные по пяти различным спиралям, разделенным нелинейными границами решений. Глядя на выходное пространство, нейронная сеть группирует похожие точки, делая их линейно разделимыми. Однако при выходе за пределы начальной обучающей области нейронная сеть линейно расширяет границы решений, что приводит к неточным классификациям. Наконец, видео демонстрирует, как визуализировать вероятности для каждого цвета с помощью графика вывода функции softmax.

  • 00:10:00 Видео объясняет значение первого нейрона в нейронной сети с точки зрения плоского уравнения и то, как это преобразуется в границы решений для классификации входных данных. Затем в видео показано, как функция softmax используется для представления каждого выходного значения как вероятности, причем каждая цветовая поверхность представляет максимальную выходную вероятность для каждого соответствующего класса. Наконец, на видео показан интерактивный инструмент для визуализации преобразования рукописных цифр с помощью нейронной сети.
Why are neural networks so effective?
Why are neural networks so effective?
  • 2021.10.15
  • www.youtube.com
Visuals to demonstrate how a neural network classifies a set of data. Thanks for watching!Support me on Patreon! https://patreon.com/vcubingxSource Code: htt...
 

На пути к сингулярности — искусственный интеллект, вдохновляющий нейробиологию




На пути к сингулярности — искусственный интеллект, вдохновляющий нейробиологию

В этом видео обсуждается потенциал искусственного интеллекта для достижения уровня общего интеллекта, а также различные проблемы, которые необходимо будет преодолеть на этом пути.
В нем также обсуждается возможность рассмотрения роботов как вида, а также преимущества и недостатки такого подхода.

  • 00:00:00 Мозг — сложный орган, отвечающий за множество разных задач. Недавние исследования показали, что мозг также способен выполнять простые задачи, которые когда-то считались сложными для человека. Это говорит о том, что мозг представляет собой не только интеллект, но и содержит огромное количество сложных вычислений.

  • 00:05:00 Автор обсуждает трудности понимания мозга на системном уровне и то, как ученые используют рыбок данио, чтобы понять, как происходит нормальное развитие мозга. Далее он говорит, что искусственный интеллект в конечном итоге сможет расти более органично, основываясь на том, что мы узнаем о том, как работает мозг.

  • 00:10:00 Мозг сильно отличается от компьютера тем, как он устроен. Компьютер в основном имеет ЦП отдельно от памяти и соединяет ЦП с памятью, у вас есть эта штука, называемая шиной, шиной памяти. А шина памяти работает полный рабочий день непрерывно при включении компьютера. И это на самом деле узкое место. Таким образом, ЦП может быть очень мощным, а память может быть огромной, но
    вы ограничены в том, сколько информации вы можете передать между ними. И это очень ограничивающий фактор в общей мощности стандартного компьютера. В отличие от этого, мозг работает массивно параллельно, каждый отдельный нейрон делает все возможное все время. Даже самый лучший на данный момент ИИ, который у нас есть, все еще очень и очень отличается от мозга. Это… вы могли бы сказать, что это вдохновлено мозгом, но это не копирование мозга. В мозгу огромное количество обратных связей. Таким образом, очевидно, что когда мы обрабатываем сенсорный ввод, который попадает в высшие области мозга, подвергается дальнейшей обработке и абстрагированию от исходного ввода, который мы видим. Но есть также огромное количество обратной связи, идущей от этих высших областей обратно к областям восприятия. И эта обратная связь указывает, куда мы смотрим и

  • 00:15:00 В видео обсуждается концепция искусственного интеллекта, обсуждаются плюсы и минусы его наличия в мире. Далее говорится, что искусственный интеллект — многообещающий подход, но для достижения точности и надежности потребуется технологический скачок.

  • 00:20:00 В видео обсуждаются достижения в области неврологии, которые используются для создания искусственного интеллекта, и то, как это помогает создавать роботов, таких же умных, как люди. Тем не менее, этой технологии еще предстоит пройти долгий путь, прежде чем ее можно будет широко развернуть.

  • 00:25:00 Искусственный интеллект играет большую роль в разработке социальных роботов, которые могут понимать, вести себя и общаться с людьми в их повседневной жизни. В настоящее время мир создан для людей, поэтому разработка роботов, имеющих гуманоидную форму, или понимание того, как устроен человеческий мир, облегчает этим роботам интеграцию в общество, а также создает некоторую ценность и приносит пользу без необходимости перестройки зданий или зданий. задачи или то, как мир устроен так, чтобы приспосабливаться к этому человеку.

  • 00:30:00 В видео обсуждается, как нейробиология вдохновляет на достижения в области ИИ, включая глубокое обучение и воплощенное познание. Воплощенное познание противоположно идее Декарта о том, что «я мыслю, следовательно, я существую». Со временем робототехника будет более тесно интегрироваться в общество, а ИИ станет «очень полезным инструментом» для науки.

  • 00:35:00 В видео обсуждается идея «общего искусственного интеллекта» или ОИИ, то есть способности машины достичь уровня интеллекта компетентного взрослого человека. Хотя достоверность «теста Тьюринга» — экзамена, который измеряет, может ли машина обмануть кого-то, заставив его думать, что она человек, — все еще оспаривается, большинство исследователей считают, что машинам необходимо достичь такого уровня интеллекта.

  • 00:40:00 В видео обсуждается возможность проникновения искусственного интеллекта во все новые и новые сферы нашей жизни, а также важность осторожного управления ИИ, чтобы он не начал принимать решения самостоятельно. В нем предполагается, что ИИ в конечном итоге станет общественной услугой, и обсуждаются способы, с помощью которых люди могут обсуждать это по радио и видео.

  • 00:45:00 Автор утверждает, что правительства должны активно инвестировать в искусственный интеллект и робототехнику, поскольку это огромные инвестиции, которые могут иметь большие результаты для общества. Однако, если не сделать это должным образом, роботы могут привести к массовой безработице. Он также отмечает, что обществу необходимо будет адаптироваться к грядущей революции в области робототехники, поскольку работа, которую в настоящее время выполняют люди, будет заменена машинами.

  • 00:50:00 Автор обсуждает потенциал общего искусственного интеллекта и сингулярность, то есть точку, в которой машинный интеллект превосходит человеческий. Они отмечают, что, хотя эта технология все еще является несколько спекулятивной, она, вероятно, появится в ближайшие 200 лет. Хотя многие люди могут быть настроены скептически, знающие люди согласны с тем, что это определенно произойдет.

  • 00:55:00 В этом видео обсуждается потенциал искусственного интеллекта для достижения уровня общего интеллекта, а также различные проблемы, которые необходимо будет преодолеть на этом пути. В нем также обсуждается возможность рассмотрения роботов как вида, а также преимущества и недостатки такого подхода.

  • 01:00:00 Докладчик представляет обзор потенциальных рисков и преимуществ, связанных с достижениями в области искусственного интеллекта, и обсуждает гипотетическую ситуацию, в которой ИИ становится мошенником и уничтожает человечество. Большинство исследователей в этой области не беспокоятся об угрозах такого типа, вместо этого сосредотачиваясь на потенциальных преимуществах искусственного интеллекта.
 

Stanford CS230: глубокое обучение: Лекция 1 - Введение в предмет




Stanford CS230: глубокое обучение | Осень 2018 | Лекция 1 - Введение в предмет

Эндрю Нг, преподаватель курса глубокого обучения CS230 в Стэнфорде, представляет курс и объясняет формат занятий. Он подчеркивает внезапную популярность глубокого обучения из-за увеличения количества цифровых записей, что позволяет создавать более эффективные системы глубокого обучения. Основные цели курса состоят в том, чтобы студенты стали экспертами в области алгоритмов глубокого обучения и поняли, как применять их для решения реальных задач. Нг подчеркивает важность практических знаний для создания эффективных и действенных систем машинного обучения и надеется систематически обучать и разрабатывать алгоритмы машинного обучения, эффективно внедряя их с помощью правильных процессов. Курс будет охватывать сверточные нейронные сети и модели последовательности с помощью видео на Coursera и заданий по программированию на Jupyter Notebooks.

Первая лекция курса Stanford CS230 Deep Learning знакомит с разнообразными реальными приложениями, которые будут разработаны с помощью заданий по программированию и студенческих проектов, которые можно персонализировать и разработать в соответствии с интересами студента. Примеры прошлых студенческих проектов варьируются от прогнозирования цен на велосипеды до обнаружения сигналов землетрясения. Окончательный проект подчеркивается как наиболее важный аспект курса, а индивидуальное наставничество доступно через команду ТА и инструкторов. Также обсуждается логистика курса, в том числе формирование команд для групповых проектов, прохождение викторин на Coursera и объединение курса с другими классами.

  • 00:00:00 В этом разделе Эндрю Нг, инструктор Стэнфордского университета CS230, представляет курс и объясняет формат перевернутого класса. На этом занятии учащиеся будут смотреть контент deeplearning.ai на Coursera дома и участвовать в более глубоких дискуссиях во время занятий в классе и во время дискуссионных секций. Нг представляет группу преподавателей, состоящую из со-инструкторов Киана Катанфороша, соавтора специализации «Глубокое обучение», Свати Дубей, координатора класса, Юнеса Мурри, консультанта курса и руководителя ТА, а также Аарти Багула и Абхиджита, соруководителя. ТП. Нг объясняет внезапную популярность глубокого обучения, заявляя, что цифровизация общества привела к увеличению сбора данных, что дало студентам возможность создавать более эффективные системы глубокого обучения, чем когда-либо прежде.

  • 00:05:00 В этом разделе Эндрю Нг объясняет, что увеличение количества цифровых записей привело к всплеску данных, но традиционные алгоритмы машинного обучения останавливаются, даже когда им подается больше данных. Однако по мере того, как нейронные сети становятся больше, их производительность становится все лучше и лучше, вплоть до теоретического предела, называемого базовой частотой ошибок. С появлением вычислений на GPU и облачных сервисов доступ к достаточно большой вычислительной мощности позволил большему количеству людей обучать достаточно большие нейронные сети для обеспечения высокого уровня точности во многих приложениях. Хотя глубокое обучение — лишь один из многих инструментов в области ИИ, оно стало настолько популярным, потому что неизменно дает отличные результаты.

  • 00:10:00 В этом разделе лектор объясняет, что существует множество инструментов и технологий, которые исследователи используют в ИИ в дополнение к глубокому обучению, такие как алгоритмы планирования и представление знаний. Однако за последние несколько лет глубокое обучение невероятно быстро набрало обороты благодаря использованию массивных наборов данных и вычислительной мощности, а также алгоритмическим инновациям и масштабным инвестициям. Основная цель CS230 состоит в том, чтобы учащиеся стали экспертами в области алгоритмов глубокого обучения и поняли, как применять их для решения реальных задач. Лектор, который имеет практический опыт руководства успешными командами ИИ в Google, Baidu и Landing AI, также подчеркивает важность изучения практических аспектов ноу-хау машинного обучения, которые, по его словам, могут не освещаться в других академических курсах.

  • 00:15:00 В этом разделе Эндрю Нг говорит о важности практических знаний для принятия эффективных и действенных решений при построении системы машинного обучения. Он подчеркивает разницу между великим инженером-программистом и младшим с точки зрения принятия решений на высоком уровне и архитектурных абстракций. Точно так же он подчеркивает важность знания того, когда собирать больше данных или искать гиперпараметры в системах глубокого обучения, чтобы принимать более эффективные решения, которые могут повысить эффективность команды в 2–10 раз. Он стремится передать эти практические знания учащимся курса посредством систематического обучения, а также рекомендует свою книгу «Тоска по машинному обучению» для студентов, имеющих опыт машинного обучения.

  • 00:20:00 В этом разделе Эндрю Нг обсуждает проект своей новой книги под названием «Тоска по машинному обучению», которая, по его словам, представляет собой попытку собрать лучшие принципы для создания систематической инженерной дисциплины на основе машинного обучения. Нг также объясняет формат курса «перевернутый класс», когда студенты смотрят видео и выполняют онлайн-викторины в удобное время, а также посещают еженедельные занятия для более глубокого взаимодействия и дискуссий с ассистентами, Кианом и им самим. Далее он говорит о важности искусственного интеллекта и машинного обучения, заявляя, что, по его мнению, они изменят каждую отрасль так же, как электричество изменило несколько областей более века назад.

  • 00:25:00 В этом разделе видео Эндрю Нг, инструктор курса глубокого обучения CS230 в Стэнфорде, выражает надежду, что студенты будут использовать свои новообретенные навыки глубокого обучения для преобразования отраслей за пределами традиционного технологического сектора, таких как здравоохранение, гражданское строительство и космология. Он делится ценным уроком, полученным при изучении развития Интернета, который заключается в том, что создание веб-сайта не превращает обычный бизнес в интернет-компанию; скорее, это организация команды и внедрение специфичных для Интернета практик, таких как повсеместное A/B-тестирование, которые действительно определяют интернет-компанию.

  • 00:30:00 В этом разделе стенограммы Эндрю Нг обсуждает различия между традиционными компаниями и интернет-компаниями и компаниями, использующими искусственный интеллект. Он объясняет, что интернет-компании и компании, занимающиеся искусственным интеллектом, как правило, передают полномочия по принятию решений инженерам или инженерам и менеджерам по продуктам, потому что эти люди ближе всего знакомы с технологиями, алгоритмами и пользователями. Нг также упоминает о важности организации команд для выполнения задач, которые позволяют современное машинное и глубокое обучение. Кроме того, Нг описывает, как компании, занимающиеся искусственным интеллектом, по-разному организуют данные и специализируются на выявлении возможностей автоматизации. Наконец, он отмечает, что развитие машинного обучения создало новые роли, такие как инженер по машинному обучению и научный сотрудник по машинному обучению ресурсов.

  • 00:35:00 В этом разделе Эндрю Нг подчеркивает важность эффективной организации команды в эпоху ИИ для выполнения более важной работы. Он проводит аналогию с тем, как мир разработки программного обеспечения должен был разработать Agile-разработку, процессы Scrum и проверку кода, чтобы создать высокопроизводительные промышленные команды искусственного интеллекта, которые эффективно создавали программное обеспечение. Нг надеется систематически обучать и выводить алгоритмы машинного обучения и эффективно внедрять их с помощью правильных процессов. Наконец, Ng помогает людям, стремящимся освоить машинное обучение, выбрать классы для достижения своих целей.

  • 00:40:00 В этом разделе Эндрю Нг обсуждает различия между CS229, CS229A и CS230. CS229 — наиболее математический из этих классов, ориентированный на математические выводы алгоритмов. CS229A использует прикладное машинное обучение, тратит больше времени на практические аспекты и является самым простым способом перехода к машинному обучению, в то время как CS230 находится где-то посередине, более математический, чем CS229A, но менее математический, чем CS229. Уникальность CS230 заключается в том, что он фокусируется на глубоком обучении, которое является самой сложной частью машинного обучения. Эндрю Нг устанавливает правильные ожидания, желая уделять больше времени обучению практическим ноу-хау применения этих алгоритмов, а не сосредотачиваться исключительно на математике.

  • 00:45:00 В этом разделе Эндрю Нг представляет концепцию ИИ и машинного обучения, которые исчезают на заднем плане и становятся волшебным инструментом, который мы можем использовать, не задумываясь об алгоритмах обучения, которые делают это возможным. Он обсуждает важность машинного обучения в здравоохранении, производстве, сельском хозяйстве и образовании, где с помощью алгоритмов обучения можно добиться точного обучения и обратной связи при кодировании домашних заданий. Формат курса CS230 включает в себя просмотр видеороликов deeplearning.ai на Coursera с дополнительными лекциями Киана из Стэнфорда для более глубоких знаний и практики. Класс состоит из пяти курсов, которые знакомят студентов с нейронами, слоями, построением сетей, настройкой сетей и промышленными приложениями ИИ.

  • 00:50:00 В этом разделе Эндрю Нг представляет темы, затронутые в курсе, и структуру учебного плана. Курс разделен на две части, в которых основное внимание уделяется нейронным сетям свертки для изображений и видео, а также моделям последовательности, включая рекуррентные нейронные сети для обработки естественного языка и распознавания речи. Каждый модуль будет включать видео на Coursera, викторины и задания по программированию на Jupyter Notebooks. Посещаемость составляет два процента от итоговой оценки, восемь процентов от контрольных, 25 процентов от заданий по программированию и значительная часть итогового проекта.

  • 00:55:00 В этом разделе Эндрю Нг объясняет задания по программированию, которые студенты будут выполнять в ходе курса. Студенты будут переводить изображения с языка жестов в числа, станут инженерами по глубокому обучению в Happy House и создадут сеть с использованием алгоритма обнаружения объектов YOLOv2. Они будут работать над оптимизацией предсказания ударов вратаря, обнаружением автомобилей во время автономного вождения, распознаванием лиц и передачей стиля, а также созданием модели последовательности для создания джазовой музыки и шекспировской поэзии. Лектор предоставляет студентам ссылки на соответствующие документы для каждого из проектов.
  • 01:00:00 В этом разделе спикер обсуждает разнообразие приложений, которые будут построены в курсе посредством заданий по программированию, а также возможность для студентов выбирать собственные проекты на протяжении всего курса. Приводятся примеры прошлых студенческих проектов, в том числе раскрашивание черно-белых картинок, прогнозирование цен на велосипеды и обнаружение сигналов предвестников землетрясений. Студентам предлагается создавать свои проекты и гордиться ими, так как окончательный проект является наиболее важным аспектом курса. Курс прикладной, с некоторой математикой, и индивидуальное наставничество доступно через команду TA и инструкторов.

  • 01:05:00 В этом разделе преподаватель объясняет логистические детали курса, в том числе то, как создавать учетные записи Coursera, какие задания выполнять и как формировать команды для курсового проекта. Проектные группы будут состоять из одного-трех студентов, за исключением сложных проектов. Студенты могут совмещать проект с другими классами, если они обсуждают его с преподавателем, а викторины можно повторно сдавать на Coursera, при этом последний представленный тест рассматривается для класса CS230.
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 1 - Class Introduction & Logistics, Andrew Ng
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 1 - Class Introduction & Logistics, Andrew Ng
  • 2019.03.21
  • www.youtube.com
For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3eJW8yTAndrew Ng is an Adjunct Pr...
 

Лекция 2 - Интуиция глубокого обучения



Stanford CS230: глубокое обучение | Осень 2018 | Лекция 2 - Интуиция глубокого обучения

Первая часть лекции посвящена различным приложениям глубокого обучения, включая классификацию изображений, распознавание лиц и передачу стиля изображения. Преподаватель объясняет важность различных факторов, таких как размер набора данных, разрешение изображения и функция потерь, при разработке модели глубокого обучения. Также обсуждается концепция кодирования изображений с использованием глубоких сетей для создания полезных представлений с акцентом на функцию потери триплетов, используемую при распознавании лиц. Кроме того, лектор объясняет кластеризацию с использованием алгоритма K-средних для классификации изображений и извлечения стиля и содержимого из изображений. В целом, этот раздел знакомит учащихся с различными методами и соображениями, связанными с разработкой успешных моделей глубокого обучения.

Вторая часть видео охватывает различные темы глубокого обучения, такие как создание изображений, распознавание речи и обнаружение объектов. Спикер подчеркивает важность консультаций с экспертами при возникновении проблем и критических элементов успешного проекта глубокого обучения: стратегический конвейер сбора данных и поиск архитектуры и настройка гиперпараметров. В видео также обсуждаются различные функции потерь, используемые в глубоком обучении, в том числе функция потерь при обнаружении объектов, которая включает квадратный корень для более строгого наказания за ошибки в меньших блоках, чем в больших. Видео завершается кратким обзором предстоящих модулей и заданий, включая обязательные сеансы наставничества по проектам ТА и пятничные разделы ТА, посвященные передаче нейронного стиля и заполнению формы AWS для потенциальных кредитов GPU.

  • 00:00:00 В этом разделе лекции цель состоит в том, чтобы дать систематический способ думать о проектах, связанных с глубоким обучением. Это включает в себя принятие решений о том, как собирать и маркировать данные, выбирать архитектуру и разрабатывать правильную функцию потерь для оптимизации. Модель можно определить как архитектуру плюс параметры, где архитектура — это дизайн, выбранный для модели, а параметры — это числа, которые заставляют функцию принимать входные данные и преобразовывать их в выходные данные. Функция потерь используется для сравнения выходных данных с реальными данными, а градиент функции потерь вычисляется для обновления параметров для улучшения распознавания. Многие вещи могут измениться в контексте глубокого обучения, включая ввод, вывод, архитектуру, функцию потерь, функции активации, цикл оптимизации и гиперпараметры. Логистическая регрессия — это первая обсуждаемая архитектура, и изображение может быть представлено в виде трехмерной матрицы в информатике.

  • 00:05:00 В этом разделе видео инструктор обсуждает базовую структуру нейронной сети для классификации изображений кошек и то, как ее можно изменить для классификации нескольких животных с помощью мультилогистической регрессии. Подчеркивается важность правильной маркировки данных и вводится концепция быстрого кодирования, недостатком которой является возможность классификации изображений только с одним упомянутым животным. Также упоминается использование Softmax в качестве функции активации для мультигорячего кодирования и поясняются обозначения, используемые в курсе для слоев и индексов нейронов.

  • 00:10:00 В этом разделе лектор объясняет, как глубокое обучение извлекает информацию из каждого слоя в сети и как это используется для кодирования входных данных. Он использует примеры распознавания лиц и классификации изображений, чтобы построить интуитивное представление о конкретных приложениях глубокого обучения. Лектор также обсуждает оценку количества изображений, необходимых для данной задачи, и предлагает, чтобы она основывалась на сложности задачи, а не на количестве параметров в сети.

  • 00:15:00 В этом разделе инструктор обсуждает, как определить объем данных, необходимых для проекта глубокого обучения, а также как разделить данные на наборы для обучения, проверки и тестирования. Преподаватель объясняет, что количество необходимых данных зависит от сложности задачи и от того, включает ли проект внутренние или наружные изображения. Сбалансированный набор данных также важен для правильного обучения сети. Также обсуждается разрешение изображения с целью достижения хорошей производительности при минимизации вычислительной сложности. Инструктор предлагает сравнить производительность человека при разных разрешениях, чтобы определить минимально необходимое разрешение. В конечном итоге разрешение 64 на 64 на три было признано достаточным для используемого в качестве примера изображения.

  • 00:20:00 В этом разделе лектор обсуждает базовую проблему классификации изображений, где задача состоит в том, чтобы определить, было ли изображение снято днем или ночью. Результатом модели должна быть метка для изображения, где Y равно нулю для дня, а Y равно единице для ночи. Рекомендуемая архитектура для этой задачи — неглубокая полносвязная или сверточная сеть. Функцией потерь, которую следует использовать, является логарифмическое правдоподобие, которое легче оптимизировать, чем другие функции потерь для задач классификации. Затем лектор применяет эту базовую концепцию к реальному сценарию, где цель состоит в том, чтобы использовать проверку лица для проверки удостоверений личности учащихся в таких помещениях, как тренажерный зал. Набор данных, необходимый для решения этой проблемы, представляет собой набор изображений для сравнения с изображениями, снятыми камерой во время считывания удостоверения личности.

  • 00:25:00 В этом отрывке из лекции о глубоком обучении спикер обсуждает идею использования распознавания лиц как средства проверки личности посетителей спортзала. Спикер предполагает, что для обучения системы школе потребуются фотографии каждого ученика с их именами, а также дополнительные фотографии каждого ученика для ввода модели. Говоря о разрешении, спикер предполагает, что необходимо более высокое разрешение (около 400 на 400), чтобы лучше различать такие детали, как расстояние между глазами или размер носа. Наконец, спикер отмечает, что простое сравнение расстояний между пикселями для определения того, являются ли два изображения одним и тем же человеком, не сработает из-за различий в освещении или других факторов, таких как макияж или растительность на лице.

  • 00:30:00 В этом разделе лекции инструктор обсуждает процесс кодирования изображений с использованием глубокой сети для создания полезных представлений изображений. Цель состоит в том, чтобы создать вектор, который представляет ключевые особенности изображения, такие как расстояние между чертами лица, цветом и волосами. Эти векторы используются для сравнения различных изображений одного и того же объекта и определения соответствия. Преподаватель объясняет процесс минимизации расстояния между якорем и положительным изображением при максимальном расстоянии между якорем и негативным изображением, чтобы создать полезную функцию потерь для глубокой сети. Функция потерь имеет решающее значение для обучения сети распознавать определенные функции и делать точные прогнозы.

  • 00:35:00 В этом разделе инструктор обсуждает функцию потери триплетов, используемую при распознавании лиц. Потери вычисляются как расстояние L2 между векторами кодирования A и P, вычитаемое из расстояния L2 между векторами кодирования A и N. Цель состоит в том, чтобы максимизировать расстояние между векторами кодирования A и N, минимизируя разницу между A и P. Функция истинных потерь содержит альфу, которая играет определенную роль, кроме предотвращения отрицательных потерь. Преподаватель объясняет, что использование альфы в функции потерь увеличивает вес некоторых частей функции потерь. Цель состоит в том, чтобы найти кодировку, которая представляет черты лица, а алгоритм оптимизации направлен на минимизацию функции потерь после нескольких проходов.

  • 00:40:00 В этом разделе лектор объясняет использование альфа-члена в функции потерь сети. Этот альфа-член известен как маржа, и его цель — наказать большой вес и стабилизировать сеть на нулях. Однако это не влияет на градиент или вес. Цель этого альфа-термина — подтолкнуть сеть к изучению чего-то значимого вместо изучения нулевой функции. Лектор также обсуждает разницу между проверкой лица и распознаванием лиц и предполагает, что добавление элемента обнаружения в конвейер может улучшить распознавание лиц. Алгоритм K-ближайших соседей можно использовать для сравнения векторов введенных лиц с векторами в базе данных для идентификации людей.

  • 00:45:00 В этом разделе инструктор объясняет кластеризацию, в частности, алгоритм K-средних и то, как он используется для классификации изображений. Он объясняет, как алгоритм берет все векторы в базе данных и группирует их в похожие группы. Это можно использовать, например, для разделения фотографий разных людей в отдельных папках на телефоне. Он также обсуждает способы определения параметра K в алгоритме и способы использования различных методов. Преподаватель также обсуждает художественное создание, которое включает в себя создание изображения, которое является содержимым одного изображения, но нарисовано в стиле другого, используя данные в этом стиле. Преподаватель использует музей Лувр в качестве примера изображения содержания и картину Клода Моне в качестве изображения стиля.

  • 00:50:00 В этом разделе спикер обсуждает, как извлекать стиль и содержание из изображений с помощью методов глубокого обучения. Они объясняют, что, хотя один из методов заключается в обучении сети изучению одного определенного стиля, предпочтительным методом является вместо этого изучение изображения. Это включает в себя предоставление изображения контента и извлечение информации о его содержании с помощью нейронной сети, обученной распознаванию изображений. Чтобы извлечь информацию о стиле, спикер вводит использование матрицы Грама и объясняет, что стиль — это нелокализованная информация. Комбинируя извлеченный контент и стиль, можно создать изображение со стилем данного изображения при сохранении контента. Спикер подчеркивает, что этот метод включает в себя обратное распространение обратно к изображению, а не просто изучение параметров сети.

  • 00:55:00 В этом разделе инструктор обсуждает функцию потерь для извлечения стиля с помощью метода матрицы Грама и то, как она вычисляется с помощью расстояния L2 между стилем изображения стиля и сгенерированным стилем, а также между содержимым изображение контента и сгенерированный контент. Инструктор подчеркивает, что ImageNet используется в этом процессе не для классификации, а для использования предварительно обученных параметров для сети. Основное внимание уделяется обучению изображения с использованием белого шума, а содержимое G и стиль G извлекаются из него путем пропускания через сеть и вычисления производных функции потерь, чтобы вернуться к пикселям изображения.
  • 01:00:00 В этом разделе спикер обсуждает процесс обучения сети генерировать изображение на основе содержания и стиля изображения. Хотя эта сеть обладает гибкостью для работы с любым стилем и любым контентом, она требует нового цикла обучения каждый раз, когда создается изображение. Сеть обучается на миллионах изображений и не нуждается в специальном обучении на изображениях Моне. Функция потерь для этой сети исходит из изображений контента и стиля, где базовая линия должна начинаться с белого шума. Затем спикер переходит к обсуждению приложения для обнаружения триггерных слов, для которого требуется множество 10-секундных аудиоклипов, содержащих положительное слово, такое как «активировать», и отрицательные слова, такие как «кухня» и «лев».

  • 01:05:00 В этом разделе видео обсуждается процесс выбора наилучшей схемы разметки для распознавания речи. Докладчик объясняет, что следует проконсультироваться со специалистом по распознаванию речи, чтобы определить наилучшую частоту дискретизации для обработки речи, и предлагает пример слабой схемы маркировки, которая затрудняет обнаружение триггерного слова в произнесенном предложении. Докладчик демонстрирует другую схему маркировки, которая упрощает для модели обнаружение триггерного слова, но отмечает, что по-прежнему важно учитывать такие проблемы, как дисбаланс в наборе данных и необходимость использования сигмовидной функции на каждом временном шаге для вывода нуля или один.

  • 01:10:00 В этом разделе видео спикер обсуждает две важные вещи для создания успешного проекта глубокого обучения. Во-первых, необходимо иметь стратегический конвейер сбора данных. Один из способов сделать это — собрать 10-секундные аудиозаписи с положительными и отрицательными словами с разными акцентами со всего кампуса с помощью телефонов. Второй критический элемент — поиск архитектуры и настройка гиперпараметров. Спикер рассказывает историю о том, как он сначала использовал преобразование Фурье для извлечения признаков из речи, а затем пообщался с экспертами и внес изменения в сеть на основе их советов. Он подчеркивает, что поиск правильной архитектуры — сложный процесс, но от него не следует отказываться, и следует консультироваться с экспертами.

  • 01:15:00 В этом разделе спикер обсуждает проблему распознавания речи и то, как он боролся с подгонкой нейронной сети к данным, пока не нашел эксперта по распознаванию речи, который посоветовал ему правильно использовать гиперпараметры преобразования Фурье, уменьшая размер сети и использование свертки для уменьшения количества временных шагов, а также расширения вывода. Он подчеркивает важность обращения за советом к экспертам и не сдаваться, сталкиваясь с проблемами во время проекта. Затем спикер кратко упоминает другой способ обнаружения аккордов с помощью алгоритма потери триплетов и кодирования аудиоречи в определенном векторе для сравнения расстояния между этими векторами. Наконец, он обсуждает красивую функцию потерь, которая соответствует обнаружению объектов и используется в сети под названием YOLO, где потери сравнивают x, y, ширину и высоту ограничивающих прямоугольников.

  • 01:20:00 В этом разделе видео спикер обсуждает функцию потери обнаружения объекта в глубоком обучении и почему она включает в себя квадратный корень. Функция потерь включает в себя несколько терминов, которые направлены на минимизацию расстояния между истинной ограничивающей рамкой и прогнозируемой ограничивающей рамкой, а также на определение класса объектов внутри рамки. Квадратный корень включен, чтобы штрафовать за ошибки в меньших полях сильнее, чем в больших. Видео завершается кратким обзором предстоящих модулей и заданий, обязательными сеансами наставничества по проектам ТА и разделами пятничного ТА, посвященными переносу нейронного стиля и заполнению формы AWS для использования GPU.
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 2 - Deep Learning Intuition
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 2 - Deep Learning Intuition
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttps://stanford.io/3eJW8yTAndrew NgAdjunct Professor, Computer ScienceKian K...
 

Лекция 3 - Проекты глубокого обучения полного цикла



Stanford CS230: глубокое обучение | Осень 2018 | Лекция 3 - Проекты глубокого обучения полного цикла

В этой лекции о проектах глубокого обучения полного цикла инструктор подчеркивает важность рассмотрения всех аспектов создания успешного приложения машинного обучения, включая выбор проблем, сбор данных, разработку модели, тестирование, развертывание и обслуживание. На примере создания устройства с голосовым управлением преподаватель обсуждает ключевые компоненты, задействованные в проектах глубокого обучения, и призывает студентов сосредоточиться на возможных проектах с потенциальным положительным эффектом и уникальным вкладом в соответствующие области. Преподаватель также подчеркивает важность быстрого сбора данных, хороших заметок на протяжении всего процесса и повторения во время разработки, а также обсуждает конкретные подходы к активации речи и обнаружению голосовой активности.

Вторая часть лекции посвящена важности мониторинга и обслуживания в проектах машинного обучения, в частности необходимости постоянного мониторинга и обновления моделей, чтобы обеспечить их хорошую работу в реальном мире. Лектор обращается к проблеме изменения данных, которая может привести к потере точности моделей машинного обучения, и подчеркивает необходимость постоянного мониторинга, сбора данных и перепроектирования моделей, чтобы модели продолжали работать эффективно. В лекции также обсуждается влияние использования системы без машинного обучения по сравнению с обученной нейронной сетью в системе обнаружения голосовой активности и предполагается, что правила, закодированные вручную, как правило, более устойчивы к изменению данных. Лектор делает вывод о необходимости уделять пристальное внимание конфиденциальности данных и получать согласие пользователей при сборе данных для переобучения моделей.

  • 00:00:00 В этом разделе видео инструктор представляет идею проектов глубокого обучения полного цикла, объясняя шаги, необходимые для создания успешного приложения машинного обучения, помимо простого построения модели нейронной сети. Он использует пример создания голосового устройства и объясняет, что первым шагом является выбор проблемы, такой как использование обучения с учителем для создания приложения. Он также упоминает о предстоящем проекте, над которым будут работать студенты, который включает в себя внедрение устройства с голосовым управлением в качестве задачи, поставленной позже в этом квартале.

  • 00:05:00 В этом разделе лекции спикер обсуждает ключевые компоненты, участвующие в создании голосового устройства с использованием глубокого обучения, которое включает в себя алгоритм обучения, обнаруживающий триггерные слова, такие как «Alexa», «OK Google», «Привет, Siri» или «Активировать». Докладчик описывает важные этапы создания продукта машинного обучения, начиная с выбора проблемы, получения размеченных данных, проектирования модели, ее тестирования на тестовом наборе, ее развертывания и обслуживания системы. Спикер подчеркивает, что обучение модели часто является итеративным процессом, и что создание отличной модели требует сосредоточения внимания на первом, шестом и седьмом шагах в дополнение к основе машинного обучения.

  • 00:10:00 В этом разделе лекции спикер обсуждает свойства хорошего кандидата проекта глубокого обучения. Он использует пример устройства, активируемого голосом, и рассказывает о том, что такие устройства, как Echo и Google Home, которые потенциально могут активироваться голосом, сложно настроить из-за необходимости настраивать их для Wi-Fi. Он предлагает решение этой проблемы с помощью встроенного устройства, которое может быть продано производителям ламп, которое включает в себя встроенный микрофон и может включаться и выключаться с помощью простой голосовой команды самой лампе. Спикер упоминает, что этот проект требует создания алгоритма обучения, который может работать на встроенном устройстве и определять слово пробуждения для включения и выключения лампы. Он также предлагает дать имена этим устройствам, чтобы избежать двусмысленности. Спикер указывает, что, хотя он не работал над этим проектом, он мог бы стать разумным продуктом для стартапов.

  • 00:15:00 В этом разделе видео ведущий спрашивает аудиторию, на какие свойства они обычно обращают внимание при выборе идеи проекта глубокого обучения. Затем он делится своим собственным списком из пяти ключевых моментов, которые следует учитывать при мозговом штурме проектных идей. Начало отрезка отвлекают технические трудности с автоответчиком, но в конце концов ведущий переходит к теме, побуждая аудиторию задуматься о собственных идеях и приоритетах.

  • 00:20:00 В этом разделе видео профессор Нг делится своими пятью пунктами о том, как выбрать проект глубокого обучения. Он советует студентам выбирать то, что им действительно интересно, и учитывать доступность данных. Кроме того, они должны использовать свои знания в предметной области, чтобы применять методы машинного обучения к уникальным аспектам своих областей, внося уникальный вклад. Кроме того, он призывает выбирать проект, который может оказать положительное влияние и принести пользу людям, не обязательно сосредотачиваясь на деньгах. Наконец, он подчеркивает, что осуществимость является решающим фактором в оценке жизнеспособности любого проекта или идеи машинного обучения. Профессор Нг также приводит пример врачей и студентов-радиологов, заинтересованных в глубоком обучении, напоминая им, что использование их знаний в области медицинской радиологии может внести более уникальный вклад, чем просто начинать с нуля.

  • 00:25:00 В этом разделе инструктор обсуждает важность выбора подходящего проекта и получения данных для обучения алгоритма глубокого обучения. Он предлагает сценарий, в котором студентам необходимо обучить алгоритм глубокого обучения для обнаружения определенных фраз для стартап-проекта, и предлагает им оценить количество дней, необходимых для сбора данных с использованием метода последовательности Фибоначчи. Студентов также просят описать, как они будут собирать необходимые данные. Возникают технические трудности с ноутбуком ведущего, в качестве альтернативы предлагается использование браузера Firefox.

  • 00:30:00 В этом разделе видео инструктор просит студентов обсудить друг с другом в небольших группах и придумать наилучшую стратегию сбора данных и решить, сколько дней потратить на сбор данных. Он предлагает подумать, сколько времени им потребуется на обучение своей первой модели и сколько времени они хотят потратить на сбор данных. Инструктор предупреждает, что если обучение первой модели займет день или два, возможно, они захотят потратить меньше времени на сбор данных. Он советует студентам поговорить со своими партнерами по проекту, чтобы разработать план сбора данных.

  • 00:35:00 В этом разделе инструктор обсуждает важность сбора данных для проверки работы алгоритма перед сбором следующего набора данных при работе над проектами машинного обучения. Инструктор предлагает потратить 1-2 дня на сбор данных и приобрести дешевый микрофон для сбора данных, обойдя кампус Стэнфорда или пообщавшись с друзьями и попросив их произнести разные ключевые слова. Он отмечает, что трудно понять, что будет сложно, а что легко в проблеме при создании новой системы машинного обучения. Поэтому важно начать с рудиментарного алгоритма обучения, чтобы начать работу.

  • 00:40:00 В этом разделе спикер рассказывает о важности быстрого сбора данных и итерации при разработке машинного обучения. Он советует не тратить слишком много времени на сбор данных и предлагает сначала начать с меньшего набора данных, чтобы понять, что необходимо. Крайне важно вести четкие записи о проведенных экспериментах и деталях каждой модели, чтобы исследователи могли вернуться к предыдущим экспериментам, а не проводить их снова. Кроме того, он рекомендует выполнить поиск литературы, чтобы увидеть, какие алгоритмы другие используют в конкретной области, но предупреждает, что в некоторых областях литература может быть незрелой.

  • 00:45:00 В этом разделе лектор обсуждает важность хороших заметок на протяжении всего процесса глубокого обучения, от сбора данных и проектирования модели до развертывания. Он использует пример развертывания системы распознавания речи на периферийных устройствах (таких как умные колонки), чтобы подчеркнуть проблемы работы большой нейронной сети на маломощных процессорах с ограниченным бюджетом вычислений и мощности. К
    Чтобы решить эту проблему, используется более простой алгоритм, чтобы определить, говорит ли кто-нибудь, прежде чем передать аудиоклип в более крупную нейронную сеть для классификации. Этот более простой алгоритм известен как обнаружение голосовой активности (VAD) и является стандартным компонентом многих систем распознавания речи, в том числе используемых в мобильных телефонах.

  • 00:50:00 В этом разделе лекции профессор ставит вопрос о том, использовать ли систему обнаружения голосовой активности, не основанную на машинном обучении, или обучить небольшую нейронную сеть распознавать человеческую речь для проекта. Он отмечает, что небольшую нейронную сеть можно запустить с небольшим вычислительным бюджетом, и предполагает, что легче определить, говорит ли кто-то, чем распознать произнесенные им слова. Студенты в классе придерживаются разных мнений: некоторые утверждают, что первый вариант проще и проще в отладке, а второй лучше подходит для обнаружения шума от таких вещей, как лай собак или шепот людей.

  • 00:55:00 В этом разделе лектор обсуждает два варианта реализации речевой активации, что является проблемой, возникающей у умных колонок при наличии фонового шума. Первый вариант — это простое и быстрое решение, которое можно реализовать за 10 минут и которое включает в себя фильтрацию фонового шума с помощью нескольких строк кода. Второй вариант более сложен и требует создания большой нейронной сети для работы в шумной среде. В то время как второй вариант может быть необходим для крупных компаний, производящих умные колонки, небольшие команды стартапов могут извлечь выгоду, начав с первого варианта и инвестируя во второй вариант только тогда, когда это станет необходимо. Также лектор освещает проблему изменения данных при отгрузке продукта и предлагает практические идеи по ее решению.
  • 01:00:00 В этом разделе спикер обсуждает практическую слабость машинного обучения, которую часто игнорируют в научных кругах — проблему изменения данных. Когда модели машинного обучения обучаются на определенном наборе данных, они могут плохо работать при изменении данных, таких как новые классы пользователей с акцентом, другой фоновый шум или новые события, такие как президентский скандал. Приведенные примеры включают веб-поиск, беспилотные автомобили и заводские инспекции. Эта проблема подчеркивает необходимость постоянного мониторинга, сбора данных и изменения модели, чтобы гарантировать, что платформы машинного обучения продолжают работать в реальном мире.

  • 01:05:00 В этом разделе класс обсуждает, какая система будет более надежной для VAD, обнаружения голосовой активности, между подходом без машинного обучения и обученной нейронной сетью. Большинство класса проголосовало за систему без ML. Однако оказывается, что обучение небольшой нейронной сети речи с американским акцентом повышает вероятность того, что нейронная сеть уловит определенные особенности американского акцента, что делает ее менее надежной в обнаружении речи с британским акцентом. Класс приходит к выводу, что если закодированное вручную правило работает достаточно хорошо, оно, как правило, более надежно для сдвига данных и часто лучше обобщает, хотя алгоритмы машинного обучения необходимы, когда такого правила нет.

  • 01:10:00 В этом разделе лектор обсуждает идею о том, что меньшее количество параметров в модели может привести к лучшему обобщению, что подтверждается строгой теорией обучения. Затем он задает вопрос о том, какой тип развертывания, облачный или периферийный, упрощает обслуживание модели, учитывая, что мир постоянно меняется и могут потребоваться обновления. Дав аудитории время на ввод ответов, большинство ответило, что облачные развертывания упрощают обслуживание благодаря возможности отправлять обновления и получать все обработанные данные в одном центральном месте, хотя и с проблемами конфиденциальности и безопасности пользователей.

  • 01:15:00 В этом разделе спикер обсуждает важность мониторинга и обслуживания при развертывании проектов машинного обучения. Они подчеркивают, что важно отслеживать производительность и обратную связь модели, а также учитывать любые изменения, необходимые для повышения ее точности, или при необходимости переобучить модель. Они также предполагают, что компании настраивают процессы обеспечения качества, используя статистическое тестирование, чтобы гарантировать, что модель продолжает работать, даже если есть обновления или изменения. Кроме того, они подчеркивают важность соблюдения конфиденциальности пользователей и получения согласия пользователей при сборе данных для обратной связи и переобучения модели.
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 3 - Full-Cycle Deep Learning Projects
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 3 - Full-Cycle Deep Learning Projects
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttps://stanford.io/3eJW8yTAndrew NgAdjunct Professor, Computer ScienceKian K...
 

Лекция 4 - Противоборствующие атаки / GAN




Stanford CS230: глубокое обучение | Осень 2018 | Лекция 4 - Противоборствующие атаки / GAN

Эта лекция знакомит с концепцией состязательных примеров, которые представляют собой входные данные, которые были слегка изменены, чтобы обмануть предварительно обученную нейронную сеть. В лекции объясняется теоретическая основа того, как работают эти атаки, и обсуждаются вредоносные приложения, использующие враждебные примеры в глубоком обучении. В лекции также представлены генеративно-состязательные сети (GAN) как способ обучения модели, которая может генерировать изображения, которые выглядят как настоящие, и в лекции обсуждается функция стоимости для генератора в модели GAN. Лекция завершается объяснением логарифмического графика выходных данных D на сгенерированном примере.

Лекция охватывает различные темы, связанные с генеративно-состязательными сетями (GAN), в том числе советы и рекомендации по обучению GAN и их приложений в преобразовании изображения в изображение и непарным генеративно-состязательным сетям с использованием архитектуры CycleGAN. Также обсуждается оценка GAN, причем такие методы, как человеческие аннотации, классификационные сети, а также начальная оценка и начальное расстояние Фреше, являются популярными методами проверки реалистичности сгенерированных изображений.

  • 00:00:00 В этом разделе инструктор вводит понятие состязательных атак на нейронные сети и ставит цель найти входное изображение, которое не является игуаной, но классифицируется как игуана предварительно обученной сетью. Инструктор объясняет, что у нейронных сетей есть слепые зоны, которые делают их уязвимыми для этих атак, и обсуждает теоретическую основу того, как работают эти атаки. Преподаватель подчеркивает, что эта тема носит более теоретический характер, и перечисляет рекомендуемую литературу для дальнейшего понимания.

  • 00:05:00 В этом разделе спикер обсуждает процесс генерации состязательных примеров с использованием функции потерь, которая минимизирует разницу между ожидаемым и неожидаемым результатом. Функция потерь может быть L1, L2 или кросс-энтропийной, в зависимости от того, что лучше работает на практике. Затем изображение итеративно оптимизируется с использованием градиентного спуска, пока оно не будет классифицировано как желаемый результат. Однако результирующее изображение может не обязательно выглядеть как желаемое на выходе из-за огромного пространства возможных входных изображений, которое может видеть сеть, которое значительно больше, чем пространство реальных изображений.

  • 00:10:00 В этом разделе лектор обсуждает злонамеренные применения состязательных примеров в глубоком обучении, где злоумышленники могут использовать эти примеры, чтобы обманом заставить нейронные сети неверно интерпретировать входные данные. Например, злоумышленник может использовать враждебный пример, чтобы заставить изображение своего лица выглядеть как чужое, взломать CAPTCHA или обойти алгоритмы, обнаруживающие насильственный контент в социальных сетях. Затем лектор объясняет, как ограничение задачи оптимизации может сделать состязательные примеры более опасными, когда изображение, которое для людей выглядит как кошка, может быть интерпретировано нейронной сетью как игуана, что имеет значение для беспилотных автомобилей и других реальных вещей. Приложения. Наконец, обсуждается исходное изображение, используемое для задачи оптимизации, при этом лектор предлагает начать с изображения целевого объекта, что может быть наиболее эффективной стратегией.

  • 00:15:00 В этом разделе спикер обсуждает использование ошибки RMSE в качестве функции потерь и то, как это может быть неточным способом оценить, считает ли человек два изображения похожими. Они также решают задачу создания сложной функции потерь, которая берет группу кошек и устанавливает минимальное расстояние между ними. Затем спикер переходит к разговору о состязательных примерах и о том, как пространство изображений, которые кажутся людям реальными, на самом деле больше, чем пространство реальных изображений. Спикер продолжает объяснять нецелевые и целевые атаки и то, как знания злоумышленника являются важным фактором при рассмотрении различных типов атак.

  • 00:20:00 В этом разделе лекции профессор обсуждает способы атаки на модель черного ящика для состязательных атак. Одна из идей состоит в том, чтобы использовать численный градиент для оценки того, как меняются потери, когда изображение слегка возмущено. Другой концепцией является переносимость, когда состязательный пример, созданный для одной модели, может также обмануть другую аналогичную модель. Профессор упоминает потенциальные средства защиты, такие как создание модели «безопасной сети» для фильтрации враждебных примеров и объединение нескольких сетей с различными функциями потерь. Другой подход состоит в том, чтобы тренироваться на состязательных примерах вместе с обычными примерами, но это может быть дорого и может не обязательно распространяться на другие состязательные примеры.

  • 00:25:00 В этом разделе лектор обсуждает сложность использования состязательных примеров в оптимизации градиентного спуска. Процесс включает в себя распространение x по сети для вычисления первого члена, создание состязательного примера с помощью процесса оптимизации, вычисление второго члена путем распространения состязательного примера, а затем использование обратного распространения для обновления весов сети. Техника логит-спаривания также кратко упоминается как еще один метод состязательного обучения. Также поднимаются теоретические взгляды на уязвимость нейронных сетей для враждебных примеров, при этом ключевой аргумент заключается в том, что причиной существования враждебных примеров являются линейные части сетей, а не высокая нелинейность и переобучение.

  • 00:30:00 В этом разделе спикер обсуждает концепцию состязательных примеров и то, как изменить ввод таким образом, чтобы он радикально изменил вывод сети, оставаясь при этом близким к исходному вводу. Выступающий использует производную от y-hat по x и определяет значение возмущения, эпсилон, и показывает, что, добавляя epsilon*w-transpose к x, мы можем немного сдвинуть x, что помогает соответствующим образом изменить вывод. . Докладчик подчеркивает, что термин w*w-transpose всегда положителен, и мы можем сделать это небольшое изменение, изменив эпсилон на небольшое значение.

  • 00:35:00 В этом разделе лектор обсуждает пример того, как создать состязательную атаку, вычислив небольшое изменение x, называемое x-star, которое сдвигает y-шляпу, вывод нейронной сети, с -4 до 0,5. Лектор отмечает, что если W велико, x-звезда будет отличаться от x, а если вместо W использовать знак W, то результат всегда будет смещать член x в положительную сторону. Кроме того, по мере увеличения размера x увеличивается влияние положительного знака эпсилон W.

  • 00:40:00 В этом разделе спикер обсуждает метод, называемый методом быстрого градиентного знака, который представляет собой общий способ создания состязательных примеров. Этот метод линеаризует функцию стоимости вблизи параметров и используется для перемещения пиксельных изображений в одном направлении, что значительно повлияет на результат. Спикер объясняет, что этот метод работает как для линейных, так и для более глубоких нейронных сетей, поскольку исследование сосредоточено на линеаризации поведения этих сетей. Кроме того, спикер обсуждает, как цепное правило используется для вычисления производной функции потерь, и важность наличия высокого градиента для обучения параметров нейрона.

  • 00:45:00 В этом разделе видео представлена концепция генеративно-состязательных сетей (GAN) как способ обучения модели, которая может генерировать изображения, которые выглядят так, как будто они настоящие, даже если они никогда не существовали раньше. Цель состоит в том, чтобы сеть поняла основные особенности набора данных и научилась генерировать новые изображения, соответствующие реальному распределению. Минимаксная игра ведется между двумя сетями: генератором и дискриминатором. Генератор начинает с вывода случайного изображения и использует обратную связь от дискриминатора, чтобы научиться генерировать более реалистичные изображения. GAN сложно обучать, но цель генератора состоит в том, чтобы научиться имитировать реальное распределение изображений с меньшим количеством параметров, чем количество доступных данных.

  • 00:50:00 В этом разделе инструктор знакомит с концепцией генеративно-состязательных сетей (GAN) и с тем, как их можно обучать с помощью обратного распространения. GAN состоит из генератора и дискриминатора, при этом дискриминатор пытается определить, является ли изображение реальным или поддельным. Затем генератор генерирует поддельные изображения и пытается обмануть дискриминатор, заставив их думать, что они настоящие. Дискриминатор обучается с использованием бинарной кросс-энтропии, при этом реальные изображения помечаются как единица, а сгенерированные изображения помечаются как ноль. Функция потерь для дискриминатора — это JD, которая имеет два термина: один правильно помечает реальные данные как единицу, а другой представляет собой двоичную кросс-энтропию.

  • 00:55:00 В этом разделе инструкторы рассказывают о функции стоимости генератора в модели GAN. Целью генератора является создание реалистичных выборок, которые обманывают дискриминатор, и функция стоимости должна это отражать. Однако, поскольку это игра, и D, и G должны улучшаться вместе, пока не будет достигнуто равновесие. Функция стоимости для генератора указывает, что дискриминатор должен классифицировать сгенерированные изображения как «единицу», и это достигается изменением знака градиента. Преподаватели также обсуждают логарифмический график выходных данных D, когда им дается сгенерированный пример.
  • 01:00:00 В этом разделе инструктор обсуждает проблему с функцией стоимости генератора и то, как она стремится к отрицательной бесконечности, из-за чего градиент становится очень большим, когда он приближается к единице. Вместо этого он предлагает использовать ненасыщающую функцию стоимости, которая имеет более высокий градиент при приближении к нулю, и преобразует текущую функцию стоимости в эту ненасыщающую функцию стоимости с помощью математического трюка. Ненасыщающая функция стоимости имеет высокий градиент в начале, когда дискриминатор лучше генератора, что обычно и происходит в начале обучения.

  • 01:05:00 В этом разделе спикер обсуждает советы и рекомендации по обучению GAN, включая изменение функции стоимости, обновление дискриминатора больше, чем генератора, и использование Virtual BatchNorm. Спикер также показывает примеры впечатляющих результатов GAN, в том числе использование генератора для создания лиц с рандомизированным кодом и выполнение линейных операций в скрытом пространстве кодов для прямого воздействия на пространство изображения. Кроме того, докладчик демонстрирует, как GAN можно использовать для преобразования изображения в изображение для создания спутниковых изображений на основе изображений карты и преобразования между различными объектами, такими как зебры и лошади или яблоки и апельсины.

  • 01:10:00 В этом разделе инструктор обсуждает использование непарных генеративно-состязательных сетей для преобразования лошадей в зебр и наоборот. Используемая архитектура называется CycleGAN и включает два генератора и два дискриминатора. Генераторы обучены преобразовывать изображение из исходного домена в целевой домен, а затем обратно в исходный домен. Это важно для соблюдения ограничения, согласно которому лошадь должна быть такой же лошадью, как и зебра, и наоборот. Используемые функции потерь включают в себя классические функции стоимости, рассмотренные ранее, и дополнительные члены, обеспечивающие соответствие между исходным и сгенерированным изображениями.

  • 01:15:00 В этом разделе видео спикеры обсуждают различные приложения GAN, в том числе использование стоимости цикла для улучшения функций потерь для условных GAN, возможность генерировать изображения на основе краев или изображений с низким разрешением, а также возможность использования GAN в наборах медицинских данных, сохраняющих конфиденциальность, и в персонализированном производстве таких объектов, как кости и зубные протезы. Выступающие также рассказали о созданных забавных приложениях, таких как преобразование рамена в лицо и обратно и создание кошек на основе краев.

  • 01:20:00 В этом разделе лектор обсуждает оценку GAN и как проверить, реалистичны ли сгенерированные изображения или нет. Одним из методов является человеческая аннотация, при которой создается программное обеспечение, и пользователей просят указать, какие изображения являются поддельными, а какие — реальными. Другой метод заключается в использовании сети классификации, такой как начальная сеть, для оценки изображений. Лектор также упоминает начальную оценку и начальное расстояние Фреше как популярные методы оценки GAN. Наконец, лектор напоминает студентам о предстоящих викторинах и заданиях по программированию и советует им просмотреть видеоролики BatchNorm.
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 4 - Adversarial Attacks / GANs
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 4 - Adversarial Attacks / GANs
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...
Причина обращения: