Машинное обучение и нейронные сети - страница 20

 

Мега-Р1. Системы, основанные на правилах



Мега-Р1. Системы, основанные на правилах

В этом видео основное внимание уделяется мегачтению, которое представляет собой лекцию в стиле учебника, помогающую студентам работать с материалом, изложенным в лекциях и декламациях. Видео охватывает несколько тем, связанных с системами, основанными на правилах, включая обратную цепочку, прямую цепочку, порядок разрешения конфликтов для правил и процесс сопоставления. Процесс обратной цепочки включает в себя просмотр следствия правила и добавление антецедентов по мере необходимости для достижения главной цели, а устранение разногласий и устранение неоднозначности имеют решающее значение для дерева целей. В видео также обсуждаются прямые цепочки и правила сопоставления утверждений с использованием серии утверждений. Докладчик подчеркивает важность проверки утверждений перед использованием правила и избегания бессильных правил, которые ничего не делают. Процесс сопоставления включает использование обратной цепочки для определения того, какие правила соответствуют заданным утверждениям, и система будет отдавать приоритет правилам с меньшими номерами, независимо от того, новые они или нет.

  • 00:00:00 В этом разделе Марк Сейфтер представляет концепцию мегачтения, которая представляет собой лекцию в стиле учебника, предназначенную для того, чтобы помочь студентам работать с материалом, изложенным в лекциях и декламациях. Цель состоит в том, чтобы помочь учащимся понять и работать с алгоритмами, которые имеют решающее значение для класса, и продемонстрировать свое понимание в ходе викторин. Основное внимание уделяется прошлогодней задаче викторины, из-за которой многие студенты споткнулись, и Маркс перебирает уловки, которые их поймали, в надежде предотвратить повторение этих ошибок. Наконец, он объясняет разницу между двумя обозначениями, фиксированной и префиксной, для написания правил, и почему учащиеся должны знать о них.

  • 00:05:00 В этом разделе мы узнаем о шести правилах, помеченных буквами P, каждое из которых имеет соответствующий оператор if-then. Первое правило гласит, что если X амбициозен, а X — пиропатрон, то у X плохой термин. Знак вопроса в X или Y указывает на переменную, ожидающую связывания. Для определения привязки этих переменных будет использоваться обратная и прямая цепочка. Нам также даются четыре утверждения для работы, в том числе Миллисент, живущая в подземелье Слизерина, и Симус, находящийся в башне Гриффиндора и помечающий Миллисент. Подчеркивается важность проверки утверждений перед использованием правила, поскольку в прошлом году некоторые люди споткнулись об эту ошибку.

  • 00:10:00 В этом разделе ведущий объясняет концепцию обратной цепочки и выделяет ее отличия от прямой цепочки. Работая над гипотезой, обратная цепь пытается найти совпадающее утверждение в списке утверждений, и если совпадения нет, он попытается найти правило с совпадающим консеквентом. Ведущий приводит примеры простых задач, а затем решает реальную задачу, в которой Миллисент становится подругой Гермионы. На протяжении всего примера ведущий подчеркивает важность разрешения конфликтов и устранения неоднозначности в дереве целей.

  • 00:15:00 В этом разделе видео обсуждается процесс обратной цепочки в системах, основанных на правилах. Обратная цепочка включает просмотр следствия правила и добавление антецедентов по мере необходимости для достижения главной цели. Видео подчеркивает важность поиска того, что имеет текущую цель в своем последствии, и поиска его в утверждениях перед проверкой других правил. Процесс включает поиск в глубину, начиная с левого узла и перемещаясь вниз, если есть какие-либо дочерние элементы, и поиск правила, соответствующего текущей цели. В видео также объясняется, как правильно добавлять узлы в дерево целей, например, конечный узел с узлом или внизу.

  • 00:20:00 В этом разделе спикер обсуждает поиск в глубину, используя древовидную диаграмму, чтобы определить, является ли Миллисент главным героем или злодеем, в конечном итоге пытаясь доказать, что она злодейка. Сначала они следуют левой ветви и пытаются найти правило относительно того, является ли Миллисент главным героем. Поскольку нет ни одного правила, соответствующего их критерию, они возвращаются к узлу «или» и возвращаются к тому, что Миллисент является злодеем. Несмотря на то, что этого нет в утверждениях, они следуют за ветвью, чтобы увидеть, есть ли правило с его следствием. В конце концов, они находят правило, согласно которому Миллисент — злодейка, но она должна продолжать искать окончательный ответ.

  • 00:25:00 В этом разделе спикер объясняет целеустремленность обратного цепника и его отсутствие заботы о других утверждениях или антецедентах. Обратный цепник только стремится доказать возможность того, что Миллисент может быть злодеем, и его не волнуют другие последствия, такие как амбициозность Миллисент. Отмечается, что это может привести к ненужным вычислениям, но это простой и эффективный способ кодирования системы. Обсуждается потенциальное использование хеш-таблицы, но делается вывод, что оно не стоит дополнительных усилий.

  • 00:30:00 В этом разделе класс обсуждает реализацию хэш-таблицы для увеличения скорости работы системы, основанной на правилах. Однако с этим подходом связаны некоторые потенциальные проблемы, поскольку он теряет порядок, в котором срабатывают утверждения в таблице, а некоторые правила зависят от порядка этих утверждений. В лекции также рассматривается вопрос из толпы о разрешении правила, когда есть утверждение, которое утверждает противоположное тому, что утверждалось ранее, и как решить эту проблему. Класс приходит к выводу, что именно поэтому у них нет утверждений об удалении в викторинах и что они не добавляют утверждений, а вместо этого проверяют все вещи в дереве целей до тех пор, пока они не будут доказаны или опровергнуты.

  • 00:35:00 В этом разделе спикер быстро проходит оставшиеся части примера Миллисент, главной героини, и того, как использовать системы, основанные на правилах, чтобы определить, станет она другом Гермионы или нет. Это включает в себя ответы на несколько вопросов, таких как определение минимального количества дополнительных утверждений, необходимых для того, чтобы Миллисент стала другом Гермионы, без добавления утверждения, которое соответствует следствию правила. В разделе также рассматривается необычная ситуация, возникающая из-за добавления утверждения и необходимости исправить ее, удалив противоречивое утверждение. Наконец, кратко упоминается обратная цепочка, и спикер просит аудиторию решить проблему, связанную с привязкой переменных, где цель состоит в том, чтобы определить, есть ли у Миллисент плохой термин.

  • 00:40:00 В этом разделе рассказчик обсуждает прямую цепочку, которая включает добавление новых утверждений по мере их поступления, а также порядок тай-брейка для правил. Порядок тай-брейка для правил — от 0 до 5, и если одно и то же правило может срабатывать с несколькими разными утверждениями, правила используются в порядке номеров. Рассказчик демонстрирует, как сопоставлять правила с утверждениями, используя серию утверждений, и как можно запустить правило. Рассказчик также говорит нам, что бессильные правила или правила, которые ничего не делают, не должны запускаться, а вместо этого следует перейти к следующему правилу в порядке. Наконец, рассказчик объясняет, как они сопоставили правила и утверждения и как добавили новые утверждения.

  • 00:45:00 В этом разделе видео спикер обсуждает процесс сопоставления для систем, основанных на правилах. Приведенный пример представляет собой вопрос викторины с пронумерованными правилами и утверждениями. Система использует обратную цепочку, чтобы определить, какие правила соответствуют заданным утверждениям, и в этом случае совпадают только правила 1, 2, 3 и 5. Спикер также отвечает на вопрос о том, должны ли новые утверждения с более низким номером правила обрабатываться в первую очередь, объясняя, что система будет отдавать приоритет правилам с более низким номером независимо от того, новые они или нет.
 

Мега-Р2. Базовый поиск, оптимальный поиск



Мега-Р2. Базовый поиск, оптимальный поиск

В этом видео на YouTube рассматриваются различные алгоритмы и методы поиска, включая поиск в глубину, поиск в ширину, оптимальный поиск и алгоритм A*. В видео используется забавный пример злого повелителя Марка Вейдера, ищущего новую крепость, чтобы проиллюстрировать эти концепции. Докладчик подчеркивает важность допустимости и согласованности при поиске по графу и объясняет использование расширенных списков для предотвращения повторной оценки узлов. В видео рассматриваются распространенные ошибки и вопросы аудитории, а также побуждает зрителей задавать дополнительные вопросы. В целом, видео представляет собой подробное введение в эти алгоритмы и методы поиска.

  • 00:00:00 В этом разделе видео рассказывает о проблеме Злого Повелителя Марка Вейдера, ищущего новую твердыню, используя методы начального поиска, которые он изучил в классе. Вейдер начинает со своей нынешней крепости, звезды поиска в глубину, и хочет добраться до крепости 6:03, у которой нет слабостей и есть все желаемые функции, такие как порабощенные миньоны, акулы с лазерными лучами и отличный путь к отступлению. Видео представляет собой график вариантов исследования, где ребра соединяются с твердынями, отличающимися всего одним признаком, и зрителям предлагается несколько методов поиска, в том числе надежный, но более медленный подход и быстрый, но более подверженный ошибкам подход.

  • 00:05:00 В этом разделе ведущий видео обсуждает различные подходы к решению поиска в глубину. Хотя существует очень быстрый подход, он более подвержен ошибкам и обычно не используется. Вместо этого ведущий рекомендует использовать дерево целей и начинать с начального узла и заканчивать целевым узлом, что немного быстрее, чем составление всей повестки дня. Ведущий также объясняет концепцию лексикографии и то, как она используется для разрыва связей в алфавитном порядке во время поиска. Кроме того, видео предостерегает от укуса собственного хвоста, что является распространенной ошибкой при реализации правил в системе. Наконец, докладчик подчеркивает важность того, чтобы один и тот же узел не появлялся дважды в одном и том же пути, поскольку это может привести к ошибкам.

  • 00:10:00 В этом разделе спикер объясняет, как решить задачу с поиском в глубину, используя дерево целей вместо очереди. Они начинают с узла s и просят аудиторию помочь определиться с выбором в этом узле. Спикер подчеркивает важность проверки подключения и прочтения инструкций. Они используют лексикографический тай-брейк, чтобы решить, к какому узлу идти дальше, и возвращаются, когда заходят в тупик. Они также предостерегают от ошибки двойного подсчета возвратов и напоминают аудитории, чтобы они обращали внимание на то, сколько раз они возвращаются назад.

  • 00:15:00 В этом разделе спикер объясняет важность алгоритма при проведении поиска, так как он может повлиять на количество шагов, необходимых для поиска решения. Они также обсуждают технику возврата и советуют, как отслеживать ее во время поиска. Затем оратор переходит к демонстрации того, как выполнять поиск в глубину, и предлагает быстрый способ решения вопроса о поиске в ширину. Они подчеркивают, что путь, найденный при поиске в ширину, гарантированно имеет наименьшее количество переходов, и дают указание расширять граф уровень за уровнем слева направо. Наконец, спикер поясняет использование ранжирования типов при поиске в ширину.

  • 00:20:00 В этом разделе спикер подчеркивает важность несортировки путей в очереди для используемого в видео алгоритма поиска. Они объясняют, что поиск по первому наилучшему разрывает связи только тогда, когда достигает узла, и что они всегда добавляют все в конец очереди, что означает, что им не нужно возвращаться. Они также упоминают, что хотя графический порядок и играет роль в поиске, он делает это очень тонко и исподтишка. Наконец, они обсуждают возможность поиска в ширину с расширенным списком, который можно использовать для предотвращения повторной оценки программой узлов, которые она уже посетила.

  • 00:25:00 В этом разделе видео спикер обсуждает оптимальный поиск на примере Марка, пытающегося найти кратчайший путь из своей текущей вселенной в свою целевую вселенную с различными затратами энергии между вселенными. График включает расстояния и эвристические значения, заданные для каждого узла, и выступающий объясняет, что алгоритм будет использовать эвристические значения для направления поиска к целевому узлу, а также учитывать фактическую стоимость достижения каждого узла. Используемый алгоритм представляет собой алгоритм A-star, который расширяет узлы с наименьшей совокупной фактической и эвристической стоимостью. Докладчик также объясняет важность использования расширенного списка для предотвращения повторения поиска и отвечает на вопрос о порядке добавления узлов в поиск.

  • 00:30:00 В этом разделе Марк представляет концепцию программирования кратчайшего количества прыжков по вселенной, которые приведут его к цели, не затрачивая слишком много энергии. Он объясняет свой простой поиск по ветвям и границам, который похож на пиццу с сыром, в то время как поиск A-star похож на пиццу для любителей мяса с дополнительными начинками. Однако они могут влиять друг на друга, поэтому очень важно выбрать кратчайший путь на данный момент. В примере компьютер добавляет узел C в расширенный список, помечая его как единственный путь длиной 0. Длина SB равна 3, а стоимость пути равна 103, а f равно 4 со стоимостью из 14. Несмотря на игнорирование прерывателей в лексикографическом порядке, выбирается кратчайший путь, и как только B израсходован, он ведет к D с длиной 4, и, следовательно, обновленная длина пути к G равна 7.

  • 00:35:00 В этом разделе спикер продолжает алгоритм оптимального поиска, расширяя пути S, B, F и D. Затем путь E расширяется до H и A, и оказывается, что кратчайший путь — SFHIG. . Спикер также упоминает использование A-star как более эффективного алгоритма поиска и отвечает на вопросы аудитории о расширении узлов, которые уже есть в расширенном списке. Правильный ответ в конечном итоге достигается, несмотря на некоторую первоначальную путаницу в отношении того, соединяется ли путь с C и D.

  • 00:40:00 В этом разделе спикер обсуждает некоторые ошибки, допущенные в предыдущем разделе, из-за которых некоторые узлы были исключены из итогового созданного дерева. Он поясняет, что узел также должен перейти к «e», и что это имело бы значение, если бы они спросили, сколько раз узел был выполнен из-за того, что он не попал в расширенный список. Затем они переходят к обсуждению алгоритма A-star и расчета эвристических значений. Подчеркнуто, что важно не добавлять эвристические значения для каждого узла в списке, а вместо этого добавлять путь до конечного эвристического значения. Они также поясняют, что решение о расширении узла «G» является делом вкуса и деталью реализации, которая не потеряет баллы на наборе задач. Наконец, они решают поиск A-звезды, и окончательный победитель определяется как узел «D» со значением 57.

  • 00:45:00 В этом разделе видео обобщает алгоритм поиска под названием A* и показывает, как его оптимально использовать для поиска кратчайшего пути в графе. В видео обсуждается важность наличия допустимых эвристик в каждой точке графика. Допустимый означает, что оценка того, сколько работы осталось, всегда занижена или является точным прогнозом. Эвристика, которая является завышенной, заставит алгоритм думать, что ему нужно выполнить больше работы, чем необходимо, и может не исследовать важные узлы. В видео также говорится о согласованности, что означает, что расстояние между соседними узлами в графе меньше, чем разница в эвристике между этими узлами. В видео подчеркивается важность понимания этих понятий, поскольку они, вероятно, будут в викторине.

  • 00:50:00 В этом разделе спикер объясняет понятия допустимости и непротиворечивости при поиске по графу. Допустимость похожа на согласованность, но требует согласованности между каждым узлом и целевым узлом. Любой непротиворечивый граф всегда допустим, но не всякий допустимый граф непротиворечив. Расширенный список будет работать на допустимых графах, потому что он проверяет оценки для каждого узла до целевого узла. Однако, если оценки в узлах неверны, их обход не по порядку нарушает допущение, сделанное при принятии решения об использовании расширенного списка. Граф, представленный в видеоролике, искусно создан как целевой узел узкого места и содержит несоответствия между узлами, включая I и H, которые оказываются единственными несоответствиями, имеющими значение. Наконец, спикер призывает зрителей задавать любые вопросы, которые могут у них возникнуть по этой теме.
Mega-R2. Basic Search, Optimal Search
Mega-R2. Basic Search, Optimal Search
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Мега-Р3. Игры, Минимакс, Альфа-Бета



Мега-Р3. Игры, Минимакс, Альфа-Бета

В этом видео рассматриваются различные темы, связанные с теорией игр и минимаксным алгоритмом, в том числе обычный минимакс, добавления альфа-бета, сокращение альфа-бета, статическая оценка, прогрессивное углубление и переупорядочивание узлов. Инструктор дает объяснения и демонстрации этих концепций на примерах и просит аудиторию принять участие в определении значений в разных узлах дерева игры. Видео заканчивается обсуждением потенциальных недостатков эвристических функций и советами для предстоящей викторины.

  • 00:00:00 В этом разделе лектор вводит понятие игр и упоминает, что основное внимание будет уделено различным компонентам игр. Затем они переходят к объяснению обычного минимаксного алгоритма и тому, как вычислить минимаксное значение в определенной точке игрового дерева. На примере дерева игры лектор проводит аудиторию по алгоритму, и они определяют минимаксное значение в различных узлах. Также кратко упоминаются принцип Белоснежки и дедушкина оговорка.

  • 00:05:00 В этом разделе видео спикер объясняет альфа- и бета-дополнения к формуле минимакса в теории игр. Он сравнивает сложение этих цифр с холодной войной, когда каждая сторона пыталась найти наилучший возможный исход, готовясь к худшему. Альфа и бета представляют числа, которые обеспечивают отказоустойчивость или наихудший сценарий для каждой стороны. Спикер предполагает, что альфа-бета-поиск сложнее, чем минимаксный, и может быть проблемой для некоторых людей. Однако он также упоминает, что освоение альфа-бета-поиска может помочь в понимании и решении минимаксных задач.

  • 00:10:00 В этом разделе лектор объясняет концепцию альфы и беты как ядерных опций Максимайзера и Минимизатора соответственно. Установка альфы как отрицательной бесконечности и бета как положительной бесконечности создает отказоустойчивость, которая гарантирует, что и максимизатор, и минимизатор будут смотреть на первый путь, который они видят каждый раз. По мере продвижения алгоритма значения альфы и беты меняются в зависимости от потенциального исхода игры. Когда бета становится ниже, чем альфа, или альфа становится ниже, чем бета, алгоритм обрезает ветвь, сигнализируя, что один из игроков больше не хочет исследовать эту ветвь. Лектор также отмечает, что существуют разные способы отрисовки альфа- и бета-чисел в разных узлах дерева игры.

  • 00:15:00 В этом разделе спикер объясняет принцип Белоснежки, используемый в алгоритме альфа-бета. Принцип включает в себя наследование альфа- и бета-значений от родительских узлов, но выбор лучшего значения для себя при переходе к родительскому узлу. Также обсуждались значения альфа и бета по умолчанию, причем альфа — это отрицательная бесконечность, а бета — положительная бесконечность. Затем докладчик показывает пример сокращения альфа-бета и просит аудиторию определить значения альфа и бета в каждом узле дерева поиска. Подброшен вопрос с подвохом, чтобы подчеркнуть, что альфа-бета-алгоритм может избежать поиска определенных узлов на основе значений, унаследованных от родительских узлов.

  • 00:20:00 В этом разделе спикер объясняет принцип сокращения альфа-бета, который включает в себя отсечение ветвей дерева решений, которые вряд ли приведут к лучшему результату. Спикер приводит пример с вариантами ядерной атаки противника и определяет, какие варианты следует сократить, основываясь на принципе сокращения альфа-бета. Кроме того, динамик обеспечивает проверку работоспособности, чтобы определить, можно ли обрезать ветвь или нет, и способность Максимайзера определять, пропускать ветвь или нет, в отличие от минимизатора, который начинает с бесконечности в игре дерева решений.

  • 00:25:00 В этом разделе видео спикер обсуждает процесс определения значений альфа и бета в минимаксном алгоритме путем анализа значений в разных узлах дерева игры. Спикер объясняет, что при встрече с узлом-минимизатором значение бета устанавливается в положительную бесконечность, а при встрече с узлом-максимизатором значение альфа устанавливается в отрицательную бесконечность. Затем спикер использует определенные значения в игровом дереве, чтобы продемонстрировать, как работает алгоритм и как удаляются узлы, когда альфа-значение больше или равно бета-значению. Наконец, спикер обсуждает порядок, в котором узлы оцениваются в игровом дереве с использованием прогрессивного углубления.

  • 00:30:00 В этом разделе спикер объясняет концепцию статической оценки, которая, по сути, представляет собой функцию, отвечающую за присвоение числовых значений конечным узлам. Статический вычислитель присваивает эти значения нижней части листьев, а порядок оценки относится исключительно к листьям. Докладчик также объясняет принцип Белоснежки, согласно которому каждый узел начинает с получения значения того же типа от своего прародителя (альфа или бета). Максимизатор не имеет контроля над тем, какой путь выбрать; именно тот, кто минимизирует, выбирает, по какому пути идти. Концепция статической оценки имеет решающее значение для метода альфа-бета-отсечения, поскольку она помогает определить, следует ли исключить конкретный путь или нет. По сути, статическая оценка способствует повышению эффективности алгоритма, позволяя сократить альфа-бета, чтобы сэкономить больше времени, избавившись от нескольких статических оценок.

  • 00:35:00 В этом разделе спикер объясняет концепцию статических оценок, которые используются для оценки положения доски в таких играх, как шахматы. Оценка занимает много времени и требует тщательного анализа состояния игры. Листовые узлы дерева поиска называются статическими, потому что они являются эвристическими угадываниями значения на основе анализа состояния игры. Докладчик также представляет концепцию прогрессивного углубления в дереве, глубина которого составляет всего два уровня, и спрашивает, как можно переупорядочить дерево, чтобы позволить альфа-бета максимально обрезать.

  • 00:40:00 В этом разделе инструктор объясняет, как использовать минимаксный алгоритм для оптимизации процесса поиска лучшего узла путем переупорядочения ветвей на основе потенциального победителя, так как легче быстро отбросить все неправильные узлы, когда окончательный победитель выбирается первым. Преподаватель иллюстрирует эту концепцию, присваивая двоичное значение каждому конечному узлу и используя значения для вычисления окончательного победителя для каждого поддерева, таким образом находя оптимальный ход. Сочетание этого подхода с постепенным углублением значительно уменьшит количество узлов, которые необходимо оценить.

  • 00:45:00 В этом разделе лектор обсуждает прогрессивное углубление и возможность переупорядочивания узлов для улучшения сокращения альфа-бета. В то время как постепенное углубление может быть пустой тратой времени для небольших неветвящихся деревьев, оно необходимо для более крупных и сложных деревьев. Однако концепция переупорядочивания узлов на основе результатов постепенного углубления зависит от точности эвристической функции. Лектор подчеркивает, что ни одна эвристическая функция не идеальна, а ошибочная эвристическая функция может привести к худшим результатам при переупорядочивании узлов. Наконец, лектор объясняет, как можно кэшировать эвристические значения для непротиворечивых эвристических функций, например, в случаях, когда одно и то же эвристическое значение всегда будет связано с конкретным игровым состоянием, независимо от того, как это состояние было достигнуто.

  • 00:50:00 В этом разделе видео инструктор обсуждает потенциальные недостатки использования эвристики, которая всегда дает худший ход вместо лучшего. Хотя это может помочь минимизировать риски, это также может привести к наихудшей возможной обрезке, что приведет к отсутствию гарантированного успеха. Преподаватель упоминает, что предстоящая викторина будет интересной и будет включать в себя различные задачи. Тем не менее, он советует студентам не слишком напрягаться по этому поводу и наслаждаться выходными.
 

Мега-Р4. Нейронные сети



Мега-Р4. Нейронные сети

Видео охватывает различные аспекты нейронных сетей, в том числе их представления, путаницу с входными и выходными данными, сигмовидные и рабочие функции, веса и смещения, обратное распространение, изменение сигмовидных и рабочих функций, пороговые веса, визуализацию и потенциал нейронных сетей. Преподаватель объясняет различные формулы, необходимые для викторины, и как рекурсивно вычислять и корректировать дельты. Он также обсуждает типы нейронных сетей, необходимых для решения простых задач, и упоминает недавнее реальное применение нейронных сетей в соревновании по игре в Университете Мэриленда. Наконец, он упоминает, что, хотя нейронные сети потеряли популярность из-за их ограничений и сложностей в исследованиях, они по-прежнему полезны для викторин.

  • 00:00:00 В этом разделе Патрик представляет новый способ рисования нейронных сетей для задач 603. Он показывает два разных представления одной и той же нейронной сети и объясняет, почему тот, что справа, предпочтительнее. Он также обсуждает некоторые проблемы, с которыми студенты обычно сталкиваются при работе с нейронными сетями, такие как путаница с входными и выходными данными и подразумеваемое умножение с весами. Патрик предоставляет руководство по преобразованию для студентов, работающих со старыми викторинами, и работает с формулами, необходимыми для викторины. Наконец, он упоминает возможность изменения сигмовидной функции на другую функцию и советует студентам изменить ее на плюс, если это произойдет.

  • 00:05:00 В этом разделе инструктор объясняет сигмовидную функцию, которая представляет собой 1 на 1 плюс e до минус x, и ее важное свойство, где производная сигмовидной является сама. Также обсуждается функция производительности, которая сообщает нейронным сетям, насколько ошибочны их результаты. Они выбрали свою функцию предпочтения равной 1/2 D, которая представляет собой желаемый результат минус фактический результат в квадрате, и причина этого в том, что производная производительности отрицательна, что упрощает вычисление. Затем инструктор рассказывает об изменении сигмовидной функции на какую-либо другую функцию и анализе того, что происходит с функциями обратного распространения ошибки, особенно о новом расчете веса, который включает в себя постепенное изменение весов для достижения желаемого результата.

  • 00:10:00 В этом разделе спикер объясняет веса и смещения, используемые в нейронных сетях. Веса представлены такими именами, как «w1I» и «w2B», где «I» и «B» — узлы в сети. Смещения смещения всегда привязаны к -1, а значение альфы, которое определяет размер шагов восхождения, дается в викторинах. Входы в узлы представлены «I», и они умножаются на дельту, которая представляет собой изменение выхода нейронной сети из-за изменения удельного веса. Дельты рассчитываются с использованием частных производных, чтобы определить, насколько веса влияют на производительность сети.

  • 00:15:00 В этом разделе спикер обсуждает процесс использования производных и цепного правила для получения итоговых весов в последнем уровне нейронных сетей. Используется производная сигмовидной функции, и необходимо также учитывать веса в предыдущих слоях, чтобы вычислить дельты для новых весов. Докладчик предлагает рекурсивное решение, которое включает суммирование всех дочерних элементов данного узла, что, в свою очередь, влияет на результат. Этот процесс выполняется рекурсивно до тех пор, пока не будут получены дельты для конечных весов.

  • 00:20:00 В этом разделе инструктор обсуждает, как изменение сигмовидной функции и функции производительности может повлиять на уравнения, используемые в нейронной сети. Он объясняет, что если изменить сигмовидную функцию, изменится только уравнение Delta F, которое заменится новой производной сигмовидной функции. Точно так же, если функция производительности заменяется, необходимо скорректировать только уравнение Delta F. Затем инструктор продолжает объяснять разницу между пороговыми и обычными весами в нейронной сети и то, как они влияют на общую функцию сети.

  • 00:25:00 В этом разделе спикер рассказывает о том, как визуализировать нейронные сети и о том, как важно иметь представление, которое имеет смысл для эффективного решения задач. Он объясняет, как работает узел-сумматор и что его производная всего одна. Он предоставляет формулу для дельты F и дельты a и объясняет процесс для части B, который включает в себя вычисление выходных данных для нейронной сети и выполнение одношагового обратного распространения для нахождения новых весов. Он просит студентов задавать вопросы, чтобы прояснить их сомнения, поскольку он не сможет позвать всех, чтобы проверить, следуют ли они ему.

  • 00:30:00 В этом разделе видео обсуждаются новые веса для нейронной сети и то, что будет на выходе после одного шага обратного распространения. Новые веса были рассчитаны с использованием старых весов, константы скорости обучения и дельта-значений. В конечном итоге было определено, что результат равен 3. Затем в видео поднимается вопрос о том, что произойдет, если сеть будет обучена изучению заданных данных, и продолжается объяснение того, как нейронные сети могут рисовать линии на графиках для каждого из узлов в сети. Однако отмечается, что предсказать, что вытянет эта сеть, немного сложно.

  • 00:35:00 В этом разделе стенограммы спикер обсуждает нейронную сеть, которая сводится всего к одному узлу, поскольку она каждый раз суммируется и никогда не достигает порога, что делает ее аналоговой, а не цифровой. Упрощенная форма нейронной сети содержит узлы, представленные кругами, где каждый круг имеет сигмоид. Существует проблема, когда ABCDEF нужно сопоставить от одного до шести, используя каждое только один раз. Докладчик объясняет, что каждый сигмовидный узел может нарисовать на картинке одну линию, которая может быть диагональной, если он получает оба входа, или горизонтальной/вертикальной, если получен один вход. Узлы вторичного уровня могут выполнять логические логические операции, такие как и/или над первыми двумя. Затем оратор переходит к определению самой простой задачи, которой является проблема 6, и заключает, что существует однозначное сопоставление каждой сети с проблемой, которая может решить все шесть задач вместе.

  • 00:40:00 В этом разделе спикер обсуждает, насколько сложно создать X или нейронную сеть, потому что трудно различить два входа, которые должны быть высокими в одном узле. Однако есть много возможностей, и выступающий предлагает использовать узлы 3 и 4 для получения значений, а узел 5 — для предоставления пороговой комбинации, которая приводит к XOR. Спикер также объясняет, что спаривание двух горизонтальных линий, таких как B, невозможно, но поскольку D должен нарисовать одну горизонтальную и одну вертикальную линии, они должны использовать B для создания двух горизонтальных линий.

  • 00:45:00 В этом разделе спикер объясняет цель упражнения по рисованию нейронных сетей. Рисуя простые задачи, люди могут увидеть типы нейронных сетей, которые могут понадобиться для их решения. Это может помочь людям избежать проектирования нейронных сетей, которые слишком просты или слишком сложны для данной проблемы. Спикер также приводит пример недавнего реального применения нейронных сетей в соревновании по игре в Университете Мэриленда.

  • 00:50:00 В этом разделе видео спикер обсуждает потенциал нейронных сетей в обучении различным задачам и правилам. Он описывает эксперимент, в котором нейронную сеть обучали узнавать что-либо из набора случайных данных, и, хотя результаты эксперимента были неясны, другие участники исследования пытались найти фундаментальные свойства правил путем экспериментальной проверки. Далее спикер объясняет, что нейронные сети использовались во многих областях исследований, включая когнитивную науку и искусственный интеллект, однако они потеряли популярность из-за своих ограничений и сложностей. Несмотря на это, спикер упоминает, что они создают простые сети для викторин, хотя и уточняет, что любая реальная нейронная сеть, используемая сегодня в исследованиях, была бы слишком сложной для викторины.
Mega-R4. Neural Nets
Mega-R4. Neural Nets
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe begin by discussing neural net fo...
 

Мега-Р5. Опорные векторные машины



Мега-Р5. Опорные векторные машины

В видео рассказывается о машинах опорных векторов (SVM), которые определяют разделительную линию или границы решений в данных, находя опорные векторы, которые не совпадают с любой другой точкой данных. Он также включает использование функций ядра, которые позволяют ядру вычислять скалярное произведение без непосредственного манипулирования векторами. Профессор разъясняет цель поиска альф, обеспечивающих наилучшую W для самой широкой дороги, и то, как W является границей решения для SVM. Студенты спрашивают об интуиции, стоящей за SVM, и оптимизация, основанная на альфа-каналах, создает самый широкий путь для лучшей классификации данных. Ядро SVM также помогает оптимизировать процесс, делая его более эффективным.

  • 00:00:00 В этом разделе спикер представляет машины опорных векторов (SVM) и заявляет, что это одна из самых сложных вещей для изучения в курсе. Тем не менее, он объясняет, что теперь есть несколько доступных способов, которые могут помочь решить некоторые проблемы, не имея дело с огромными, сложными наборами уравнений. Решаемая задача требует обвести опорные векторы по кругу, нарисовать края улицы, изобразить пунктирную линию посередине и задать как W, так и B. Затем выступающий объясняет важные уравнения SVM и как найти пунктирную линию с помощью двух коэффициентов. и линейное уравнение, где W1 и W2 — два коэффициента, а X1 и X2 — две компоненты вектора X.

  • 00:05:00 В этом разделе видео обсуждается уравнение линии в декартовых координатах и его связь с уравнением W точка X плюс B равняется 0 в машинах опорных векторов. В видео объясняется, что альфа-каналы используются для определения значимости каждой точки для создания границы, и что положительные альфа-каналы равны отрицательным альфа-каналам. В видео также представлены уравнения, которые можно использовать при решении для W и B, и упоминается, что опорные векторы важны при определении решения. Ведущий уточняет, что опорные векторы — это векторы на граничных линиях, и цель — их обвести.

  • 00:10:00 В этом разделе спикер обращается к вопросу о том, что такое опорный вектор, и поясняет, что в более сложных задачах, где есть множество измерений, векторы используются для представления точек данных, когда они не могут быть отображены на двух -мерная плоскость. Докладчик объясняет, что опорные векторы — это точки, связывающие гиперплоскость, и их можно найти, пытаясь получить максимально возможное расстояние между положительными и отрицательными точками данных. Дополнительно спикер отмечает, что иногда третьего опорного вектора может и не быть, и иллюстрируют свою точку зрения на примере пары точек на плоскости.

  • 00:15:00 В этом разделе спикер объясняет, как найти W и B в машине опорных векторов. Вместо того, чтобы использовать старый метод подстановки точек в уравнение, спикер вводит дешевую стратегию, преобразовывая уравнение в форму y = mx + b. Установив y = x - 1, докладчик показывает, как это можно использовать для нахождения нового уравнения y = -w1/w2 - b/w2. Используя эту форму, выступающий показывает, что существует бесконечно много возможных уравнений и что w1/w2 — это некоторое скалярное число, кратное -1, а B/w2 — некоторое скалярное число, кратное 1.

  • 00:20:00 В этом разделе докладчик обсуждает, как определить значение K, чтобы вычислить W1, W2 и B для машины опорных векторов. Величину W можно рассчитать, используя квадратный корень из суммы компонентов в квадрате, что равняется корню 2 из 4. Поскольку отношение W1 и W2 равно минус 1, при возведении в квадрат W1 в квадрате равняется W2 в квадрате. Таким образом, используя эту формулу, W1 вычисляется как отрицательная 1/4, а поскольку W1 отрицательна, W2 и B равны положительной 1/4. Спикер также предполагает, что значения альфа-плюс и альфа-минус равны на основе уравнения.

  • 00:25:00 В этом разделе спикер продолжает работать с примерами машин опорных векторов. Докладчик отмечает, что в примере номер два добавлен лишний знак минус. Далее они объясняют, как определить опорный вектор с учетом этого нового отрицательного знака. Показаны расчеты для определения расстояния, и найдена величина W как корень 2 из 3. Докладчик отмечает, что вычисление альфы в этом примере занимает больше времени из-за добавления новых точек, но окончательный ответ получен .

  • 00:30:00 В этом разделе основное внимание уделяется использованию машин опорных векторов для одномерного вектора, что делает линейную базисную линию непригодной для классификации данных. Чтобы решить эту проблему, функция ядра используется для перевода данных в новое измерение. Функция обычно называется Phi, и когда она применяется к вектору X, она переводит его в это новое измерение. В этом новом измерении можно провести прямую линию для классификации данных. Изобретатель SVM понял, что нет необходимости работать с функцией Phi, даже если это ужасный монстр, поскольку ядро можно использовать для вычисления скалярного произведения между двумя векторами в новом измерении без явного вычисления Phi.

  • 00:35:00 В этом разделе спикер объясняет, как использовать функцию ядра для нахождения скалярного произведения двух векторов в регулярном пространстве, что избавляет от необходимости напрямую использовать сами векторы. Поместив векторы X и Z в ядро, результирующая функция вернет Phi для X, разделенное точками на Phi для Z, что заменяет скалярное произведение двух векторов. Докладчик приводит пример функции ядра и предлагает аудитории найти соответствующую функцию Phi, чтобы решить викторину. Докладчик также отмечает, что, хотя вычисление альфы для SVM может быть сложным, использование функции ядра является полезным ярлыком, устраняющим необходимость прямого манипулирования векторами.

  • 00:40:00 В этом разделе спикер обсуждает построение графика точек в новом измерении с использованием их значений косинуса и синуса. Показаны плюсы и минусы, а также их соответствующие значения косинуса и синуса. Есть три точки во втором квадранте и три точки в третьем квадранте. Затем докладчик обсуждает различие между двумя отрицательными и то, как найти опорные векторы, которые оказываются отрицательными и положительными точками на серединном перпендикуляре. Две отрицательные точки находятся на одной линии и обведены кружком, а не на противоположных сторонах биссектрисы.

  • 00:45:00 В этом разделе профессор объясняет идею опорных векторов и их использование в SVM. Он поясняет, что опорный вектор отличается от любой другой точки данных, а разделительная линия или границы, созданные SVM, определяются этими векторами. В тестовых данных пунктирная линия — это граница решения для SVM. Алгоритм оптимизирует альфа-каналы путем математической проверки комбинации альфа-каналов, которые дают наилучшую W для самой широкой дороги. Студенты спрашивают интуицию, лежащую в основе SVM, и профессор объясняет, что W — это граница решения, а оптимизация, основанная на альфа-каналах, создает самый широкий путь для лучшей классификации данных. SVM Kerne также помогает оптимизировать процесс оптимизации, делая его проще и эффективнее.
 

Мега-Р6. Бустинг



Мега-Р6. Бустинг

В видео «Мега-R6. Бустирование» спикер объясняет концепцию бустинга в машинном обучении и демонстрирует процесс подбора правильных классификаторов для минимизации ошибок. Они приводят пример идентификации вампиров по определенным качествам и обсуждают, как выбрать наиболее эффективные классификаторы. Выбранные классификаторы используются для создания окончательного классификатора, который применяется к точкам данных, чтобы определить, сколько из них классифицировано правильно. Спикер также подчеркивает важность выбора времени остановки процесса и признает, что достижение полной точности не всегда возможно.

  • 00:00:00 В этом разделе спикер обсуждает концепцию бустинга в машинном обучении, которая включает в себя ряд различных классификаторов. Проблема, используемая в качестве примера, включает в себя идентификацию вампиров на основе различных качеств, таких как злость, эмо, искрометность и количество романтических интересов. Ключом к усилению является то, что для любого возможного классификатора, если это не разделение данных 50/50, его можно каким-то образом использовать для создания лучшего классификатора. Кроме того, спикер отмечает, что классификаторов на самом деле больше, чем перечисленных, так как многие из них имеют противоположные версии, которые игнорируются для данной конкретной задачи.

  • 00:05:00 В этом разделе спикер объясняет, что разделение 50/50 для повышения бесполезно, поскольку это так же хорошо, как подбрасывание монеты. Однако в некоторых случаях классификатор хуже, чем 50/50, все же лучше, чем классификатор 50/50. Более поздние раунды повышения требуют изменения веса каждой точки данных, и классификатор, который работает лучше всего, будет тем, который получит наибольший правильный вес. Хотя классификаторы, которые правильно определяют менее половины веса, обычно неплохие, спикер рекомендует использовать их инверсию, чтобы правильно получить более половины веса.

  • 00:10:00 В этом разделе спикер просматривает каждый классификатор и выясняет, какие точки данных классифицированы неправильно. Предполагая, что все злые существа - вампиры, а все незлые существа - не вампиры, они определяют, что они ошибаются в ангелах, Эдварде Каллене, Сае Отонаси и Лестате де Лионкуре, когда зло равно нет. Аналогичная логика применяется к эмо-персонажам и трансформирующимся персонажам. Однако, когда блестящий равен «да», они ошибаются на один, два, четыре, пять, шесть, семь и восемь, а когда количество романтических интересов больше двух, они ошибаются в отношении Сирси и Эдварда Каллена. Когда дело доходит до количества романтических интересов, превышающего четыре, ни один персонаж не попадает в эту категорию, поэтому ни один из них не классифицируется неправильно.

  • 00:15:00 В этом разделе видео спикер обсуждает классификацию вампиров и какие классификаторы, скорее всего, неверны. Докладчик отмечает, что есть определенные позитивные классификаторы, которые неизбежно приведут к некорректным негативным классификаторам. Затем спикер перечисляет несколько классификаторов и утверждает, что в своих самых смелых мечтах люди использовали бы только шесть из них. Спикер спрашивает зрителей, какие классификаторы они считают полезными, и обводит кружками те, которые считают целесообразными. Классификаторы, которые считаются полезными, — это те, которые ошибаются лишь в нескольких случаях, например, классификаторы E и F.

  • 00:20:00 В этом разделе спикер объясняет процесс выбора правильных шести точек данных для бустинга в Mega-R6. Одним из ключевых моментов является то, что, несмотря на то, что существует множество различных точек данных, некоторые из них строго лучше, чем другие. Например, точка данных F всегда хуже, чем E, поэтому ее никогда не следует выбирать. Спикер также отмечает, что при выборе шести точек данных важно выбирать такие, которые не имеют строгого подмножества одинаковых неправильных ответов. Процесс выбора шести точек данных требует тщательного рассмотрения веса каждой точки данных, чтобы свести к минимуму ошибку.

  • 00:25:00 В этом разделе видео ведущий рассказывает о процессе бустинга и о том, как выбрать лучшие классификаторы для задачи. Он объясняет, как вычеркнуть любые бесполезные классификаторы и как выбрать те, которые минимизируют ошибку. Затем докладчик переходит к демонстрации процесса повышения, начиная с одинакового взвешивания всех десяти точек данных и выбора классификатора E как лучшего. Затем ошибка вычисляется как одна пятая, и процесс продолжается оттуда.

  • 00:30:00 В этом разделе видео ведущий объясняет, как сделать все решения, которые принимает классификатор, правильными. Этот процесс включает в себя изменение веса каждого решения, чтобы оно составляло 1/2 для тех, которые были правильными, и 1/2 для тех, которые были неправильными. Докладчик описывает метод автоматизации этого процесса, который включает переписывание весов таким образом, чтобы их было проще складывать и выбирать наилучшее решение. В этом примере выбирается решение с наименьшей ошибкой.

  • 00:35:00 В этом разделе спикер обсуждает процесс определения лучшего классификатора в игре прокачки Mega-R6. Стенограмма включает вычисления, включающие сумму чисел в кругах и за их пределами, а также процесс изменения чисел в кругах, чтобы упростить определение лучшего классификатора. Спикер заявляет, что важно игнорировать предыдущие раунды и учитывать только текущие веса при определении классификатора. Спикер также объясняет, что классификаторы нельзя использовать дважды подряд, и обсуждает причину такой конструктивной особенности. Лучшим классификатором считается класс А, потому что в нем было наименьшее количество неправильных ответов.

  • 00:40:00 В этом разделе стенограммы спикер обсуждает, как вычислить итоговый классификатор с помощью метода бустинга. Окончательный классификатор представляет собой комбинацию взвешенных классификаторов, которые использовались для его создания. Затем спикер применяет окончательный классификатор к десяти точкам данных, чтобы определить, сколько из них классифицировано правильно, используя простое голосование для определения результата. Одна точка данных, Эдвард Каллен из «Сумерек», неверна, потому что два из трех классификаторов не классифицировали его как вампира.

  • 00:45:00 В этом разделе видео спикер обсуждает различных персонажей как злых, эмо или вампиров на основе их характеристик и любовных интересов, а также точности алгоритма повышения в их классификации. Обсуждение приводит к вопросу об использовании нескольких классификаторов для ускорения процесса классификации, что, как объясняет спикер, в некоторой степени правильно, но требует прохождения большего количества классификаторов. Спикер также подчеркивает, что процесс схождения, чтобы все было правильно, не всегда прост и может потребовать остановки после определенного количества раундов.
Mega-R6. Boosting
Mega-R6. Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers the boos...
 

Мега-R7. Близкие промахи, Arch Learning



Мега-R7. Близкие промахи, Arch Learning

В видео представлена концепция обучения на грани промаха, включающая изучение различных типов источников света и их характеристик. Подход Arch Learning использует шесть эвристик для уточнения модели, включая требование ссылки, запрет ссылки, восхождение по дереву, расширение набора, закрытый интервал и отбрасывание ссылки. В видео обсуждаются различные методы, используемые в машинном обучении, такие как расширенный набор, восхождение по дереву, закрытый интервал и сброс ссылки. Спикеры также говорят о проблемах, связанных с хрупкостью и уязвимостью модели Arch Learning для упорядочения, что приводит к непоследовательным реакциям на противоречивую информацию. В видео также обсуждается концепция обобщения для Mega-R7 и чем она отличается от предыдущих моделей. Кроме того, обсуждаются компромиссы между ирландским обучением и решетчатым обучением с точки зрения их способности выражать подмножества информации, а также обучение системы с использованием нескольких моделей с различными деталями реализации.

  • 00:00:00 В этом разделе представлена концепция дерева обучения на грани промаха, которая включает в себя изучение различных типов источников света и их характеристик. Стартовая модель представляет собой лампу накаливания с плоским цоколем и плафоном, работающую от электричества. Подход к обучению арки включает в себя использование шести эвристик, включая требование ссылки, запрет ссылки, восхождение по дереву, расширение набора, закрытый интервал и отбрасывание ссылки. Ссылка «Требовать» делает ранее нерелевантную функцию требованием, а ссылка «Запретить» запрещает функцию. Эти эвристики помогают уточнить модель, делая определенные функции необходимыми или ненужными, и могут помочь определить сценарии, которые могут привести к провалу.

  • 00:05:00 В этом разделе спикер обсуждает различные методы, используемые в машинном обучении, в том числе расширение набора, восхождение по дереву, закрытый интервал и сброс ссылки. Техника расширения набора включает в себя создание набора положительных примеров, но запрещение определенных элементов для экономии места. Техника восхождения по дереву перемещается вверх по дереву, чтобы создать более обобщенную модель, в то время как закрытый интервал охватывает весь интервал, чтобы сделать его приемлемым. Техника сброса ссылок позволяет системе быть экономной, удаляя ссылку, если все элементы приемлемы. Затем спикер рассказывает об использовании каждого метода и подчеркивает важность знаний в машинном обучении, чтобы сделать модель более восприимчивой к новым примерам и ускорить время прохождения теста.

  • 00:10:00 В этом разделе видео обсуждается идея обобщателя и то, как его можно распространить на положительные примеры или увеличить для близких интервалов. Однако если есть отрицательный пример, это может усложнить систему, и реализацию, возможно, придется корректировать. Затем в видео приводится пример лампы и то, как можно адаптировать модель с помощью эвристики генерализатора для обобщения интервала при наличии положительного примера. Если есть отрицательный пример, в реализации, возможно, придется использовать метод прямой связи, чтобы система работала эффективно.

  • 00:15:00 В этом разделе видео спикеры обсуждают несколько вопросов, связанных с моделью Arch Learning — типом модели машинного обучения, разработанной в 1960-х годах. Они описывают, насколько система хрупка и особенно уязвима для упорядочения, а это означает, что порядок, в котором представлены данные, может сильно повлиять на способность системы к обучению. Кроме того, они объясняют, как система может быть непоследовательной и плохо реагировать на противоречивую информацию. Выступающие также объясняют альтернативный тип обучения, называемый решетчатым обучением, при котором сохраняются все увиденные примеры, сравниваются и сопоставляются с новыми примерами, что позволяет выявлять закономерности и улучшать понимание темы.

  • 00:20:00 В этом разделе видео обсуждается концепция арочного обучения, системы, которая намеренно не запоминает вещи в поисках элегантности и простоты. В этом разделе эта идея сравнивается с ребенком, который не может рассказать вам о блоке, с которым он играл ранее, поскольку он не запоминает и не запоминает все, что он испытал. Однако люди являются хорошими учителями и предлагают соответствующие примеры, на которых машина может учиться. В видео также рассказывается о том, как обобщать попадание, взбираясь по дереву вместо того, чтобы устанавливать экстент, чтобы он был более экономным, элегантным и простым. Наконец, обсуждается пример с люминесцентной лампой, и эвристика, используемая для обобщения, состоит в том, чтобы подняться по дереву от плоского основания к самой базовой опоре.

  • 00:25:00 В этом разделе спикер обсуждает новую модель для Mega-R7 и чем она отличается от предыдущих. Они рассматривают некоторые примеры почти промахов, которые представляют собой случаи, когда система сталкивается с входными данными, которые похожи, но не совсем такие, как то, что она видела раньше. Спикер поясняет, что эти промахи не требуют каких-либо изменений в модели и их можно оставить как есть. Кроме того, спикер отвечает на вопрос о том, будет ли отрицательный пример, такой как флуоресцентный, считаться промахом, на что он отвечает, что не будет, потому что система не имеет памяти и не знает, что флуоресцентный раньше был положительным примером. .

  • 00:30:00 В этом разделе спикер обсуждает компромиссы в изучении ирландского языка и решетчатом обучении с точки зрения их способности выражать подмножества информации. Ирландское обучение, хотя и не имеет памяти, не может выразить подмножество как приемлемое, не видя его положительного примера, что может привести к потере некоторой выразительности. Тем не менее, эта проблема исправлена в решетчатом обучении, но у него есть свой набор проблем. Докладчик также рассказывает, как обучать систему, например, представлять несколько моделей, отвечающих требованию наличия базовой поддержки при использовании различных лампочек и источников электроэнергии. Детали реализации необходимо задавать и уточнять, поскольку выбор одного над другим может привести к разным результатам.
 

AlphaGo - документальный фильм



AlphaGo | Документальный фильм

Документальный фильм о разработке компьютерной программы AlphaGo, предназначенной для победы над игроками-людьми в игре го. В фильме рассказывается о победе программы над чемпионом мира среди людей в матче из пяти игр. Некоторые зрители считают, что победа AlphaGo может ознаменовать конец человеческой расы, какой мы ее знаем, поскольку машины все лучше справляются с выполнением когнитивных задач.

  • 00:00:00 Это видео об AlphaGo, компьютерной программе, которая победила чемпиона мира по игре в го. Видео описывает значение победы AlphaGo и показывает кадры игры компьютера против игрока-человека. Компания DeepMind, стоящая за AlphaGo, хочет пригласить сильнейшего в мире игрока в го Демистера Харбиса посетить их офис в Лондоне, чтобы увидеть проект в действии. Если вы заинтересованы в участии, они будут очень благодарны!

  • 00:05:00 AlphaGo, компьютерная программа, разработанная DeepMind, побеждает профессионального игрока в го Ли Седоля в матче из пяти игр. Документальный фильм рассказывает об усилиях команды по разработке и обучению программы, а также о самом матче.

  • 00:10:00 AlphaGo, компьютерная программа, разработанная Google, побеждает чемпиона Европы по игре в го Ли Седоля в матче из пяти игр. Документальный фильм рассказывает о развитии AlphaGo и подготовке к матчу. Несмотря на первоначальный скептицизм, общественность в значительной степени впечатлена производительностью AlphaGo, а некоторые даже провозглашают это признаком конца доминирования человека в области искусственного интеллекта.

  • 00:15:00 AlphaGo, компьютерная программа, предназначенная для победы над чемпионами в игре Го, была публично побеждена игроком-человеком Ли Седолем в матче, состоявшемся на прошлой неделе. В видео обсуждается значение потери, а также постоянные усилия команды AlphaGo по улучшению своей системы.

  • 00:20:00 AlphaGo, компьютерная программа, которая считается «лучшим игроком в го в мире», противостоит профессиональному игроку-человеку в матче из пяти игр. Fanway является советником команды и помогает улучшить их стратегию.

  • 00:25:00 Завтра AlphaGo сыграет против профессионального южнокорейского игрока в го Ли Седоля в историческом матче. Документальный фильм рассказывает о подготовке команды к игре и рассказывает об их ожиданиях.

  • 00:30:00 AlphaGo, компьютерная программа, которая победила человека-чемпиона в настольной игре, является героем документального фильма, отмеченного наградами. Документальный фильм рассказывает о развитии программы и ее успешном поединке с противником-человеком.

  • 00:35:00 AlphaGo, компьютерная программа, разработанная Google, побеждает чемпиона мира среди людей в матче из пяти игр. Успех программы является неожиданностью для многих, как и ее способность учиться на собственном опыте.

  • 00:40:00 AlphaGo, компьютерная программа, разработанная DeepMind, победила профессионального игрока в го в матче из пяти игр. Компьютерная программа была разработана людьми и считается прорывом в исследованиях искусственного интеллекта.

  • 00:45:00 AlphaGo, компьютерная программа, предназначенная для победы над профессиональным игроком в игре го, ошеломила наблюдателей своей производительностью во второй игре Google DeepMind Challenge. Политическая сеть ИИ, сеть значений и поиск по дереву были очень эффективными в предсказании наилучшего хода для текущей игровой ситуации, что привело к победе AlphaGo.

  • 00:50:00 AlphaGo, компьютерная программа, разработанная Google, выиграла матч чемпионата у всемирно известного игрока-человека. Документальный фильм исследует матч и значение победы AlphaGo.

  • 00:55:00 AlphaGo выиграла две из трех игр против чемпиона мира по игроку, но грусть и чувство потери среди зрителей ощутимы. AlphaGo — это всего лишь компьютерная программа, но комментаторы относятся к ней так, как если бы она была сознательным существом, и беспокоятся о последствиях ее растущей мощи.
 

AlphaGo - Как ИИ освоил самую сложную настольную игру в истории



AlphaGo - Как ИИ освоил самую сложную настольную игру в истории

В видео рассматриваются технические детали AlphaGo Zero, системы искусственного интеллекта, которая была полностью обучена посредством самостоятельной игры и без использования наборов данных, созданных человеком. Система использовала остаточную сетевую архитектуру и подход с двумя исследованиями для прогнозирования стоимости и сильных движений. В видео освещаются сделанные улучшения, в том числе возможность предсказывать результаты игры, обнаружение системы и отход от хорошо известных ходов в го. Однако практическое применение системы ограничено потребностью в идеальном симуляторе, что затрудняет применение подхода в других областях.

  • 00:00:00 В этом разделе обсуждаются технические детали улучшений AlphaGo Zero по сравнению с предыдущими версиями. Первое серьезное изменение заключалось в том, что AlphaGo Zero тренируется исключительно на основе самостоятельной игры и не использует наборы данных профессиональных игроков в го. Он также не использует ни одной из ранее созданных вручную функций игры и вместо этого полностью учится, наблюдая за состоянием доски. Сетевая архитектура была изменена на полностью остаточную архитектуру, и вместо отдельной сети политики и оценки они теперь объединены в одну большую сеть, которая выполняет и то, и другое. Внедрение Монте-Карло было заменено более простым подходом с двумя исследованиями, который использует единую сеть для прогнозирования стоимости и определения сильных ходов. В целом это привело к представлению на доске 19 на 19 на 16 двоичных чисел, остаточной сети, а также представлению значений и вектору политики, которые генерируются из вектора признаков.

  • 00:05:00 В этом разделе видео объясняется, как AlphaGo обучали делать хорошие ходы, используя сетевую архитектуру, которая обеспечивает высокую вероятность хороших ходов и низкую вероятность плохих. Первая версия AlphaGo была обучена с использованием обучения с учителем на наборе данных профессиональных ходов в го, за которым последовал этап точной настройки с использованием самостоятельной игры. Однако новая версия, AlphaGo Zero, не использует никаких наборов данных и полностью обучается в процессе самостоятельной игры с использованием поиска по дереву Монте-Карло, что стабилизирует процесс тренировки с собственным весом. Взорвав дерево поиска и используя поиск по дереву Монте-Карло, система может оценить, какие ходы сильны, а какие нет. Наконец, в видео подчеркивается, что этот процесс характерен для таких игр, как го, где у вас есть идеальный симулятор, что усложняет применение этого подхода в реальных условиях.

  • 00:10:00 В этом разделе спикер обсуждает различные графики, отображающие улучшения, внесенные в сетевую архитектуру AlphaGo. На одном графике показана способность сети AlphaGo Zero предсказывать исход игры на основе текущей позиции на доске со значительным улучшением по сравнению с предыдущими версиями. Докладчик также отмечает, что переход от обычной сверточной архитектуры к остаточной сети привел к значительному улучшению. Кроме того, на графике показано, как AlphaGo Zero обнаружил, а затем перешел от хорошо известных ходов в игре Го. В целом спикер впечатлен результатами работы команды Google DeepMind и призывает зрителей задавать вопросы в разделе комментариев.
AlphaGo - How AI mastered the hardest boardgame in history
AlphaGo - How AI mastered the hardest boardgame in history
  • 2017.11.13
  • www.youtube.com
In this episode I dive into the technical details of the AlphaGo Zero paper by Google DeepMind.This AI system uses Reinforcement Learning to beat the world's...
 

Deepmind AlphaZero — освоение игр без человеческого знания



Deepmind AlphaZero — освоение игр без человеческого знания

В видео рассказывается о разработке архитектуры глубокого обучения с подкреплением DeepMind, AlphaZero, которая использует единую политику и сеть ценностей для достижения успеха в играх с огромным пространством состояний без каких-либо предварительных человеческих данных. Алгоритм AlphaZero включает в себя обучение нейронной сети предсказанию действия, выбранного при поиске по всему дереву Монте-Карло, итеративной фильтрации знаний для создания более сильных игроков с течением времени. Алгоритм показал впечатляющие кривые обучения, превзойдя предыдущие версии всего за несколько часов обучения и продемонстрировав замечательную масштабируемость, несмотря на то, что он оценивал меньше позиций, чем предыдущие поисковые системы. В видео также обсуждается способность AlphaZero сочетать лучшее из человеческого и машинного подходов, демонстрируя при этом потенциал универсального обучения с подкреплением.

  • 00:00:00 В этом разделе видео Дэвид обсуждает AlphaGo, оригинальную версию архитектуры глубокого обучения с подкреплением DeepMind, которая смогла победить профессионального игрока и чемпиона мира. AlphaGo использует две сверточные нейронные сети: сеть политики, которая рекомендует ходы для игры на основе распределения вероятностей, и сеть ценности, которая предсказывает победителя игры. Сети обучаются с помощью обучения с учителем и обучения с подкреплением на наборе данных о людях и играх, в которые играют против себя. Успех AlphaGo в игре го демонстрирует потенциал машинного обучения и подходов на основе искусственного интеллекта для достижения успеха в играх с огромным пространством состояний.

  • 00:05:00 В этом разделе спикер обсуждает конвейер обучения AlphaGo и то, как он использует сеть политик и сеть ценностей, чтобы сделать поиск более удобным, учитывая обширность области поиска в игре Го. Сеть политик предлагает ходы для уменьшения ширины дерева поиска, в то время как сеть значений предсказывает победителя игры из любой позиции, чтобы уменьшить глубину поиска. Это позволяет алгоритму эффективно выполнять поиск по важным частям дерева, используя поиск по дереву Монте-Карло, который эффективно выборочно расширяет большое дерево поиска, рассматривая только наиболее релевантные части. Это привело к разработке AlphaGo Master, который был обучен с использованием более глубоких сетей и большего количества итераций обучения с подкреплением, выиграв 60 игр до нуля у лучших игроков в мире.

  • 00:10:00 В этом разделе спикер описывает разработку AlphaGo Zero, которая учится играть в игру Го без каких-либо предварительных человеческих данных, вместо этого начиная с совершенно случайных игр и используя только правила игры. AlphaGo Zero отличается от исходного AlphaGo тем, что в нем не используются функции, созданные вручную, унифицирована сеть политик и сеть ценности, используется более простой поиск без рандомизированных развертываний Монте-Карло, а также более простой подход к снижению сложности, что приводит к большей общности, потенциально применимой в любой домен. Алгоритм AlphaGo Zero включает в себя выполнение поиска по дереву Монте-Карло с использованием текущей нейронной сети для каждой позиции и выполнение предложенного хода, а затем обучение новой нейронной сети на тех позициях, которые были достигнуты в завершенной игре.

  • 00:15:00 В этом разделе спикер объясняет процесс алгоритма AlphaGo Zero, который включает в себя обучение нейронной сети прямому прогнозированию действия, которое было выбрано всем поиском по дереву Монте-Карло (MCTS) для извлечения всех знаний. в его прямое поведение и обучение новой сети ценности для предсказания победителя игры. Процедура повторяется, чтобы каждый раз генерировать более сильного игрока и генерировать данные более высокого качества, что приводит к более сильной игре. AlphaGo Zero использует усовершенствование политики на основе поиска, включив свой поиск в оценку политики, что обеспечивает высококачественные результаты и точные обучающие сигналы для нейронных сетей. Кривая обучения показывает, что AlphaGo Zero превзошла предыдущие версии всего за 72 часа и победила игроков-людей на 60 человек за 21 день.

  • 00:20:00 В этом разделе спикер обсуждает различные версии AlphaGo, которые были разработаны, начиная с оригинальной версии, которая победила чемпиона Европы с разницей в пять игр до нуля, до AlphaGo Zero, которая полностью обучалась на случайных весах и была около 5000 Эло, что делает его самой сильной версией AlphaGo. Новая версия AlphaZero применяет один и тот же алгоритм к трем разным играм: шахматам, сёги и го. В частности, игра в шахматы была хорошо изученной областью ИИ, а компьютерные шахматы были наиболее изученной областью в истории искусственного интеллекта, кульминацией которой стали узкоспециализированные системы, которые в настоящее время бесспорно лучше, чем люди.

  • 00:25:00 В этом разделе спикер обсуждает сложность игры в сёги, которую сложнее вычислить и которая имеет большее и более интересное пространство для действий, чем шахматы. Он объясняет, что сильнейшие компьютерные программы для сёги только недавно достигли уровня чемпионов мира среди людей, что делает DeepMind интересным примером для изучения. Современные движки как для шахмат, так и для сёги основаны на альфа-бета-поиске, который был дополнен созданной вручную функцией оценки, которая была настроена гроссмейстерами на протяжении многих лет, а также огромным количеством оптимизированных поисковые расширения. Затем спикер сравнивает компоненты топовой шахматной программы Stockfish с AlphaZero, в которой буквально нет ни одного из тех же компонентов, заменяя их принципиальными идеями, основанными на самостоятельной игре, обучении с подкреплением и поиске по методу Монте-Карло. Спикер отмечает, что шахматы отличаются от го тем, что они обладают полной трансляционной инвариантностью, лишены симметрии, имеют более интересное пространство действий с составными действиями и содержат ничьи.

  • 00:30:00 В этом разделе спикер обсуждает кривые обучения трем играм: шахматам, сёги и го. AlphaZero превзошел чемпиона мира Stockfish в игре в шахматы всего за четыре часа обучения с нуля, используя одинаковую сетевую архитектуру и настройки для всех игр. AlphaZero с легкостью победила предыдущие версии AlphaGo Zero и действующего чемпиона мира по сёги всего за несколько сотен тысяч шагов или 8 часов тренировок. Масштабируемость поиска по дереву Монте-Карло AlphaZero сравнивалась с поисковыми системами альфа-бета, использовавшимися в предыдущих программах, включая Stockfish, которые оценивают около 70 миллионов позиций в секунду, тогда как AlphaZero оценивает только около 80 тысяч позиций в секунду. Докладчик предполагает, что причина, по которой MCTS настолько эффективна, несмотря на оценку на несколько порядков меньшего количества позиций, в сочетании с аппроксиматорами глубоких функций, такими как нейронные сети, заключается в том, что она помогает устранить ошибки аппроксимации, присутствующие в поиске, что приводит к повышению производительности и масштабируемость. Наконец, AlphaZero также открыла для себя человеческие шахматные знания, выбрав 12 наиболее распространенных человеческих дебютов в игре в шахматы.

  • 00:35:00 В этом разделе спикер обсуждает использование AlphaZero определенных шахматных дебютов и то, как он разыгрывал их во время самостоятельной игры. AlphaZero провел значительное количество времени, играя в эти варианты, но в конце концов начал предпочитать разные дебюты, отбрасывая те, которые игрались чаще. Докладчик также упомянул прогресс, достигнутый в использовании методов AlphaZero для универсального глубокого обучения с подкреплением, которое можно перенести в другие области. Чем более специализирован алгоритм, тем меньше он может адаптироваться к другим областям. Хотя совместное использование человека и машины является интересной перспективой, спикер подчеркивает, что AlphaZero играет более человечно, чем предыдущие шахматные программы, что указывает на его способность сочетать лучшее из обоих миров.

  • 00:40:00 В этом разделе спикер поясняет, что хотя они встроили в AlphaGo Zero только правила игры как человеческое знание, это включает в себя базовое кодирование и декодирование действий. Например, в шахматах они использовали пространственное представление для кодирования взятой фигуры и плоскости, которая использовалась для ее опускания. Они исключают недопустимые ходы из поля действия. Спикер далее объясняет, что они не включали планки погрешностей в свои эксперименты, потому что они проводили только один прогон за игру. Тем не менее, они провели несколько экспериментов, и результаты очень воспроизводимы.
Deepmind AlphaZero - Mastering Games Without Human Knowledge
Deepmind AlphaZero - Mastering Games Without Human Knowledge
  • 2018.01.29
  • www.youtube.com
2017 NIPS Keynote by DeepMind's David Silver. Dr. David Silver leads the reinforcement learning research group at DeepMind and is lead researcher on AlphaGo....
Причина обращения: