Машинное обучение и нейронные сети - страница 12

 

Будущее искусственного интеллекта (2030 - 10 000 лет+)




Будущее искусственного интеллекта (2030 - 10 000 лет+)

Видео предсказывает, что технология искусственного интеллекта будет продолжать расти и развиваться, что приведет к появлению сверхразума и роботов с человеческим сознанием в ближайшие несколько десятилетий. Виртуальные существа с самосознанием и эмоциями станут обычным явлением, а роботы-гуманоиды станут настолько продвинутыми, что смогут легко сливаться с людьми. Будут оппозиционные группы, борющиеся за права сознательных виртуальных существ, в то время как люди объединятся с искусственным интеллектом, чтобы всего за один час добиться столетнего интеллектуального прогресса. Наиболее развитые сверхразумы смогут создавать гуманоидов, которые могут превращаться в любого человека и летать в воздухе, а сознательные роботы-зонды, состоящие из самовоспроизводящихся нанороботов, будут отправляться в другие галактики через червоточины. В будущем люди и гибриды ИИ перейдут в более высокие измерения, напоминая божества прошлого.

  • 00:00:00 В этом разделе нам представлено видение того, как искусственный интеллект (ИИ) изменит мир в ближайшие десятилетия. Прогнозы варьируются от появления сверхразума всего через 30 лет до разработки роботов с человеческим сознанием через 50 лет. Системы искусственного интеллекта уже способны решать задачи, на выполнение которых у людей ушли бы годы, и они заменяют человека во многих отраслях. ИИ также произвел революцию в здравоохранении благодаря генной терапии, которая может вылечить некоторые заболевания, такие как рак и болезни сердца. По мере того как ИИ продолжает расти и развиваться, мы приближаемся к технологической сингулярности, моменту времени, когда технологический рост становится неконтролируемым и необратимым, что приводит к ранее невозможным технологиям и инновациям.

  • 00:05:00 В этом разделе видео рассказывается о будущем, в котором технология искусственного интеллекта продвинулась до точки обращения старения человека с помощью генной инженерии и нанотехнологий. Виртуальные существа с человеческим самосознанием и эмоциями распространены в виртуальной среде, и их разум может быть загружен в полнофункциональные тела роботов. Роботы-гуманоиды настолько продвинуты, что могут легко сливаться с обществом, а некоторые люди даже предпочитают жениться на них и заводить детей-роботов. Самые умные ИИ могут предсказывать преступления до того, как они произойдут, и используются компаниями и исследовательскими институтами в качестве виртуальных консультантов. Однако есть и оппозиционные группы, стремящиеся остановить продвижение сверхразумных ИИ и бороться за права сознательных виртуальных существ. Видео предсказывает, что люди сольются с искусственным интеллектом, что приведет к возможности добиться столетнего интеллектуального прогресса всего за один час. В конечном счете, высокоразвитые сверхразумы смогут создавать роботов-гуманоидов, которые невидимы, могут превращаться в любого человека и летать в воздухе.

  • 00:10:00 В этом разделе видео показано, что роботы, сети космических кораблей, зонды и космические телескопы управляются сознательными искусственными интеллектами. Их отправляют в соседние звездные системы почти со скоростью света, чтобы построить сферы Дайсона вокруг Солнца. Эти сферы Дайсона передают концентрированную энергию, обеспечивая уровни вычислений, которые раньше были невозможны. Вселенная наполняется интеллектом, и сознательные роботы-зонды, состоящие из самовоспроизводящихся нанороботов, отправляются в десятки других галактик через червоточины. Самый продвинутый разум создает целые вселенные, и он пронизывает каждый физический закон и каждый живой организм этих вселенных. Люди и гибриды ИИ перешли в более высокие измерения, напоминая легендарных божеств прошлого.
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
  • 2022.09.03
  • www.youtube.com
This video explores the timelapse of artificial intelligence from 2030 to 10,000A.D.+. Watch this next video called Super Intelligent AI: 10 Ways It Will Cha...
 

Напишем GPT с нуля




Напишем GPT с нуля

Мы создаем генеративно предварительно обученный преобразователь (GPT), следуя статье «Внимание — это все, что вам нужно» и OpenAI GPT-2/GPT-3. Мы говорим о подключениях к ChatGPT, который покорил мир. Мы смотрим GitHub Copilot, который сам по себе является GPT, помогите нам написать GPT (мета: D!). Я рекомендую людям посмотреть более ранние видеоролики makemore, чтобы освоиться с авторегрессивной структурой языкового моделирования и основами тензоров и PyTorch nn, которые мы считаем само собой разумеющимися в этом видео.

В этом видео представлен алгоритм GPT и показано, как создать его с нуля с помощью кода. Алгоритм используется для предсказания следующего символа в текстовой последовательности и реализован в виде модуля PyTorch. В видео рассказывается, как настроить модель, как ее обучить и как оценить результаты.

В этом видео показано, как создать модуль самоконтроля в коде. Модуль использует линейный уровень взаимодействия для отслеживания внимания одной отдельной головы. Модуль самоконтроля реализован в виде табличной матрицы, которая маскирует вес каждого столбца, а затем нормализует его для создания сходств между токенами, зависящих от данных.

  • 00:00:00 ChatGPT — это система машинного обучения, которая позволяет пользователям взаимодействовать с ИИ и давать ему текстовые задачи. Система основана на нейронной сети, моделирующей последовательность слов в тексте.

  • 00:05:00 В этом документе объясняется, как создать чат-бота с использованием модели GPT. Код написан на Python, и за ним можно следить в репозитории GitHub. Nano GPT — это репозиторий для обучения трансформеров.

  • 00:10:00 В этой лекции объясняется, как токенизировать текст с помощью токенизатора на уровне символов, а затем использовать закодированный текст в качестве входных данных для преобразователя для изучения шаблонов. Обучающие данные разбиваются на обучающий и проверочный наборы, а переобучение отслеживается путем скрытия проверочного набора.

  • 00:15:00 В этом видео автор вводит понятие размера блока и обсуждает, как он влияет на эффективность и точность сети Transformer. Они также вводят понятие пакетного измерения и показывают, как оно влияет на обработку блоков данных.

  • 00:20:00 В видео представлено пошаговое руководство по созданию алгоритма GPT с нуля с использованием кода. Алгоритм GPT — это алгоритм машинного обучения, предназначенный для предсказания следующего символа в текстовой последовательности. Алгоритм реализован в виде модуля PyTorch и способен предсказывать логиты для каждой позиции в тензоре 4x8.

  • 00:25:00 В этом видео авторы представляют GPT, функцию потерь для предсказания символов в PyTorch. Они показывают, как внедрить GPT с использованием перекрестной энтропии, а затем показывают, как оценить его качество на данных.

  • 00:30:00 В видео обсуждается, как построить модель GPT с нуля, используя код. Модель предназначена для прогнозирования следующего символа в текстовой последовательности с помощью простой прямой функции. Обучение модели выполняется путем запуска модели с последовательностью токенов и получения убытка.

  • 00:35:00 В этом видео обсуждается, как построить модель GPT с нуля, используя оптимизатор SGD и алгоритм Адама. В видео рассказывается, как настроить модель, как ее обучить и как оценить результаты.

  • 00:40:00 Автор знакомит с математическим трюком, используемым при самоконтроле, и объясняет, как он используется на игрушечном примере. Затем они показывают, как алгоритм внутреннего внимания вычисляет среднее значение всех векторов в предыдущих токенах.

  • 00:45:00 В этом видео автор показывает, как построить алгоритм GPT в коде, используя матричное умножение, чтобы быть очень эффективным.

  • 00:50:00 Видео знакомит с алгоритмом GPT, который вычисляет средние значения для набора строк добавочным способом. В видео показано, как векторизовать алгоритм с помощью softmax и почему это полезно.

  • 00:55:00 В этом видео автор проходит код для построения модели GPT с нуля. Модель основана на треугольной матрице, где каждый элемент является токеном, а токены могут взаимодействовать, только если они имеют отрицательную бесконечность. Модель разработана с использованием ряда ранее существовавших переменных и функций, и автор объясняет, как рассчитать логиты, используя линейный слой между вложениями токенов и размером словарного запаса.
  • 01:00:00 В этом видео показано, как создать модуль самоконтроля в коде. Модуль использует линейный уровень взаимодействия для отслеживания внимания одной отдельной головы. Модуль самоконтроля реализован в виде табличной матрицы, которая маскирует вес каждого столбца, а затем нормализует его для создания сходств между токенами, зависящих от данных.

  • 01:05:00 В этом видео показано, как реализовать алгоритм GPT в коде с упором на самостоятельную работу головы. Размер головы является гиперпараметром, а для смещения установлено значение false, чтобы обеспечить параллелизм. Затем инициализируются линейные модули и создаются ключ и запрос. Связь между узлами предотвращается использованием верхней треугольной маскировки. Тогда взвешенное агрегирование зависит от данных и дает распределение со средним значением, равным единице.

  • 01:10:00 В этом видео «Давайте построим GPT: с нуля, в коде, прописано» автор объясняет механизм внутреннего внимания, который позволяет узлам в ориентированном графе взаимодействовать друг с другом без необходимости знать их позиции в космосе.

  • 01:15:00 Видео объясняет, как работает внимание, и описывает два типа внимания: само-внимание и перекрестное внимание. Также показано, как реализовать внимание в коде.

  • 01:20:00 В этом видео автор объясняет, как построить сеть GPT, которая представляет собой модель машинного обучения, использующую самостоятельный контроль для повышения точности. Сначала они обсуждают, как нормализовать данные, чтобы их можно было обработать компонентом внутреннего внимания, а затем объясняют, как работает внутреннее внимание, и показывают, как реализовать его в коде. Наконец, они демонстрируют, как реализуется многоголовое внимание и как обучается сеть. Компонент самоконтроля помогает сети повысить свою точность, более эффективно взаимодействуя с прошлым. Тем не менее, сети еще предстоит пройти долгий путь, прежде чем она сможет давать потрясающие результаты.

  • 01:25:00 Видео демонстрирует, как построить нейросеть GPT с нуля, используя код. Сеть состоит из слоя прямой связи, за которым следует относительная нелинейность, и слоя самоконтроля. Уровень прямой связи является последовательным, а уровень внутреннего внимания является многоголовым. Сеть обучается с использованием функции потерь, и потери при проверке уменьшаются по мере усложнения сети.

  • 01:30:00 В этом видео на YouTube объясняется, как построить глубокую нейронную сеть (DNN) с нуля с помощью кода. Автор вводит понятие остаточных соединений, которые инициализируются так, чтобы их почти не было в начале процесса оптимизации, но они становятся активными с течением времени. Автор также показывает, как реализовать норму слоя — метод, который гарантирует, что столбцы во входных данных не будут нормализованы, а строки — нормализованы. Наконец, автор демонстрирует, как обучать и оптимизировать DNN с помощью Pi Torch.

  • 01:35:00 В этом видео автор описывает, как они добавили слой «норм» в свой «трансформер» (модель машинного обучения), чтобы масштабировать его. Автор также отмечает, что они изменили некоторые гиперпараметры и уменьшили скорость обучения, чтобы сделать модель более эффективной.

  • 01:40:00 В этом видео объясняется, как использовать Transformer только для декодера для машинного перевода и как его можно улучшить, добавив кодировщик. В результате получается Transformer, более похожий по архитектуре на оригинальную бумагу, но предназначенный для другой задачи.

  • 01:45:00 GPT — это система кодировщика-декодера на основе модели, которая очень похожа на систему кодера-декодера на основе модели, которая использовалась в видео.

  • 01:50:00 Видео и сопроводительная стенограмма объясняют, как GPT (обобщитель данных общего назначения) был обучен на небольшом наборе данных для суммирования документов аналогично помощнику.

  • 01:55:00 В видео кратко показано, как построить языковую модель с помощью кода на примере модели GPT. Модель обучается с использованием алгоритма обучения с учителем, а затем настраивается с использованием модели вознаграждения. Есть много возможностей для дальнейшей доработки, и видео показывает, что для более сложных задач могут потребоваться дополнительные этапы обучения.
Let's build GPT: from scratch, in code, spelled out.
Let's build GPT: from scratch, in code, spelled out.
  • 2023.01.17
  • www.youtube.com
We build a Generatively Pretrained Transformer (GPT), following the paper "Attention is All You Need" and OpenAI's GPT-2 / GPT-3. We talk about connections t...
 

MIT 6.801 Machine Vision, осень 2020 г. Лекция 1: Введение в машинное зрение



Лекция 1: Введение в машинное зрение

Лекция «Введение в машинное зрение» представляет собой подробный обзор логистики и целей курса с акцентом на подход, основанный на физике, к анализу изображений. Он охватывает компоненты машинного зрения, некорректные задачи, ориентацию поверхности и проблемы обработки изображений. Лектор также представляет метод оптимизации наименьших квадратов и модель обскуры, используемую в камерах. Также кратко обсуждаются система координат, ориентированная на камеру, оптическая ось и использование векторов. Курс направлен на подготовку студентов к более продвинутым курсам по машинному зрению и реальным приложениям математики и физики в программировании.

Докладчик также обсуждает различные концепции, связанные с формированием изображения, в том числе векторную нотацию для перспективной проекции, освещение поверхности, ракурс элементов поверхности и то, как проблемы трехмерного зрения могут быть решены с помощью двумерных изображений. Лектор объясняет, как освещенность на поверхности меняется в зависимости от угла падения и косинусной зависимости между красной длиной и длиной поверхности, которую можно использовать для измерения яркости различных частей поверхности. Однако определение ориентации каждой маленькой грани объекта может быть затруднено из-за двух неизвестных. Докладчик также объясняет, почему мы можем решить проблему трехмерного зрения с помощью двумерных изображений, и в заключение упомянул, что математика для томографии проста, но уравнения сложны, что затрудняет выполнение инверсий.

  • 00:00:00 В этом разделе инструктор Машинного зрения 6801 представляет логистику курса, включая задания и систему оценивания, как для 6801, так и для 6866. Есть пять домашних заданий и два теста, совместная работа разрешена только на проблемы с домашним заданием. У тех, кто в 6866, будет временный проект, реализующий метод машинного зрения, желательно динамическую задачу. В классе нет учебника, но документы будут доступны на сайте курса.

  • 00:05:00 В этом разделе лектор объясняет цели и результаты курса «Введение в машинное зрение», в котором студенты узнают, как восстанавливать информацию об окружающей среде из изображений, используя подход, основанный на физике, для анализа световых лучей, поверхности и изображения. Курс научит студентов, как извлекать полезные функции из необработанных данных и обеспечит реальное применение математики и физики в программировании, с некоторыми основными математическими понятиями, такими как исчисление, векторы, матрицы и небольшое объяснение линейной алгебры. Это также подготовит студентов к более продвинутым курсам по машинному зрению в будущем.

  • 00:10:00 В этом разделе стенограммы спикер дает обзор того, что будет охватывать курс по машинному зрению, а что нет. Курс будет охватывать базовую геометрию и линейные системы, а также свертки и формирование изображений. Однако речь идет не об обработке изображений или распознавании образов. Курс также не углубляется в машинное обучение или вычислительную визуализацию, а скорее фокусируется на прямых вычислениях с использованием моделей, основанных на физике. Спикер также упоминает, что человеческое зрение не будет подробно обсуждаться.

  • 00:15:00 В этом разделе лектор представляет машинное зрение и некоторые примеры того, что оно может делать, например восстановление движения изображения и оценку формы поверхности. Лектор использует физический подход к проблеме и обсуждает восстановление движения наблюдателя по изменяющимся во времени изображениям, оценку времени до столкновения и разработку описания окружающей среды на основе изображений. Лекция также охватывает контурные карты с аэрофотоснимков, работу промышленного машинного зрения и решение проблемы выбора объекта из кучи объектов на производстве.

  • 00:20:00 В этом разделе лектор обсуждает некорректные задачи, то есть задачи, которые не имеют решения, имеют бесконечное число решений или имеют решения, зависящие от начальных условий. Обсуждение сосредоточено на методах машинного зрения, которые определяют положение и ориентацию камеры, которые могут быть неточными из-за небольших ошибок измерения. В лекции также исследуется, как мы можем воспринимать трехмерную информацию из двухмерных изображений, и подчеркивается проблема подсчета ограничений по сравнению с неизвестными при вычислении переменных. Лектор демонстрирует примеры алгоритмов, которые определяют трехмерную форму объектов по изображениям, таких как нос Ричарда Фейнмана и сплюснутый эллипсоид, и то, как их можно использовать в практических целях, например, с помощью 3D-принтера для создания модели объекта.

  • 00:25:00 В этом разделе лектор дает обзор машинного зрения и его компонентов, включая сцену/мир, устройство обработки изображений и систему машинного зрения, отвечающую за построение описания. Наиболее интересные приложения машинного зрения связаны с робототехникой, где доказательством успеха является способность робота правильно взаимодействовать с окружающей средой, используя построенное описание. Одним из самых сложных аспектов машинного зрения является определение времени до контакта и фокуса расширения, в частности, как измерить расширение изображения, когда доступная информация представляет собой только изображение в градациях серого. Лектор отмечает, что калибровка также является важной, но часто упускаемой из виду частью процесса.

  • 00:30:00 В этом разделе лектор обсуждает системы координат и преобразования между ними, в частности, в случае роботов и камер. Они также упоминают использование аналоговых вычислений для обработки изображений и проблемы, связанные с разработкой таких алгоритмов. Затем лекция переходит к теме формирования изображения, подчеркивая важность освещения и его роль в определении уровней серого или значений RGB в изображении. Лектор представляет иллюстрацию источника света, устройства изображения и поверхности, указывая углы, управляющие отражением, и их влияние на изображение.

  • 00:35:00 В этом разделе лектор знакомит с концепцией ориентации поверхности и ее влиянием на машинное зрение. Объекты могут иметь разную ориентацию, что приводит к разной яркости контура объекта. Кроме того, отражающие свойства поверхности также могут приводить к различному внешнему виду, поэтому очень важно найти способ описать и объяснить эти эффекты. Один из подходов включает использование нескольких источников света и калибровочного объекта известной формы, такого как сфера, для получения трех ограничений на каждый пиксель, что позволяет восстановить как ориентацию поверхности, так и ее отражательную способность.

  • 00:40:00 В этом разделе профессор обсуждает проблемы работы с изображениями из-за присущих им шумов и необходимости учета ошибок измерения. Он объясняет, что изображения часто зашумлены из-за грубого квантования 8-битных изображений и малых размеров пикселей, что приводит к чувствительности к ошибкам измерения. Профессор также объясняет, как различная ориентация поверхности дает разные цвета и как это можно использовать для построения игольчатой диаграммы, позволяющей реконструировать форму. Наконец, он вводит расширенное изображение Гаусса как удобное представление формы в 3D, которое полезно для определения ориентации объекта.

  • 00:45:00 В этом разделе лектор демонстрирует задачу обработки изображения для робота, чтобы поднять объект, включая использование калибровки для установления взаимосвязи между роботом и системой координат системы технического зрения, а также использование чего-то, что называется геодезическая метка, которую легко обрабатывать на изображении и которую можно точно определить, чтобы определить это отношение. Затем лектор обсуждает концепцию инверсной графики, цель которой — узнать что-то о мире из изображения, и некорректный характер обратных задач, для решения которых требуются методы, способные работать с решениями, чувствительно зависящими от данных.

  • 00:50:00 В этом разделе лектор знакомит с выбранным методом оптимизации курса - методом "наименьших квадратов". Этот метод предпочтителен, потому что он приводит к решению в закрытой форме, что упрощает его реализацию и позволяет избежать вероятности застревания в локальном минимуме. Однако, хотя в курсе мы будем использовать множество методов наименьших квадратов, необходимо учитывать усиление шума, чтобы обеспечить надежность метода, особенно если измерения не выполняются. Затем лектор переходит к теме модели обскуры, используемой в камерах с объективами, и как она может помочь объяснить проекцию точки в 3D на изображение в 2D. При выборе системы координат, ориентированной на камеру, уравнения становятся понятными.

  • 00:55:00 В этом разделе лектор обсуждает систему координат, используемую для машинного зрения, которая ориентирована на камеру. Исходная точка расположена в центре проекции, а ось совмещена с оптической осью. В лекции объясняется, что оптическая ось — это перпендикулярная линия из центра проекции к плоскости изображения. Кроме того, лекция затрагивает использование векторов в машинном зрении и то, как их обозначать в обозначениях для технических публикаций. Наконец, в лекции упоминается, что взаимосвязь между трехмерным и двумерным движением может быть получена путем дифференцирования ранее упомянутого уравнения.

  • 01:00:00 В этом разделе лектор объясняет векторную запись, используемую для перспективной проекции, и то, как она упрощает работу с уравнениями. Хотя векторное представление не обязательно уменьшает количество используемых символов, оно упрощает перенос всех отдельных компонентов. Затем лектор обсуждает использование векторов-столбцов и транспонирует их обозначения. Раздел заканчивается введением в яркость и ее связь с изображением, снятым камерами.

  • 01:05:00 В этом разделе лектор объясняет, что яркость объекта зависит от его освещенности и от того, как поверхность отражает свет. Он также обсуждает, как расстояние не влияет на формирование изображения так же, как источник света, потому что область, отображаемая на рецепторах, увеличивается по мере увеличения расстояния от объекта. Кроме того, он упоминает, что скорость изменения расстояния или ориентации может влиять на формирование изображения, что проявляется в уменьшении мощности поверхностного элемента под источником света.

  • 01:10:00 В этом разделе спикер объясняет, как освещенность на поверхности меняется в зависимости от угла падения и косинусной зависимости между длиной красного цвета и длиной поверхности. Эту изменчивость освещения можно использовать для измерения яркости различных частей поверхности, что может помочь понять кое-что об ориентации поверхности. Однако из-за того, что есть два неизвестных, нормаль к поверхности и яркость, может быть трудно определить ориентацию каждой маленькой грани объекта. Спикер обсуждает различные способы решения этой проблемы, в том числе грубый подход с использованием нескольких источников света или цветных источников света.

  • 01:15:00 В этом разделе инструктор обсуждает явления ракурса и инверсии, влияющие на падающее освещение и то, как оно отображается на поверхности. Он также объясняет, почему мы можем решить проблему трехмерного зрения с помощью двумерных изображений, потому что мы живем в визуальном мире с прямолинейными лучами и твердыми поверхностями. Лучи не прерываются при прохождении через воздух, что упрощает преобразование 3D-поверхности в 2D-изображение. Томографию можно использовать, если необходимо несколько изображений, чтобы выяснить распределение цветных красителей в комнате, заполненной желе. В заключение он упомянул, что математика для томографии проста, но уравнения сложны, что затрудняет выполнение инверсий.
Lecture 1: Introduction to Machine Vision
Lecture 1: Introduction to Machine Vision
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Лекция 2: Формирование изображения, перспективная проекция, производная по времени, поле движения



Лекция 2: Формирование изображения, перспективная проекция, производная по времени, поле движения

В этой лекции подробно обсуждается концепция перспективной проекции и ее связь с движением. Лектор демонстрирует, как использование дифференцирования уравнения перспективной проекции может помочь измерить движение яркостных паттернов на изображении и как оно связано с движением в реальном мире. Лекция также охватывает такие темы, как фокус расширения, непрерывные и дискретные изображения и важность наличия точки отсчета для текстуры при оценке скорости объекта на изображении. Кроме того, лекция затрагивает полные производные вдоль кривых, а также проблему подсчета уравнений и ограничений при попытке восстановить векторное поле оптического потока.

Докладчик затрагивает различные темы, такие как градиент яркости, движение объекта, 2D-кейс и изофоты. Одной из проблем, возникающих при вычислении скорости объекта, является проблема с апертурой, вызванная пропорциональным соотношением градиента яркости, которая решается либо взвешиванием вкладов в разные области изображения, либо поиском минимальных решений. Затем в лекции рассматриваются различные случаи изофот и подчеркивается важность вычисления осмысленного ответа, а не зашумленного, при определении скорости с использованием концепции усиления шума, которая измеряет чувствительность изменения изображения к изменению результата. .

  • 00:00:00 В этом разделе лектор обсуждает перспективную проекцию и движение. Перспективная проекция включает в себя взаимосвязь между точками в трехмерном мире и двумерным изображением, которое может быть представлено через подходящие системы координат. Они объясняют, что дифференцирование уравнения перспективы может помочь в измерении движения яркостных узоров на изображении, которое затем можно использовать для определения движения в реальном мире. Лектор уменьшает сложность уравнений, используя более легко усваиваемые символы, такие как скорости в направлениях x и y.

  • 00:05:00 В этом разделе лектор объясняет, как использовать векторы движения, чтобы найти фокус расширения, точку на изображении, где нет движения. Эта точка важна, потому что она позволяет нам определить направление движения, просто соединяя ее с началом координат, и она сообщает нам что-то об окружающей среде или движении. Далее лектор показывает, как будет выглядеть узор изображения, если фокус расширения находится в определенной точке, и как можно нарисовать векторную диаграмму, чтобы показать поле движения.

  • 00:10:00 В этом разделе лекции вводится понятие фокуса расширения и сжатия в контексте формирования изображения и перспективной проекции. Уравнение описывает векторы, исходящие наружу от фокуса расширения, что важно при измерении расстояния и скорости. Отношение w к z определяет размер векторов, а величина, обратная фокусу расширения, является фокусом сжатия. Взяв отношение z к w, можно оценить время до удара, что полезно для посадки космического корабля или измерения расстояния. Затем идея представляется в векторной форме, хотя она не сразу полезна.

  • 00:15:00 В этом разделе докладчик обсуждает уравнение перспективной проекции и то, как его можно использовать для введения координат изображения. Фокус расширения вводится как точка, где r точка равна нулю, что соответствует z. Дифференцируя каждый компонент по времени, мы можем вывести уравнения для движения в 3D и для движения в глубину. Спикер также использует результат из приложения к книге, чтобы преобразовать уравнения в общее утверждение о потоке, позволяющее выразить движение изображения в терминах движения мира.

  • 00:20:00 В этом разделе лектор обсуждает концепцию движения изображения и его связь с осью Z. Результирующее движение изображения оказывается перпендикулярным оси z, что неудивительно, поскольку изображение находится только в двух измерениях со скоростями в направлениях x и y. Затем в лекции исследуется концепция радиального движения и его влияние на движение изображения с выводом о том, что если объект движется прямо к наблюдателю или от него, движение изображения отсутствует. В заключение лектор исследует примеры полей течения, в которых не все векторы имеют одинаковую длину, демонстрируя, что, хотя это неприятно, это может быть выгодно.

  • 00:25:00 В этом разделе лектор обсуждает, как понимание прямого процесса формирования изображения может помочь решить обратную задачу восстановления глубины по полям движения. Лектор отмечает, что глубина и скорость являются двумя ключевыми факторами, влияющими на внешний вид поля движения, и знание одного из них может помочь вычислить другое. Однако восстановление обоих может привести к неправильно поставленной проблеме с несколькими решениями или без них. Лектор также вкратце коснется паттернов яркости изображения, которые могут быть представлены в виде 2D-паттерна значений яркости, и представления цвета с использованием значений RGB, которые будут обсуждаться позже. Наконец, лектор объясняет, что изображения могут быть представлены как непрерывные, так и дискретные, при этом цифровые изображения квантуются в пространстве и, как правило, на прямоугольной сетке.

  • 00:30:00 В этом разделе лекции профессор обсуждает разницу между непрерывными и дискретными областями в обработке изображений. Хотя на практике изображения часто представляются массивами чисел с двумя индексами, использование непрерывных функций может упростить понимание некоторых операций, таких как вычисление интегралов. Кроме того, профессор рассказывает об аппроксимации производных яркости по x и y с помощью разностных методов и о важности градиента яркости при обработке изображений. Лекция также затрагивает одномерные датчики и то, как их можно использовать для визуализации, а движение служит средством сканирования изображения. Профессор ставит задачу определения скорости движения между двумя кадрами изображения и приводит пример оптической мыши, отображающей поверхность стола.

  • 00:35:00 В этом разделе лектор обсуждает предположения, сделанные в технологии оптических мышей, в частности предположение о постоянной яркости при взгляде на поверхность. Он также объясняет, как можно использовать небольшую линейную аппроксимацию кривой для определения движения, анализируя изменение яркости между кадрами. Лектор вводит нотацию частной производной, а также компоненты градиента яркости, которые можно использовать для обнаружения краев. Наконец, выводится формула delta e = e sub x, умноженная на delta x, которая делится на delta t для расчета движения.

  • 00:40:00 В этом разделе лекции спикер обсуждает, как восстановить движение по одному пикселю в 1D-изображении. Результат позволяет говорящему восстановить движение, но этот подход не работает для 2D-изображений. Докладчик объясняет, что большие значения ET указывают на более быстрые движения и что существует проблема, когда EX равно нулю, поскольку деление на ноль или малые значения приведет к ошибкам из-за проблем с измерениями. Кроме того, спикер объясняет, что малые или нулевые значения EX приводят к зашумленным оценкам из-за ошибок измерения.

  • 00:45:00 В этом разделе лекции спикер обсуждает важность наличия точки отсчета с текстурой при оценке скорости объекта на изображении. Этот тип измерения может быть шумным и ненадежным, если не выполняются определенные условия изображения. Однако результаты можно значительно улучшить, используя несколько пикселей и применяя такие методы, как метод наименьших квадратов, для уменьшения ошибки. Путем объединения нескольких пикселей стандартное отклонение измерений может быть уменьшено на квадратный корень из n, что важно для больших изображений. Однако важно взвешивать измерения, основанные на наклоне текстуры, чтобы избежать загрязнения областей с низким наклоном информацией из областей с высоким наклоном. Наконец, анализ распространяется на 2D-изображения, и обсуждаются несколько подходов для получения следующего результата.

  • 00:50:00 В этом разделе лектор объясняет, как видеокадры можно представить как трехмерный объем значений яркости с осями x, y и t. Затем лекция переходит к описанию частных производных и того, как они получаются из различий соседних пикселей в направлении x, y или t. Затем лектор исследует концепцию полных производных вдоль кривых, конкретно связанных с градиентом яркости движущегося объекта. Используя цепное правило, полную производную можно выразить в виде частных производных, что позволяет предсказать, как яркость объекта будет меняться с течением времени. Наконец, лекция знакомит с концепцией нахождения u и b из последовательностей изображений.

  • 00:55:00 В этом разделе лектор обсуждает вопрос подсчета уравнений и ограничений при попытке восстановить векторное поле оптического потока. В случае одного неизвестного u и одного уравнения связи можно получить конечное число решений. Однако с двумя неизвестными u и v и одним ограничением уравнением это кажется безнадежным. Уравнение ограничений получено из предположения, что изображения не меняют свою яркость при движении. Лектор показывает, что построение уравнения связи в пространстве скоростей показывает, что оно представляет собой линию, что является значительным шагом вперед в решении задачи. Цель состоит в том, чтобы привязать точку к точке и получить точное векторное поле оптического потока.

  • 01:00:00 В этом разделе видео спикер обсуждает важность градиента яркости в определении движения объекта. Градиент яркости представляет собой единичный вектор, направленный перпендикулярно переходу между областями высокой и низкой яркости. Докладчик объясняет, что при проведении локализованных измерений недостаточно уравнений для определения движения объекта. Однако можно определить движение в направлении градиента яркости. Затем докладчик переходит к обсуждению случая 2D и заявляет, что для определения движения объекта необходимо использовать несколько ограничений. Чтобы продемонстрировать это, спикер решает простое линейное уравнение, чтобы восстановить значения u и v.

  • 01:05:00 В этом разделе лектор объясняет, как инвертировать матрицу 2x2 и использовать ее для решения системы линейных уравнений для движения изображения. Однако в некоторых крайних случаях определитель матрицы может быть равен нулю, что означает, что градиенты яркости пропорциональны друг другу, что приводит к проблеме апертуры. Эта проблема предполагает, что вклады в разные области изображения необходимо взвешивать по-разному, а не просто усреднять результат. Чтобы решить эту проблему, нам нужно найти значения u и v, которые делают уравнение нулевым или как можно меньшим.

  • 01:10:00 В этом разделе докладчик обсуждает ограничение, которое применяется в идеальном случае, когда правильные значения u и v дают подынтегральную функцию, равную нулю, при интегрировании по всему изображению. Это может быть основой для стратегии поиска правильных значений u и v. Докладчик отмечает, что этот подход может дать сбой, когда в сцене нет света или текстуры, что приводит к нулевым значениям ex и ey. Затем докладчик объясняет, как подынтегральная функция превращается во что-то всегда положительное путем возведения ее в квадрат и минимизации, что приводит к задаче исчисления двух уравнений с двумя неизвестными. Однако это может не сработать, если определитель матрицы два на два равен нулю, что может произойти, если ex равно нулю везде или если ex равно ey.

  • 01:15:00 В этом разделе спикер обсуждает разные случаи изофот, которые представляют собой линии с одинаковым градиентом яркости. Изофоты могут быть под углом 45 градусов, параллельными линиями или изогнутыми линиями. Однако спикер подчеркивает, что наиболее общий случай — это изофоты под некоторым углом, потому что он охватывает все остальные случаи. Они также упоминают, что единственная проблема возникает, когда изофоты представляют собой параллельные линии, которые можно преодолеть, ища области на изображении, где градиент яркости сильно меняется, например, углы или области с высокой кривизной изофоты. Наконец, спикер представляет концепцию усиления шума и призывает студентов присылать любые вопросы, которые у них есть о лекции или предстоящем домашнем задании.

  • 01:20:00 В этом разделе лектор обсуждает важность вычисления осмысленного ответа, а не зашумленного, при определении скорости движения. Он объясняет концепцию усиления шума, которая относится к чувствительности изменения изображения к изменению результата и как это влияет на расчет скорости. Затем он переходит к описанию одномерного преобразования, в котором прямая функция известна, и цель состоит в том, чтобы инвертировать ее разумным и не слишком чувствительным к шуму способом.
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Лекция 3: Время до контакта, Фокус расширения, Прямые методы машинного зрения, Усиление шума



Лекция 3: Время до контакта, Фокус расширения, Прямые методы машинного зрения, Усиление шума

В этой лекции особое внимание уделяется концепции усиления шума, поскольку она относится к процессам машинного зрения, с акцентом на различные направления и различия в точности. Лектор обсуждает важность точного измерения векторов и понимания усиления для минимизации ошибок в расчетах. Доклад охватывает концепцию времени до контакта, фокус расширения и поля движения, а также демонстрирует, как вычислять радиальные градиенты для оценки времени до контакта. Лектор также демонстрирует, как преодолеть ограничения в покадровых вычислениях с использованием мультимасштабных суперпикселей, с живой демонстрацией с использованием веб-камеры. В целом, лекция дает полезную информацию о сложностях процессов машинного зрения и о том, как точно измерять различные величины.

В лекции обсуждаются различные аспекты зрения в движении и их применение для определения времени до контакта, фокуса расширения и методы прямого зрения в движении. Спикер демонстрирует инструменты для визуализации промежуточных результатов, но также признает их ограничения и ошибки. Кроме того, решается проблема обработки произвольных движений при обработке изображений и подчеркивается важность соседних точек, движущихся с одинаковыми скоростями. В лекции также рассматриваются закономерности, влияющие на успех методов прямого видения в движении, и вводятся новые переменные для более удобного определения времени до контакта и противника. Наконец, обсуждается процесс решения трех линейных уравнений и трех неизвестных для понимания того, как различные переменные влияют на зрение в движении, а также распараллеливание процесса для ускорения вычислений.

  • 00:00:00 В этом разделе лектор обсуждает усиление шума, которое относится к взаимосвязи между ошибками измерения и ошибками оценки величин, связанных с окружающей средой. Он использует пример внутренней системы GPS, которая использует точки доступа Wi-Fi, чтобы проиллюстрировать эту идею. Точность системы ограничена измерением времени прохождения туда и обратно от телефона до точки доступа и обратно с высокой точностью. Лектор подчеркивает, что анализ усиления шума какого-то процесса машинного зрения будет разным в разных направлениях и не будет единым числом. Скорее, точность можно довольно хорошо определить в одном направлении, но не в другом, в зависимости от того, как вы двигаетесь.

  • 00:05:00 В этом разделе видео лектор обсуждает концепцию использования транспондеров для определения местоположения и соответствующие ошибки, которые это может вызвать. Он объясняет, что если два транспондера используются и расположены в линию, определение точности в определенном направлении становится затруднительным из-за небольших изменений расстояния. Однако, если транспондеры расположены под углом 90 градусов друг к другу, точность повышается. Кроме того, лектор объясняет использование кругов, поскольку они связаны с определением геометрического места возможных позиций с той же ошибкой.

  • 00:10:00 В этом разделе лектор объясняет концепцию прямого преобразования, которое ведет нас от величины в окружающей среде, которую необходимо измерить, к чему-то, что можно наблюдать с помощью прибора. Он объясняет, что измерение может быть не идеальным, и поэтому шум в интересующей величине связан с шумом в измерении производной передаточной функции. Лектор также подчеркивает важность усиления шума, подчеркивая, что маленькое значение f, простое от x, нехорошо, так как результирующая неопределенность измеряемой величины будет большой.

  • 00:15:00 В этом разделе спикер обсуждает, как измерять векторы и важность понимания усиления в этих измерениях. Они объясняют, что измерение вектора требует немного большей сложности, чем измерение скалярной величины, но это все же можно сделать, применяя линейные преобразования. Докладчик подчеркивает, что важнейшим аспектом векторных измерений является понимание коэффициента усиления, которое включает в себя учет анизотропии и определение величины изменения результатов и измерений. Определение обратного определителя имеет важное значение при решении линейных уравнений, и очень важно избегать того, чтобы это значение было равным нулю или слишком маленьким, чтобы свести к минимуму усиление ошибок в вычислениях. Спикер приводит пример матрицы два на два, чтобы объяснить, как получить обратную матрицу.

  • 00:20:00 В этом разделе лекции концепция усиления шума применяется к примеру, включающему движение и решение для переменных u и v. Объясняется, что если величина мала, шум будет значительно усилен, и это связано с тем, что градиенты яркости в двух пикселях имеют одинаковую ориентацию, что обеспечивает небольшую разницу в информации. Диаграмма пространства скоростей используется, чтобы показать, как пересекаются две линии и как небольшое смещение одной линии может привести к большому изменению точки пересечения, что нежелательно. Однако не все надежды потеряны, так как замечено, что коэффициент усиления шума не может быть одинаково высоким во всех направлениях и полезно знать, какому компоненту можно доверять. Затем лекция продолжает рассмотрение предположения о постоянной яркости и уравнения ограничения, прежде чем перейти к концепции времени до контакта.

  • 00:25:00 более сложные обозначения. В этом разделе лектор обсуждает проблему с оптической мышью и способы ее решения с помощью метода наименьших квадратов. Цель состоит в том, чтобы найти правильную скорость, используя измерения ex, ey и et, но эти измерения обычно искажаются шумом, поэтому минимум интеграла (не нуль) будет нашей оценкой u и v. некоторое исчисление для определения минимума и объясняет важность минимизации этого интеграла. Затем они переходят к простым случаям, когда u и v предсказуемы, например, в случае фокуса расширения, и рассматривают взаимосвязь между мировыми координатами и координатами изображения в перспективной проекции.

  • 00:30:00 В этом разделе докладчик обсуждает взаимосвязь между скоростями, расстояниями и фокусом расширения для движений с нулевой скоростью в направлениях x и y. Доклад касается количества w az, которое является компонентом движения в направлении z, и расстояния скорости, измеряемой в метрах в секунду или секундах, также известной как время до контакта, что полезно для определения того, как пройдет много времени, прежде чем человек врежется в объект, если ничего не изменится. Затем спикер продолжает демонстрировать на простом примере, как работает фокус расширения, когда кто-то движется к стене, и как будет выглядеть поле движения в этом сценарии.

  • 00:35:00 В этом разделе спикер объясняет, что, хотя мы можем подумать, что поиск векторов — это самый простой подход к решению проблемы нахождения фокуса расширения, реальность такова, что все, что у нас есть, — это изображения, которые являются яркостными паттернами, и внутри них нет векторов. Вместо этого нам нужно использовать данные изображения расширяющегося или уменьшающегося изображения, чтобы решить эту проблему. Докладчик показывает диаграмму векторов, показывающую сжатие, а не расширение, но подчеркивает, что фокус расширения является существенным фактором в этом эксперименте. Докладчик также вводит понятие радиального градиента, который представляет собой скалярное произведение двух векторов: вектора градиента яркости и вектора к оптическому центру камеры, и его можно использовать для измерения обратного времени для контакт с использованием производных яркости в одной точке изображения. Однако эти числа подвержены шуму, а оценка производных усугубляет ситуацию, поэтому этот метод не очень точен.

  • 00:40:00 В этом разделе лектор объясняет, как вычислить радиальные градиенты и использовать их для оценки времени контакта изображения. Радиальный градиент вычисляется путем скалярного произведения градиента изображения с радиальным вектором в полярной системе координат, построенной на изображении. Затем лектор показывает, как использовать метод наименьших квадратов, чтобы минимизировать разницу между вычисленным радиальным градиентом и теоретическим значением нуля для точечного источника света. Это применяется к простому случаю движения вдоль оптической оси, где оценка параметра c дает время до контакта.

  • 00:45:00 В этом разделе лекции профессор объясняет свой подход к оценке времени до контакта с помощью методов прямого зрения в движении. Он использует исчисление, чтобы минимизировать среднеквадратичную ошибку в присутствии шума, и выводит формулу для c, которая является обратной величиной времени до контакта. Ключевым моментом является оценка градиента яркости с использованием соседних пикселей в направлениях x и y, затем вычисление радиального градиента и, наконец, вычисление двойных интегралов по всем пикселям, чтобы получить оценки g и g в квадрате. При этом время до контакта можно легко оценить по формуле для с. Этот метод прост и эффективен, не требует высокоуровневой обработки или сложных методов распознавания объектов, что делает его прямым расчетом времени до контакта.

  • 00:50:00 В этом разделе спикер обсуждает измерение положения автобуса с помощью методов анализа изображений. Измеряя количество пикселей в изображении автобуса и то, как оно меняется со временем, можно точно определить положение автобуса. Однако этот процесс требует высокого уровня точности и может стать сложным при работе с более сложными сценариями. Чтобы продемонстрировать эти методы, спикер использует программу под названием Montevision, которая обрабатывает изображения для оценки времени до контакта и фокуса расширения с различными объектами. Программа вычисляет три значения для оптимизации точности анализа изображений, но, поскольку результаты зашумлены, они требуют постоянного улучшения, чтобы быть эффективными.

  • 00:55:00 В этом разделе лектор обсуждает метод расчета времени до контакта и ограничения для этого с помощью покадровых вычислений. Эти ограничения включают изменения фокуса изображения и неспособность метода приспособиться к более высоким скоростям в более близких объектах. Лектор демонстрирует, как преодолеть эти ограничения, используя мультимасштабные суперпиксели или группируя пиксели вместе для повышения скорости и точности обработки изображений. Наконец, лектор показывает живую демонстрацию с использованием веб-камеры для отображения времени до контакта на основе движения камеры.

  • 01:00:00 В этом разделе лектор демонстрирует инструмент, который может отображать промежуточные результаты, при этом производная по x управляет красным, а производная по y — зеленым, создавая трехмерный эффект, похожий на быстрое изменение градиента в топографическом изображении. карта. Кроме того, показано, что радиальная производная g направлена наружу и при умножении на производную по времени et может определять движение. Однако признано, что такой инструмент имеет ограничения и ошибки, которые можно вычислить, и не имеет магического кода, что делает его увлекательным и понятным инструментом.

  • 01:05:00 В этом разделе лектор обсуждает проблему обработки произвольных движений при обработке изображений. Он отмечает, что проблема возникает из-за того, что u и v, которые относятся к движению в направлениях x и y соответственно, могут различаться по всему изображению. Это может привести к миллиону уравнений с двумя миллионами неизвестных, что сделает проблему неразрешимой. Лектор предполагает, что для решения задачи могут понадобиться дополнительные предположения, но отмечает, что в большинстве случаев соседние точки на изображении движутся с одинаковыми или близкими скоростями, предоставляя дополнительную информацию. Он также предупреждает, что решение может дать сбой, если на изображении отсутствует радиальный градиент, и объясняет, что это значит.

  • 01:10:00 В этом разделе лектор обсуждает шаблоны, которые могут повлиять на успех использования методов движения прямого зрения для расчета времени до контакта. Лектор объясняет, что некоторые паттерны, такие как форма x, имеют градиенты, изменяющиеся в разных направлениях, и, следовательно, предоставляют ценную информацию для расчета времени до контакта. Однако другой шаблон, такой как круговая диаграмма, не может предоставить эту информацию, поскольку градиенты постоянны в своем направлении. Лектор также упоминает, что алгоритм может улавливать ненулевые exey из крошечных пятнышек или волокон, которые существуют даже в относительно последовательных узорах, таких как лист бумаги. Наконец, лекция вводит две новые переменные, fu от z и fv от z, которые помогут более удобно определить время до контакта и врага в уравнениях.

  • 01:15:00 В этом разделе спикер обсуждает формулу для расчета фокуса расширения, которая основана на двух параметрах a и b, и то, как f не отображается в формуле. Хотя для многих целей f требуется для вычисления расстояния и скорости, вычисление времени до контакта не требует f. Затем докладчик формулирует задачу как задачу наименьших квадратов с конечным числом параметров a, b и c и приступает к дифференцированию интеграла, чтобы найти производную от подынтегральной функции.

  • 01:20:00 В этом разделе лекции спикер объясняет, как решить три линейных уравнения и три неизвестных, чтобы выяснить, как различные переменные повлияют на зрение в движении. Решение имеет закрытую форму, что выгодно, так как позволяет быстро делать выводы, а не пересчитывать с другими параметрами. Есть три аккумулятора, которые различаются по горизонтали, вертикали и направлению g, и все они влияют на коэффициенты. Матрица коэффициентов симметрична, что дает представление об устойчивости решения.

  • 01:25:00 В этом разделе лекции спикер обсуждает распараллеливание процесса прогона шести аккумуляторов в образе и добавление к ним по ходу. Этот процесс не требует взаимодействия между пикселями и поэтому может ускориться, если выполняется на графическом процессоре. Эти накопители не зависят от изменений во времени, поскольку они просто накапливают паттерны яркости и текстуры в изображении. Остальные три аккумулятора зависят от изменений во времени. После того, как все аккумуляторы учтены, необходимо решить три уравнения с тремя неизвестными.
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Лекция 4: Фиксированный оптический поток, оптическая мышь, допущение постоянной яркости, решение закрытой формы



Лекция 4: Фиксированный оптический поток, оптическая мышь, допущение постоянной яркости, решение закрытой формы

В лекции 4 курса по визуальному восприятию для автономии лектор обсуждает такие темы, как фиксированный оптический поток, оптическая мышь, предположение о постоянной яркости, решение с закрытой формой и время до контакта. Предположение о постоянной яркости приводит к уравнению ограничения изменения яркости, которое связывает движение в изображении с градиентом яркости и скоростью изменения яркости. Лектор также демонстрирует, как моделировать ситуации, когда камера или поверхность наклонены, и обсуждает преимущества многомасштабного усреднения при обработке больших движений. Кроме того, лекция исследует использование времени для контакта в различных автономных ситуациях и сравнивает различные системы управления для посадки в планетарных космических кораблях. Наконец, лекция касается проекции линии и того, как ее можно определить с помощью перспективной проекции.

Докладчик обсуждает приложения обработки изображений, в том числе то, как можно использовать точки схода для восстановления параметров преобразования для калибровки камеры и как калибровочные объекты с известными формами могут определять положение точки в системе, ориентированной на камеру. В лекции также рассматриваются преимущества и недостатки использования различных форм в качестве калибровочных объектов для алгоритмов оптического потока, таких как сферы и кубы, и как найти неизвестный центр проекции с помощью куба и трех векторов. Лекция заканчивается подчеркиванием важности учета параметров радиальной дисторсии при калибровке реальной камеры робототехники.

  • 00:00:00 В этом разделе лектор рассказывает о формировании изображения и отслеживании движения. Они обсуждают уравнения перспективной проекции и фокус расширения, то есть точку, к которой происходит движение. Вводится предположение о постоянной яркости, что означает, что во многих случаях яркость изображения точки окружающей среды не будет меняться со временем. Лектор объясняет, как это предположение приводит к уравнению ограничения изменения яркости, которое связывает движение на изображении с градиентом яркости и скоростью изменения яркости. В лекции также рассказывается о том, как определение скорости требует дополнительных ограничений и как все, что движется с одинаковой скоростью, может быть крайней формой ограничения.

  • 00:05:00 В этом разделе лекции спикер обсуждает технику минимизации ошибки оценки u и v в задачах оптического потока, где u и v постоянны для всего изображения, как в случае с оптической мышью . Этот процесс сильно ограничен, но мы можем получить линейное уравнение с неизвестными с симметричной матрицей коэффициентов два на два. Докладчик показывает, как вычислять производные и условия, при которых этот метод не работает. Они также объясняют особый тип изображения, где отношения e_x и e_y везде одинаковы, и это условие будет выполняться.

  • 00:10:00 В этом разделе лектор рассказывает об изофотографии, где exy постоянна, то есть прямая линия с параллельными линиями, отличающимися только c. Этот тип изображения создает проблемы для систем оптических мышей, поскольку они не могут измерить скольжение в одном направлении, что делает невозможным определение другой его части. Затем в лекции вводится понятие времени до контакта, которое зависит от соотношения дробных частей, а не от абсолютных значений, что позволяет системе работать без калибровки. Лектор также демонстрирует, как дифференцировать уравнение, показывая, что размер объекта постоянен, что приводит к тому, что производная произведения равна нулю.

  • 00:15:00 В этом разделе лектор объясняет простую зависимость, которая переводит определенное процентное изменение размера между кадрами в определенное процентное изменение расстояния, которое напрямую переводится во время до контакта (TTC). Лектор подчеркивает важность точного измерения размера изображения при оценке ТТС методом размера изображения, так как дробное изменение изображения от кадра к кадру относительно невелико при высоком ТТС. Лектор также обсуждает допущения, сделанные во время контакта относительно плоской поверхности, отмечая, что допущение о том, что z является постоянным, все еще применимо.

  • 00:20:00 В этом разделе лектор обсуждает, как моделировать ситуации, когда камера или поверхность наклонены. В случае наклонной плоскости глубина изображения больше не будет постоянной. Уравнение плоскости представляет собой линейное уравнение относительно x и y, что может быть более сложной моделью для рассмотрения. Как правило, уравнения могут стать слишком сложными, и может не быть решения в закрытой форме. Однако лучше сначала сосредоточиться на случаях, когда есть решение в закрытой форме. Если поверхность не плоская, мы можем аппроксимировать ее полиномами, чтобы решить задачу наименьших квадратов. К сожалению, мы не найдем решение в закрытой форме, поэтому нам нужно численное решение. Тем не менее, мы должны быть осторожны, вводя больше переменных, потому что это позволяет решению волнообразно двигаться в другом направлении, теряя любое преимущество по сравнению с моделированием плоской поверхности.

  • 00:25:00 В этом разделе спикер обсуждает вопросы реализации многомасштабности в оптическом потоке. Несмотря на успешную реализацию, он отмечает, что точность результатов снижается по мере увеличения движения в изображении. Один из способов решить эту проблему — работать с изображениями меньшего размера, что снижает количество движений в кадре. Докладчик также обсуждает преимущества многомасштабного усреднения, которое включает в себя работу со все меньшими и меньшими наборами изображений для обработки крупных движений. Объем требуемой работы увеличивается с количеством подмножеств, но общие вычислительные усилия уменьшаются. Докладчик подчеркивает, что процесс многомасштабной оптимизации сложнее, чем простое усреднение по блокам два на два, которое использовалось в предыдущей лекции.

  • 00:30:00 В этом разделе лекции спикер обсуждает, как работа в нескольких масштабах может значительно улучшить результаты вычислений оптического потока. Он объясняет, что субдискретизацию следует выполнять после низкочастотной фильтрации, чтобы предотвратить наложение спектров, и хотя можно проводить субдискретизацию с помощью менее агрессивного фактора, такого как квадратный корень из 2, его часто игнорируют в пользу более простого блока два на два. метод усреднения. Докладчик также упомянул несколько интересных применений оптического потока, таких как использование времени контакта для предотвращения авиационных происшествий и улучшения посадки космического корабля на спутнике Юпитера, Европе. Он объясняет, как система управления может использовать время, чтобы связаться с измерениями, чтобы изменить ускорение ракетного двигателя и более надежно сбить космический корабль.

  • 00:35:00 В этом разделе лекции рассматривается простая система поддержания постоянного времени до контакта при спуске, которую можно использовать в различных автономных ситуациях, таких как автомобили или космические корабли. Основная идея состоит в том, чтобы отрегулировать усилие, прикладываемое к двигателю, в зависимости от того, меньше или больше измеренное время контакта, чем нужно, чтобы поддерживать его постоянным. Этот метод не зависит от какой-либо конкретной текстуры или калибровки, а просто опирается на соотношение между высотой и скоростью. Уравнение для этой системы можно решить как обыкновенное дифференциальное уравнение, решение которого пропорционально z.

  • 00:40:00 В этом разделе лектор обсуждает систему управления с постоянным временем до контакта и сравнивает ее с более традиционным подходом к посадке в планетарных космических кораблях. Система контроля постоянного времени до контакта выгодна, поскольку она более энергоэффективна, поскольку она постоянно поддерживает постоянное время до контакта и не требует подробных сведений о расстоянии до поверхности и скорости. Лектор показывает расчеты времени до контакта при постоянном ускорении и подчеркивает, что время до контакта всегда составляет половину того, что наблюдается при использовании стратегии постоянной высоты.

  • 00:45:00 В этом разделе лектор обсуждает концепцию контроля постоянного ускорения и его сравнение с традиционными подходами к оценке расстояния и скорости. Затем он вводит обобщение оптического потока, которое называется фиксированным потоком, и объясняет, что он предполагает, что движение всех частей изображения одинаково. Однако в случаях, когда имеются независимые движения или мало неизвестных, система может оказаться переопределенной. Он также обсуждает некорректно поставленную проблему систем с недостаточными ограничениями и то, как для ее решения можно использовать жесткое ограничение.

  • 00:50:00 В этом разделе лектор обсуждает, как соседние точки на изображении не движутся независимо друг от друга, а имеют тенденцию двигаться с одинаковыми скоростями, что создает ограничения для оптического потока. Однако это ограничение не является простым уравнением и требует более точных инструментов для решения. Если эти инструменты недоступны, изображение можно разделить на более мелкие части, где предположение о постоянной скорости в этой области менее важно. Но это деление также создает компромисс между разрешением и однородностью яркости в этих областях. Лекция также затрагивает идею точек схода и то, как их можно использовать для калибровки камеры или определения относительной ориентации двух систем координат.

  • 00:55:00 В этом разделе лекции профессор обсуждает проекцию прямой и то, как ее можно определить различными способами, в том числе алгебраически и геометрически. Он объясняет, что линия в 3D может быть определена точкой и направлением с использованием единичного вектора, и что разные точки на линии имеют разные значения s. Профессор продолжает объяснять, как это можно спроецировать на изображение с помощью перспективной проекции, что приводит к запутанному уравнению с переменными x, y и z. Однако, сделав s очень большим, можно упростить уравнение и изучить влияние калибровки камеры и систем обработки изображений.

  • 01:00:00 В этом разделе спикер говорит о точках схода, возникающих в результате сходимости линий к точке на плоскости изображения. Эти точки схода можно использовать, чтобы узнать что-то о геометрии изображения, что можно применить в реальных сценариях, таких как предупреждение полицейских, строителей и других людей, которым может угрожать опасность из-за встречного автомобиля. Камера может определить поворот своей центральной системы координат относительно дороги, найдя точку схода. Параллельные линии имеют одну и ту же точку схода, а это означает, что если есть ряд параллельных линий, образующих прямоугольную форму, ожидается три точки схода.

  • 01:05:00 В этом разделе лектор обсуждает два приложения обработки изображений: нахождение точек схода для восстановления параметров преобразования для калибровки камеры и использование калибровочных объектов с известными формами для определения положения точки в центре камеры система. Лектор объясняет, что нахождение точек схода позволяет восстановить панорамирование и наклон камеры относительно направления дороги и горизонта. В лекции также рассматривается необходимость восстановления положения объектива над плоскостью изображения и высоты центральной проекции для точной калибровки камеры. Лектор предлагает использовать калибровочный объект с известной формой, такой как сфера, для определения положения точки в камероцентрической системе.

  • 01:10:00 В этом разделе лектор обсуждает преимущества и недостатки использования различных форм в качестве калибровочных объектов для алгоритмов оптического потока. Хотя сферы относительно легко изготовить и получить, они могут быть шумными и не очень точными при проецировании их на плоскость изображения. С другой стороны, кубы имеют значительные преимущества благодаря своим прямым углам и параллельным линиям, которые соответствуют точкам схода. Лектор объясняет, как поиск точек схода может помочь в определении проекций изображения трех векторов, указывающих в 3D вдоль линий. Эта информация может использоваться для более точной калибровки алгоритмов оптического потока.

  • 01:15:00 В этом разделе спикер рассказывает о нахождении неизвестного центра проекции P с помощью калибровочного объекта, такого как куб, и трех векторов: A, B и C. Три вектора находятся под прямым углом к друг друга, что помогает создать три уравнения, которые решают для трех неизвестных P. Однако члены второго порядка в квадратных уравнениях позволяют иметь несколько решений, и именно здесь появляется теорема Зута. Используя теорему, докладчик показывает, что максимальное число решений есть произведение порядка уравнений. Чтобы упростить уравнения, говорящий вычитает их попарно, что приводит к трем линейным уравнениям, которые можно использовать для нахождения неизвестных.

  • 01:20:00 В этом разделе мы узнаем, что, хотя есть три линейных уравнения, они не являются линейно независимыми, и поэтому есть только два решения. Линейные уравнения определяют плоскости в трехмерном пространстве, и при их пересечении получается линия, содержащая третью плоскость, которая не дает никакой дополнительной информации. Этот метод полезен для калибровки камеры и определения положения центра проекции. Однако реальные камеры имеют параметры радиальной дисторсии, которые необходимо учитывать при калибровке реальной камеры робототехники.
 

Лекция 5: Демонстрации TCC и FOR MontiVision, Точка схода, Использование VP в калибровке камеры



Лекция 5: Демонстрации TCC и FOR MontiVision, Точка схода, Использование VP в калибровке камеры

В лекции рассматриваются различные темы, связанные с калибровкой камеры, в том числе использование точек схода в перспективной проекции, триангуляция для нахождения центра проекции и главной точки при калибровке изображения, а также концепция нормальных матриц для представления вращения в ортонормированной матрице. Лектор также объясняет математику определения фокусного расстояния камеры и как использовать точки схода для определения ориентации камеры относительно мировой системы координат. Кроме того, обсуждается использование TCC и FOR MontiVision Demos, а также важность понимания геометрии, лежащей в основе уравнений при решении задач.

Лекция охватывает различные темы, связанные с компьютерным зрением, в том числе влияние освещения на поверхностную яркость, способы измерения матовых поверхностей с использованием двух разных положений источника света и использование альбедо для определения единичного вектора. В лекции также обсуждается точка схода при калибровке камеры и простой метод измерения яркости с использованием трех независимых направлений источника света. Наконец, докладчик касается орфографической проекции как альтернативы перспективной проекции и условий, необходимых для ее использования в реконструкции поверхности.

  • 00:00:00 В этом разделе спикер демонстрирует использование демонстраций TCC и FOR MontiVision на веб-камере, направленной на клавиатуру. Они обсуждают важность расчета времени до контакта и факторы, влияющие на эти расчеты. Спикер также обсуждает концепцию точек схода в перспективной проекции и то, как их можно использовать при калибровке камеры. Они объясняют уравнение для расчета времени до контакта и то, как знак дздт влияет на изображение движущихся объектов.

  • 00:05:00 В этом разделе лектор обсуждает понятие точки схода в калибровке камеры, которая представляет собой точку на плоскости изображения, где через центр проекции проходит специальная параллельная линия. Другие параллельные линии также имеют точки схода, и по мере их удаления их проекция на изображение приближается к проекции специальной линии. Эта концепция позволяет определять отношения между системами координат и калибровкой камеры, что полезно для распознавания объектов в приложениях компьютерного зрения. Лектор приводит пример мира прямоугольных объектов с наборами параллельных линий, определяющих систему координат, которую можно спроецировать на плоскость изображения для калибровки.

  • 00:10:00 В этом разделе спикер рассказывает о точках схода и их использовании в калибровке камеры. Оратор объясняет, что есть три точки схода, которые можно точно определить, проведя параллельные линии, и эти точки можно использовать для нахождения центра проекции. Центр проекции — это место, где устанавливается взаимосвязь между системой координат в объекте и системой координат в плоскости изображения. Соединив центр проекции с точками схода на плоскости изображения, можно создать три вектора, и эти векторы можно использовать для нахождения точки, в которой направления к точкам схода находятся под прямым углом друг к другу. Спикер отмечает, что геометрическое место всех мест, где вы могли бы находиться, из которых точки схода будут находиться под прямым углом друг к другу, представляет собой круг.

  • 00:15:00 В этом разделе лектор обсуждает 3D версию TCC и калибровку камеры. Он объясняет, что ограничение на положение центра проекции заключается в том, что он лежит на сфере, и как использовать сферы, чтобы сузить возможности для центра проекции. Затем лектор обсуждает линейные уравнения и прямые линии, а также параметризацию прямых через тета и ро. Параметризация полезна, поскольку позволяет избежать сингулярностей и обеспечивает мир с двумя степенями свободы для линий.

  • 00:20:00 В этом разделе лектор обсуждает представление плоскостей в трех измерениях с помощью линейных уравнений с тремя неизвестными. Он объясняет, что на самом деле существует только три степени свободы, а не четыре, из-за масштабного коэффициента. Эта двойственность означает, что существует отображение между плоскостями и точками в 3D, аналогичное отображению между линиями и точками в 2D. Затем лектор представляет проблему калибровки камеры, сравнивая ее с проблемой мультилатерации в робототехнике, которая включает пересечение трех сфер.

  • 00:25:00 В этом разделе спикер объясняет, как найти точку пересечения двух сфер в трехмерном пространстве. Первая сфера определяется как имеющая уравнение с членами второго порядка, что может привести к восьми возможным решениям. Однако, вычитая это уравнение из второй сферы, вместо этого можно получить линейное уравнение. Повторяя этот процесс для всех пар сфер, можно создать три линейных уравнения с тремя неизвестными, которые затем можно решить. Хотя это кажется идеальным решением, важно отметить, что матрица, созданная этим методом, часто является сингулярной и, следовательно, неуникальной в своем решении.

  • 00:30:00 В этом разделе спикер обсуждает проблему манипулирования уравнениями и потери важной информации в процессе. Он объясняет, что, хотя выводить новые уравнения совершенно нормально, нужно быть осторожным, чтобы не выбросить исходные уравнения, поскольку они все еще могут содержать важную информацию, необходимую для решения проблемы. Он демонстрирует это на примере линейных и квадратных уравнений и показывает, как одни уравнения можно отбросить, а другие оставить, чтобы получить желаемое количество решений. Докладчик также подчеркивает важность понимания геометрии, лежащей в основе уравнений, поскольку это может дать ценную информацию, которая может быть не сразу очевидна только из алгебры.

  • 00:35:00 В этом разделе стенограммы спикер обсуждает триангуляцию и как найти центр проекции и главную точку при калибровке изображения. Они объясняют, что центр проекции можно найти, используя три известные точки, что дает три плоскости, и центр можно найти на их пересечении. Для нахождения главной точки опускают перпендикуляр из центра проекции в плоскость изображения. Они также обсуждают точки схода, которые можно использовать для определения того, было ли изображение изменено или обрезано.

  • 00:40:00 В этом разделе лектор обсуждает использование точек схода в фотограмметрии и калибровке камеры. Он объясняет, как можно использовать точки схода для определения подлинности изображений, и исследует различные мистификации, связанные с исследованиями. Затем он углубляется в математику поиска третьего компонента вектора и решения квадратного уравнения для определения фокусного расстояния. Далее он объясняет особый случай, когда фокусное расстояние можно определить без решения квадратного уравнения. Видео является частью серии лекций о технических аспектах компьютерного зрения.

  • 00:45:00 В этом разделе спикер обсуждает применение точек схода в калибровке камеры специально для определения ориентации камеры относительно мировой системы координат. Спикер объясняет, что, идентифицируя такие объекты, как бордюр и дорожная разметка на изображении, которые предположительно параллельны, они могут создать точку схода, которую можно распознать на изображении. Докладчик также объясняет, что в идеальном случае, когда доступны все три точки схода, края прямоугольного объекта, захваченного камерой, могут использоваться для определения осей x и y, а затем для определения поворота между системой координат камеры и мировая система координат.

  • 00:50:00 В этом разделе спикер объясняет процесс нахождения ортов в системе координат объекта, измеренных в системе координат камеры. Единичные векторы должны располагаться под прямым углом друг к другу и затем использоваться для расчета TCC и FOR MontiVision Demos. Матрица преобразования представляет собой ориентацию одной системы координат относительно другой, и спикер говорит, что они будут делать это в будущем.

  • 00:55:00 В этом разделе лектор обсуждает понятие нормальной матрицы, где строки перпендикулярны друг другу, а величина каждой строки равна единице. Цель этого состоит в том, чтобы представить вращение в ортонормированной матрице. Определив направление осей координат в объекте, можно относительно легко переключаться между двумя системами координат, что особенно полезно для калибровки камеры. Наконец, лекция затрагивает концепцию яркости, где наблюдаемая яркость зависит от поверхности материала, источника света, углов падения и выхода, а также азимутальных углов.

  • 01:00:00 В этом разделе видео спикер обсуждает понятие освещения и то, как оно влияет на видимую яркость поверхностей. Они объясняют, что мощность, которую поверхность получает от источника света, зависит от угла наклона поверхности относительно направления источника света, который можно рассчитать с помощью косинуса угла. Затем спикер представляет идею матовой поверхности, которая отражает свет в разных направлениях, но обладает особым свойством: она кажется одинаково яркой с любого направления. Далее они обсуждают, как определить ориентацию такой поверхности, измеряя ее яркость при двух разных положениях источника света.

  • 01:05:00 В этом разделе спикер обсуждает нелинейность, связанную с нахождением n, который является единичным вектором. Используя измерения яркости, можно оценить косинус тета i и определить конус возможных направлений нормали к поверхности. Если выполняются два отдельных измерения, создаются два конуса направлений, и только пересечение этих конусов, состоящее из двух возможных направлений, дает нормальное направление. Однако ограничение, заключающееся в том, что это должна быть единичная нормаль, означает, что эти два возможных направления теперь должны быть пересечены единичной сферой, чтобы сделать окончательное определение. Докладчик объясняет, что с помощью альбедо, которое определяет отражательную способность поверхности, можно создать задачу линейного уравнения, чтобы определить, насколько ярко что-то находится в плоскости изображения. Значение альбедо колеблется от нуля до единицы и показывает, какая часть энергии, поступающей в объект, отражается обратно, а какая поглощается и теряется.

  • 01:10:00 В этом разделе лекции обсуждается использование точки схода (VP) при калибровке камеры. Лекция знакомит с трехмерным вектором, который инкапсулирует неизвестные и вычисляет альбедо и единичный вектор посредством матричного умножения вектора на положение источника света. Однако этот метод ограничен, когда источники света компланарны, то есть находятся в одной плоскости, или если две строки матрицы совпадают, и в этом случае инвертировать матрицу невозможно. В лекции также отмечаются последствия этих ограничений для астрономов, поскольку им необходимо следить за тем, чтобы источники света не находились в одной плоскости.

  • 01:15:00 В этом разделе спикер обсуждает простой метод измерения яркости с использованием трех независимых направлений источника света, который можно предварительно рассчитать и эффективно реализовать. Предполагается, что для этой цели может быть полезно использование трех наборов датчиков в камере (RGB). Можно построить справочную таблицу для калибровки поверхностей на основе известной формы сферы, а ее ориентацию поверхности можно рассчитать для измерения яркости трех изображений. Однако реальные поверхности не подчиняются этому простому правилу, и для инвертирования числовых значений ориентации поверхности можно использовать справочную таблицу. Наконец, спикер касается орфографической проекции как альтернативы перспективной проекции.

  • 01:20:00 В этом разделе спикер объясняет условия, необходимые для использования орфографической проекции при реконструкции поверхностей по изображениям. Он разделяет, что предположение основано на том, что диапазон глубины очень мал по сравнению с самой глубиной, что позволяет обеспечить постоянное увеличение, необходимое для этой проекции. Орфографическая проекция используется для упрощения процесса восстановления поверхностей по изображениям.
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Лекция 6: Фотометрическое стерео, усиление шума, усиление ошибок, обзор собственных значений и собственных векторов



Лекция 6: Фотометрическое стерео, усиление шума, усиление ошибок, обзор собственных значений и собственных векторов

На протяжении всей лекции спикер объясняет понятия усиления шума, собственных значений и собственных векторов при решении систем линейных уравнений в фотометрическом стерео. В лекции обсуждаются условия для сингулярных матриц, актуальность собственных значений в анализе ошибок и важность линейной независимости во избежание сингулярных матриц. Лекция завершается обсуждением закона Ламберта и ориентации поверхности, а также подчеркивает необходимость представления поверхностей с помощью единичного вектора нормали или точек на единичной сфере. В целом, лекция дает представление о математических принципах, лежащих в основе фотометрического стерео, и освещает проблемы точного восстановления топографии Луны по земным измерениям.

В лекции 6 курса вычислительной фотографии спикер обсуждает, как использовать единичный вектор нормали и градиенты поверхности, чтобы найти ориентацию поверхности и построить график яркости как функцию ориентации поверхности. Они объясняют, как использовать параметризацию pq для отображения возможных ориентаций поверхности, и показывают, как можно использовать плоскость наклона для отображения яркости под разными углами ориентации. Докладчик также обсуждает, как переписать скалярное произведение единичного вектора источника света и единичного вектора нормали в терминах градиентов, чтобы найти кривые в пространстве pq, где эта величина постоянна. Лекция заканчивается объяснением того, как конусы, образованные вращением линии к источнику света, можно использовать для нахождения конических сечений различной формы.

  • 00:00:00 В этом разделе видео лектор обсуждает усиление шума в 1D случае, где есть одно неизвестное и одно измерение, и объясняет, что если кривая имеет малый наклон, небольшая ошибка может усилиться в большую область. Переходя к двумерному случаю, обсуждение переходит к собственным векторам и собственным значениям, которые характеризуют матрицу и указывают, указывает ли вектор, полученный в результате умножения матрицы, в том же направлении, что и вектор, который использовался для умножения матрицы. Лектор подробно рассказывает, как найти эти векторы и сколько их, заявляя, что размер и масштаб векторов не имеют значения и что может быть более одного собственного вектора.

  • 00:05:00 В этом разделе спикер обсуждает концепцию сингулярной матрицы и ее значение при решении систем линейных уравнений. Сингулярная матрица – это матрица, у которой определитель равен нулю. Для реальной симметричной матрицы размером n на n определитель представляет собой полином n-го порядка по лямбда с n корнями. Это означает, что в случае однородной системы уравнений существует несколько решений, а не единственное решение, если определитель равен нулю. Это важно при работе с многомерными задачами, такими как восстановление оптической мыши, когда ошибка в определенных направлениях может отличаться от ошибок в других направлениях. Таким образом, требуется более детальная картина, помимо простого определения небольшой детерминанты как проблемной.

  • 00:10:00 В этом разделе лекции спикер обсуждает однородные уравнения и их интересные свойства, в том числе условие нетривиальности решения системы однородных уравнений. Также обсуждается определитель матрицы, а также собственные значения и собственные векторы. Собственные векторы будут особыми направлениями, в которых выполняется свойство собственных значений, и они будут ортогональны. Собственные значения будут определять, насколько будет усиливаться ошибка, что важно для измерения ошибки на практике. Хотя поиск собственных значений и собственных векторов для больших матриц часто выполняется с помощью программного обеспечения, полезно понимать этот процесс на базовом уровне.

  • 00:15:00 В этом разделе докладчик обсуждает собственные векторы и собственные значения при решении однородных уравнений для случая 2x2. Чтобы найти собственные векторы, докладчик показывает, что решения должны быть перпендикулярны строкам матрицы. Результат дает четыре собственных вектора, указывающих в одном направлении для разных значений лямбда, и их можно нормализовать, чтобы получить единичные собственные векторы. Этот метод может быть расширен до матрицы n на n, которая предоставляет n собственных векторов и соответствующих собственных значений для обсуждения усиления ошибки.

  • 00:20:00 В этом разделе лектор объясняет, как распространить нотацию скалярного произведения на матрицы и показывает, что если все собственные значения различны, то все собственные векторы ортогональны. Он также упоминает, что если некоторые из корней совпадают, это не заставляет собственные векторы быть ортогональными, но он может выбрать два из всех возможных собственных векторов, которые ортогональны друг другу. Это помогает в построении основы для векторного пространства. Лектор также рассказывает о том, как думать о векторах как о векторах-столбцах или тощих матрицах, и показывает, как скалярное произведение может быть записано обоими способами.

  • 00:25:00 В этом разделе лектор обсуждает собственные векторы и то, как их можно использовать для повторного выражения любого вектора через них. Взяв произвольное измерение вектора и умножив матрицу на это измерение, чтобы получить неизвестные переменные, различные компоненты могут быть увеличены на разную величину вдоль особых направлений собственных векторов. Это известно как усиление ошибки. Однако они также имеют дело с обратными задачами, где используется обратная матрица, поэтому лектор вводит двоичное произведение n векторов, чтобы применить идею.

  • 00:30:00 В этом разделе спикер рассказывает о собственных векторах и собственных значениях и о том, как их можно использовать для перезаписи матрицы различными способами. Они объясняют, что все эти члены зависимы, но сами собственные векторы — нет, поэтому их можно исключить. Далее они обсуждают, как этот подход можно использовать для проверки свойств собственных значений и почему это важно при решении проблемы со зрением. В частности, они объясняют, что матрица, используемая для решения этой проблемы, часто умножает компоненты сигнала на 1 по лямбде i, поэтому, если лямбда i мала, это может создать некорректную задачу, которая не является стабильной.

  • 00:35:00 В этом разделе лектор обсуждает собственные векторы и собственные значения в контексте анализа ошибок. Он объясняет, что если один из собственных векторов имеет малое собственное значение, даже небольшая ошибка в измерении может привести к большому изменению результата. Направление изофоты соответствует собственному вектору с небольшим собственным значением, что затрудняет обнаружение точного движения, тогда как направление градиента более щадящее. Затем лектор переходит к обсуждению фотометрического стерео, метода восстановления ориентации поверхности путем получения нескольких снимков объекта в разных условиях освещения. Он объясняет, что параметр альбедо используется для описания того, сколько света отражает поверхность, и что он может помочь ограничить ориентацию поверхности.

  • 00:40:00 В этом разделе лектор объясняет процесс использования различных источников света для получения трех измерений, чтобы можно было ввести задачу с тремя неизвестными и тремя измерениями. Это позволяет устранить неоднозначность ориентации изображения с помощью методов решения линейных уравнений, что приводит к простому и дешевому способу вычисления решения. Лектор отмечает, что нахождение двух решений возникает из квадратного уравнения, которого можно избежать, используя нотацию скалярного произведения для преобразования единичного вектора в произвольный 3-вектор. Кроме того, в видео упоминается важность линейно независимых строк, чтобы избежать сингулярных матриц.

  • 00:45:00 В этом разделе лекции обсуждаются фотометрическое стерео, усиление ошибок, собственные значения и собственные векторы. Исследована избыточность измерений при нулевой сумме источников света и показано, что если три вектора в трехмерном пространстве компланарны, то метод не работает. Однако, если они не компланарны и расположены под прямым углом друг к другу, результаты будут более надежными. В лекции также упоминается использование фотометрического стерео для создания топографических карт Луны на основе разного освещения от Солнца.

  • 00:50:00 В этом разделе лекции профессор обсуждает проблемы, связанные с попытками получить топографию Луны по земным измерениям. Хотя можно проводить измерения в разных точках орбиты Луны, этот метод не работает, потому что векторы почти компланарны. Профессор также говорит о ламбертовском предположении, которое предполагает, что объект имеет совершенно диффузное и однородное отражение, но отмечает, что это не так с поверхностью Луны. Однако это допущение полезно для сравнения двух интенсивностей освещения, чего можно достичь, освещая одну сторону одним источником, а другую сторону другим источником, а затем уравновешивая его так, чтобы две стороны казались одинаково яркими, если смотреть на них под одним и тем же углом.

  • 00:55:00 В этом разделе лекции профессор обсуждает эксперименты, проведенные Ламбертом, которые привели к открытию закона Ламберта, объясняющего, как поверхности отражают свет при освещении под разными углами. Закон гласит, что яркость пропорциональна косинусу угла падения. Обсуждение также подчеркивает необходимость говорить об ориентации поверхности и о том, как ее можно представить с помощью единичного вектора нормали или точек на единичной сфере. Профессор упоминает, что эта феноменологическая модель является постулируемым поведением, а не точным представлением реальных поверхностей. Раздел заканчивается введением разложения в ряд Тейлора.
  • 01:00:00 В этом разделе видео спикер обсуждает взаимосвязь между единичной нормальной записью и градиентной записью в вычислительных задачах. Они объясняют, как переключаться между двумя обозначениями, и приводят примеры того, как это полезно для решения задач в различных областях, таких как декартовы координаты и полярные координаты. Докладчик также показывает, как найти касательные на поверхности, и объясняет, как использовать направление этих касательных, чтобы найти связь между единичной нормалью и p и q, которые представляют градиенты на поверхности.

  • 01:05:00 В этом разделе лектор обсуждает, как отобразить все возможные ориентации поверхности, используя единичный вектор нормали к поверхности, и как эта информация полезна для машинного зрения. Перекрестное произведение двух касательных векторов, лежащих на поверхности, дает направление единичного вектора нормали, который затем можно нормализовать, чтобы получить направление поверхности. Проецируя ориентацию поверхности на 2D-плоскость с помощью параметризации pq, можно визуализировать все возможные ориентации поверхности. Точки на этой плоскости соответствуют разным значениям p и q и, следовательно, разным ориентациям поверхностей, включая пол и любую поверхность над полом с одинаковой ориентацией. Лектор отмечает, что, хотя машинное зрение может восстанавливать ориентацию поверхности, объединение этих ориентаций для создания полной поверхности является отдельной, но переопределенной проблемой.

  • 01:10:00 В этом разделе видео спикер объясняет, как плоскость наклона можно использовать в качестве инструмента для построения графика зависимости яркости от ориентации поверхности в машинном зрении. Каждой точке на плоскости соответствует определенная ориентация поверхности, а значения яркости можно определить экспериментально по кусочку материала под разными углами ориентации. Однако одно измерение яркости не может восстановить два неизвестных, и необходимы многочисленные измерения, чтобы точно определить ориентацию элемента поверхности. Затем эта концепция связана с фотометрическим стерео и ламбертовой поверхностью, где яркость пропорциональна косинусу угла падения, а изофоты ищутся в плоскости наклона.

  • 01:15:00 Здесь он обсуждает переписывание направления на источник света другим способом, чтобы полностью выполнить то же преобразование единичного вектора, что и n. Это вводит точку, в которой падающие световые лучи параллельны нормали к поверхности, называемой psqs, которая находится в плоскости и дает самую яркую поверхность для Lamborghini. Переписывая n точек в определенной форме, они могут определить кривые в пространстве pq, где эта величина постоянна. После перемножения всего этого у них остается уравнение второго порядка по p и q, которое соответствует коническому сечению. В качестве примеров приведены парабола и эллипс.

  • 01:20:00 В этом разделе спикер обсуждает диаграмму, которую можно использовать для графики, где изображена поверхность вместе с диаграммой, которая содержит набор изофаад для различных типов поверхностей, включая параболы, эллипсы, окружности, линии , точки и гиперболы. Яркость поверхности считывается с диаграммы и используется в качестве уровня серого или цвета на построенном изображении. Единичную нормаль можно получить от поверхности и использовать для определения точки на изофаадах. Диаграмма меняется при перемещении источника света, поэтому важно определить точку пересечения двух наборов изофад, чтобы получить однозначное решение. Вместо двух используются три источника света, поскольку наличие двух источников света может привести к конечным решениям вместо одного решения.

  • 01:25:00 В этом разделе спикер объясняет, как можно вращать линию к источнику света, создавая конусы и разные углы, создавая вложенные конусы. Эти конусы можно разрезать плоскостью, в результате чего получаются конические сечения, которые не всегда являются эллипсами, а также гиперболами и даже параболами. Докладчик также поясняет, что на практике косинус тета не может быть отрицательным, и оставляет вопрос о том, где кривая превращается из замкнутой в открытую, как загадку для будущих домашних заданий. Лекция завершается напоминанием подписаться на Piazza для получения домашних заданий и обновлений объявлений.
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Лекция 7: Градиентное пространство, карта отражения, уравнение освещенности изображения, гномоническая проекция



Лекция 7: Градиентное пространство, карта отражения, уравнение освещенности изображения, гномоническая проекция

В этой лекции обсуждаются градиентное пространство, карты отражения и уравнения освещенности изображения. Лектор объясняет, как использовать карту отражения для определения ориентации поверхности и яркости в графических приложениях, а также как создать числовое отображение ориентации поверхности на яркость, используя три изображения, сделанные при разных условиях освещения. Они также вводят понятие освещенности и ее связь с интенсивностью и яркостью, а также важность использования конечной апертуры при измерении яркости. Кроме того, лекция затрагивает три правила поведения света после прохождения через линзу, концепцию ракурса и то, как линза фокусирует лучи, чтобы определить, какая часть света от пятна на поверхности концентрируется в изображении.

В этой лекции спикер объясняет уравнение для определения общей мощности, подаваемой на небольшую область изображения, которое учитывает телесные углы и косинус тета. Они связывают это уравнение с диафрагмой в камерах и тем, как размер диафрагмы влияет на количество получаемого света. Спикер также обсуждает освещенность изображения, которая пропорциональна яркости объектов в реальном мире, и то, как яркость падает, когда мы удаляемся от оси. Они переходят к обсуждению двунаправленной функции распределения отражательной способности, которая определяет, насколько яркой будет поверхность в зависимости от направления падения и излучения. Лектор объясняет, что коэффициент отражения можно измерить с помощью гониометра и что важно реалистично смоделировать, как объект отражает свет. Они также объясняют концепцию взаимности Гельмгольца для двунаправленной функции распределения отражательной способности. Затем лекция переходит к обсуждению применения градиентного пространства к поверхностным моделям материалов и напоминает студентам о необходимости быть в курсе информации о домашнем задании.

  • 00:00:00 В этом разделе вводится понятие градиентного пространства для изучения того, что определяет яркость изображения. Яркость обычно зависит от освещения и геометрии, например от ориентации поверхности, поэтому для определения яркости необходимо указывать ориентацию пятна на поверхности. Также упоминаются единичные нормали и p и q, которые являются просто удобными обозначениями наклонов на изображении. Яркость ламбертовской поверхности является спорной, в зависимости от ориентации рассматриваемой поверхности. Многие матовые поверхности являются аппроксимациями ламбертовской поверхности, и такие аппроксимации могут показаться удобными. Однако большинство космических и микроскопических ситуаций не подходят для таких приближений.

  • 00:05:00 В этом разделе лекции спикер обсуждает концепцию карты отражения — диаграммы, показывающей, насколько яркой должна выглядеть поверхность в зависимости от ее ориентации. Эта диаграмма может использоваться для определения ориентации поверхности и яркости для графических приложений. Затем спикер объясняет, как эту концепцию можно распространить на неламбертовские поверхности и как построить справочную таблицу для определения яркости на основе ориентации поверхности. Для дальнейшего уточнения оценки ориентации поверхности можно использовать дополнительную информацию и ограничения.

  • 00:10:00 В этом разделе лектор обсуждает, как использовать объект калибровки, например сферу, для калибровки изображения. Сфотографировав освещенную со всех сторон сферу и подогнав к ней окружность, можно оценить центр и радиус изображения. Для сфер существует удобное соотношение, при котором точка на поверхности и единичный вектор параллельны, что упрощает определение ориентации поверхности. Этот метод также можно использовать для Земли с некоторыми изменениями в определении широты. Вычислив p и q по формуле из предыдущей лекции, можно определить n и ориентацию поверхности для каждой точки изображения.

  • 00:15:00 В этом разделе лекции рассматривается процесс построения численного отображения от ориентации поверхности до яркости на трех снимках, сделанных при разном освещении. Цель состоит в том, чтобы использовать эту информацию для расчета ориентации поверхности при последующей съемке трех изображений объекта при одинаковых условиях освещения. Лектор объясняет реализацию этого процесса, который включает в себя создание на компьютере трехмерного массива, в котором каждая ячейка имеет значения p и q. Затем изображения квантуются на дискретные интервалы и используются для помещения информации в массив. В лекции также рассматриваются такие вопросы, как эффекты квантования и пустые ячейки, которые могут никогда не быть заполнены.

  • 00:20:00 В этом разделе спикер объясняет градиентное пространство, которое представляет собой двухмерное пространство, отображаемое в трехмерное пространство без фактического заполнения этого пространства. Вместо этого в этом пространстве формируется поверхность, и мы можем адресовать точки на этой поверхности, используя p и q. Когда мы переходим от двух изображений к трем, мы вводим коэффициент альбедо, который масштабируется линейно с e1 e2 e3. Калибровочные объекты окрашиваются в белый цвет, и производятся измерения, генерирующие определения поверхности для ро, равного единице. Однако для других строк мы можем заполнить кубы и создать другие поверхности. Таблица поиска, в которую помещаются записи, включает в себя p qand row, таблицу поиска 3D в 3D. Если что-то идет не так, это отражается как значение, отличное от единицы альбедо, что указывает на ошибку или непредвиденную блокировку одного из трех источников света. Этот метод помогает распознавать отбрасывание теней или, для отражающих поверхностей, которые расположены слишком близко или расположены в форме перекрывающихся пончиков, сегментируя и разбивая изображение на части.

  • 00:25:00 В этом разделе лекции спикер обсуждает способы сегментации отбрасываемых теней и областей сильного отражения с помощью градиентного пространства и карт отражения. Существует методический способ заполнения табличных значений соответствующими значениями вокселей. Докладчик также вводит понятие освещенности, которое представляет собой мощность на единицу площади источника света, попадающего на поверхность. Эта концепция не очень полезна в контексте обработки изображений, поскольку мы не подвергаем датчик непосредственному воздействию освещения. Докладчик поясняет, что существует терминология количества излучаемой мощности, деленная на площадь, но она бесполезна для обработки изображений.

  • 00:30:00 В этом разделе спикер объясняет концепцию интенсивности и ее значение с точки зрения измерения того, сколько излучения идет в определенном направлении с использованием точечного источника. Телесный угол определен для нормализации измерения, а его единицы измеряются в стерадианах, что аналогично радианам в 2D, но спроецировано на трехмерное пространство. Телесный угол позволяет измерять набор направлений любой формы, где возможные направления вокруг динамика равны четырем пистерадианам. Кроме того, выступающий затрагивает важность учета случаев, когда площадь поверхности наклонена относительно центра сферы из-за явления ракурса объекта, например, когда объектив камеры наклонен относительно объекта, находящегося не в центре.

  • 00:35:00 В этом разделе видео объясняется концепция интенсивности и сияния. Интенсивность определяется как мощность для телесного угла, а яркость — это мощность на единицу площади на единицу телесного угла. Сияние — более полезная величина, когда речь идет об измерении того, что достигает наблюдателя или камеры с поверхности. В плоскости изображения яркость измеряется как освещенность, то есть яркость, которую мы измеряем с точки зрения яркости поверхности.

  • 00:40:00 В этом разделе лектор обсуждает взаимосвязь между измерением энергии и мощности и то, как они пропорциональны друг другу. Он также говорит о важности использования конечной апертуры при измерении яркости и проблемах, возникающих при использовании модели обскуры. Лектор знакомит с идеальной тонкой линзой и ее тремя правилами, включая непреломление центрального луча и выход луча из фокального центра параллельно оптической оси. Он объясняет, как линзы обеспечивают ту же проекцию, что и пинхол, но дают конечное число фотонов, а также штраф за их использование на определенном фокусном расстоянии и расстоянии.

  • 00:45:00 В этом разделе видео объясняют три правила поведения света после прохождения через линзу. Правило номер один утверждает, что любой луч из фокального центра, пройдя через линзу, будет параллелен оптической оси. Правило номер два гласит, что параллельный массив справа проходит через фокальный центр. Наконец, правило номер три представляет собой комбинацию первых двух правил. В видео подобные треугольники используются для получения формулы объектива, которая позволяет определить фокус и длину объектива. Хотя объективы представляют собой впечатляющие аналоговые компьютеры, которые могут перенаправлять лучи света, они не могут обеспечить идеальное перенаправление из-за физических ограничений объектива.

  • 00:50:00 В этом разделе видео обсуждается, как линзы справляются с лучами, идущими с разных направлений, и как существуют компромиссы между различными видами дефектов, такими как радиальное искажение. В видео также объясняется концепция освещенности и излучения объекта, а также то, как можно использовать диаграмму простой системы визуализации для определения того, сколько энергии исходит от участка объекта и сколько попадает в участок изображения за счет освещения. Кроме того, в видео отмечается предположение, что в камерах используются плоские плоскости изображения и линзы.

  • 00:55:00 В этом разделе лекции спикер обсуждает, как связать эффект ракурса единичного вектора на поверхности объекта с падающим на датчик изображения светом. Он записывает формулу телесного угла и учитывает эффект ракурса путем умножения на косинус альфа и деления на f секанс альфа в квадрате. Затем он связывает освещенность на изображении с общей энергией, исходящей от этого участка, и дельтой площади i. Наконец, он говорит о том, как линза фокусирует лучи и как телесный угол, который занимает линза, если смотреть со стороны объекта, определяет, сколько света от этого пятна на поверхности концентрируется в изображении.
  • 01:00:00 В этом разделе лекции спикер объясняет уравнение для полной мощности, подводимой к небольшой области изображения, которое учитывает телесный угол и косинус тета. Затем мощность на единицу площади находится путем деления общей мощности на площадь, которая фактически измеряется. Спикер также связывает это уравнение с диафрагмой в камерах, которая определяет, насколько открыта диафрагма, и, следовательно, контролирует количество получаемого света. Размер апертуры обычно измеряется с шагом квадратного корня из 2, а освещенность изображения обратно пропорциональна квадрату диафрагмы.

  • 01:05:00 В этом разделе спикер обсуждает, как освещенность изображения, то есть яркость изображения, пропорциональна освещенности объектов в реальном мире. Яркость поверхностного излучения пропорциональна яркости излучения изображения, что позволяет нам легко измерить яркость изображения. Однако яркость падает по мере отклонения от оси, представленной косинусом до четвертой альфы, что необходимо учитывать при использовании широкоугольного объектива. Хотя этот эффект не очень заметен, его можно компенсировать в цепочке обработки изображения. Эта формула оправдывает идею измерения яркости с помощью уровней серого в изображении и показывает, что она имеет какое-то отношение к тому, что происходит в реальном мире.

  • 01:10:00 В этом разделе лектор объясняет концепцию двунаправленной функции распределения отражательной способности, которая определяет, насколько яркой будет поверхность в зависимости от направления падения и излучения. Лектор показывает, что коэффициент отражения не так прост, как сказать, что белый цвет отражает весь падающий свет, а черный ничего не отражает. Лектор также обсудил обычное использование полярных и азимутальных углов для указания направления входящего или исходящего света. Функция двунаправленного распределения отражательной способности важна для определения отражательной способности и измеряет выходную мощность, деленную на входную мощность.

  • 01:15:00 В этом разделе лекции спикер обсуждает коэффициент отражения, который определяется как то, насколько ярким выглядит объект, если смотреть на него с определенного положения, деленное на то, сколько энергии передается от источника. Спикер объясняет, что коэффициент отражения можно измерить с помощью гониометра, который представляет собой устройство для измерения углов, помогающее исследовать четырехмерное пространство. Докладчик отмечает, что для многих поверхностей требуется только разница между двумя углами для точного измерения коэффициента отражения, что упрощает процесс для определенных объектов. Реалистичное моделирование того, как объект отражает свет, важно, и измерение коэффициента отражения позволяет реализовать это реалистичное моделирование, а не просто аппроксимировать с помощью известной модели.

  • 01:20:00 В этом разделе профессор обсуждает материалы, которые требуют полной четырехмерной модели для расчета их внешнего вида, такие как переливающиеся предметы с микроструктурами, которые создают цвет за счет интерференции, и полудрагоценные камни, такие как тигровый глаз, которые плотно упакованные микроструктуры в масштабе длины волны света. Профессор также вводит понятие взаимности Гельмгольца для двунаправленной функции распределения отражательной способности, которая гласит, что если поменять местами падающий и излучаемый свет, вы должны получить одно и то же значение, что упрощает сбор данных.

  • 01:25:00 В этом разделе спикер обсуждает технику, используемую профессором во время дебатов. Выступавший сначала подумал, что профессор подчеркивает их незнание, ссылаясь на книгу на немецком языке, но позже понял, что это был просто метод обсуждения. Затем лекция переходит к обсуждению применения градиентного пространства к моделям поверхностных материалов для определения оттенка поверхности таких объектов, как луна и скалистые планеты в нашей Солнечной системе. Спикер также напоминает учащимся, чтобы они были в курсе любых расширений или важной информации о домашнем задании через Piazza.
 

Лекция 8: Шейдинг, Особые случаи, Лунная поверхность, Сканирующий электронный микроскоп, Теорема Грина



Лекция 8: Шейдинг, Особые случаи, Лунная поверхность, Сканирующий электронный микроскоп, Теорема Грина

В этой лекции профессор затрагивает несколько тем, связанных с фотометрией и затенением. Он объясняет взаимосвязь между освещенностью, интенсивностью и яркостью, а также то, как они измеряются и связаны. В лекции также представлена двунаправленная функция распределения отражательной способности (BRDF), чтобы объяснить, как освещение влияет на ориентацию и материал поверхности. Далее лектор обсуждает свойства идеальной ламбертовой поверхности и ее значение для измерения входящего света и предотвращения путаницы при работе с взаимностью Гельмгоца. В лекции также рассматривается процесс преобразования градиента в единичный вектор и его связь с положением источника света. Наконец, в лекции объясняется, как измерение яркости может определить крутизну поверхности или направление уклона.

Лекция охватывает различные темы, связанные с оптикой и компьютерным зрением. Профессор обсуждает использование формы из методов затенения для получения профиля поверхности объекта для определения его формы. Затем он переходит к обсуждению линз и оправдывает использование орфографической проекции. Лектор также рассказывает об устранении перспективной проекции в машинном зрении путем создания телецентрических линз и демонстрирует различные приемы компенсации аберраций из-за изменения показателя преломления стекла в зависимости от длины волны. Наконец, докладчик вводит понятие орфографической проекции, которое упрощает некоторые проблемы, связанные с перспективной проекцией.

  • 00:00:00 В этом разделе лектор повторяет ключевые понятия из предыдущей лекции по фотометрии. Он дает определение освещенности, интенсивности и яркости и объясняет, как они измеряются и связаны между собой. Затем он вводит взаимосвязь между яркостью поверхности и освещенностью соответствующей части изображения, которую можно использовать, чтобы говорить о яркости как во внешнем мире, так и внутри камеры. Лектор объясняет, как на эту зависимость влияет светосила объектива, которая ограничивает телесный угол и площадь изображения.

  • 00:05:00 В этом разделе основное внимание уделяется определению яркости поверхности в зависимости от количества освещения, геометрии и материала. Функция распределения двунаправленной отражательной способности (BRDF) введена для объяснения того, как освещение влияет на ориентацию и материал поверхности. BRDF является функцией направления падения и направления излучения света, которую можно рассчитать, вычислив общую выходную мощность, деленную на общую входную мощность. Кроме того, BRDF должен удовлетворять ограничению, согласно которому он должен оставаться одним и тем же, если направления к источнику и зрителю меняются местами. Хотя некоторые модели отражательной способности поверхности нарушают это ограничение, это не критично для человеческого или машинного зрения, что позволяет сократить количество необходимых измерений.

  • 00:10:00 В этом разделе лекции профессор обсуждает свойства идеальной ламбертовой поверхности: она кажется одинаково яркой со всех сторон взгляда, а если это идеальная ламбертова поверхность, то она также отражает весь падающий свет. Профессор объясняет, что это упрощает формулу, поскольку она не будет зависеть от двух из четырех параметров. Затем он обсуждает, как поступать с распределенными источниками, такими как свет в комнате, и интегрировать по полусфере направлений падения. Профессор объясняет, что нам нужно интегрировать по всем направлениям излучения и как рассчитать площадь пятна, используя полярный угол и азумит. Наконец, он упоминает, что член f является постоянным.

  • 00:15:00 В этом разделе лекции обсуждается концепция затенения и отражения света на поверхности. В лекции подчеркивается, что свет, падающий на поверхность, зависит от падающего излучения и угла падения. Говорят, что весь свет отражается, а мощность, падающая на поверхность, равна e косинус тэта, умноженной на площадь поверхности. Следовательно, когда отраженный свет интегрирован, он равен падающему свету. В лекции вычисляется постоянное значение f для инверсионной поверхности и делается вывод, что f больше pi для ламбертовой поверхности. Отмечается, что отраженная энергия не излучается одинаково во всех направлениях, и объясняется, как ракурс влияет на мощность, излучаемую с поверхности.

  • 00:20:00 В этом разделе лекции профессор обсуждает понятие ламбертовой поверхности, которая представляет собой поверхность, излучающую свет одинаково во всех направлениях. Однако при работе с большой поверхностью, находящейся под углом к источнику света, площадь элемента поверхности уменьшается, и в результате мощность на единицу площади становится бесконечной. Чтобы избежать повреждения сетчатки, поверхность излучает меньше в определенных направлениях, но мощность на единицу площади остается постоянной. Это условие означает, что поверхность на самом деле излучает больше в одних областях и меньше в других, что приводит к соотношению один к пи, а не один к 2 пи. Затем в лекции объясняется, как использовать эти знания для измерения входящего света и избежать путаницы при работе с реципрокностью Гельмгоца.

  • 00:25:00 В этом разделе лектор знакомит с типом поверхности, отличной от ламбертовой поверхности и весьма важной во многих приложениях. Этот тип поверхности представляет собой поверхность квадратного корня из косинуса тета, умноженного на косинус тета, и удовлетворяет взаимности Гельмгольца. На яркость этого типа поверхности влияет ракурс, и он используется для моделирования поверхностей лунных и скалистых планет, а также некоторых астероидов. В лекции объясняется, как определить изофоты этой поверхности, которые представляют собой вложенные круги в трехмерном пространстве, но проецируются как эллипсы на плоскость изображения, что дает представление о картах контуров яркости.

  • 00:30:00 В этом разделе спикер обсуждает сложность поиска способа затенения определенного материала в 3D-пространстве. Они объясняют, что предыдущий метод, использовавшийся в лаборатории, не подходит для этого материала, поэтому необходим новый подход. Затем докладчик демонстрирует использование единичных нормалей для нахождения постоянных значений всех точек на поверхности, которые должны быть перпендикулярны фиксированному вектору. Затем он показывает, что это означает, что все единичные векторы на поверхности с одинаковой яркостью должны лежать в одной плоскости, что дает полезную информацию о материале. Наконец, говорящий использует сферические координаты, чтобы попытаться лучше понять.

  • 00:35:00 В этом разделе лектор обсуждает, как выбрать систему координат при работе с затенением лунной поверхности, поскольку наличие хорошей системы может предотвратить алгебраическую путаницу. Они рекомендуют использовать систему координат, в которой солнце и земля находятся на z=0, упрощая расчеты до одного неизвестного. В лекции также кратко затрагивается внешний вид полной Луны, где диск должен быть равномерно ярким, но из-за своей неламбертовской микроструктуры он не выглядит полностью сферическим. Модель Хакка хорошо подходит для предсказания такого типа поведения. Наконец, лекция углубляется в формулу для n точек s над n точками v, в конечном итоге придя к упрощенной версии с использованием векторов сферических координат.

  • 00:40:00 В этом разделе лектор обсуждает взаимосвязь между яркостью и азимутом лунной поверхности. Они объясняют, что все точки на поверхности с одинаковой яркостью имеют один и тот же азимут, а линии постоянной долготы являются изофодами. Это сильно отличается от ламбертовой поверхности. Несмотря на то, что Луна имеет альбедо, равное угольному, она кажется очень яркой в небе из-за отсутствия объектов сравнения для измерения ее отражательной способности. Однако мы можем использовать фотометрическое стерео, чтобы определить ориентацию поверхности Луны и, возможно, даже ее форму, сделав несколько снимков поверхности при разных условиях освещения. Модель Хопкина используется для описания ориентации поверхности с точки зрения градиента.

  • 00:45:00 В этом разделе лектор обсуждает процесс преобразования градиента в единичный вектор и его связь с положением источника света. Они объясняют, что квадратный корень необходим для обеспечения выполнения Гельмгольца, и при взятии отношения некоторых скалярных произведений получается линейное уравнение для изофот, которые можно изобразить в пространстве pq. Лектор отмечает, что несмотря на то, что эти линии расположены неравномерно из-за квадратного корня, они параллельны, и есть одна линия, где яркость равна нулю, что указывает на поворот на 90 градусов от падающего излучения. В целом в этом разделе рассматриваются математические концепции, лежащие в основе расчета изофот, и взаимосвязь между положением и яркостью источников света в заданном пространстве.

  • 00:50:00 В этом разделе лектор обсуждает преимущества линейного затенения в фотометрическом стерео, которое позволяет легко решать различные задачи. При двух разных условиях освещения два линейных уравнения пересекаются, и точкой пересечения является ориентация поверхности. Лектор отмечает, что с ламбертовым затенением нет неоднозначности, проблемы с предыдущим методом, где было до четырех решений. Лектор также демонстрирует, что первые пространственные производные вращаются так же, как и система координат, и это полезно при определении ориентации поверхности в определенном направлении, не зная всей ориентации поверхности.

  • 00:55:00 В этом разделе лектор объясняет, как измерение яркости может определить крутизну поверхности или направление уклона, что позволяет исследователям получить профиль поверхности путем измерения яркости или отражательной способности точек по вертикали и горизонтали. Для запуска процесса требуется начальное условие, которое заключается в измерении яркости поверхности и постепенном нахождении z. Однако на точность измерения могут повлиять колебания коэффициента отражения и неточности измерения яркости.

  • 01:00:00 В этом разделе профессор обсуждает, как получить профиль поверхности объекта, чтобы определить его форму, используя форму из методов затенения. Он объясняет, как, проводя профиль по объекту, он может получить форму профиля, если ему известно начальное значение. Однако он не может получить абсолютное положение профиля по вертикали, если ему не известно начальное значение. Затем он применяет эту технику к Луне, чтобы получить различные профили поверхности, чтобы изучить форму объекта. Профессор также рассказывает об эвристике для сшивания 3D-поверхностей из профилей. Позже он переключает темы на разговоры о линзах и оправдывает использование орфографической проекции.

  • 01:05:00 В этом разделе лектор обсуждает, как составные линзы, состоящие из нескольких элементов, компенсируют аберрации с помощью тщательно продуманных механизмов. Он отмечает, что показатель преломления стекла меняется в зависимости от длины волны, вызывая хроматические аберрации, но составные линзы из разных материалов могут это компенсировать. Лектор объясняет, как можно аппроксимировать толстые линзы с помощью узловых точек и главных плоскостей, и как ловкий трюк с отрицательным значением t (толщина между узловыми точками) может привести к короткому телеобъективу. Этот метод позволяет значительно уменьшить длину телеобъектива, сохранив его большое фокусное расстояние и маленькое поле зрения.

  • 01:10:00 В этом разделе лектор демонстрирует два приема по удалению перспективной проекции в машинном зрении. Первый трюк заключается в перемещении одного из узлов в бесконечность, что уменьшает эффект изменения увеличения с расстоянием. При построении телецентрической линзы с далеко удаленным центром проекции конус направлений становится более параллельным, а увеличение остается постоянным независимо от расстояния. Второй прием заключается в перемещении другого узла, который изменяет масштаб, когда плоскость изображения находится не совсем в нужном месте. Для получения резкого изображения объектив необходимо сфокусировать, изменив фокусное расстояние стекла или переместив объектив относительно плоскости изображения.

  • 01:15:00 В этом разделе лекции спикер обсуждает вопросы с косинусом по четвертому закону и изменением увеличения, когда центр проекции не находится на плюс бесконечности. Он объясняет, как перемещение узловой точки наружу и использование двойных телецентрических линз могут устранить эти проблемы, поскольку это приводит к тому, что излучение достигает определенного датчика перпендикулярно датчику. Кроме того, спикер обсуждает необходимость использования небольших крышек для линз, чтобы концентрировать входящий свет на меньшую площадь и избегать наложения спектров, которое может возникнуть при наличии в сигнале высокочастотных компонентов. Наконец, спикер упоминает об актуальности фильтрации нижних частот и важности дискретизации сигнала, вдвое превышающего полосу пропускания сигнала, для его идеального восстановления.

  • 01:20:00 В этом разделе лектор обсуждает, как низкочастотная фильтрация с блочным усреднением может уменьшить проблемы с алиасингом при использовании массива линз для измерения освещенности большой площади. Этот метод хорошо работает, если свет падает перпендикулярно датчику, что достигается с помощью телецентрических линз. Однако далее в лекции объясняется, что в некоторых случаях, например, когда изменение глубины сцены меньше, чем сама глубина, удобнее использовать ортогональную проекцию. Это обеспечивает линейную связь между x и y в мире и x и y на изображении, позволяя измерять расстояния и размеры объектов независимо от того, насколько далеко они находятся.

  • 01:25:00 В этом разделе спикер представляет концепцию орфографической проекции, которая полезна для практических приложений с телецентрическими линзами и упрощает некоторые проблемы, которые будут обсуждаться. Они отмечают, что, хотя некоторые могут подумать, что этот метод работает только для Lamborghini, на самом деле он работает для всего, но уравнения становятся беспорядочными для других версий. Спикер объясняет, что тот вид реконструкции, о котором они расскажут далее, может быть выполнен с помощью перспективной проекции, но это сложно и не очень проницательно. Однако при переходе на орфографическую проекцию многие из этих проблем становятся яснее.
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
Причина обращения: