Обсуждение статьи "Нейросети — это просто (Часть 81): Анализ динамики данных с учетом контекста (CCMR)"

 

Опубликована статья Нейросети — это просто (Часть 81): Анализ динамики данных с учетом контекста (CCMR):

В предыдущих работах мы всегда оценивали текущее состояния окружающей среды. При этом динамика изменения показателей, как таковая, всегда оставалась "за кадром". В данной статье я хочу познакомить Вас с алгоритмом, который позволяет оценить непосредственное изменение данных между 2 последовательными состояниями окружающей среды.

В рамках данной серии мы познакомились с различными методами анализа состояния окружающей среды и алгоритмами использования полученных данных. С помощью сверточных моделей мы искали устойчивые паттерны в исторических данных ценового движения. Мы использовали модели внимания для поиска зависимостей между отдельными локальными состояниями окружающей среды. При этом мы всегда оценивали состояния окружающей среды как некий срез в момент времени. Но никогда не оценивали динамику показателей состояния окружающей среды. Мы предполагали, что модель в процессе анализа и сопоставления состояний окружающей среды как-то обратит внимание на ключевые изменения. Но явного количественного представления такой динамики мы не использовали.

Однако, в области компьютерного зрения существует фундаментальная задача оценки оптического потока, решение которой предоставляет информацию о движении объектов в сцене. И для решения этой задачи были предложены целый ряд интересных алгоритмов, которые получили широкое применение. Результаты оценки оптического потока используются в различных областях от автономного вождения, до отслеживания и наблюдения за объектами.

Большинство современных подходов используют сверточные нейронные сети, но они лишены глобального контекста. Это затрудняет рассуждения о заслонениях объектов или больших смещениях. Альтернативный подход — использование трансформеров и других методов внимания. Он позволяет выходить далеко за пределы фиксированного поля зрения классических CNN.

Особенно интересен в этом контексте метод CCMR, представленный в статье "CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine Context-Guided Motion Reasoning". Это подход к оценке оптического потока, который объединяет преимущества методов, направленных на внимание концепций агрегации движения, и высокоразрешающих многомасштабных подходов. В нем последовательно интегрируются концепции группировки движения на основе контекста в высокоразрешающую грубо-корректную оценочную схему. Это позволяет получать подробные потоковые поля, которые также обеспечивают высокую точность в заслоненных областях. В этом контексте предлагается двухэтапная стратегия группировки движения, где сначала вычисляется глобальное само-внимательные контекстных признаков, которые затем используются для направления признаков движения итеративно по всем масштабам. Таким образом, контекстно-направленное рассуждение о движении на основе XCiT обеспечивает обработку на всех грубо-корректных масштабах. Эксперименты, проведенные авторами метода, демонстрируют сильную производительность предложенного подхода и преимущества его основных концепций.

Автор: Dmitriy Gizlyk