Redes Neurais em IA e Deep Learning - página 13

 

Lección 12: Análisis Blob, Procesamiento Binario de Imágenes, Teorema de Green, Derivada e Integral



Lección 12: Análisis Blob, Procesamiento Binario de Imágenes, Teorema de Green, Derivada e Integral

En esta conferencia, el profesor cubre una variedad de temas que incluyen propiedad intelectual, patentes, marcas registradas y técnicas de procesamiento de imágenes para la detección de bordes. La conferencia enfatiza la importancia de la precisión en la visión artificial 2D y los desafíos de detectar bordes borrosos o desenfocados. El profesor cubre métodos para encontrar derivadas parciales mixtas, laplacianos y detección de bordes mediante interpolación de subpíxeles, junto con técnicas para compensación de polarización y calibración correctiva en la búsqueda de picos. En general, la conferencia proporciona una visión general completa de estos temas y sus aplicaciones prácticas.

En esta lección sobre procesamiento de imágenes, el orador analiza varios métodos para evitar la cuantificación de las direcciones de gradiente y mejorar la precisión en la determinación de la posición del borde. Se sugiere la interpolación como método preferido sobre las tablas de búsqueda y la cuantificación para una determinación más precisa de la dirección del gradiente. Además, la fijación del tamaño de paso con un círculo y el uso de análisis multiescala se analizan como métodos alternativos de cálculo de gradiente. El orador también explica un enfoque iterativo para rotar una imagen para reducir el componente y del gradiente a cero e introduce el concepto de cuerda para rotar a través de ángulos especiales. Se les recuerda a los estudiantes que comiencen temprano en la prueba, ya que es más trabajo que el típico problema de tarea.

  • 00:00:00 En esta sección, el profesor habla sobre el próximo examen, que es más largo y cuenta el doble que un problema de tarea. El cuestionario cubre el contenido del curso hasta este punto, con más énfasis en materiales recientes. Luego, el profesor brinda una breve discusión sobre propiedad intelectual y patentes, mencionando los diferentes tipos de patentes, como las patentes de utilidad y diseño. También se analiza el contrato social entre los titulares de patentes y el gobierno, donde los titulares de patentes reciben un monopolio limitado durante un cierto número de años a cambio de explicar exactamente cómo hacer algo. La discusión concluye tocando el concepto legal de mejor modo en los litigios de patentes.

  • 00:05:00 protege tu marca o logo puedes hacerlo con una marca registrada. Existen excepciones para el uso de pequeñas porciones de material protegido por derechos de autor, por ejemplo, con fines educativos y para software de ingeniería inversa sin violar las leyes de derechos de autor. Las leyes de derechos de autor solían proteger la vida del autor más una cierta cantidad de años, pero desde entonces se han actualizado a la vida del autor más 75 años o más. Las leyes de marcas comerciales protegen las marcas y los logotipos, que son más restrictivos que los derechos de autor.

  • 00:10:00 En esta sección, el orador analiza las reglas sobre la marca registrada del nombre y el logotipo de una empresa, enfatizando que debe ser único en el campo y no puede ser una palabra común. La marca registrada también puede incluir formas, marcas y colores, que pueden servir para proteger a la empresa. El ponente también toca el concepto de secretos comerciales, donde la empresa mantiene en secreto los detalles de su producto, aunque no tiene protección legal. Luego, el orador presenta una patente de bajo nivel relacionada con la búsqueda de bordes y menciona que una vez que se encuentran los bordes, se pueden realizar tareas de procesamiento de imágenes más complejas para el reconocimiento de objetos y determinar la posición y la actitud. El orador señala que en el mundo de la visión artificial en 2D, la precisión es increíblemente importante y debe funcionar casi a la perfección.

  • 00:15:00 En esta sección, el disertante repasa los conceptos básicos del análisis de blobs y el procesamiento de imágenes binarias discutiendo varios métodos utilizados para estimar derivadas. La primera idea discutida fue observar el gradiente de brillo para identificar un punto de inflexión como el borde y luego observar la derivada, que busca un pico. Se examinaron varios métodos de estimación de derivadas, como diferentes aproximaciones para e sub x, y se encontró el término de error de orden más bajo usando la expansión de la serie de Taylor. Finalmente, la conferencia profundiza en el análisis de la señal eléctrica muscular y cuán complejo puede volverse el proceso cuando se buscan primeras derivadas de alta precisión debido al ruido y la distorsión de la señal.

  • 00:20:00 En esta sección, el disertante analiza las compensaciones involucradas en la elección de la longitud del operador de borde para detectar bordes. Él explica que el uso de un operador demasiado largo puede provocar que diferentes características interactúen entre sí, lo que dificulta la detección de bordes. Esta compensación es aplicable cuando se detectan bordes en una imagen de un cubo, donde los bordes se acercan mucho entre sí. Luego, el disertante explica cómo se pueden calcular las derivadas de segundo orden usando la convolución de las primeras derivadas aplicada dos veces, y muestra cómo se puede usar este método para verificar la precisión de los resultados. Finalmente, explica la importancia de comprobar las diferentes formas de diseñar moléculas computacionales utilizadas para derivar derivadas.

  • 00:25:00 En esta sección de la conferencia, el profesor explica el proceso de encontrar derivadas parciales mixtas usando una plantilla 2D. La plantilla implica voltear una de las funciones y superponerla sobre la otra para identificar áreas de superposición, lo que da como resultado una plantilla de 2x2. El profesor señala que es importante tener cuidado con las inversiones de signos cuando se utilizan plantillas computacionales que no se invierten. También señalan que la derivada parcial mixta puede considerarse como una segunda derivada en un sistema de coordenadas rotado. En general, la sección proporciona una explicación clara y detallada de cómo encontrar derivadas parciales mixtas en 2D.

  • 00:30:00 En esta sección, se vuelve a introducir el tema del Laplaciano como un operador de segunda derivada, donde se suman dos operadores en direcciones ortogonales para obtener una aproximación del Laplaciano para un operador diferencial con simetría central. Luego se introduce una suma ponderada de estos dos operadores para crear una versión más suave del Laplaciano para un operador diferencial simétrico centralmente, y este nuevo operador es aún más eficiente desde el punto de vista computacional cuando se aplica a una imagen. Además, se analizan las técnicas para determinar los valores de estos coeficientes ponderados, como el término de error de orden más bajo o las sumas iguales a cero.

  • 00:35:00 En esta sección, el orador discute el tema del uso de píxeles rectangulares en lugar de hexagonales. Explica situaciones en las que las personas están preocupadas por la eficiencia, como en la obtención de imágenes del agujero negro en el centro de nuestra galaxia utilizando frecuencias de radio. El disertante también diferencia entre operadores lineales y no lineales y analiza el uso que hace Robert de plantillas para calcular derivadas en el sistema de coordenadas rotadas. Además, explica la supresión no máxima, el concepto de aplicar operadores de borde en todas partes para obtener una respuesta débil en todas partes, pero una respuesta fuerte en los bordes.

  • 00:40:00 En esta sección, el orador analiza el concepto de detección de bordes y enfatiza los inconvenientes de aplicar un umbral para la detección de bordes. En su lugar, el orador propone eliminar todo excepto el valor máximo en la dirección del degradado para identificar el punto del borde. El orador también habla sobre la supresión no máxima y los problemas de asimetría en el desempate. Finalmente, el orador explica cómo ajustar una parábola al perfil de respuesta del borde para determinar la posición del borde del subpíxel. El orador reconoce que la elección de la forma de la curva es arbitraria, pero explica cómo ajustar un polinomio de segundo orden podría funcionar como una buena suposición en la mayoría de los casos.

  • 00:45:00 En esta sección, aprendemos sobre la detección de bordes mediante la interpolación de subpíxeles. La dirección del gradiente nos dice la orientación del borde, que luego cuantificamos para ayudar a proyectar el punto del borde potencial en la ubicación real del borde. Luego podemos realizar una compensación de sesgo para estimar con mayor precisión la posición del borde usando un método parabólico o triangular. Al hacer esto, podemos encontrar el pico del borde y mejorar la precisión tomando el punto más cercano al origen.

  • 00:50:00 En esta sección de la conferencia, el orador analiza un método para la calibración correccional de la búsqueda de picos para la detección de bordes de subpíxeles. Esencialmente, el método involucra mover el borde experimentalmente y medir la precisión del método de búsqueda de picos contra el valor pico real, para crear una tabla de búsqueda correccional para el método. El orador también habla sobre cómo las formas de los bordes pueden diferir y demuestra cómo aproximar la forma usando un ajuste de un parámetro. A pesar de estas diferencias, solo es necesaria una pequeña corrección en el método para la precisión de detección de bordes de subpíxeles.

  • 00:55:00 En esta sección de la conferencia, el profesor analiza el concepto de bordes borrosos y por qué son importantes para la recuperación de subpíxeles y evitar problemas de aliasing. El profesor explica que una de las razones de los bordes borrosos es el desenfoque. Usando el ejemplo de una lente de cámara, el profesor muestra que un objeto enfocado será capturado como un punto, mientras que el mismo objeto que está ligeramente desenfocado será capturado como un círculo con brillo uniforme. Para compensar esto, el profesor presenta la función de escalón unitario y la función de dispersión de puntos, y explica cómo se pueden usar para describir el círculo de brillo uniforme en función de x e y.

  • 01:00:00 En esta sección, el ponente explica el efecto de estar desenfocado y cómo calcular la respuesta geométricamente superponiendo el borde y el círculo. El área del sector del círculo y el área del triángulo se usan para encontrar la diferencia entre las dos formas. Theta se usa para calcular el área y los detalles se explican para demostrar la respuesta entre cero y uno.

  • 01:05:00 En esta sección, el orador analiza cómo trazar un diagrama para calcular el error al determinar la posición del borde con precisión usando un algoritmo. Mencionan que este error podría ser pequeño pero distinto de cero y es esencial tenerlo en cuenta para una alta precisión. Luego, el orador habla sobre las formas de evitar la cuantificación de las direcciones de gradiente, lo que puede generar incomodidad debido al espaciado que viene en dos tamaños. Discuten que esto puede causar contribuciones de error ligeramente diferentes y sugieren un par de formas de evitarlo. La sección finaliza con una discusión sobre la infracción de patentes y las formas de evitarla, donde la atención se centra en hacer que la invención sea diferente en lugar de mejor.

  • 01:10:00 En esta sección del video, el disertante analiza un método preferido para evitar cuantificar las direcciones de gradiente presentes en ciertas patentes. En lugar de usar ese método, sugiere interpolar para evitar la cuantificación de las direcciones de gradiente. Mediante la interpolación, los valores se pueden aproximar sin problemas y la dirección del gradiente se puede determinar con precisión. El disertante cree que este método es una mejora en la precisión, eliminando la necesidad de construir una tabla de búsqueda o cuantificar y hacer correcciones en el gráfico de polarización. La desventaja de este enfoque es que se utiliza una interpolación, por lo que hay una falta de precisión en comparación con conocer el valor medido exacto, pero eso puede ser insignificante en muchos casos.

  • 01:15:00 En esta sección de la conferencia, el orador analiza un método alternativo para el cálculo de gradientes que consiste en fijar el tamaño del paso en lugar de cambiarlo. Este método utiliza un círculo para determinar el espaciado de píxeles y proporciona una dirección de degradado más continua con menos cuantificación. Sin embargo, este enfoque requiere interpolación, ya sea bilineal o bicúbica, y puede ser un trabajo adicional debido a la necesidad de tener en cuenta más píxeles. Además, el ponente habla sobre la utilidad del análisis multiescala para encontrar bordes nítidos y bordes borrosos en las imágenes. Finalmente, el orador se refiere brevemente a la implementación preferida para la transformación de coordenadas cartesianas a polares, que implica rotar el sistema de coordenadas.

  • 01:20:00 En esta sección, el orador analiza un método para rotar una imagen para reducir el componente y del gradiente a cero usando un enfoque iterativo. Para hacer esto, el ángulo de rotación se manipula iterativamente hasta que la magnitud del componente y se reduce a cero. El orador sugiere una estrategia de usar una secuencia de ángulos de prueba y reducir la magnitud del componente y con cada iteración. Los ángulos se eligen para que sean potencias inversas de 2, lo que permite reducir el número de multiplicaciones de cuatro a dos. El enfoque iterativo se repite hasta que el ángulo de rotación sea lo suficientemente pequeño.

  • 01:25:00 En esta sección, el orador explica el concepto de córdica que implica girar a través de ángulos especiales que tienen una propiedad donde la tangente de theta i es uno sobre dos a la i. El proceso iterativo implica cambiar ese ángulo y hacer un seguimiento de si se volvió negativo o no. Lo primero que hay que hacer es llegar al primer octante, lo cual es trivial con sólo mirar los signos de xey y si y es mayor que x. La próxima conferencia cubrirá escalas múltiples y muestreo, y el orador les recuerda a los espectadores que comiencen temprano en el cuestionario, ya que es más trabajo que el típico problema de tarea.
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 13: Detección de objetos, reconocimiento y determinación de poses, PatQuick (patente de US. 7016539)



Clase 13: Detección de objetos, reconocimiento y determinación de poses, PatQuick (patente de US. 7016539)

La conferencia se centra en la detección de objetos, el reconocimiento y la determinación de poses, con énfasis en la patente PatQuick (US 7,016,539). La patente tiene como objetivo detectar y determinar la pose de los objetos en el espacio y ofrece una mejora con respecto a los métodos anteriores, utilizando una representación abstracta llamada modelo que se compara con una imagen en tiempo de ejecución en diferentes poses y rotaciones. La patente también incorpora una lista de grados de libertad generalizados para aumentar la precisión y utiliza filtrado de paso bajo y detección de bordes para obtener puntos límite, posponiendo el umbral hasta las etapas finales. Además, la lección analiza el proceso de creación de modelos mediante la detección de bordes y sondas con el espaciado y el contraste deseados para representar estos modelos, explicando la importancia de considerar grados de libertad como traslación, rotación, escala y relación de aspecto, que permiten variaciones en dimensiones y perspectivas de los objetos.

El video analiza los patrones de búsqueda hexagonales utilizados para la búsqueda traslacional eficiente y escalable en la detección de objetos, incluida la detección de picos y una solución para detectar objetos adyacentes. El video también analiza PatQuick, una patente para determinar la presencia de patrones predeterminados en imágenes de tiempo de ejecución y su ubicación multidimensional. El método utiliza sondas y un gradiente calculado previamente para que coincida con la pose de un objeto, y la integración de la función de puntuación elimina los errores del resultado. El video explora un método alternativo para determinar las diferencias de ángulo utilizando productos de puntos y enfatiza las complejidades de las operaciones de múltiples escalas y la selección de sondas para diferentes granularidades. La precisión del método está limitada por la cuantificación del espacio de búsqueda.

  • 00:00:00 En esta sección, se nos presenta la patente 7016539 que tiene como objetivo detectar, reconocer y determinar la posición de los objetos en el espacio, así como inspeccionar objetos. El problema que trabaja para resolver es la necesidad de manipular objetos usando maquinaria pero sin información de borde precisa sobre los objetos. El estado de la técnica tenía cuatro componentes diferentes, y uno de ellos consistía en el procesamiento de imágenes binarias, que implicaba distinguir objetos del fondo para crear imágenes binarias, lo que permitía un procesamiento más sencillo y requería menos memoria. Se pueden realizar cálculos locales para ciertas operaciones de procesamiento de imágenes binarias de bajo nivel, como encontrar el área, el perímetro y el centroide de imágenes binarias, e incluso calcular números de Euler de manera paralela, lo que se puede lograr con hardware paralelo.

  • 00:05:00 En esta sección, el disertante analiza varios métodos para la detección, el reconocimiento y la determinación de la pose de objetos. Se introduce el método de umbralización, que consiste en distinguir el primer plano del fondo en una imagen en función de algún parámetro. Sin embargo, este método es limitado ya que puede no haber una distinción clara entre el primer plano y el fondo. Los métodos de plantilla binaria implican el uso de una imagen maestra o una plantilla dorada para definir el objeto y calcular una plantilla a través de umbrales. La correlación normalizada implica probar todas las posiciones posibles para la coincidencia para encontrar una coincidencia adecuada entre dos imágenes. Este fue el reclamo a la fama de Cognac, uno de los primeros proyectos de investigación en visión artificial.

  • 00:10:00 En esta sección, el orador analiza el proceso de alineación mediante la correlación, un método relacionado con la detección y el reconocimiento de objetos, que consiste en mover una imagen para encontrar la alineación donde se encuentra la diferencia entre la imagen desplazada y la otra imagen. lo más pequeño posible. Sin embargo, en la actualidad, solo se considera la traducción debido a los gastos de cálculo, ya que el método requiere analizar cada píxel para cada posición posible. Además, el orador relaciona la correlación con los métodos basados en gradientes, que implican el cálculo de una compensación, y analiza cómo se puede utilizar para maximizar la correlación al minimizar el cambio en el tiempo.

  • 00:15:00 En esta sección, la lección se enfoca en reconocer un objeto y determinar su pose, particularmente en el contexto de alinear un circuito integrado para el siguiente paso en el proceso de fabricación. El orador analiza varios métodos para determinar la alineación y señala que la suma de las diferencias al cuadrado y la correlación se usan comúnmente, pero tienen algunos inconvenientes. La correlación, en particular, puede dar una alta coincidencia incluso si el contraste entre las imágenes es diferente y no hay un umbral claro para lo que constituye una coincidencia. A pesar de estos problemas, la correlación sigue siendo popular debido a su eficiencia computacional. Además, el ponente señala que estos métodos se pueden mejorar mediante la incorporación de métodos basados en gradientes, que se han utilizado en ratones ópticos.

  • 00:20:00 En esta sección, la conferencia analiza la correlación normalizada y su papel en el reconocimiento de imágenes. La correlación normalizada se usa para eliminar cualquier compensación en el brillo de la imagen y hacer que el proceso sea menos sensible a los cambios en la configuración óptica. El método de normalización calcula la correlación de dos imágenes y la normaliza para eliminar los cambios en el contraste, por lo que el método calcula el pico para que los usuarios puedan medir el éxito de la correlación. En consecuencia, una puntuación de correlación alta indica una buena coincidencia, mientras que una puntuación de correlación baja significa una mala coincidencia. Aunque el método puede ser costoso, fue un reclamo de fama para Cognex en sus primeros días.

  • 00:25:00 En esta sección, el video analiza una patente relacionada con la detección y el reconocimiento de objetos, específicamente para determinar la presencia de patrones predeterminados en una imagen y determinar sus ubicaciones dentro de un espacio multidimensional. La patente, que es una mejora con respecto a los métodos anteriores, incluye el uso de una representación abstracta del patrón llamada modelo, que se compara con una imagen en tiempo de ejecución en diferentes poses, rotaciones, etc. La comparación produce una puntuación de coincidencia, que se compara con un aceptar el umbral para retrasar la toma de decisiones hasta que haya más información disponible. La patente también proporciona una lista de grados de libertad generalizados en lugar de solo traslación y rotación para aumentar su precisión para partes parciales o faltantes de un objeto.

  • 00:30:00 En esta sección, se analiza la patente para la detección de objetos, el reconocimiento y la determinación de poses conocida como PatQuick, que se enfoca en obtener coincidencias potenciales. La sección se sumerge en cómo la patente utiliza el filtrado de paso bajo y la detección de bordes para obtener puntos límite en diferentes resoluciones. Luego, el proceso continúa conectando puntos de límite vecinos que tienen direcciones consistentes para organizar los puntos en la cadena. La patente difiere de otros métodos, ya que encadena los bordes, incluso si son débiles, y pospone el umbral hasta el final.

  • 00:35:00 En esta sección, el orador analiza la creación de modelos para el reconocimiento de objetos mediante la detección de bordes y el proceso de creación de sondas con el espaciado y el contraste deseados para representar estos modelos. Los modelos se ajustan a los bordes y estas sondas se utilizan para detectar si existe una coincidencia entre el modelo y la imagen que se analiza. Las sondas se utilizan como puntos de evidencia para identificar áreas de alto contraste, y este método ayuda a reducir la cantidad de píxeles que deben analizarse. El desempate también se analiza en el contexto de determinar el orden de los vecinos de las sondas.

  • 00:40:00 En esta sección, el ponente analiza diferentes ejemplos de cómo comparar los gradientes observados en la imagen de tiempo de ejecución con los del modelo. Explica que es mucho más probable que se mantenga la dirección del gradiente incluso en el caso de cambios en la iluminación o el material. El ponente también introduce el concepto de peso, que ayuda a determinar la importancia de cada sonda. Si bien la asignación de peso manual puede ser útil para tener en cuenta las simetrías de los objetos, requiere la intervención humana y no se usa comúnmente. Finalmente, el orador define los diferentes objetos en el modelo, incluidas las sondas, sus posiciones, direcciones y pesos, así como el objeto de sonda compilado utilizado para aumentar la eficiencia computacional.

  • 00:45:00 En esta sección, el orador explica cómo mapear el objeto de prueba compilado en la imagen y cómo usar el modelo. La sonda compilada es un conjunto de sondas especializadas en coordenadas de imagen, y la principal diferencia entre esta y una sonda es que un desplazamiento en la sonda compilada es un número entero en píxeles a diferencia de las variables reales. El disertante también discute el concepto de un mapa que es la transformación con muchos grados de libertad que se debe encontrar, e incluye todas las transformaciones excepto la traducción. Para calificar el gradiente, se utiliza una función de calificación que considera la polaridad, la polaridad de contraste y la diferencia de 90 grados entre las dos direcciones de los gradientes.

  • 00:50:00 En esta sección, el orador explica cómo calificar qué tan bien una sonda coincide con un punto correspondiente en una imagen de tiempo de ejecución usando una función que considera la dirección y la magnitud del gradiente. Sin embargo, señala que las inversiones de contraste pueden hacer que la métrica basada en la dirección sea menos robusta frente al ruido, mientras que el uso de una pendiente más amplia puede aumentar las posibilidades de aceptar alineaciones aleatorias. Para tratar con los grados de libertad, el disertante proporciona ejemplos de parámetros y funciones que se utilizan para los ajustes de rotación, escala y corte. En general, el proceso de detección de objetos requiere varias consideraciones, ya que diferentes situaciones pueden requerir diferentes enfoques.

  • 00:55:00 En esta sección, aprendemos sobre los grados de libertad generalizados en la detección, reconocimiento y determinación de poses de objetos. Estos grados de libertad, como la traslación, la rotación, la escala y la relación de aspecto, permiten variaciones en las dimensiones y perspectivas de los objetos. Es importante tener en cuenta estos grados cuando se trabaja en espacios que no son exactamente bidimensionales, lo que hace que la imagen parezca un rombo en lugar de un rectángulo. Sin embargo, es esencial ser cauteloso con los costos computacionales al considerar la escala, y un enfoque más razonable es trabajar en una escala logarítmica. Además, el rectángulo envolvente mínimo de la sonda puede reducir los cálculos en algunas operaciones. El espacio multidimensional de las poses dicta que necesitamos determinar la proximidad entre ciertos valores, y esto se hace identificando qué tan juntas están dos poses en ese espacio.

  • 01:00:00 En esta sección del video, el orador explica los patrones de búsqueda utilizados para una búsqueda traslacional eficiente y escalable en la detección de objetos. Estos patrones están organizados alrededor de hexágonos para proporcionar una ventaja de cuatro sobre pi en términos de trabajo realizado versus resolución. El orador también analiza cómo funciona la detección de picos en una cuadrícula hexagonal y ofrece una solución para evitar la detección de objetos adyacentes. Además, el video define términos comúnmente utilizados en la ley de patentes, como objeto, imagen, brillo, granularidad y límite, y sus aplicaciones más allá de las imágenes de luz visible, como gráficos e imágenes de rayos X. La generalización de estos términos pretende ampliar el alcance de la patente y sus posibles aplicaciones.

  • 01:05:00 En esta sección, el video analiza una patente de PatQuick, un método para determinar la presencia o ausencia de al menos una instancia de un patrón predeterminado en una imagen de tiempo de ejecución y para determinar la ubicación multidimensional de cada instancia presente . La patente incorpora la posibilidad de inspección y reconocimiento, en donde el proceso se ejecuta para cada objeto y la mayoría no será una buena coincidencia, pero una será para el reconocimiento. El video también menciona el uso de un gradiente, que es un vector que da la dirección y la magnitud del mayor cambio de brillo en una granularidad específica, y un modelo, un conjunto de características de codificación de datos de un patrón que se encuentra, que podría ser creado a partir de una imagen real o un dibujo CAD.

  • 01:10:00 En esta sección, el orador explica cómo funciona el método de PatQuick, incluso si faltan o están ocultas partes de un objeto, lo que lo hace útil para fines de inspección. El método utiliza sondas para hacer coincidir la pose del objeto y, aunque teóricamente el gradiente se puede calcular en cada coincidencia, es ventajoso calcularlo previamente para mayor eficiencia. La integración de la función de puntuación se utiliza para calcular la cantidad de coincidencias aleatorias que compensan la puntuación y, a pesar de ser una molestia de calcular, es necesario eliminar el error del resultado y reducir el ruido. El método tiene principalmente reclamos de método, y la situación legal cambió, dando como resultado solo reclamos de método.

  • 01:15:00 En esta sección, el orador analiza un método alternativo para determinar las diferencias de ángulo entre vectores unitarios usando productos escalares en lugar de usar una función tangente. Sin embargo, este método produce un valor absoluto grande y no es tan bueno como el método original. El orador también analiza la desventaja de que el método se cuantice y la necesidad de buscar en todo el espacio de la pose para encontrar coincidencias potenciales antes de usar una cuantificación más fina para obtener resultados más precisos. La sección termina con una mención a la necesidad de discutir diferentes funciones de puntuación.

  • 01:20:00 En esta sección, el orador analiza los diferentes cálculos necesarios para encontrar una coincidencia cuando se requiere que el resultado sea preciso o rápido. Profundizan en las complejidades de ejecutar operaciones de múltiples escalas que utilizan diferentes sondas y modelos para diferentes granularidades. Las sondas no están restringidas a la cuadrícula de píxeles, sino que se derivan de los puntos de los bordes, lo que proporciona resultados más fiables que el uso del contraste de brillo. Además, la precisión de este método está limitada por la cuantificación del espacio de búsqueda, que puede superarse en otra patente cubierta en futuras conferencias.
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 14: Inspección en PatQuick, Transformada de Hough, Homografía, Determinación de Posición, Escala Múltiple



Clase 14: Inspección en PatQuick, Transformada de Hough, Homografía, Determinación de Posición, Escala Múltiple

En esta lección, se analiza el algoritmo PatQuick, centrándose en el uso de sondas para producir una función de puntuación en un espacio multidimensional, que determina la pose de un objeto en imágenes en tiempo real. También se examina la función de coincidencia utilizada para calificar la calidad de la coincidencia en términos de la dirección y la magnitud del gradiente, y se analizan diferentes funciones de puntuación para las compensaciones entre precisión y velocidad. La conferencia también profundiza en los diferentes métodos utilizados para hacer que el proceso de coincidencia de patrones sea más eficiente, incluido el ajuste de la granularidad del cálculo y el desafío de obtener las direcciones correctas, especialmente cuando se realizan transformaciones que cambian la relación de aspecto de una imagen. La conferencia también toca el tema de la homografía y la transformada de Hough para detectar líneas en fotografías.

La conferencia cubre una variedad de temas relacionados con la visión artificial, incluida la transformada de Hough, la semitransformada de Gauss extendida, la determinación de la posición, el submuestreo multiescala y SIFT. La transformada de Hough se utiliza para la detección de líneas y bordes, mientras que la transformada media de Gauss extendida es una versión más sofisticada de la transformada de Hough. La conferencia también explica cómo usar la Transformada de Hough para detectar círculos, como la ubicación de una torre de telefonía celular. Además, el orador analiza las imágenes de submuestreo para disminuir la carga de trabajo sin sacrificar la calidad y presenta SIFT, un método para encontrar puntos correspondientes en diferentes imágenes de una escena, que se usa ampliamente para producir información 3D a partir de múltiples imágenes. Finalmente, el orador discute brevemente la teoría musical y termina con un recordatorio para enviar propuestas y una cita sobre no demorar.

  • 00:00:00 En esta sección, el orador analiza el algoritmo PatQuick y el uso de sondas para producir una función de puntuación en un espacio multidimensional. El algoritmo analiza una pequeña cantidad de puntos en la imagen y puede manejar una gran cantidad de grados de libertad. Las patentes discutidas están relacionadas y son parte de un enfoque basado en la física para la visión artificial. Los algoritmos descritos se limitan principalmente a situaciones que involucran superficies bidimensionales, como circuitos integrados y placas de circuito impreso.

  • 00:05:00 En esta sección, el orador analiza un paso de entrenamiento en la técnica PatQuick donde se muestra una imagen al sistema, y automáticamente calcula un modelo. Este es un paso crucial porque ahorra recursos y tiempo en lugar de tener que crear manualmente el código para cada tarea visual. Luego, los modelos se mapean en imágenes en tiempo real y la pose se determina a través de la traducción, la rotación, la escala, el sesgo y la relación de aspecto. La evidencia recopilada para el objeto es acumulativa y el resultado final es la suma de las operaciones locales. Sin embargo, la limitación de este método es la cuantización del espacio de pose, que puede afectar la precisión.

  • 00:10:00 En esta sección, el orador analiza el espacio potencial de seis dimensiones que puede surgir al tratar con patrones de diferentes tamaños y formas. Mientras que la traslación tiene dos grados de libertad y la rotación tiene uno, la escala, el sesgo y la relación de aspecto tienen cada uno un grado de libertad, lo que eleva el total a 6. Sin embargo, tratar con los seis parámetros se vuelve poco práctico ya que cuantificar el espacio a un número razonable de niveles, como 100, da como resultado un total de 10 a los 12 espacios. El orador también continúa explicando la función de coincidencia utilizada para calificar la calidad de la coincidencia en términos de la dirección y la magnitud del gradiente, destacando algunas desventajas de la función, incluida la posibilidad de igualar el ruido de fondo.

  • 00:15:00 En esta sección, el disertante analiza varias funciones de puntuación utilizadas en el algoritmo PatQuick para el equilibrio entre precisión y velocidad. Las diferentes funciones de puntuación tienen diferentes características, como valores normalizados, puntuaciones significativas o simplemente el valor es mayor con una mejor coincidencia. El profesor explica que descartan los pesos negativos y utilizan la dirección del gradiente para calcular la puntuación. La atención se centra en las sondas compiladas y la traducción variable. La conferencia también destaca una segunda versión de la función de puntuación llamada s1b, que elimina la necesidad de la multiplicación y solo procesa sondas con pesos positivos.

  • 00:20:00 En esta sección, el orador analiza las diferentes funciones utilizadas para la realización preferida en PatQuick. Una función tiene en cuenta la dirección del gradiente y resta un término basado en coincidencias aleatorias para mejorar el resultado. Otra función usa la magnitud del gradiente directamente y no está normalizada, lo que significa que su valor absoluto no será significativo. Estas funciones se utilizan en la solución candidata y los pasos de escaneo fino en PatQuick. El ponente señala que si bien la realización preferida tiene diferentes funciones, también se dan otras alternativas para su implementación.

  • 00:25:00 En esta sección de la conferencia, el orador discute algunos de los detalles involucrados en hacer que el proceso de coincidencia de patrones sea más eficiente. Una consideración importante es la granularidad del cálculo, que se puede ajustar disminuyendo la resolución hasta lograr un resultado satisfactorio. El ponente también toca el tema de la normalización, explicando que para algunas tareas no es necesario normalizar porque es un tema computacional. Además, el orador aborda el desafío de obtener las direcciones correctas, ya que el proceso depende en gran medida de la dirección del degradado, especialmente cuando se realizan transformaciones que cambian la relación de aspecto de una imagen.

  • 00:30:00 En esta sección de la conferencia, el orador analiza cómo lidiar con el problema de la dirección del gradiente cuando se transforman x e y en formas que no conservan los ángulos rectos. La solución es calcular la isofota a partir de la dirección del gradiente, transformarla y construir algo en ángulo recto con la isofota. El orador también toca el tema adicional de la inspección, que implica el uso de sondas en el modelo para determinar si un área determinada es una coincidencia razonable o no, y calcular un porcentaje basado en cuántos bordes en la imagen de tiempo de ejecución coinciden con algo en el modelo.

  • 00:35:00 En esta sección, el disertante analiza la proyección de una superficie plana en un mundo 3D mediante proyección en perspectiva y un sistema de coordenadas de cámara. Elabora las relaciones de traslación y rotación entre la cámara y los sistemas de coordenadas del mundo a través de una matriz ortonormal. Luego, el disertante explora la transformación de las coordenadas del objeto del mundo a las coordenadas de la imagen y observa la naturaleza no lineal y desordenada de la proyección en perspectiva cuando involucra la división. Sin embargo, se centra en el caso particular de las superficies planas y detalla cómo se puede erigir el sistema en el objeto, lo que permite una transformación más sencilla.

  • 00:40:00 En esta sección, el orador habla sobre el uso de un sistema de coordenadas donde z es cero, convirtiendo la superficie 3D en una superficie 2D. Demuestran cómo uno puede ignorar la tercera columna en este caso y doblar convenientemente en traslación a rotaciones para obtener una sola matriz. Luego presentan la matriz T, que no es ortonormal en comparación con la matriz R. Finalmente, analizan los grados de libertad para la traslación y la rotación en 3D y las diferentes formas de pensar sobre la rotación.

  • 00:45:00 En esta sección del video, el orador analiza la rotación, la traslación y las restricciones en las matrices, específicamente en el caso de la proyección en perspectiva sobre una superficie plana. La matriz de transformación tiene nueve elementos independientes pero solo seis grados de libertad debido a restricciones como la ortonormalidad y la ortogonalidad. Aunque los datos de calibración se pueden ajustar utilizando mínimos cuadrados lineales, también se deben hacer cumplir las restricciones, lo que a menudo se pasa por alto en los trabajos publicados. Estos conceptos serán importantes para discusiones posteriores sobre transformaciones 3D.

  • 00:50:00 En esta sección del video, el disertante discute la ambigüedad del factor de escala y la homografía, un tipo divertido de matriz. La homografía se utiliza en fotogrametría y se aplica cuando se limita la atención a un plano. El disertante también habla sobre la transformada de Hough y su generalización, que se usa cuando se mapean puntos en un camino a partir de imágenes de cámara. Finalmente, el disertante describe la cámara de niebla de la NASA y cómo las personas estudiaron las partículas elementales disparándolas en una cámara de niebla y tomando fotografías de los puntos ionizados en ese espacio.

  • 00:55:00 En esta sección, el disertante analiza la historia de la automatización del proceso de análisis de imágenes, específicamente con el propósito de detectar líneas o arcos en fotografías de cámaras de burbujas de Wilson. La transformada de Hough se desarrolló como una solución para manejar el desafío de detectar líneas que no estaban espaciadas de manera uniforme o de tamaño uniforme, por lo que las líneas se mapearon desde el espacio de la imagen hasta el espacio de parámetros para las líneas. El disertante explica el concepto de una matriz de acumuladores para contar la evidencia de cada combinación de parámetros posible y busca picos que se correspondan con las líneas de la imagen. El mapeo del espacio de parámetros al espacio de imagen permite una buena estimación de la línea, incluso si la evidencia es solo una burbuja.

  • 01:00:00 En esta sección, el disertante explica el concepto de la Transformada de Hough, que es una técnica para detectar la presencia de objetos simples como líneas, círculos o elipses dentro de una imagen. La Transformada de Hough funciona asignando el espacio de la imagen a un espacio de parámetros, donde cada punto en el espacio transformado representa una línea en el espacio original. La transformación es simétrica, de modo que todas las líneas en el espacio original se asignan a intersecciones únicas en el espacio de parámetros. El disertante toma un ejemplo para explicar cómo las burbujas en una imagen pueden dar evidencia sobre posibles líneas, y al encontrar su transformada en el espacio de parámetros, uno puede acumular evidencia para encontrar los picos que corresponden a las líneas en el espacio transformado.

  • 01:05:00 En esta sección, el disertante explica la Transformada de Hough, que se utiliza para la detección de líneas y bordes en imágenes. La Transformada de Hough crea un espacio para los posibles parámetros de la transformación, con cada punto correspondiente a una línea en particular, lo que puede ayudar a recopilar la evidencia incluso si la línea está desordenada y distribuida en intervalos irregulares. Sin embargo, es posible que la Transformada de Hough ya no se use en la detección de bordes, ya que existen mejores métodos. La conferencia también menciona brevemente la Media Transformada de Gauss Extendida, que es una versión más sofisticada de la Transformada de Hough, que tiene compensaciones y pequeños detalles complicados con los que es necesario lidiar. Además, la conferencia habla sobre círculos y cómo la transformada de Hough se puede usar para detectar señales de teléfonos celulares al determinar el avance de tiempo en la señal.

  • 01:10:00 En esta sección, el orador explica cómo usar la extensión de la transformada de Hough para resolver problemas relacionados con círculos, como determinar la distancia a partir de coordenadas GPS. Al tomar medidas de los avances de tiempo y construir círculos de posibles posiciones en función del radio dado, es posible utilizar una matriz de acumuladores para actualizar los datos y acumular gradualmente pruebas que identifiquen la ubicación del círculo. Este método se puede generalizar a un espacio de parámetros más grande, incluidos conos con radios variables, y cada punto en el espacio corresponde a un círculo diferente en una posición particular en el plano. El resultado final debe contener muchas intersecciones circulares que indiquen dónde se encuentra la verdadera ubicación de la torre celular.

  • 01:15:00 En esta sección, la conferencia analiza la idea de la semitransformación generalizada, que involucra el espacio de parámetros original y la acumulación de evidencia para crear una superficie de partitura; esto es útil cuando se detectan características como bordes o texturas, que pueden ser aparentes solo a una escala particular o con niveles de ruido específicos. Al trabajar con resoluciones más bajas o reducir las dimensiones, podemos reducir los costos de cómputo y mejorar la capacidad de detectar características con precisión. Sin embargo, este método puede convertirse en una tarea costosa cuando se trabaja con problemas de mayor dimensión y con altos niveles de ruido.

  • 01:20:00 En esta sección, el orador analiza diferentes métodos de submuestreo de imágenes para reducir el número de celdas y disminuir la carga de trabajo sin sacrificar la calidad de la imagen. Exploran diferentes valores de "r" y cómo afectan el nivel de submuestreo, siendo "r" igual a uno sobre la raíz cuadrada de dos un valor de uso común porque reduce el número de celdas en dos y aumenta el espacio en dos. raíz cuadrada de dos. El orador también presenta SIFT, un método para encontrar puntos correspondientes en diferentes imágenes de una escena que se usa ampliamente para producir información 3D a partir de múltiples imágenes. SIFT utiliza un método de submuestreo mucho menos agresivo, con múltiples pasos por octava, para crear descriptores únicos para cada punto de la imagen.

  • 01:25:00 En esta sección, el orador analiza brevemente la escala musical en la que una octava se divide en ocho notas y menciona que, aunque no están igualmente espaciadas, hay buenas razones para no usar siempre un factor de dos. El orador también le recuerda a la audiencia que envíe sus propuestas y comparte una cita de una galleta de la fortuna sobre no demorarse.
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 15: Alineación, PatMax, campo de distancia, filtrado y submuestreo (patente de US. 7065262)



Clase 15: Alineación, PatMax, campo de distancia, filtrado y submuestreo (patente de  US. 7065262)

El video analiza varias técnicas y patentes relacionadas con el reconocimiento de patrones y la detección de objetos. Una de esas técnicas es PatMax, que mejora iterativamente la pose de una imagen en tiempo de ejecución mediante un atractivo sistema basado en la fuerza. Otra técnica consiste en generar un campo vectorial en una cuadrícula de píxeles para mejorar la alineación de la imagen en tiempo de ejecución. La conferencia también cubre el uso de campos de distancia para la detección de bordes y la expansión de bordes sembrados al observar los vectores de fuerza en el campo vectorial. El orador también analiza el uso de la coincidencia de patrones de múltiples escalas y los pasos matemáticos involucrados en el ajuste de líneas a conjuntos de coordenadas de imágenes. Finalmente, se presenta una patente para calcular múltiples escalas de manera eficiente.

En la lección 15, el disertante cubre varias técnicas y atajos para una convolución, filtrado y submuestreo eficientes de imágenes. Estos incluyen la aproximación de núcleos de filtro usando polinomios spline por partes, usando derivadas como convoluciones, comprimiendo imágenes tomando repetidamente la tercera diferencia y combinando las convoluciones de dirección x e y. El ponente también menciona la importancia del filtrado de paso bajo antes del muestreo de imágenes para evitar interferencias y aliasing en las imágenes.

  • 00:00:00 En esta sección, el video analiza otro patrón para encontrar objetos en imágenes bidimensionales, llamado PatMax. Se diferencia del patrón anterior, PatQuick, al suponer que uno ya tiene una idea aproximada de dónde están las cosas y, en cambio, pretende mejorar esa posición de forma incremental con un enfoque iterativo de mínimos cuadrados. La motivación para usar PatMax fue maximizar la energía, inspirada en las fuerzas entre los dipolos magnéticos. Sin embargo, la intuición detrás del enfoque estaba completamente equivocada, y una analogía mucho mejor sería conectar las cosas con un resorte. La patente también trata parcialmente sobre la alineación y hace referencia a otras patentes y publicaciones del antiguo laboratorio de IA.

  • 00:05:00 En esta sección, el video explica el proceso de entrenamiento de un sistema de reconocimiento de patrones usando detección de bordes que produce dipolos de borde y crea un campo vectorial bidimensional. Luego, el sistema utiliza un proceso de atracción para encontrar iterativamente una buena pose para una imagen en tiempo de ejecución, suponiendo que ya se haya obtenido una pose inicial. El mapa del cliente se usa para asignar posiciones de píxeles que no están en una cuadrícula cuadrada a una matriz de píxeles cuadrados, y hay medidas como el error RMS y las evaluaciones de inspección que se usan para determinar si un objeto está en buenas condiciones o no. Finalmente, el video describe cómo la lista de dipolos de campo produce las sondas que se utilizan para la alineación con la imagen de tiempo de ejecución.

  • 00:10:00 En esta sección, el disertante habla sobre cómo mejorar la alineación utilizando un campo generado en la cuadrícula de píxeles. La pose es lo opuesto a la patente anterior, con la detección de características realizada en la imagen de tiempo de ejecución en lugar del modelo. El propósito del campo es mapear resultados discretos de la imagen en tiempo de ejecución de vuelta al campo, haciéndolo más económico que transformar la imagen completa, como era el caso con la patente anterior. El campo se genera a través de un nuevo proceso que atrae uno hacia la alineación donde los objetos en la imagen de tiempo de ejecución coinciden con los objetos en la imagen de entrenamiento. La conferencia investiga cómo se generaliza el campo y destaca los diferentes pasos involucrados en el cálculo del campo.

  • 00:15:00 En esta sección, el video analiza el proceso de inicialización y llenado de un campo de distancia para la detección de bordes, que es una técnica común utilizada en la visión artificial llamada mapa de distancia. La inicialización implica dar a los dipolos de campo un valor correspondiente a la distancia desde el borde junto con su dirección. El proceso de rellenar el resto de los cuadrados cerca del borde es un proceso iterativo en el que el valor de los cuadrados cercanos se determina y ajusta de acuerdo con la geometría calculada. El campo de distancia es esencialmente un surco a lo largo de cada borde que indica qué tan lejos está del borde. El objetivo final es que cada borde esté conectado para que el sistema se asiente en un estado de menor energía.

  • 00:20:00 En esta sección de la conferencia, el disertante analiza el proceso de extender los bordes sembrados observando los píxeles vecinos y calculando la fuerza y la dirección del borde usando un campo vectorial. Explican que a veces los ángulos entre las fuerzas se vuelven demasiado grandes, lo que indica una esquina y que, en tales casos, los vectores ya no apuntarán a los píxeles del borde original. La información adicional, como la dirección del contraste y las direcciones de los vectores, puede ayudar en el proceso de coincidencia de la extensión de los bordes. El objetivo es minimizar la energía en el sistema, similar al modelado con un sistema mecánico de resortes. El orador señala que con un borde, a menudo es difícil decir con certeza qué tan bien estamos haciendo coincidir un punto particular en el borde, lo que requerirá un modelo más sofisticado para rastrear.

  • 00:25:00 En esta sección, el orador analiza el análogo mecánico que representa el algoritmo para la detección de características mediante imágenes en tiempo de ejecución. El sistema se ajusta usando un conjunto de fuerzas de las muchas características detectadas en la imagen, y los resortes mecánicos se estiran hacia afuera y se ajustan usando una transformación de escala. Luego, el sistema calcula el desorden y la cobertura para evaluar qué tan bien la imagen en tiempo de ejecución coincide con el modelo. El objetivo final del sistema es reducir la energía moviendo todos los dipolos de tiempo de ejecución de forma sistemática e implica un gran sistema de mínimos cuadrados con un método de cálculo natural que utiliza un conjunto de acumuladores.

  • 00:30:00 En esta sección, el disertante analiza varios aspectos de la coincidencia de patrones, incluidos los casos de solo traducción y de traducción y rotación. El disertante explica que el tensor utilizado en la coincidencia de patrones es una matriz multidimensional que permite grados de libertad en la alineación. El disertante también habla sobre la coincidencia de patrones de múltiples escalas, lo que implica trabajar en baja resolución para obtener una pose inicial y luego usarla para realizar una coincidencia de patrones de alta resolución. El disertante señala que el método de coincidencia de patrones se puede aplicar a una variedad de dispositivos utilizados con fines prácticos, desde cámaras de televisión hasta microscopios electrónicos. Finalmente, el disertante discute los reclamos hechos en la patente, señalando que el reclamo uno es muy amplio y probablemente sea cuestionado por el estado de la técnica, pero que los reclamos dependientes brindan detalles más específicos.

  • 00:35:00 En esta sección de la conferencia, el orador analiza una patente para un proceso de alineación que depende de múltiples componentes, incluidos valores de error de baja resolución y conjeturas iniciales. El proceso, llamado PatMax, busca en el espacio de pose completo a baja resolución sin necesidad de una primera suposición, a diferencia de la patente discutida que requiere una primera suposición y tiene un rango de captura. El espacio de pose para este proceso es al revés de PatMax por razones computacionales. El proceso de alineación funciona para evitar el umbral y la cuantificación a nivel de píxel, centrándose en cambio en la precisión de subpíxel. El orador también toca un análogo físico que involucra resortes mecánicos.

  • 00:40:00 En esta sección, el orador habla sobre el proceso de inspección de objetos y cómo implica hacer coincidir y determinar la transformación entre imágenes entrenadas y en tiempo de ejecución. La inspección se basa en las características adicionales y faltantes en la imagen de tiempo de ejecución en comparación con la imagen entrenada, y el desorden en la imagen debido a la textura de fondo. También se explica la generación del campo de distancia, centrándose en cómo cambia cuando hay bordes y esquinas presentes en la imagen. Se analiza el proceso de cálculo de la transformada de distancia, incluidos los desafíos de trabajar en un mundo discreto y las formas de aproximar la distancia euclidiana de manera rápida y eficiente.

  • 00:45:00 En esta sección de la conferencia, se discute el concepto de sumar fuerzas locales para proporcionar alineación de traslación o rotación. Los pesos pueden ser predefinidos o depender de la magnitud del gradiente o dipolo de campo, entre otras variaciones. El par alrededor de un centro se usa para proporcionar rotación, y tomando el componente z del producto cruzado de dos vectores en un plano se puede usar para proporcionar un escalar para el par. Luego, la clase describe la distancia a una línea y explica la rotación en un sistema de coordenadas que está alineado con una línea para calcular los números primos x e y.

  • 00:50:00 En esta sección, el orador analiza el uso de dos parámetros rho y theta para parametrizar la familia de líneas en el plano, que es una familia de dos parámetros. Esta parametrización es útil en el ajuste de línea, donde el objetivo es encontrar una línea que se ajuste a los puntos del borde con alta precisión. El disertante explica cómo usar el cálculo para minimizar la distancia al cuadrado y muestra cómo relacionar la barra x y la barra y, los centroides promedio de los puntos en la línea, con rho y theta. Además, la conferencia aborda el movimiento de coordenadas hacia el centroide y la búsqueda de fuertes relaciones entre theta y rho para determinar los parámetros de la línea.

  • 00:55:00 En esta sección, el disertante explica los pasos matemáticos para encontrar la solución de mínimos cuadrados para ajustar una línea a un conjunto de coordenadas de imagen usando la ecuación de forma normal de Hesse. Al tomar la derivada con respecto a theta y ponerla a cero, se obtiene una solución que involucra seno y coseno del doble del ángulo, que se puede simplificar usando identidades trigonométricas. Este método es preferible al ajuste y es igual a mx más c, ya que es independiente de la elección del sistema de coordenadas y se puede utilizar para combinar fragmentos de borde corto en fragmentos de borde más largo. Luego, el disertante presenta una patente para calcular de manera eficiente escalas múltiples evitando la costosa convolución.

  • 01:00:00 En esta sección, el disertante habla sobre formas eficientes de calcular filtros para propósitos de escala múltiple. El truco consiste en aproximar un kernel con un polinomio spline por partes y tomar la n más la primera diferencia, lo que facilita la convolución con cero, lo que da como resultado un kernel disperso con poco soporte. La lección también cubre la n más la primera suma, que es el inverso de la n más la primera diferencia, y las propiedades de las circunvoluciones y diferenciaciones. En general, la conferencia brinda información sobre atajos y trucos para hacer que la convolución de imágenes grandes con núcleos grandes sea más fácil y eficiente.

  • 01:05:00 En esta sección, el disertante analiza las propiedades y los beneficios de la convolución, específicamente cómo las derivadas pueden tratarse como convoluciones si se permite la distribución en lugar de las funciones. Esto permite el uso de propiedades de convolución como la conmutatividad y la asociatividad, que pueden ser muy poderosas en el procesamiento de señales. El disertante también describe un ejemplo del uso de convolución para hacer un patrón disperso y barato para convolucionar, lo que implica calcular derivadas y encontrar los lugares donde hay valores distintos de cero. Solo se necesita convolucionar con dos valores, lo cual es una ventaja significativa.

  • 01:10:00 En esta sección, el disertante explica la técnica de tomar la tercera diferencia de una imagen para comprimirla. Al tomar repetidamente la tercera diferencia, se produce un conjunto pequeño y escaso de valores, lo que reduce el cálculo en comparación con el uso de la imagen original completa. Esto se puede usar para controlar el ancho de banda y la escala del filtro sin alterar la cantidad de cómputo requerida. El disertante demuestra esta técnica usando una función unidimensional y luego muestra un ejemplo con una parábola donde los extremos son más complicados debido a una discontinuidad.

  • 01:15:00 En esta sección de la conferencia, se analizan diferentes técnicas de filtrado para mejorar la eficiencia de los cálculos en imágenes de submuestreo y evitar artefactos de aliasing. Se explora el uso de una spline para aproximar filtros como el gaussiano y las funciones de sincronización, con un enfoque en la reducción del tiempo de cálculo y la cantidad de valores distintos de cero. Además, se presenta una técnica para combinar operaciones de convolución en las direcciones x e y, que requiere menos memoria intermedia y permite una cascada más eficiente de convoluciones 1D. Se destaca la relevancia de estos temas para la detección de bordes y el procesamiento de imágenes a múltiples escalas.

  • 01:20:00 En esta sección, el ponente habla de un cristal de calcita que es birrefringente y tiene dos índices de refracción según la polarización, lo que hace que dos copias de una imagen aparezcan muy juntas. Esto se usa en cámaras para suprimir contenido de frecuencia más alta y mejorar el muestreo. Sin embargo, la eliminación de este filtro puede provocar interferencias y alias en las imágenes, así como cambios en el color y la forma de los objetos que se filman. El orador señala que las mejoras en el filtrado de paso bajo antes del muestreo de imágenes han reducido estos problemas, pero aún es importante considerar los efectos del aliasing en las imágenes.
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 16: Convolución rápida, aproximaciones de filtro de paso bajo, imágenes integrales (patente de US. 6457032)



Clase 16: Convolución rápida, aproximaciones de filtro de paso bajo, imágenes integrales (patente de  US. 6457032)

La conferencia cubre varios temas relacionados con el procesamiento de señales, que incluyen limitación de banda, aliasing, aproximaciones de filtro de paso bajo, desenfoque, imagen integral, análisis de Fourier y convolución. El orador enfatiza la importancia del filtrado de paso bajo de las señales antes del muestreo para evitar artefactos de aliasing. La conferencia también presenta la idea de la imagen integral, que calcula de manera eficiente la suma de píxeles dentro de un bloque, y varias técnicas para reducir el cálculo al aproximar filtros de paso bajo. Por último, la lección analiza la interpolación bicúbica, que se utiliza para aproximar la función sinc, y sus costos computacionales.

En esta conferencia, el orador analiza varios temas relacionados con la convolución, las aproximaciones de filtros de paso bajo y las imágenes integrales. Explican diferentes implementaciones de convolución, incluido un método que ahorra tiempo de cálculo al sumar valores de izquierda a derecha y restar para obtener el promedio. También se analizan las limitaciones de la interpolación lineal para aproximaciones de filtros de paso bajo y su inferioridad en comparación con métodos más avanzados como la interpolación cúbica. Se presenta el concepto de pastillero y su valor para limitar los rangos de frecuencia, y el orador habla sobre el filtro de paso bajo ideal y cómo el desenfoque afecta la función de Bessel. La conferencia también aborda el uso de aproximaciones de filtros de paso bajo para lentes de cámaras DSLR y el concepto de fotogrametría.

  • 00:00:00 En esta sección, el orador analiza el muestreo de formas de onda y la importancia de limitarlas en la banda. Al muestrear una forma de onda, es sorprendente que podamos capturar algo sobre ella, dado que la forma de onda tiene soporte infinito y solo obtenemos muestras discretas. Sin embargo, si el contenido de frecuencia es limitado, el teorema de Nyquist establece que podemos reconstruirlo completamente muestreando a una frecuencia lo suficientemente alta. El criterio es que muestreemos lo suficientemente rápido, de modo que el componente de frecuencia más alto de la señal sea menor que fs sobre dos. En última instancia, la limitación de banda es significativa porque nos permite capturar la esencia de una forma de onda sin obtener artefactos de alias.

  • 00:05:00 En esta sección, se explica el concepto de aliasing en el procesamiento de señales. El aliasing ocurre cuando el contenido de frecuencia por encima de un cierto umbral se muestrea y no se distingue del contenido de frecuencia más baja. Esto no se puede arreglar después del muestreo, por lo que debe hacerse de antemano suprimiendo el contenido de frecuencias más altas. Para ello, es importante aplicar un filtro de paso bajo a la señal antes de realizar el muestreo. Sin embargo, el verdadero filtrado de paso bajo es difícil de lograr, por lo que se deben hacer aproximaciones.

  • 00:10:00 En esta sección de la conferencia, el orador analiza el concepto de desenfoque a través de métodos como el filtrado de premuestreo e introduce la idea de la imagen integral. Él explica que se puede usar un filtro de vagón para realizar un promedio de bloques, donde se calcula la suma de los píxeles dentro de un bloque, pero este método puede ser computacionalmente costoso. Para abordar esto, se puede usar una imagen integral en casos 1D y 2D para calcular la suma de manera más eficiente. La imagen integral no está restringida solo a imágenes, ya que también puede funcionar para otros tipos de matrices como gradiente integral.

  • 00:15:00 En esta sección, el disertante explica cómo calcular el total de un rectángulo usando la imagen integral. El disertante muestra que con cuatro accesos a memoria y tres operaciones aritméticas, podemos obtener el total para cualquier bloque e independientemente de su tamaño. Esta técnica se puede utilizar para el reconocimiento y el promedio de bloqueo. El disertante también habla sobre el Análisis de Fourier y cómo promediar un bloque usando un promedio móvil.

  • 00:20:00 En esta sección de la conferencia, el orador discute los inconvenientes de usar la función sinc como una aproximación para un filtro de paso bajo. La función sinc no atenúa las altas frecuencias de manera suficientemente agresiva y no alcanza el primer cero lo suficientemente rápido, lo que la convierte en una mala elección para las aproximaciones de filtros de paso bajo. Esta discusión es particularmente relevante para las cámaras, que realizan una operación de filtrado antes del muestreo, y se sugiere el promedio de bloques como una posible alternativa a la función de sincronización. El promedio de bloques es barato de calcular y se puede realizar dos veces con la esperanza de obtener una mejor aproximación de un filtro de paso bajo.

  • 00:25:00 En esta sección, el disertante analiza las propiedades de los filtros en el dominio de transformación y cómo se relacionan con las discontinuidades de paso en las imágenes. El disertante explica que la transformada de una función escalonada cae como uno sobre la frecuencia, lo que significa que las imágenes con discontinuidades escalonadas producirán contenido de alta frecuencia que no cae rápidamente. El disertante señala que este es un problema con la transformada discreta de Fourier porque asume que los datos son periódicos, por lo que introduce discontinuidades de borde escalonado a medida que los datos se envuelven. Para solucionar esto, el disertante sugiere la apodización, que consiste en multiplicar la imagen por una forma de onda para hacer coincidir los extremos. Un filtro de apodización común es una forma de onda de coseno invertido.

  • 00:30:00 En esta sección, el video cubre diferentes enfoques para tratar con dft aplicado a imágenes, uno de los cuales supone que el exterior de la imagen se repite periódicamente o es una imagen reflejada, aunque esta no es una solución perfecta debido al potencial de una discontinuidad derivada. Otro enfoque discutido es el filtrado de paso bajo con un filtro aproximado. Luego, el video toca ciertas propiedades necesarias para el filtrado de paso bajo aproximado, como la propiedad de tamizado del impulso unitario y las distribuciones.

  • 00:35:00 En esta sección de la conferencia, el orador discute el impulso unitario y su relación con la convolución. Si bien el impulso unitario no es matemáticamente correcto para definirlo como el límite de la convolución, se puede usar para determinar el efecto de la convolución con el impulso unitario calculando su convolución y tomando el límite cuando épsilon tiende a cero. El orador señala que la convolución se puede conectar a las derivadas, y que los operadores lineales invariantes por desplazamiento y los operadores de derivadas están estrechamente relacionados. Explican que las derivadas se pueden tratar esencialmente como circunvoluciones, con una de las dos circunvoluciones invertida.

  • 00:40:00 En esta sección, el disertante analiza las aproximaciones del filtro de paso bajo y cómo pueden mejorar el método de promedio de píxeles utilizado en las cámaras. Explica que es necesario realizar un filtrado de paso bajo adicional antes de muestrear en el dominio analógico y sugiere utilizar materiales birrefringentes para crear un filtro especial. Este filtro involucra dos imágenes desplazadas que se modelan como convolución con impulsos, lo que da como resultado dos versiones ligeramente desplazadas de la imagen original. Cuando se analiza con una transformada de Fourier, el filtro no cae con la frecuencia pero sí cae en pi sobre épsilon, lo que permite la selección del valor de épsilon adecuado.

  • 00:45:00 En esta sección, el disertante analiza el concepto de filtros de paso bajo e introduce una técnica para cortar frecuencias altas utilizando una placa que es más gruesa que el espaciado de píxeles. Esta placa corta las frecuencias altas pero deja otras frecuencias sin cortar. El disertante explica que el uso de este filtro anti-aliasing extremadamente simple junto con el filtro promedio de bloque puede reducir los efectos muaré causados por el contenido de alta frecuencia en las imágenes. Luego, el disertante presenta la idea de la patente y la imagen integral, que tiene como objetivo reducir el cálculo para un buen filtrado de paso bajo y minimizar el tamaño del soporte. El disertante demuestra cómo representar la integración usando convolución y proporciona la transformada de Fourier del impulso unitario.

  • 00:50:00 En esta sección, el video se enfoca en el concepto de convoluciones y su relación con la diferenciación e integración en el dominio de la transformada de Fourier. Se explica que se puede obtener una segunda derivada convolucionando derivadas de primer nivel o impulsos. Este concepto se aplica al proceso de filtrado, donde un filtro se puede dividir en secciones para reducir el cálculo si es escaso, lo que ocurre cuando se trabaja con funciones constantes o aproximaciones de polinomios. Al integrar o sumar los resultados de la convolución con un filtro disperso, la respuesta deseada se puede obtener de manera eficiente con menos cálculos.

  • 00:55:00 En esta sección, el disertante analiza la aproximación de la función sinc, que es ideal para un filtro de paso bajo pero continúa para siempre, por lo que es imposible representarla por completo. La lección presenta la interpolación bicúbica para imágenes 2D, donde los píxeles se rotan y deben interpolarse. El método implica el uso de cuatro partes, donde la curva se describe mediante una cúbica. La cuarta derivada se usa para filtrar, y el resultado es mucho mejor que usar la interpolación lineal o del vecino más cercano. Se explica que existen costos computacionales para aproximar la función de sincronización, lo que la hace poco práctica para su uso.

  • 01:00:00 En esta sección, se utiliza un ejemplo de promediación de bloques para ilustrar la implementación ingenua de la convolución al desplazar un bloque y sumar lo que esté debajo del bloque. Se muestra que otra implementación ahorra significativamente tiempo de computación al bloquear segmentos más grandes al agregar valores de izquierda a derecha y luego restar para obtener el promedio. También se analiza la interpolación lineal, que se puede pensar que tiene que ver con la convolución mediante la creación de una función que conecta los puntos en una cuadrícula discreta mediante líneas rectas.

  • 01:05:00 En esta sección, el disertante analiza el método de interpolación lineal para aproximaciones de filtros de paso bajo y sus limitaciones, particularmente en términos de cambios en las mediciones de imagen y ruido. Explica que el método implica la convolución de dos vagones, que es una función lineal que imita la función de sincronización. También señala que este método es inferior a métodos más avanzados, como el método de interpolación cúbica para aproximaciones de filtros de paso bajo. Además, explica que el método de aproximación del vecino más cercano es una función constante por partes que es incluso menos precisa que el método lineal.

  • 01:10:00 En esta sección de la conferencia, el orador analiza el concepto de aproximaciones de filtros de paso bajo e imágenes integrales en el contexto de la convolución. Explican cómo la interpolación del vecino más cercano se corresponde con la convolución con un furgón y los beneficios de usar un sistema de coordenadas rotacionalmente simétrico para imágenes naturales. Luego introducen el concepto de pastillero y su valor para limitar los rangos de frecuencia. Se muestra que la transformada inversa de un pastillero también es rotacionalmente simétrica, variando según la función de Bessel, que se usa comúnmente en óptica.

  • 01:15:00 En esta sección, el disertante analiza el filtro de paso bajo ideal, que es la respuesta de la función de dispersión a un impulso. El primer cero de esta función, que es diferente al de la función de sincronización, se utiliza para la resolución basada en los criterios de resolución de Aries. Cuando está desenfocado, el disertante muestra que la función de dispersión cambia al fortín, y esto, en el dominio de la frecuencia espacial, se convierte en la función de Bessel. Luego concluye que el desenfoque afecta el enfoque al cambiar la función de Bessel.

  • 01:20:00 En esta sección de la conferencia, el orador analiza el uso de aproximaciones de filtro de paso bajo y la disminución resultante del contenido de alta frecuencia, lo que puede conducir a la eliminación total de algunas frecuencias debido a la presencia de ceros. El orador también habla sobre cómo determinar el tamaño de paso de la lente de una cámara DSLR observando el dominio de la frecuencia, así como el efecto de dos proyecciones en perspectiva en secuencia que no son lo mismo que una sola proyección en perspectiva. Finalmente, se introduce el concepto de tomar imágenes ligeramente desenfocadas y convolucionarlas como una forma de determinar si una imagen ha sido modificada o no.

  • 01:25:00 En esta sección, el disertante analiza el concepto de convolución y cómo se relaciona con la multiplicación en el dominio de la frecuencia. Explican cómo el uso de una función pastillero permite convolucionar una imagen, pero advierten que la multiplicación de imágenes desenfocadas no arrojará resultados precisos. Luego, la conferencia pasa al tema de la fotogrametría, que utiliza imágenes para crear información en 3D sobre los objetos y su ubicación al hacer coincidir características como los bordes entre las imágenes para señalar la ubicación de la cámara.
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 17: Fotogrametría, Orientación, Ejes de Inercia, Simetría, Orientación



Clase 17: Fotogrametría, Orientación, Ejes de Inercia, Simetría, Orientación

Esta lección cubre varios temas relacionados con la fotogrametría, incluidas las señales de profundidad, la calibración de la cámara y el establecimiento de la transformación entre dos sistemas de coordenadas. El orador explica cómo abordar el problema de encontrar la transformación de coordenadas entre dos sistemas utilizando medidas correspondientes y destaca la importancia de comprobar la inversa exacta de la transformación. La lección también analiza cómo encontrar los ejes de inercia en el espacio 2D y 3D y cómo determinar la distancia entre dos puntos proyectados en un eje. En general, la sección proporciona una descripción completa de la fotogrametría y sus aplicaciones.

La fotogrametría requiere construir un sistema de coordenadas en una nube de puntos en sistemas de coordenadas de mano izquierda y derecha y relacionar los dos. El profesor explica cómo determinar la matriz de inercia o los ejes de inercia y establecer los vectores base. También analizan los desafíos que plantean los objetos simétricos y las propiedades de la rotación, como la preservación de los productos escalares, las longitudes y los ángulos. Además, la lección cubre cómo simplificar el problema de encontrar la rotación eliminando la traducción y minimizando el término de error. Finalmente, el disertante explica cómo alinear dos objetos con formas similares usando cálculo vectorial y sugiere explorar otras representaciones para la rotación.

  • 00:00:00 En esta sección, el ponente introduce la fotogrametría, que consiste en utilizar imágenes para medir y reconstruir superficies tridimensionales. El campo tiene sus raíces en la elaboración de mapas y se popularizó después de la invención de la fotografía. El orador analiza cuatro problemas clásicos de la fotogrametría, incluida la búsqueda de la relación entre dos sistemas de coordenadas dispares, así como la búsqueda de la relación entre un solo sistema de coordenadas y objetos que pueden moverse o cambiar. El orador señala que, si bien la visión artificial a menudo se ocupa más del segundo problema, que consiste en recuperar la tercera dimensión a partir de imágenes bidimensionales, puede ser ventajoso abordar primero el problema 3D debido a su solución de forma cerrada.

  • 00:05:00 En esta sección, el disertante explica los dos tipos de aplicaciones de la fotogrametría: 2D a 3D y 3D a 2D. El primero consiste en recuperar información tridimensional de las imágenes y determinar la relación entre dos cámaras en el espacio para alinearlas. Este último implica la calibración de la cámara, que es necesaria para mediciones precisas con cámaras, y la creación de mapas topográficos mediante la captura de intervalos regulares de imágenes desde un plano. El disertante también analiza varias señales de profundidad, incluido el estéreo binocular, que es la capacidad de percibir la profundidad a través de dos ojos.

  • 00:10:00 En esta sección, el disertante explica cómo se pueden usar dos cámaras para establecer señales de profundidad usando triángulos similares. Al obtener imágenes de un objeto en ambas cámaras y comparar las imágenes resultantes, la diferencia entre las posiciones se puede usar para calcular la profundidad del objeto. La conferencia también señala que las disparidades en la imagen se pueden usar para calcular la profundidad ya que la distancia es inversamente proporcional a la disparidad. Finalmente, la sección toca el tema de la sensibilidad al error y cómo los grandes errores pueden resultar de pequeñas discrepancias en la medición de la disparidad.

  • 00:15:00 En esta sección del video, el disertante analiza la fotogrametría y la medición de posiciones 3D utilizando dos cámaras. Explican que aumentar la línea de base o la distancia focal puede mejorar la precisión de la medición, pero existen limitaciones en estas cantidades, como garantizar que las cámaras no estén demasiado separadas. También mencionan el desafío de calibrar las cámaras si no están perfectamente alineadas en una geometría específica. Luego, el disertante pasa al tema de las orientaciones absolutas y cómo compensar la orientación de dispositivos como lidars o cámaras aéreas, que pueden no mantener una actitud constante. Por último, señalan que la discusión asume la presencia de puntos interesantes en las imágenes, dejando de lado el problema del emparejamiento.

  • 00:20:00 En esta sección, el disertante explica cómo encontrar la rotación y traslación de dos sistemas de coordenadas para proyectar rayos en 3D y encontrar el punto de intersección entre ellos. Utiliza el ejemplo de los puntos medidos en un sistema de coordenadas tanto izquierdo como derecho, y señala que esto podría aplicarse a dos sistemas de coordenadas cualesquiera, independientemente de sus etiquetas. El disertante destaca la necesidad de seis números para especificar completamente la transformación, tres para la rotación y tres para la traslación, y explica que hay tres grados de libertad para cada uno. Escribe la fórmula de transformación, enfatizando que la rotación no tiene que representarse como una matriz ortonormal.

  • 00:25:00 La conferencia analiza las propiedades de la rotación y la matriz ortonormal, que es esencial para comprender cómo calcular la rotación y la traslación de los objetos. La conferencia también habla sobre cómo hacer cumplir la restricción de ortonormalidad elimina los reflejos y cómo se puede obtener fácilmente la inversa de una matriz de rotación. También se presenta un modelo físico para una mejor visualización de cómo se pueden superponer y alinear los puntos de los sistemas de coordenadas izquierdo y derecho.

  • 00:30:00 En esta sección, el orador analiza cómo abordar el problema de encontrar la transformación de coordenadas entre dos sistemas utilizando medidas correspondientes. Este problema se puede abordar de forma de mínimos cuadrados, donde el objetivo es minimizar la distancia entre el vector transformado en el sistema de coordenadas izquierdo y el sistema de coordenadas derecho. Esto se puede considerar como un problema de minimización de energía, donde el sistema intenta ajustarse para minimizar la energía. El ponente destaca la importancia de comprobar que la transformación del sistema de la derecha al izquierdo es exactamente la inversa de la transformación del sistema de la izquierda al derecho. Separar los problemas de traslación y rotación simplifica el problema a solo tres grados de libertad a la vez.

  • 00:35:00 En esta sección, el orador explica cómo construir un sistema de coordenadas usando medidas de puntos en un objeto. El primer paso es elegir un punto como origen y conectarlo a un segundo punto para crear un eje. La separación entre los dos primeros puntos se normaliza para crear el eje x y se utiliza un tercer punto para definir el plano xy. El eje y se crea eliminando el componente del vector desde el primer punto hasta el tercer punto que está en la dirección del eje x y haciendo que el vector resultante sea perpendicular al original. El eje z se define como el producto cruzado de x e y, ya que es perpendicular a ambos vectores. Este proceso permite la creación de un sistema de coordenadas y la medición de puntos en ambos sistemas de coordenadas para un objeto.

  • 00:40:00 En esta sección, el orador explica cómo construir un sistema de coordenadas y resolver la rotación. Para hacer esto, usan una tríada de vectores unitarios para definir un sistema de coordenadas para la izquierda y la derecha. Luego, toman ambos puntos de nube, construyen un eje y mapean los vectores unitarios entre sí para encontrar una transformación que los una. Luego usan una matriz de 3x3 para unir las ecuaciones separadas y resolver la rotación. Mencionan que, al eliminar la traducción, solo quedan tres grados de libertad por encontrar.

  • 00:45:00 En esta sección, el orador discute las restricciones involucradas en el mapeo de puntos entre sistemas de coordenadas en fotogrametría. Si bien tres correspondencias entre dos sistemas pueden parecer suficientes para una solución con solo tres incógnitas, las igualdades vectoriales significan que cada restricción vale tres puntos. Por lo tanto, tenemos nueve restricciones. Sin embargo, la rotación solo tiene tres grados de libertad, lo que genera un exceso de información. Luego, el orador analiza una solución ad hoc que implica elegir puntos de transformación de manera selectiva, lo cual es impreciso. Otra solución consiste en utilizar la descomposición en valores singulares (SVD) para encontrar la matriz de transformación óptima que pondere uniformemente la información de todas las correspondencias.

  • 00:50:00 En esta sección, el disertante discute el concepto de encontrar los ejes de inercia en el espacio 2D y 3D. Explica que los ejes de inercia mínima se pueden encontrar calculando la integral de la distancia al cuadrado por la masa, mientras que el eje perpendicular tiene una inercia máxima, y en 3D, hay un tercer eje que es un punto de silla. Afirma que si se identifican estos ejes, se puede establecer un sistema de coordenadas para el objeto en cuestión. También se analiza la fórmula para encontrar la distancia desde el eje hasta el origen, además de elegir el centroide como origen para separar el problema de encontrar la traslación del problema de encontrar la rotación.

  • 00:55:00 En esta sección, el ponente explica cómo determinar la distancia entre dos puntos, r y r primo, proyectados sobre un eje omega. La fórmula de la inercia se deriva de esta distancia y se muestra que varía a medida que el eje cambia de dirección. Luego, el orador simplifica la fórmula utilizando productos escalares, la asociatividad de la multiplicación y la matriz identidad. La fórmula resultante muestra que la inercia es igual al producto escalar de r consigo mismo multiplicado por la matriz identidad e integrado sobre el volumen del objeto.

  • 01:00:00 En esta sección, el disertante explica cómo construir un sistema de coordenadas en una nube de puntos en un sistema de coordenadas izquierdo y derecho, y luego relacionar los dos. Esto se hace calculando la matriz de inercia, o los ejes de inercia, que es un problema de vector propio de valor propio simple para una matriz de tres por tres. Se encuentran tres ejes que son perpendiculares entre sí: el máximo, el mínimo y el eje de silla. Estos ejes se utilizan para establecer los vectores base y se realiza el mismo método para el sistema de coordenadas de la mano derecha. El método que se usa para hacer esto es un problema de mínimos cuadrados ya que trata todos los puntos por igual y minimiza el problema.

  • 01:05:00 En esta sección de la conferencia, el orador analiza las limitaciones de los métodos ad hoc en fotogrametría cuando se trata de objetos simétricos. El orador explica que algunos objetos, como una esfera, un tetraedro y un octaedro, tienen la misma inercia en todas las direcciones, lo que dificulta determinar su orientación utilizando un método ad hoc que se basa en el alargamiento. Además, el orador señala que el uso de correspondencias para determinar la orientación es un enfoque más preciso pero desafiante, ya que requiere conocer la alineación de cada punto. El orador también explica las propiedades de la rotación, incluida la conservación de los productos escalares, las longitudes y los ángulos.

  • 01:10:00 En esta sección, el profesor analiza el triple producto de vectores, que es el volumen de un paralelepípedo formado por esos vectores. Si esos vectores se giran, su volumen se conservará si la rotación no es un reflejo. Una reflexión cambiaría el signo del producto triple y, por tanto, el volumen, dando como resultado una regla de la mano izquierda en lugar de una regla de la mano derecha. Este principio es importante cuando se establece un problema de mínimos cuadrados para encontrar la transformación entre dos sistemas de coordenadas, donde se debe elegir el desplazamiento y la rotación para minimizar el error entre los dos sistemas.

  • 01:15:00 En esta sección, el disertante explica cómo simplificar el problema de encontrar la traslación a partir de encontrar la rotación. Lo hacen moviendo las coordenadas al centroide y restándolas de las coordenadas originales para deshacerse de la traslación, lo que hace que el problema de la rotación sea mucho más fácil de resolver. Luego, el disertante introduce las nuevas coordenadas en la fórmula del error y agrupa los términos, llegando finalmente a un problema más simple con el que trabajar. La conferencia termina con una pregunta sobre qué compensación elegir para la traducción.

  • 01:20:00 En esta sección, la conferencia se enfoca en separar el problema de encontrar la traslación del problema de encontrar la rotación. La fórmula para la traslación es la diferencia entre dónde está el centroide en el sistema de coordenadas derecho y dónde está el centroide del sistema de coordenadas izquierdo después de rotarlo. El siguiente objetivo es minimizar el término de error restante, lo que implica encontrar la rotación correcta. Al maximizar el término restante que depende de la rotación, la lección tiene como objetivo encontrar la rotación correcta, lo que tiene sentido intuitivo al imaginar una nube de puntos conectados al centroide con una apariencia puntiaguda similar a la de un sushi.

  • 01:25:00 En esta sección, el disertante explica cómo alinear dos objetos que tienen una forma similar usando cálculo vectorial. Al tomar las espinas correspondientes de los objetos y usar el producto escalar entre ellos para determinar el ángulo, los objetos se pueden alinear. Sin embargo, esto plantea el problema de cómo resolver el problema de rotación usando cálculo sin tener que lidiar con matrices complicadas por restricciones adicionales. El disertante sugiere buscar otras representaciones para la rotación que faciliten el problema de alineación.
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lección 18: La rotación y cómo representarla, los cuaterniones unitarios, el espacio de las rotaciones



Lección 18: La rotación y cómo representarla, los cuaterniones unitarios, el espacio de las rotaciones

Esta lección analiza los desafíos de representar rotaciones y presenta la utilidad de los cuaterniones de Hamilton. Los cuaterniones unitarios son particularmente útiles ya que se asignan directamente a rotaciones en tres espacios, lo que permite una discusión sobre un espacio de rotación y optimización en ese espacio. Los cuaterniones tienen propiedades similares a los números complejos y son particularmente útiles para representar rotaciones, ya que conservan los productos escalares, los productos triples, la longitud, los ángulos y la lateralidad. La conferencia también analiza diferentes métodos para representar la rotación, la importancia de poder rotar vectores y componer rotaciones, y las limitaciones de los métodos convencionales como las matrices, los ángulos de Euler y el bloqueo de cardán. Finalmente, la conferencia presenta investigaciones en curso en el campo, incluida la optimización y ajuste de rotaciones a modelos, y el desarrollo de nuevos métodos para analizar y visualizar espacios de rotación.

En esta conferencia, el profesor analiza el problema de encontrar la transformación de coordenadas entre dos sistemas de coordenadas o la mejor rotación y traslación entre dos objetos con puntos correspondientes medidos en los dos sistemas de coordenadas. La conferencia explora el uso de cuaterniones para alinear cámaras de naves espaciales con direcciones de catálogo y resolver el problema de la orientación relativa. Se discute la eficiencia de los cuaterniones para representar rotaciones, así como diferentes métodos para abordar la representación de rotaciones en un espacio de cuatro dimensiones. Además, la conferencia explora varios grupos de rotación para diferentes poliedros, enfatizando la importancia de seleccionar el sistema de coordenadas correcto para lograr un muestreo espacial regular.

  • 00:00:00 En esta sección, el orador analiza los desafíos de lidiar con las rotaciones, ya que no son conmutativas como las traslaciones. El objetivo es desarrollar un método útil y general para tratar las rotaciones en fotogrametría y robótica. Los cuaterniones de Hamilton proporcionan una forma más general de representar rotaciones, particularmente cuando se restringen a cuaterniones unitarios, que pueden mapearse directamente en rotaciones en tres espacios. Esto permite la discusión de un espacio de rotación y optimización en ese espacio. Las aplicaciones son amplias, desde la robótica hasta la ciencia biomédica, y el orador tiene como objetivo desarrollar una solución de forma cerrada para problemas relacionados con la medición de dos objetos en diferentes sistemas de coordenadas o un objeto que se movió.

  • 00:05:00 En esta sección, se introduce y explica el tema de la rotación. El teorema de Euler establece que toda rotación de un objeto rígido tiene la propiedad de que existe una línea que no se modifica, que es el eje. El teorema de los ejes paralelos establece que cualquier rotación alrededor de cualquier eje es equivalente a una rotación alrededor de un eje que pasa por el origen, más una traslación. Para simplificar las cosas, es conveniente separar traslación y rotación. La velocidad de rotación es mucho más fácil que las propias rotaciones finitas, ya que la velocidad angular solo requiere un vector y una tasa. Finalmente, las rotaciones finitas no conmutan, y para n = 3, hay tres grados de libertad.

  • 00:10:00 En esta sección, el disertante explica que es mejor pensar en las rotaciones como algo que preserva ciertos planos. Por ejemplo, el plano xy se puede conservar mientras las cosas en él se mueven a una ubicación diferente. El disertante también señala que los productos cruzados tienen tres grados de libertad y se representan como vectores porque son perpendiculares a los dos vectores que se multiplican. Existen representaciones para la rotación, y un método útil es la notación de eje y ángulo, donde el eje es un vector unitario y el número de grados girados se representa mediante un ángulo. El vector de Gibbs es otra notación que combina el eje y el ángulo en un solo vector, aunque ya no es un vector unitario y explota en theta igual a pi.

  • 00:15:00 En esta sección, el disertante explica las diversas formas de representar la rotación, incluidos los ángulos de Euler, las matrices ortonormales, la forma exponencial, la estereografía y las matrices complejas. Cada método tiene sus propias limitaciones y hay 24 definiciones diferentes para los ángulos de Euler, lo que lo hace confuso. Sin embargo, los cuaterniones unitarios son el método más popular y útil para representar rotaciones porque tienen muchas ventajas, como ser compactos, fáciles de interpolar y no afectados por el bloqueo Gimbal. También es esencial poder convertir entre diferentes representaciones de rotación.

  • 00:20:00 En esta sección, el orador analiza el problema de rotar un vector y encontrar su posición en un sistema de coordenadas rotado, así como también componer rotaciones. El orador presenta la fórmula de Rodríguez, que aborda el primer problema al tomar un vector y girarlo en un ángulo alrededor de un eje dado. Al dividir el problema en 2D, el orador muestra cómo la fórmula de rotación es simple en el plano, pero más compleja en 3D. El orador explica que la notación de ejes y ángulos es útil para visualizar rotaciones, pero la composición es difícil de lograr.

  • 00:25:00 En esta sección, el disertante analiza diferentes representaciones de la rotación, incluido el mapeo de una esfera en un plano usando una técnica de proyección, que conserva ángulos y formas. También menciona la importancia de poder rotar vectores y componer rotaciones, además de tener una representación intuitiva como eje y ángulo. Sin embargo, señala que algunas representaciones como las matrices de rotación y el eje-ángulo pueden ser redundantes o poco intuitivas. El ponente también destaca la importancia de evitar singularidades y asegurar la eficiencia computacional al poder interpolar la orientación en los gráficos.

  • 00:30:00 En esta sección, el disertante analiza los desafíos de representar e interpolar rotaciones en gráficos por computadora, así como la necesidad de un espacio de rotaciones que se pueda muestrear y promediar de manera eficiente. Señala las limitaciones del uso de matrices, ángulos de Euler, bloqueo de cardán y otros métodos convencionales, e introduce los cuaterniones como una solución más práctica. Explica cómo los cuaterniones pueden evitar redundancias y singularidades, y cómo se pueden componer, interpolar y muestrear de una manera matemáticamente elegante y computacionalmente eficiente. También destaca algunos de los problemas abiertos y la investigación en curso en este campo, incluida la optimización y ajuste de rotaciones a modelos, y el desarrollo de nuevos métodos para analizar y visualizar espacios de rotación.

  • 00:35:00 En esta sección, el orador explica la historia detrás de la creación de cuaterniones y su significado en matemáticas, particularmente en rotación. Explica que William Hamilton, un matemático de Dublín, estaba tratando de encontrar una manera de representar tripletes de números de una manera que permitiera la división, por lo que buscó inspiración en los números complejos. Hamilton finalmente descubrió que los cuaterniones, o números con una parte real y tres partes imaginarias, podían resolver el problema. Luego, el orador continúa explicando las diferentes formas de representar los cuaterniones, incluso como un vector en el espacio o una matriz de cuatro por cuatro.

  • 00:40:00 En esta sección, el disertante analiza diferentes formas de representar la multiplicación de cuaterniones, incluido el uso de matrices y el uso de una parte escalar y tres partes imaginarias. El disertante enfatiza que la multiplicación no es conmutativa y muestra cómo se puede representar como un producto de una matriz y un vector. La conferencia también destaca algunos resultados básicos, incluido el hecho de que la multiplicación de cuaterniones no es conmutativa sino asociativa.

  • 00:45:00 En esta sección, el orador explica las propiedades de los cuaterniones que los convierten en una forma útil de representar rotaciones. Los cuaterniones tienen propiedades similares a los números complejos, incluido un conjugado que implica la negación de la parte imaginaria. El producto escalar se puede expresar como una norma, y multiplicar un cuaternión por su conjugado da como resultado una cantidad real sin parte imaginaria, que se puede usar para la división. En el caso de los cuaterniones unitarios, el inverso es simplemente el conjugado. Los cuaterniones también se pueden usar para representar vectores omitiendo la parte escalar, y hay muchas propiedades interesantes en este espacio.

  • 00:50:00 En esta sección, el profesor explica cómo representar la rotación usando cuaterniones. A diferencia de la simple multiplicación de cuaterniones, una operación de premultiplicar un cuaternión por un vector, posmultiplicarlo por su conjugado y extraer la parte imaginaria del vector da un cuaternión con una parte escalar cero que se puede aplicar para rotar un vector en 3D. Al representar la multiplicación de cuaterniones usando matrices de cuatro por cuatro, el disertante muestra cómo esta operación conserva los productos escalares de los vectores originales. En última instancia, la matriz rotacional ortonormal de tres por tres resultante se puede usar para rotar vectores sin manipular directamente los cuaterniones.

  • 00:55:00 En esta sección, el disertante discute las propiedades que definen una rotación y cómo representarla usando un cuaternión. Un cuaternión es una representación de cuatro dimensiones de una rotación que conserva los productos escalares, los productos triples, la longitud, los ángulos y la lateralidad, lo que la convierte en una representación adecuada de una rotación. La composición de rotaciones es sencilla en notación de cuaterniones, mientras que es difícil tanto en ángulo de eje como en ángulo de Euler. La parte vectorial del cuaternión es paralela al eje de rotación, lo que facilita la determinación del eje. El disertante explica cómo convertir entre representaciones eje-ángulo y cuaterniones e identifica que el lado opuesto de una esfera representa las mismas rotaciones, lo cual es un conocimiento esencial en fotogrametría para calcular promedios.

  • 01:00:00 En esta sección de la conferencia, el orador analiza el problema de encontrar la transformación de coordenadas entre dos sistemas de coordenadas o la mejor rotación y traslación entre dos objetos con los puntos correspondientes medidos en los dos sistemas de coordenadas. Usando un análogo físico con resortes, el sistema quiere minimizar la suma de los cuadrados de los errores para encontrar la rotación y la traslación. El primer paso para encontrar la traslación es tomar el centroide del sistema de la izquierda después de rotarlo al centroide del sistema de la derecha, lo cual es intuitivo y no requiere correspondencias. Luego se usa la fórmula para la traducción para simplificar la expresión para minimizar el término de error. El término medio es el único que se puede modificar y, al maximizarlo, el sistema puede maximizar el producto escalar de los puntos correspondientes.

  • 01:05:00 En esta sección, el disertante analiza cómo alinear las cámaras de las naves espaciales con las direcciones del catálogo utilizando la notación de cuaterniones. Usan cuaterniones para mapear la dirección de las estrellas en la cámara con direcciones de catálogo, donde el objetivo es maximizar el producto escalar de estos dos cuaterniones. Sin embargo, dado que esto puede generar valores grandes para el cuaternión, es necesario imponer una restricción adicional. El disertante explica dos métodos para diferenciar con respecto al cuaternión, que se utiliza para minimizar la diferencia entre las dos direcciones del cuaternión.

  • 01:10:00 En esta sección de la conferencia, el profesor analiza el vector propio y el valor propio de una matriz simétrica real de cuatro por cuatro que se construye a partir de los datos. A diferencia del pasado, donde se deseaba el valor propio más pequeño, debido al cambio de seno, debemos elegir el vector propio que corresponde al valor propio más grande. La matriz es simétrica, lo que significa que tiene nueve cantidades independientes y su determinante tiene un término cúbico que es cero. Aunque tiene 16 cantidades independientes, diez de ellas son independientes, lo que hace que esta matriz sea especial. Esto permite que se reduzca a una ecuación cúbica, lo que facilita su resolución. El profesor también señala que las ecuaciones cúbicas y las ecuaciones cuárticas se pueden resolver en forma cerrada, a diferencia de las ecuaciones de quinto orden.

  • 01:15:00 En esta sección, el disertante analiza las propiedades deseables de los cuaterniones como medio para representar rotaciones. Estas propiedades incluyen la capacidad de rotar vectores y componer rotaciones fácilmente, una representación intuitiva no redundante, eficiencia computacional y la capacidad de interpolar orientaciones y tomar promedios de un rango de rotaciones. Luego, el disertante presenta la orientación relativa como un problema de encontrar la línea de base y la orientación relativa de dos sistemas de coordenadas utilizando datos de dirección de dos puntos en el mundo. Los cuaterniones también son útiles para describir la cinemática de un manipulador de robot y pueden ayudar a evitar problemas con la alineación de los sistemas de coordenadas, especialmente en la muñeca.

  • 01:20:00 En esta sección, el orador analiza la eficiencia de los cuaterniones para representar rotaciones en comparación con las matrices ortonormales, lo que demuestra que las multiplicaciones de cuaterniones son más rápidas para la composición pero más lentas para los vectores giratorios. Señala que los cuaterniones también son más fáciles de volver a normalizar que las matrices. Luego, el orador analiza cómo muestrear el espacio de rotaciones en cuatro dimensiones al proyectar poliedros en la esfera de rotaciones, lo que resulta en una muestra regular y uniforme del espacio.

  • 01:25:00 En esta sección, la lección analiza diferentes métodos para representar rotaciones en un espacio de cuatro dimensiones, como el uso de sistemas de coordenadas para simplificar expresiones para grupos de rotación. La conferencia también explora varios grupos de rotación para diferentes poliedros, utilizando estos grupos para proporcionar una muestra espacial regular del espacio, de modo que los usuarios puedan probar diferentes orientaciones para sus búsquedas o promedios. Sin embargo, se observa que estos métodos pueden requerir trucos para lograr un muestreo más fino, y que elegir el sistema de coordenadas correcto es crucial.
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 19: Orientación Absoluta en Forma Cerrada, Outliers y Robustez, RANSAC



Clase 19: Orientación Absoluta en Forma Cerrada, Outliers y Robustez, RANSAC

La conferencia cubre varios aspectos de la orientación absoluta, incluido el uso de cuaterniones unitarios para representar rotaciones en fotogrametría, conversión entre cuaterniones y representaciones de matrices ortonormales, manejo de simetría de rotación y coordinación de traslación, escala y rotación sin correspondencia. La conferencia también analiza el problema de los valores atípicos y la robustez en los procesos de medición y ajuste de línea e introduce el método RANSAC (Random Sample Consensus) como una forma de mejorar la confiabilidad de las mediciones cuando hay valores atípicos. La conferencia concluye con una discusión sobre cómo resolver el problema de la orientación absoluta en forma cerrada utilizando dos planos en un escenario coplanar, incluidos los desafíos relacionados con los valores atípicos y la optimización.

En este video sobre orientación absoluta, el disertante analiza el tema de los valores atípicos en datos reales y propone el uso de RANSAC, un método de consenso que involucra ajustes aleatorios de subconjuntos para tratar los valores atípicos. El disertante también analiza métodos para lograr una distribución uniforme de puntos en una esfera, incluida la inscripción de una esfera en un cubo y la proyección de puntos aleatorios, la creación de mosaicos en la superficie de la esfera y la generación de puntos en poliedros regulares. Además, el disertante cubre formas de muestrear el espacio de rotaciones para el reconocimiento eficiente de múltiples objetos en una biblioteca, encontrar la cantidad de rotaciones necesarias para alinear un objeto consigo mismo y abordar el problema de encontrar rotaciones a través de ejemplos o multiplicación de cuaterniones.

  • 00:00:00 En esta sección de la conferencia, el orador analiza el uso de cuaterniones unitarios para representar rotaciones en fotogrametría. Los cuaterniones unitarios permiten una solución de forma cerrada al problema menos peor, lo que proporciona una forma objetiva de obtener la respuesta que mejor se ajusta, lo que es más difícil con otras notaciones. Las dos operaciones que son particularmente importantes son la composición de rotaciones y la rotación de un vector, las cuales pueden representarse usando la fórmula discutida. El orador también relaciona esta notación con la notación de ejes y ángulos utilizando la fórmula de Rodríguez. En general, el uso de cuaterniones unitarios permite una forma más eficiente de representar las rotaciones en la fotogrametría.

  • 00:05:00 En esta sección del video, el orador analiza la conversión entre representaciones de matrices ortonormales y cuaterniones. La fórmula para convertir cuaterniones en matrices implica una matriz de cuatro por cuatro con partes asimétricas y simétricas. El orador explica que la primera fila y la primera columna son irrelevantes ya que representan un cuaternión especial que es un vector con una parte escalar cero. Para volver a convertir una matriz ortonormal en un cuaternión, el orador recomienda usar la traza de la submatriz de tres por tres. Este método termina con una ecuación en forma de dos cosenos que nos permite resolver el coseno del ángulo entre las matrices.

  • 00:10:00 En esta sección, el disertante analiza diferentes formas de calcular la matriz de rotación a partir de los elementos diagonales de la matriz R. Si bien un enfoque se centra en la traza de la matriz de rotación, presenta problemas cerca de theta igual a cero. En su lugar, es mejor usar los elementos fuera de la diagonal, que dependen del seno de theta sobre dos. La lección luego pasa a dar una fórmula de inversión completa que calcula varias sumas y diferencias y saca raíces cuadradas. El problema con este enfoque es la ambigüedad del seno, pero la conferencia sugiere elegir el más grande para la precisión numérica y resolverlo.

  • 00:15:00 En esta sección, el orador analiza el proceso de conversión entre cuaternión y matriz de rotación, tanto directa como indirectamente, y cómo tener en cuenta la escala en las transformaciones de coordenadas. Explican el proceso de resolución de los factores de rotación y escala usando un problema de mínimos cuadrados y minimizando la suma de cuatro sumas. El orador destaca la importancia de tener en cuenta la escala al unir piezas de terreno obtenidas de sucesivas posiciones de cámara y explica cómo encontrar la óptima en estas situaciones.

  • 00:20:00 En esta sección, el orador analiza el tema de la simetría en la rotación, donde el método utilizado para calcular la rotación debería poder invertirse para obtener la inversa de la matriz rotacional. El orador también explora otro término de error que se prefiere a los métodos anteriores porque no requiere correspondencias y puede asignar centroide a centroide. Este método implica encontrar el factor de escala estableciendo la derivada del término de error con respecto al factor de escala igual a cero y resolviendo para el factor de escala, lo que evita hacer trampa al hacer que el factor de escala sea un poco más pequeño de lo que debería ser.

  • 00:25:00 En esta sección, el disertante explica cómo lidiar con la traducción, el escalado y la rotación sin correspondencia. Usando un método de centroide, el factor de escala se puede calcular como la relación de los tamaños de dos nubes de puntos. Con la parte de rotación, el disertante aborda brevemente el problema de cálculo de maximizar un determinante negativo de una matriz, N, con respecto a q, el cuaternión. La solución se puede encontrar usando multiplicadores de Lagrange, pero también se puede usar un método más simple llamado cociente de Rall, que divide por la longitud de q para evitar que se vuelva infinitamente grande. La función resultante es constante a lo largo de cualquier arreglo, dando la dirección del rayo que lo hace lo más extremo posible.

  • 00:30:00 En esta sección, el orador explica cómo encontrar la matriz que maximiza sigma al derivar la ecuación y establecerla en cero. Usando una fórmula de razón para la diferenciación, el orador muestra cómo q es un vector propio y explica que la matriz se puede maximizar eligiendo el vector propio correspondiente al valor propio más grande. La única restricción de este método es que el vector propio debe satisfacer la restricción obtenida de los datos de correspondencia. Sin embargo, a diferencia de las matrices ortonormales, esta restricción es mucho más fácil de manejar.

  • 00:35:00 En esta sección, el disertante discute el número de correspondencias necesarias para problemas fotogramétricos. Su objetivo es encontrar seis cosas: rotación traslacional y escala, lo que significa tres restricciones por correspondencia y, por lo tanto, solo se necesitan dos correspondencias. Sin embargo, con solo dos correspondencias, solo hay cinco restricciones; por lo tanto, se necesitan tres correspondencias para lograr esto. Adicionalmente, el disertante menciona la posibilidad de generalizar la transformación para que coincida con las nueve restricciones obtenidas a partir de tres puntos; sin embargo, señalan que estas restricciones son muy redundantes.

  • 00:40:00 En esta sección, el video analiza el concepto de transformación lineal general en 3D, que involucra 12 elementos, no seis como en 2D, lo que dificulta la determinación con tres correspondencias. Además, el video explica que hay dos formas de fallar en la transformación lineal. En primer lugar, si no hay suficientes correspondencias, y en segundo lugar, si la matriz N tiene más de un valor propio de cero. El video explica además cómo resolver la ecuación característica para encontrar los valores propios de la matriz.

  • 00:45:00 En esta sección del video, el disertante explica cómo calcular la matriz M usando el producto diático, que es una matriz de tres por tres que se usa para calcular la matriz N de cuatro por cuatro, que es la más eficiente de obtener N. Se observa que si el determinante de M es cero, entonces el problema se vuelve particularmente fácil de resolver porque C1 es cero, lo que permite resolver la ecuación sin necesidad de ningún libro de texto especial. Este caso especial tiene que ver con una distribución de puntos y puede ocurrir cuando los puntos son coplanares. El disertante muestra cómo esto se aplica igualmente bien si los puntos están todos en un plano, haciendo que el problema sea fácil de resolver.

  • 00:50:00 En esta sección del video, el locutor explica cómo resolver el problema de la orientación absoluta en forma cerrada usando dos planos en un escenario coplanar. La rotación 3D completa se puede descomponer en dos rotaciones simples, primero rotando un plano para que quede encima del otro plano y luego una rotación en el plano. El orador explica cómo encontrar el eje y el ángulo necesarios para construir el cuaternión y rotar todos los puntos en uno de los sistemas de coordenadas para alinearlos con el otro sistema de coordenadas. Además, el orador analiza los desafíos de lidiar con valores atípicos en el problema de optimización y cómo usar algo que no sea el cuadrado del error, como el valor absoluto del error, puede generar más trabajo para calcular y dificultades para generalizar los resultados.

  • 00:55:00 En esta sección, el disertante analiza el problema de los valores atípicos y la robustez en el ajuste de línea y otros procesos de medición. Introduce el método RANSAC (Random Sample Consensus), que implica tomar una muestra aleatoria de puntos y usar mínimos cuadrados para encontrar el mejor ajuste, luego verificar la cantidad de puntos que se encuentran dentro de una banda y ajustar el umbral en función del ruido y la proporción de valores internos a valores atípicos. El proceso se repite hasta obtener un buen ajuste. El disertante señala que el uso de RANSAC puede mejorar la confiabilidad de las mediciones en situaciones donde hay valores atípicos.

  • 01:00:00 En esta sección del video, el disertante analiza el problema de los valores atípicos en presencia de datos reales y cómo tratarlos utilizando el método de consenso, también conocido como RANSAC. El método implica tomar subconjuntos aleatorios, realizar ajustes y buscar celdas que tengan la mayor cantidad de aciertos, lo que da una medida de la orientación de los objetos que pueden no tener una solución de forma cerrada. El disertante enfatiza que este enfoque es útil en muchas aplicaciones y no solo se limita a la orientación absoluta. Además, el disertante menciona que las representaciones de objetos complicados casi convexos también pueden ser útiles para detectar cosas y encontrar su orientación.

  • 01:05:00 En esta sección, el disertante analiza las dificultades de muestrear puntos en una esfera para lograr uniformidad. No se puede lograr una distribución uniforme de puntos muestreando theta y phi usando un generador de distribución uniforme debido a que las regiones polares tienen más concentración que las demás. La solución propuesta es inscribir una esfera en el cubo y proyectar puntos aleatorios desde el cubo hacia la esfera. Sin embargo, esto todavía conduce a una mayor densidad de puntos donde la esfera es tangente al cubo. Para solucionar esto, el profesor sugiere teselar la superficie de la esfera utilizando sólidos regulares o introduciendo peso en los puntos cercanos a las esquinas para contraer su agregación.

  • 01:10:00 En esta sección del video, el disertante analiza formas de obtener una distribución uniforme de puntos en la superficie de una esfera. Una forma es generar puntos uniformemente en un cubo y proyectarlos sobre la superficie de la esfera mientras se descartan los puntos demasiado cerca del origen o demasiado lejos de la esfera. Otro método es dividir la esfera usando poliedros regulares y generando puntos uniformemente en estas formas. Sin embargo, este método requiere subdivisión para obtener divisiones más finas, a diferencia del primer método que genera una distribución prácticamente uniforme.

  • 01:15:00 En esta sección, el disertante analiza cómo encontrar formas uniformes de muestrear el espacio de rotaciones para varios objetos, lo cual es parte del proceso de reconocimiento de múltiples objetos en una biblioteca. El disertante explica que para ser eficientes, no quieren muestrear partes del espacio de rotación más densamente que otras partes, y su objetivo es encontrar una forma uniforme de muestrear el espacio. Comienzan discutiendo el hexaedro, que tiene simetría rotacional, y sus rotaciones. El profesor explica que el objetivo es encontrar métodos de rotación que faciliten la búsqueda de correspondencias de puntos entre diferentes modelos.

  • 01:20:00 En esta sección, el orador explica cómo encontrar el número de rotaciones necesarias para alinear un objeto consigo mismo y luego genera un grupo de rotaciones utilizando dos métodos: geométricamente y mediante la multiplicación de cuaterniones. Se encuentra una nueva rotación interesante, cuyo eje es (1, 1, 1) y el ángulo es 2π/3, y se muestra que alinea la esquina de un cubo consigo mismo.

  • 01:25:00 En esta sección, el orador ofrece dos formas de abordar el problema de encontrar rotaciones. La primera forma es mirar ejemplos y sumarlos para obtener un total de 24 rotaciones. La segunda forma es implementar la multiplicación de cuaterniones y construir una tabla tomando productos por pares para ver si terminas con algo nuevo. Luego, el orador menciona que la próxima discusión involucrará la orientación relativa, que es más relevante para las visiones binoculares.
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 Visión artificial, otoño de 2020. Clase 20: Espacio de rotaciones, teselaciones regulares, superficies críticas, estéreo binocular



Clase 20: Espacio de Rotaciones, Teselaciones Regulares, Superficies Críticas, Estéreo Binocular

Esta sección de la conferencia cubre temas que incluyen teselaciones regulares, superficies críticas, estéreo binocular y encontrar los parámetros de una transformación en el espacio tridimensional. El disertante explica que la mejor manera de teselar una esfera es usando el dual de un teselado triangular, creando formas aproximadamente hexagonales con algunos pentágonos. También analizan las superficies críticas, que son difíciles para la visión artificial, pero que se pueden usar para crear muebles con palos rectos. En la discusión del estéreo binocular, el disertante explica la relación entre dos cámaras, el concepto de líneas epipolares y cómo encontrar la intersección de dos cámaras para determinar un punto en el mundo. También explican cómo calcular el error entre dos rayos para determinar su intersección y minimizar el error de imagen teniendo en cuenta el factor de conversión entre error en el mundo y error en la imagen. Finalmente, discuten cómo encontrar la línea base y D para recuperar la posición y orientación de un objeto rígido en el espacio usando un cuaternión para representar la línea base.

La conferencia cubre varios temas, incluido el espacio de rotaciones, teselaciones regulares, superficies críticas y estéreo binocular. Para las rotaciones, el instructor analiza el uso de enfoques numéricos, el problema de las singularidades y los beneficios de usar cuaterniones unitarios. Con teselaciones regulares, muestran cómo ciertas superficies pueden causar problemas con el estéreo binocular y sugieren usar medidas y pesos de error para mitigar los problemas. El orador también toca las superficies cuádricas e introduce un nuevo problema de tarea que implica una "reflexión intrépida".

  • 00:00:00 En esta sección del video, el orador analiza la creación de mosaicos en la superficie de una esfera en función de los sólidos platónicos y de Arquímedes, que tienen proyecciones de áreas iguales en la esfera. El teselado de la superficie se puede hacer usando polígonos regulares como facetas, siendo comúnmente usados triángulos, cuadrados y pentágonos. Las áreas de los polígonos no son iguales y, como resultado, la superficie teselada tiene muchas divisiones. Este método de teselado es relevante cuando se habla de rotaciones, y el orador explica los grupos de rotación de estos sólidos. El video también menciona el uso de un domo geodésico, que se basa en teselar un icosaedro en muchas áreas triangulares para crear una estructura regular.

  • 00:05:00 En esta sección, el disertante discutió varias teselaciones regulares, que son formas de dividir una superficie en formas del mismo tamaño. Si bien las teselaciones cuadradas se usan comúnmente en planos, no son ideales para esferas, y las teselaciones triangulares también son problemáticas. El disertante destacó una mejor opción: el dual de un teselado triangular, que presenta formas aproximadamente hexagonales y algunas pentagonales. Además, el disertante explicó las superficies críticas, que son hiperboloides de una hoja. Estas superficies son difíciles para los problemas de visión artificial, pero tienen la particularidad de estar rayadas y se pueden usar para hacer muebles con palos rectos. Finalmente, el disertante discutió hiperboloides de dos hojas que tienen dos signos negativos en su ecuación.

  • 00:10:00 En esta sección, el disertante analiza los diferentes tipos de superficies que se pueden crear con dos hojas o tres signos negativos. También explica los diversos casos especiales que existen, como el hiperboloide, el cono, el paraboloide y las superficies planas. A continuación, el profesor explica el problema de calcular 3D a partir de 2D utilizando dos cámaras y cómo es necesaria la orientación relativa para comprender la geometría de las dos cámaras. La conferencia concluye mencionando cómo el estéreo binocular es aplicable en vehículos autónomos, y es posible que sea necesario volver a calibrar si la línea de base no es rígida, pero el mismo proceso también funciona para la estructura a partir del movimiento con imágenes antes y después.

  • 00:15:00 En esta sección, el disertante explica el concepto de encontrar la intersección de dos cámaras para determinar un punto en el mundo, cómo se selecciona el sistema de coordenadas y la geometría asociada con este concepto. El disertante destaca que la línea de base se mide en el sistema de coordenadas de la derecha, y el número primo indica cómo se convierte desde el sistema de coordenadas de la izquierda. Cuando el punto está conectado a la línea de base, define un plano, y la imagen del plano en ambos sistemas de cámara se proyecta en una línea recta donde el punto se refleja en algún lugar a lo largo de esa línea. La conferencia también presenta el concepto de líneas epipolares y cómo ayudan a encontrar disparidades que conducen a una medición de distancia.

  • 00:20:00 En esta sección, el disertante analiza la relación entre las dos cámaras en una configuración estéreo binocular, que involucra la línea de base y la rotación de una cámara con respecto a la otra. La rotación tiene tres grados de libertad, pero debido a la ambigüedad del factor de escala, el problema se reduce a cinco grados de libertad en lugar de seis, como con la orientación absoluta. La línea de base se trata como un vector unitario, dando solo dos grados de libertad para ese componente. El disertante explica que sería necesaria información adicional, como el conocimiento del tamaño de los objetos de la imagen, para determinar la longitud absoluta de la línea de base.

  • 00:25:00 En esta sección, el disertante analiza cómo determinar el número de correspondencias necesarias para precisar las medidas. Explica la analogía mecánica de crear un cable a partir de puntos de imagen y pasarlos a través de un collar para restringirlo. El disertante explica que si solo se usan dos correspondencias, todavía hay grados de libertad, lo que significa que es posible cambiar la rotación de la cámara. Añadir una segunda correspondencia reduce el grado de libertad pero sigue siendo insuficiente. La respuesta es cinco, lo que da una restricción por correspondencia, lo que les permite eliminar las disparidades verticales en la orientación de la cámara. La profundidad de campo es inversamente proporcional a las disparidades horizontales. El instrumento se puede configurar desconectando las disparidades verticales, que es como se configuró el equipo óptico durante décadas.

  • 00:30:00 En esta sección de la conferencia, el orador analiza el proceso de encontrar los parámetros de una transformación en el espacio tridimensional utilizando una secuencia de movimientos y ajustes para converger, lo que puede ser un proceso doloroso y complicado. Sin embargo, en la práctica, es importante tener más de cinco puntos para garantizar la precisión y minimizar el error en la medición de la posición de la imagen. Este problema no lineal da como resultado siete ecuaciones de segundo orden, que una vez resueltas pueden dar dos a las siete (128) soluciones. Aunque esto es una curiosidad para la mayoría, a las personas interesadas en las aplicaciones teóricas les resulta divertido descifrar. Finalmente, la lección discute la naturaleza coplanar de los tres vectores cuando se encuentran los parámetros de línea de base y de rotación a partir de las correspondencias.

  • 00:35:00 En esta sección se explica el concepto de construir una pipeta paralela usando tres vectores como aristas y determinando su volumen a través del triple producto. Cuando los tres vectores son coplanares, el objeto es plano y no tiene volumen tridimensional, lo que hace que su valor esperado sea cero o la condición de coplanaridad. Se discute un método potencial para minimizar la suma de cuadrados del producto triple para cada correspondencia para estimar la línea de base y la rotación con errores mínimos. Sin embargo, este no es un método confiable ya que tiene una alta ganancia de ruido y puede generar respuestas incorrectas. Para minimizar los errores de medición y determinar el factor de proporcionalidad, el enfoque se desplaza hacia la minimización de la separación mínima entre dos rayos cuando las mediciones y la línea de base o la rotación no son perfectas.

  • 00:40:00 En esta sección, el disertante explica cómo calcular el error entre dos rayos y determinar su intersección. Explica que el acercamiento mínimo a la distancia entre dos rayos debe ser perpendicular a ambos rayos, lo que significa que es paralelo al producto vectorial. Al sumar vectores e igualarlos a cero, la ecuación se puede convertir en una ecuación escalar usando productos escalares, proporcionando tres restricciones diferentes. Luego, el disertante continúa discutiendo cómo simplificar la ecuación haciendo que ciertos términos se eliminen y cómo calcular gamma, beta y alfa, lo que ayudará a determinar qué tan lejos a lo largo de los rayos está la intersección o casi intersección.

  • 00:45:00 En esta sección, el orador analiza la importancia de tres cantidades: alfa, beta y gamma, en el cálculo de la posición tridimensional en el espacio de rotaciones. Mientras que gamma es simplemente el error de distancia, alfa y beta pueden ser negativos, lo que indica si los segmentos de línea que se cruzan pueden estar detrás del espectador, lo que normalmente no es físicamente razonable. El orador menciona que actualmente no es posible una solución de forma cerrada debido a la ecuación de quinto orden involucrada, pero aún se puede minimizar el error de imagen. Al descartar soluciones con alfa o beta negativos y usar un solucionador quíntico, se puede minimizar el error en la imagen.

  • 00:50:00 En esta sección, el orador analiza el problema de minimizar el error de suma de cuadrados en estéreo binocular teniendo en cuenta el factor de conversión entre error en el mundo y error en la imagen. Esto depende de la solución y se resuelve iterativamente. El producto triple, que se ha girado desde el sistema de coordenadas de la izquierda hacia la derecha, se utiliza para introducir cuaterniones. El orador explica cómo se usan los cuaterniones con partes escalares cero para rotar el producto triple del sistema de coordenadas derecho al izquierdo. La fórmula para la multiplicación entre cuaterniones que representan vectores se simplifica al producto escalar y al producto vectorial. Se establece un lema sin demostración para una forma de mover uno de los multiplicadores al otro lado.

  • 00:55:00 En esta sección, el ponente explica cómo encontrar la línea de base y recuperar la posición y orientación de un objeto rígido en el espacio, a partir de dos imágenes del objeto tomadas desde diferentes puntos de vista. El orador define una nueva cantidad, que es el producto de la línea base y la rotación, y usa un cuaternión para representar la línea base, simplificando el problema para encontrar la línea base y D. Si bien hay 8 incógnitas, solo hay cinco grados de libertad, por lo que el hablante emplea varias restricciones. También hablan de interesantes simetrías que permiten el intercambio de coordenadas izquierda y derecha. El peso, que es la relación entre el error en el espacio 3D y el error en la posición de la imagen, es difícil de calcular pero se puede ajustar.

  • 01:00:00 En esta sección, el orador analiza un problema de optimización que implica calcular pesos en función de una buena suposición inicial, y luego volver a calcular esos pesos y resolver el problema nuevamente. También tocan la simetría entre las matrices izquierda y derecha y cómo eso puede ser útil en el cálculo numérico, junto con la simetría entre la rotación y la traslación en el producto triple. En última instancia, esta simetría significa que si uno tiene una solución aproximada, puede generar otras soluciones aproximadas utilizando esta simetría. Además, en el proceso de búsqueda de soluciones, uno puede encontrar múltiples versiones que arrojan los mismos resultados, lo que puede ayudar a acelerar el proceso de búsqueda.

  • 01:05:00 En esta sección, el instructor analiza el cálculo del espacio de rotaciones usando un enfoque numérico que requiere la suposición de uno de los valores desconocidos con una solución simple de forma cerrada por mínimos cuadrados. Otro enfoque consiste en utilizar un paquete de optimización no lineal, como el método de Marquardt, que ajusta los parámetros hasta que las ecuaciones estén lo más cerca posible de cero. Sin embargo, no se considera que estos enfoques tengan una solución de forma cerrada para este problema. Además, el instructor explica que hay un problema con las rotaciones porque, debido al método de la matriz ortonormal, hay nueve números y solo tres grados de libertad, lo que lleva a una singularidad con el vector de Gibbs en theta igual a pi.

  • 01:10:00 En esta sección, el orador discute el uso de cuaterniones unitarios para representar rotaciones, citando que tienen cuatro números con tres grados de libertad. Recomienda agregar restricciones adicionales para que sean menos redundantes y afirma que este paquete permite agregar esas restricciones. También toca la fórmula para combinar dos rotaciones y la transformación de un vector, que es un poco más complicada. Además, el orador destaca que hay una propaganda de cuatro páginas que resume todo lo que necesitará saber sobre los cuaterniones. Finalmente, analiza el uso de medidas de error y cómo el peso es necesario cuando se consideran valores z más grandes para evitar errores grandes.

  • 01:15:00 En esta sección, el orador explica que ciertos tipos de superficies pueden causar problemas con el método estéreo binocular para determinar la orientación de un objeto. Estas "superficies críticas" se descubrieron hace más de un siglo y pueden causar ambigüedad y una alta sensibilidad al error. El orador da un ejemplo de un valle en forma de U donde los ángulos entre las diferentes imágenes de las características de la superficie no cambian a medida que el avión se mueve a lo largo de la superficie, lo que hace imposible distinguir diferentes posiciones. El orador señala que el hiperboloide de una hoja es un ejemplo común de una superficie cuádrica que puede causar problemas con el estéreo binocular, ya que tiene el número correcto de signos menos para una hoja y puede parecerse mucho a otras superficies.

  • 01:20:00 En esta sección, el orador habla sobre las superficies cuádricas, específicamente los dos planos que se cruzan y que forman una versión de esta superficie. Cada plano tiene una ecuación lineal, y cuando se multiplica, se obtiene la combinación de dos planos. Uno de los planos pasa por el centro de proyección, lo que significa que se proyecta en una línea. Esto es aún más extraño, ya que significa que una superficie plana es un problema común en las estructuras hechas por el hombre. El orador menciona que la próxima vez tendrá que hablar sobre la "reflexión intrépida" y se introdujo un nuevo problema de tarea.
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 21: Orientación Relativa, Estéreo Binocular, Estructura, Cuádrica, Calibración, Reproyección



Clase 21: Orientación Relativa, Estéreo Binocular, Estructura, Cuádrica, Calibración, Reproyección

Esta lección cubre temas relacionados con la fotogrametría, incluida la orientación relativa, las superficies cuadráticas, la calibración de la cámara y las correspondencias entre los puntos de la imagen y los objetos 3D conocidos. El profesor explica varios métodos para resolver problemas de distorsión y obtención de parámetros como f y tz. También enfatizan la importancia de los vectores unitarios ortogonales al encontrar la matriz rotacional completa y brindan soluciones para encontrar k usando una fórmula más estable. El disertante enfatiza la importancia de entender las ecuaciones homogéneas, las cuales son críticas en la visión artificial.

Esta lección cubre varios temas relacionados con la visión artificial y la calibración, incluido el uso de un objetivo plano para la calibración, la ambigüedad de calibrar la orientación exterior, la redundancia en la representación de los parámetros de rotación y la determinación de las propiedades estadísticas de determinados parámetros a través de la relación de ganancia de ruido. La lección explica la fórmula para resolver una ecuación cuadrática e introduce un método de aproximación que involucra la iteración. El caso de objetivo planar se analiza como un método comúnmente utilizado para aplicaciones de calibración y visión artificial. La conferencia también toca la representación de la forma y el reconocimiento, y la determinación de la actitud en el espacio 3D.

  • 00:00:00 En esta sección, el orador analiza la orientación relativa, que es el segundo de cuatro problemas en fotogrametría, y su relevancia para el estéreo binocular, la visión en movimiento y la estructura a partir del movimiento. El hablante desarrolla una solución, pero observa que hay superficies en las que no se puede determinar la orientación relativa, en particular las superficies cuádricas. Luego, la conferencia profundiza en los tipos específicos de superficies cuádricas, como elipsoides, hiperboloides de una o dos hojas y superficies que tienen formas imaginarias. El orador explica que si una superficie no tiene un término constante, significa que el origen del sistema de la mano derecha, o la posición de la cámara en el momento dos de la visión en movimiento, está en la superficie. Además, si uno conecta menos b para r, donde b es la distancia entre las dos cámaras, también da como resultado una solución, lo que significa que la superficie pasa por ambos ojos.

  • 00:05:00 En esta sección de la conferencia, el orador analiza las propiedades y las implicaciones de la ecuación de superficie cuádrica, que es simétrica entre las posiciones de cámara izquierda y derecha en un par estéreo. La ecuación no tiene un término constante, lo que significa que no hay escala y toda la línea de base está en la superficie. Esto sugiere que la superficie es una superficie reglada y tiene dos reglas, lo que la hace interesante para la fabricación. La ecuación cubre una variedad de casos especiales, incluidas superficies planas, con uno de los planos que pasa por el origen de ambos sistemas de coordenadas como un plano epipolar. La imagen de este plano es una línea recta, lo cual no es particularmente interesante, pero el otro plano es arbitrario y puede ser cualquier cosa.

  • 00:10:00 En esta sección, el disertante discute el tema de la ambigüedad al reconstruir mapas topográficos o recuperar la estructura del movimiento, ya que los dos problemas son matemáticamente iguales. Aunque es más probable que este problema ocurra en campos de visión estrechos, aún puede amplificarse en una situación de alta ganancia de ruido. Para combatir este problema, se recomienda un campo de visión amplio, razón por la cual se crearon cabezas de araña, un conjunto de cámaras montadas juntas para obtener un campo de visión amplio, para fotografía aérea. Luego, el disertante pasa a la orientación interior, que es esencialmente la calibración de la cámara. Si bien el método anterior de calibración con puntos de fuga funcionó, no fue muy preciso y resultó difícil tener en cuenta la distorsión radial. El disertante sugiere la necesidad de un método más general para dar cuenta de la distorsión radial.

  • 00:15:00 En esta sección, el disertante analiza las ventajas y desventajas que conlleva el diseño de una lente, incluida la distorsión radial, que provoca un error en las coordenadas polares donde la imagen puede aparecer en otro lugar a lo largo de una línea en lugar de donde debería. Esta distorsión se suele aproximar mediante un polinomio, y el término cuadrático suele ser suficiente para obtener resultados decentes. La conferencia continúa describiendo un método de plomada utilizado en el pasado para medir la distorsión de una lente.

  • 00:20:00 En esta sección, el orador analiza los diferentes tipos de distorsión que pueden ocurrir en las imágenes, incluida la distorsión de barril y la distorsión de alfiletero, y cómo se relacionan con el signo de k1. El ponente también menciona la posibilidad de usar una aproximación polinomial para convertir entre coordenadas distorsionadas y no distorsionadas, y cómo esto afecta la optimización final y el sistema de coordenadas utilizado. El orador señala la ausencia de distorsión tangencial en los sistemas de imágenes modernos, ya que suelen ser rotacionalmente simétricos y solo experimentan distorsión radial.

  • 00:25:00 En esta sección, el disertante analiza las posibles complicaciones en la calibración de la cámara, como el descentramiento de la distorsión y un plano de imagen inclinado. Para trabajos de alta calidad como la fotografía aérea, estos factores deben tenerse en cuenta. El disertante explica que existe la posibilidad de que se produzcan pequeños errores debido a la naturaleza mecánica de la fabricación de la cámara, lo que puede afectar la ampliación y la distorsión de la imagen. Esto se puede compensar con un modelo más complejo para la distorsión, y el método de calibración de Tsai implica el uso de un objeto de calibración que puede ser plano o tridimensional. El disertante también explica que en el pasado, era más una cuestión de ajustar la cámara durante la fabricación, pero en los tiempos modernos, se utilizan una solución de software y extensiones de modelo para lidiar con la distorsión.

  • 00:30:00 En esta sección, el orador analiza el proceso de determinación de correspondencias entre puntos de imagen y puntos conocidos en un objeto 3D. Sin embargo, a diferencia del método del punto de fuga, es poco probable que podamos determinar la relación entre el objeto de calibración y la cámara usando una cinta métrica. Por lo tanto, necesitamos agregar la orientación exterior para resolver el problema de averiguar dónde está el objeto de calibración en el espacio y cómo gira, además de encontrar los parámetros de la cámara. Si bien la orientación exterior agrega más incógnitas, produce resultados más precisos. La orientación interior involucra la ecuación de proyección de perspectiva y el punto principal y la distancia principal. La estrategia para esto es eliminar parámetros difíciles y encontrar un método para modificar las mediciones para reducir la dependencia de la distorsión radial, luego encontrar una solución de forma cerrada para algunos parámetros antes de recurrir a métodos numéricos.

  • 00:35:00 En esta sección del video, el orador explica cómo obtener una buena suposición inicial para la solución iterativa al calcular la orientación relativa en estéreo binocular. Si bien se deben tener en cuenta los principios establecidos, en esta etapa se permiten algunas violaciones de estos principios, ya que la conjetura inicial no es la respuesta. El orador explica que usar los números de fila y columna para las coordenadas xi y yi, y expresar f en tamaño de píxel, es conveniente para el proceso de determinar la suposición inicial. También se analiza la orientación exterior, incluida la rotación y traslación del objeto de calibración, que se conoce con precisión. Las ecuaciones que normalmente se usan para transformar una posición en el objeto de calibración en una posición en el objeto de la cámara se invierten y se usan para intentar recuperar los parámetros desconocidos de rotación y traslación.

  • 00:40:00 En esta sección del video, el orador analiza los desafíos de lidiar con la distorsión radial y obtener f y tz. La solución sugerida es trabajar en coordenadas polares, donde la distorsión radial solo altera la longitud, no el ángulo, y usando una ecuación con menos incógnitas. La ecuación involucra los componentes de coordenadas del objeto de calibración y las coordenadas de la imagen, que son conocidas, y los componentes desconocidos de r, tx y ty. Se puede formar una ecuación lineal para aproximar la posición del punto principal, que es necesaria para la solución.

  • 00:45:00 En esta sección, el ponente analiza el proceso de determinación del punto principal de un sensor de imagen y el uso de ecuaciones homogéneas en la visión artificial. Para determinar el punto principal, el orador sugiere asumir un punto central y descartar las correspondencias que están demasiado cerca del centro, ya que pequeños errores pueden afectar significativamente su dirección. Una vez que se asume el punto central, el orador explica que se necesitan ocho ecuaciones para encontrar las ocho incógnitas para cada correspondencia, y estas ecuaciones son homogéneas y dan como resultado cero. Si bien las ecuaciones homogéneas a menudo se pasan por alto en la educación tradicional, son fundamentales en la visión artificial y es esencial saber cómo trabajar con ellas.

  • 00:50:00 En esta sección, el orador analiza el método para resolver las ecuaciones homogéneas fijando una de las incógnitas y estableciéndola en un valor de elección, reduciendo el número de incógnitas a siete. Esto significa que se requieren al menos siete correspondencias, y es deseable tener más para estimar el error. El sistema sobredeterminado de ecuaciones lineales se puede resolver usando técnicas como Pseudo-inverse. Finalmente, se calcula un factor de escala para hacer que los vectores calculados sean vectores unitarios, lo que actúa como una verificación de la cordura de las correspondencias identificadas. El método proporciona una primera estimación de todas las incógnitas excepto F, Tz, distorsión radial y Tz, que requiere un análisis más detallado.

  • 00:55:00 En esta sección, la conferencia explica el proceso de encontrar la f y la tz en relación con la orientación relativa, el estéreo binocular, la estructura, las cuádricas, la calibración y la reproyección. La conferencia enfatiza la importancia de los vectores unitarios ortogonales al encontrar la matriz rotacional completa. Cuando hay dos vectores no ortogonales, se necesita un pequeño ajuste que dará como resultado un par de vectores ortogonales. Luego, la lección continúa explicando cómo la ecuación cuadrática puede ser problemática para encontrar k, por lo que se usa otra fórmula que es más estable.

  • 01:00:00 En esta sección, el disertante analiza la fórmula para resolver una ecuación cuadrática y la posible pérdida de precisión que puede ocurrir en el cálculo debido a la resta de cantidades casi del mismo tamaño. El disertante introduce un método de aproximación que involucra la iteración, que puede proporcionar una solución simple. La discusión también incluye el caso del objetivo plano que, debido a su alta precisión y facilidad de uso, se emplea comúnmente en aplicaciones de calibración y visión artificial. El disertante explica que un patrón con esquinas características determinadas con precisión se monta en el objetivo para medir la rotación de los componentes a lo largo de dos ejes diferentes, lo que permite una alineación de ruedas de alta precisión.

  • 01:05:00 En esta sección, el disertante analiza el uso de un objetivo plano para la calibración, lo que permite la construcción de un sistema de coordenadas con valores conocidos de x, y y z. La ecuación de este enfoque tiene menos incógnitas y solo requiere cinco correspondencias en lugar de siete, lo que lo convierte en un método más eficiente. Sin embargo, si la traducción de y es cero, este método puede volverse inexacto, y se recomienda establecer tx igual a uno para obtener soluciones más precisas. La conferencia también trata sobre la recuperación de las piezas superiores de dos por dos de la matriz de rotación para el caso plano.

  • 01:10:00 En esta sección, el disertante explica la dificultad de encontrar la relación entre la relación de aspecto de los pasos en las direcciones x e y en los viejos tiempos. Existía la necesidad de otro parámetro que escalara x en relación con y, ya que cosas diferentes controlaban el espacio horizontal y vertical. La conferencia menciona el uso del álgebra que crea un lío, por lo tanto, las hojas de especificaciones de los fabricantes se pueden usar para encontrar la relación de aspecto con precisión. El disertante también explica que con la ecuación de proyección en perspectiva y conociendo las incógnitas, f y tz, es posible usar una correspondencia para calcular ambas. Sin embargo, existe un problema con la variación de profundidad cuando se intenta utilizar un plano de destino de calibración.

  • 01:15:00 En esta sección, el disertante analiza la ambigüedad de calibrar la orientación exterior en visión artificial. Es imposible determinar la distancia focal y la traslación por separado debido a la ambigüedad del factor de escala, por lo que se necesitan variaciones de profundidad. El disertante explica que la orientación exterior es ambigua si el objetivo de calibración no está montado en un ángulo de 45 grados. Finalmente, se discuten el punto principal y la distorsión radial, y se requiere una optimización no lineal para minimizar el error entre las coordenadas de imagen predichas y reales. Para este propósito, se recomienda el paquete LM Diff, que está integrado en MATLAB.

  • 01:20:00 En esta sección de la conferencia, el presentador analiza el problema de la redundancia en la representación de parámetros de rotación y sugiere soluciones como los ángulos de Euler, el vector de Gibbs y los cuaterniones unitarios. Sin embargo, los cuaterniones unitarios son redundantes con cuatro números para tres grados de libertad. El presentador propone agregar otra ecuación y un término de error proporcional a la diferencia entre el tamaño del cuaternión y uno para hacer cumplir la restricción. La conferencia también menciona el problema de la ganancia de ruido y el uso de métodos de Monte Carlo para abordar este problema en ausencia de un método analítico.

  • 01:25:00 En esta sección, el orador explica cómo determinar las propiedades estadísticas de una respuesta dada a través de la relación de ganancia de ruido jugando con las entradas muchas veces. Permite analizar la distribución de la respuesta en el espacio de parámetros y descubrir que ciertos factores, como los coeficientes de orden superior de la distorsión radial, están mal determinados debido a la sensibilidad a las mediciones de ruido. El siguiente tema a tratar es la representación de forma y reconocimiento, y determinación de actitud en el espacio 3D, usando el conocimiento construido hasta ahora en reconocimiento 2D y determinación de actitud en patrones.
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
Razón de la queja: