Redes Neurais em IA e Deep Learning - página 12

 

Clase 2: Formación de imágenes, Proyección en perspectiva, Derivada del tiempo, Campo de movimiento



Clase 2: Formación de imágenes, Proyección en perspectiva, Derivada del tiempo, Campo de movimiento

En esta lección, se discute extensamente el concepto de proyección en perspectiva y su relación con el movimiento. El disertante demuestra cómo el uso de diferenciación de la ecuación de proyección de perspectiva puede ayudar a medir el movimiento de los patrones de brillo en la imagen y cómo se relaciona con el movimiento en el mundo real. La conferencia también cubre temas como el foco de expansión, imágenes continuas y discretas, y la importancia de tener un punto de referencia para la textura al estimar la velocidad de un objeto en una imagen. Además, la conferencia aborda las derivadas totales a lo largo de las curvas y el tema del conteo de ecuaciones y las restricciones al intentar recuperar el campo vectorial de flujo óptico.

El orador cubre varios temas, como el gradiente de brillo, el movimiento de un objeto, el caso 2D y las isófotas. Un desafío al que se enfrenta el cálculo de la velocidad de un objeto es el problema de apertura causado por la relación proporcional del gradiente de brillo, que se resuelve ponderando las contribuciones a diferentes regiones de la imagen o buscando soluciones mínimas. Luego, la conferencia profundiza en los diferentes casos de isófotas y enfatiza la importancia de calcular una respuesta significativa en lugar de una ruidosa al determinar la velocidad, utilizando el concepto de ganancia de ruido, que mide la sensibilidad del cambio en la imagen al cambio en el resultado. .

  • 00:00:00 En esta sección, el disertante analiza la proyección en perspectiva y el movimiento. La proyección en perspectiva implica una relación entre puntos en el mundo 3D y la imagen 2D, que se puede representar a través de sistemas de coordenadas adecuados. Explican que la diferenciación de la ecuación de perspectiva puede ayudar a medir el movimiento de los patrones de brillo en la imagen, que luego se pueden usar para determinar el movimiento en el mundo real. El disertante reduce la complejidad de las ecuaciones al utilizar símbolos más fáciles de digerir, como velocidades en las direcciones x e y.

  • 00:05:00 En esta sección, el disertante explica cómo usar vectores de movimiento para encontrar el foco de expansión, un punto en la imagen donde no hay movimiento. Este punto es importante porque nos permite determinar la dirección del movimiento simplemente conectándolo con el origen y nos dice algo sobre el entorno o el movimiento. El disertante continúa mostrando cómo aparecerá el patrón de la imagen si el foco de expansión está en un punto determinado, y cómo se puede dibujar el diagrama vectorial para mostrar el campo de movimiento.

  • 00:10:00 En esta sección de la lección, se introduce el concepto de foco de expansión y compresión en el contexto de la formación de imágenes y la proyección en perspectiva. La ecuación describe vectores que irradian hacia afuera desde el foco de expansión, lo cual es importante para medir la distancia y la velocidad. La relación de w sobre z determina el tamaño de los vectores, y el inverso del foco de expansión es el foco de compresión. Tomando la relación de z sobre w, se puede estimar el tiempo hasta el impacto, lo cual es útil para aterrizar naves espaciales o medir distancias. Luego se presenta la idea en forma de vector, aunque no es inmediatamente útil.

  • 00:15:00 En esta sección, el orador analiza la ecuación de proyección en perspectiva y cómo se puede usar para introducir las coordenadas de la imagen. El foco de expansión se presenta como el punto donde el punto r es cero, que corresponde a z. Al diferenciar cada componente con respecto al tiempo, podemos derivar ecuaciones para movimiento en 3D y movimiento en profundidad. El orador también usa un resultado del apéndice del libro para transformar las ecuaciones en una declaración general sobre el flujo, lo que permite la expresión del movimiento de la imagen en términos del movimiento del mundo.

  • 00:20:00 En esta sección, el disertante analiza el concepto de movimiento de imagen y su relación con el eje z. Se encuentra que el movimiento de la imagen resultante es perpendicular al eje z, lo cual no es sorprendente ya que la imagen es solo en dos dimensiones con velocidades en las direcciones x e y. Luego, la conferencia explora el concepto de movimiento radial y su efecto en el movimiento de la imagen, con la conclusión de que si el objeto se mueve directamente hacia o desde el observador, no hay movimiento de imagen. El disertante concluye examinando ejemplos de campos de flujo en los que los vectores no son todos de la misma longitud, demostrando que si bien es desagradable, esto puede ser ventajoso.

  • 00:25:00 En esta sección, el disertante analiza cómo comprender el proceso directo de formación de imágenes puede ayudar a resolver el problema inverso de recuperar la profundidad de los campos de movimiento. El disertante señala que la profundidad y la velocidad son los dos factores clave que afectan la apariencia del campo de movimiento, y conocer uno puede ayudar a calcular el otro. Sin embargo, recuperar ambos puede conducir a un problema mal planteado con múltiples o ninguna solución. El disertante también aborda brevemente los patrones de brillo de la imagen, que se pueden representar como un patrón 2D de valores de brillo, y la representación del color mediante valores RGB, que se analizarán más adelante. Por último, el disertante explica que las imágenes se pueden representar como continuas o discretas, cuantizándose las imágenes digitales en el espacio y típicamente en una cuadrícula rectangular.

  • 00:30:00 En esta sección de la conferencia, el profesor analiza la diferencia entre los dominios continuos y discretos en el procesamiento de imágenes. Si bien en la práctica las imágenes a menudo se representan mediante matrices de números con dos índices, el uso de funciones continuas puede facilitar la comprensión de ciertas operaciones, como tomar integrales. Además, el profesor habla sobre la aproximación de las derivadas x e y del brillo con métodos de diferencia, y la importancia del gradiente de brillo en el procesamiento de imágenes. La conferencia también aborda los sensores 1D y cómo se pueden usar para obtener imágenes, con el movimiento sirviendo como medio para escanear la imagen. El profesor plantea el problema de determinar la velocidad de movimiento entre dos fotogramas de una imagen y da un ejemplo de un ratón óptico mapeando la superficie de una mesa.

  • 00:35:00 En esta sección, el disertante analiza las suposiciones hechas en la tecnología de mouse óptico, en particular, la suposición de brillo constante al mirar una superficie. También explica cómo se puede utilizar una pequeña aproximación lineal de una curva para determinar el movimiento mediante el análisis del cambio de brillo entre fotogramas. El disertante introduce la notación de derivadas parciales, así como los componentes del gradiente de brillo que se pueden utilizar para la detección de bordes. Finalmente, se deriva la fórmula delta e = e sub x por delta x y se divide por delta t para calcular el movimiento.

  • 00:40:00 En esta sección de la conferencia, el orador analiza cómo recuperar el movimiento de un solo píxel en una imagen 1D. El resultado permite que el hablante recupere el movimiento, pero este enfoque no funciona para imágenes 2D. El orador explica que los valores más grandes de ET indican movimientos más rápidos y que hay un problema cuando EX es cero, ya que la división por cero o los valores pequeños generarían errores debido a problemas de medición. Además, el orador explica que los valores de EX pequeños o nulos dan como resultado estimaciones ruidosas debido a errores de medición.

  • 00:45:00 En esta sección de la conferencia, el disertante discute la importancia de tener un punto de referencia con textura al estimar la velocidad de un objeto en una imagen. Este tipo de medición puede ser ruidoso y poco confiable a menos que se cumplan ciertas condiciones de imagen. Sin embargo, los resultados se pueden mejorar drásticamente usando múltiples píxeles y aplicando técnicas como mínimos cuadrados para reducir el error. Al combinar varios píxeles, la desviación estándar de las medidas se puede reducir en la raíz cuadrada de n, que es significativa para imágenes grandes. Sin embargo, es importante ponderar las medidas en función de la pendiente de la textura para evitar contaminar zonas de poca pendiente con información de zonas de mucha pendiente. Finalmente, el análisis se extiende a imágenes 2D y se discuten múltiples enfoques para obtener el siguiente resultado.

  • 00:50:00 En esta sección, el disertante explica cómo los cuadros de video se pueden conceptualizar como un volumen tridimensional de valores de brillo con x, y y t como ejes. Luego, la lección continúa describiendo las derivadas parciales y cómo se derivan de las diferencias de los píxeles vecinos en la dirección x, y o t. Luego, el disertante explora el concepto de derivadas totales a lo largo de las curvas, específicamente relacionadas con el gradiente de brillo de un objeto en movimiento. Usando la regla de la cadena, la derivada total se puede expresar como derivadas parciales, lo que permite predecir cómo cambiará el brillo del objeto con el tiempo. Finalmente, la lección introduce el concepto de encontrar u y b a partir de secuencias de imágenes.

  • 00:55:00 En esta sección, el disertante analiza el tema del conteo de ecuaciones y las restricciones al intentar recuperar el campo vectorial de flujo óptico. En el caso de una u desconocida y una ecuación de restricción, es posible obtener un número finito de soluciones. Sin embargo, con dos incógnitas u y v y una restricción de ecuación, parece inútil. La ecuación de restricción se deriva de la suposición de que las imágenes no cambian de brillo a medida que se mueven. El disertante muestra que graficar la ecuación de restricción en el espacio de velocidades revela que es una línea, lo cual es un avance significativo para resolver el problema. El objetivo es fijar el punto en un punto y obtener el campo de vector de flujo óptico preciso.

  • 01:00:00 En esta sección del video, el orador analiza la importancia del gradiente de brillo para determinar el movimiento de un objeto. El gradiente de brillo es un vector unitario que apunta perpendicularmente a la transición entre áreas de alto y bajo brillo. El disertante explica que al hacer una medición localizada, no hay suficientes ecuaciones para determinar el movimiento de un objeto. Sin embargo, es posible determinar el movimiento en la dirección del gradiente de brillo. Luego, el orador pasa a discutir el caso 2D y afirma que se deben usar múltiples restricciones para determinar el movimiento de un objeto. Para demostrar esto, el hablante resuelve una ecuación lineal simple para recuperar los valores de u y v.

  • 01:05:00 En esta sección, el disertante explica cómo invertir una matriz de 2x2 y usarla para resolver el conjunto de ecuaciones lineales para el movimiento de imágenes. Sin embargo, en algunos casos extremos, el determinante de la matriz puede ser cero, lo que significa que los gradientes de brillo son proporcionales entre sí, lo que genera el problema de la apertura. Este problema sugiere que las contribuciones a las diferentes regiones de la imagen deben ponderarse de manera diferente, en lugar de simplemente promediar el resultado. Para resolver este problema, necesitamos buscar los valores de u y v que hacen que la ecuación sea cero o lo más pequeña posible.

  • 01:10:00 En esta sección, el orador analiza una restricción que se aplica en un caso ideal donde los valores correctos de u y v dan como resultado un integrando de cero cuando se integra en toda la imagen. Esta puede ser la base de una estrategia para encontrar los valores correctos de u y v. El orador señala que este enfoque puede fallar cuando no hay luz o textura en la escena, lo que da como resultado valores cero para ex y ey. Luego, el orador explica cómo el integrando se convierte en algo siempre positivo al elevarlo al cuadrado y minimizarlo, lo que lleva a un problema de cálculo de dos ecuaciones con dos incógnitas. Sin embargo, esto puede fallar si el determinante de la matriz de dos por dos es cero, lo que puede ocurrir si ex es cero en todas partes o si ex es igual a ey.

  • 01:15:00 En esta sección, el ponente analiza los diferentes casos de isófotas, que son líneas de igual gradiente de brillo. Las isófotas pueden estar en un ángulo de 45 grados, líneas paralelas o líneas curvas. Sin embargo, el orador enfatiza que el caso más general es isófotas en algún ángulo porque abarca todos los demás casos. También mencionan que el único problema surge cuando las isófotas son líneas paralelas, que se pueden superar buscando áreas en la imagen donde el gradiente de brillo cambia mucho, como esquinas o áreas con curvatura de isófotas alta. Finalmente, el orador introduce el concepto de ganancia de ruido y anima a los estudiantes a enviar cualquier pregunta que tengan sobre la lección o la próxima tarea.

  • 01:20:00 En esta sección, el disertante analiza la importancia de calcular una respuesta significativa, en lugar de una ruidosa, al determinar la velocidad del movimiento. Explica el concepto de ganancia de ruido, que se refiere a la sensibilidad del cambio en la imagen al cambio en el resultado y cómo afecta el cálculo de la velocidad. Luego continúa describiendo una transformación unidimensional en la que se conoce la función directa y el objetivo es invertirla de una manera que sea sensible y no demasiado sensible al ruido.
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 3: Tiempo de contacto, foco de expansión, métodos de visión de movimiento directo, ganancia de ruido



Clase 3: Tiempo de contacto, foco de expansión, métodos de visión de movimiento directo, ganancia de ruido

En esta lección, se enfatiza el concepto de ganancia de ruido en relación con los procesos de visión artificial, con un enfoque en diferentes direcciones y variaciones en la precisión. El disertante analiza la importancia de medir con precisión los vectores y comprender la ganancia para minimizar los errores en los cálculos. La charla cubre el concepto de tiempo de contacto, el foco de expansión y los campos de movimiento, con una demostración de cómo calcular gradientes radiales para estimar el tiempo de contacto. El disertante también demuestra cómo superar las limitaciones en los cálculos cuadro por cuadro usando superpíxeles multiescala, con una demostración en vivo usando una cámara web. En general, la conferencia brinda información útil sobre las complejidades de los procesos de visión artificial y cómo medir varias cantidades con precisión.

La conferencia analiza varios aspectos de la visión de movimiento y su aplicación para determinar el tiempo de contacto, el foco de expansión y los métodos de visión de movimiento directo. El ponente demuestra herramientas para visualizar resultados intermedios, pero también reconoce sus limitaciones y errores. Además, se aborda el problema de lidiar con movimientos arbitrarios en el procesamiento de imágenes y se enfatiza la importancia de que los puntos vecinos se muevan a velocidades similares. La conferencia también profundiza en los patrones que afectan el éxito de los métodos de visión de movimiento directo e introduce nuevas variables para definir el tiempo de contacto y el enemigo de manera más conveniente. Finalmente, se analiza el proceso de resolución de tres ecuaciones lineales y tres incógnitas para comprender cómo las diferentes variables afectan la visión del movimiento, junto con la paralelización del proceso para acelerar el cálculo.

  • 00:00:00 En esta sección, el disertante analiza la ganancia de ruido, que se refiere a la relación entre los errores de medición y los errores de estimación de cantidades relacionadas con el medio ambiente. Utiliza un ejemplo de un sistema GPS interior que utiliza puntos de acceso Wi-Fi para ilustrar la idea. La precisión del sistema está limitada por la medición de los tiempos de ida y vuelta desde el teléfono hasta el punto de acceso y viceversa con alta precisión. El disertante enfatiza que el análisis de ganancia de ruido de algún proceso de visión artificial será diferente en diferentes direcciones y no será un solo número. Más bien, la precisión se puede determinar bastante bien en una dirección, pero no en otra, dependiendo de cómo te muevas.

  • 00:05:00 En esta sección del video, el disertante analiza el concepto de usar transpondedores para determinar la posición y los errores correspondientes que esto puede causar. Explica que si se utilizan dos transpondedores y se colocan en una línea, resulta difícil determinar la precisión en una determinada dirección debido a los pequeños cambios en la distancia. Sin embargo, si los transpondedores se colocan a 90 grados de distancia, se mejora la precisión. Además, el disertante explica el uso de círculos en relación con la determinación del lugar geométrico de posibles posiciones con la misma cantidad de error.

  • 00:10:00 En esta sección, el disertante explica el concepto de transformación directa que nos lleva de una cantidad en el entorno que debe medirse a algo que se puede observar en un instrumento. Explica que la medición puede no ser perfecta y, por lo tanto, el ruido en la cantidad de interés está relacionado con el ruido en la medición por la derivada de la función de transferencia. El disertante también destaca la importancia de la ganancia de ruido, enfatizando que un valor pequeño de f prima de x no es bueno ya que la incertidumbre resultante en la cantidad que se mide sería grande.

  • 00:15:00 En esta sección, el orador analiza cómo medir vectores y la importancia de comprender la ganancia en estas mediciones. Explican que medir un vector requiere un poco más de complejidad que medir una cantidad escalar, pero aún se puede hacer aplicando transformaciones lineales. El orador enfatiza que un aspecto crucial de las mediciones vectoriales es comprender la ganancia, lo que implica tener en cuenta la anisotropía y determinar la magnitud del cambio en los resultados y las mediciones. Determinar el inverso del determinante es esencial para resolver ecuaciones lineales, y es crucial evitar que este valor sea cero o demasiado pequeño para minimizar la amplificación de errores en los cálculos. El orador proporciona un ejemplo de una matriz de dos por dos para explicar cómo obtener una matriz inversa.

  • 00:20:00 En esta sección de la lección, el concepto de ganancia de ruido se aplica a un ejemplo que involucra movimiento y resolución de las variables u y v. Se explica que si la cantidad es pequeña, el ruido se amplificará significativamente y esto se debe al hecho de que los gradientes de brillo en los dos píxeles tienen una orientación similar, lo que proporciona poca diferencia en la información. Se usa un diagrama del espacio de velocidades para mostrar cómo se intersecan las dos líneas y cómo un pequeño cambio en una línea puede causar un gran cambio en el punto de intersección, lo cual no es un caso deseable. Sin embargo, no se pierde toda esperanza, ya que se observa que la ganancia de ruido puede no ser igual de alta en todas las direcciones y es útil saber en qué componente se puede confiar. Luego, la conferencia continúa revisando la suposición de brillo constante y la ecuación de restricción antes de pasar al concepto de tiempo de contacto.

  • 00:25:00 notación más compleja. En esta sección, el disertante analiza el problema del ratón óptico y cómo abordarlo utilizando un enfoque de mínimos cuadrados. El objetivo es encontrar la velocidad correcta utilizando medidas de ex, ey y et, pero estas medidas suelen estar corrompidas por el ruido, por lo que el mínimo de la integral (no cero) será nuestra estimación de u y v. El disertante repasa algunos cálculos para determinar el mínimo y explica la importancia de minimizar esta integral. Luego pasan a casos simples en los que u y v son predecibles, como en el caso del foco de expansión, y revisan la relación entre las coordenadas del mundo y las coordenadas de la imagen en la proyección en perspectiva.

  • 00:30:00 En esta sección, el orador analiza la relación entre las velocidades, las distancias y el foco de expansión para movimientos con velocidad cero en las direcciones x e y. La charla cubre la cantidad de w de az, que es el componente del movimiento en la dirección z, y la distancia de una velocidad medida en metros por segundo o segundos, también conocida como el tiempo de contacto, que es útil para encontrar cómo mucho tiempo pasará antes de que uno se estrelle contra un objeto si nada cambia. Luego, el orador continúa demostrando, con un ejemplo simple, cómo funciona el foco de expansión cuando alguien se mueve hacia una pared y cómo se vería el campo de movimiento en ese escenario.

  • 00:35:00 En esta sección, el orador explica que si bien podemos pensar que encontrar vectores es el enfoque más fácil para resolver el problema de encontrar el foco de expansión, la realidad es que todo lo que tenemos son imágenes que son patrones de brillo y no hay vectores dentro de ellos. En cambio, necesitamos usar los datos de imagen de una imagen que se expande o se reduce para resolver este problema. El orador muestra un diagrama de los vectores que muestran compresión en lugar de expansión, pero enfatiza que el enfoque de expansión es un factor esencial en este experimento. El orador también introduce la idea del gradiente radial, que es el producto punto de dos vectores: el vector del gradiente de brillo y el vector al centro óptico de la cámara, y esto se puede usar para medir el inverso del tiempo para contacto usando derivadas de brillo en un punto de la imagen. Sin embargo, estos números están sujetos a ruido y la estimación de derivadas empeora las cosas, por lo que este método no es muy preciso.

  • 00:40:00 En esta sección, el disertante explica cómo calcular gradientes radiales y usarlos para estimar el tiempo de contacto de una imagen. El gradiente radial se calcula tomando el producto escalar del gradiente de la imagen con un vector radial en un sistema de coordenadas polares erigido en la imagen. Luego, el disertante muestra cómo usar los mínimos cuadrados para minimizar la diferencia entre el gradiente radial calculado y el valor teórico de cero para una fuente puntual de luz. Esto se aplica a un caso simple de movimiento a lo largo del eje óptico, donde la estimación del parámetro c da el tiempo de contacto.

  • 00:45:00 En esta sección de la conferencia, el profesor explica su enfoque para estimar el tiempo de contacto usando métodos de visión de movimiento directo. Utiliza el cálculo para minimizar el error cuadrático medio en presencia de ruido y obtiene la fórmula para c, que es la inversa del tiempo de contacto. La clave es estimar el gradiente de brillo usando píxeles vecinos en las direcciones x e y, luego calcular el gradiente radial y finalmente calcular las integrales dobles sobre todos los píxeles para obtener las estimaciones de g y g al cuadrado. Con estos, el tiempo de contacto se puede estimar fácilmente usando la fórmula para c. El método es simple y efectivo, sin necesidad de procesamiento de alto nivel o técnicas sofisticadas de reconocimiento de objetos, lo que lo convierte en un cálculo directo del tiempo de contacto.

  • 00:50:00 En esta sección, el disertante analiza la medición de la posición de un autobús utilizando técnicas de análisis de imágenes. Al medir la cantidad de píxeles en la imagen del autobús y cómo cambia con el tiempo, se puede determinar con precisión la posición del autobús. Sin embargo, este proceso requiere un alto nivel de precisión y puede convertirse en un desafío cuando se trata de escenarios más complejos. Para demostrar estas técnicas, el orador utiliza un programa llamado Montevision, que procesa imágenes para estimar el tiempo de contacto y foco de expansión con varios objetos. El programa calcula tres valores para optimizar la precisión del análisis basado en imágenes, pero como los resultados son ruidosos, requieren una mejora constante para que sean efectivos.

  • 00:55:00 En esta sección, el disertante analiza un método para calcular el tiempo de contacto y las limitaciones de hacerlo usando cálculos cuadro por cuadro. Estas limitaciones incluyen cambios en el enfoque de la imagen y la falla del método para ajustar velocidades más grandes en objetos más cercanos. El disertante demuestra cómo superar estas limitaciones mediante el uso de superpíxeles de múltiples escalas o la agrupación de píxeles para mejorar la velocidad y la precisión del procesamiento de imágenes. Finalmente, el disertante muestra una demostración en vivo usando una cámara web para mostrar el tiempo de contacto basado en el movimiento de la cámara.

  • 01:00:00 En esta sección, el disertante demuestra una herramienta que puede mostrar resultados intermedios, donde la derivada x controla el rojo y la derivada y controla el verde, dando un efecto tridimensional, similar a la variación rápida de un gradiente en una topografía mapa. Además, se demuestra que la derivada radial, g, va hacia afuera, y cuando se multiplica por la derivada del tiempo, et, puede determinar el movimiento. Sin embargo, se reconoce que dicha herramienta tiene limitaciones y errores que son calculables y no tiene un código mágico, lo que la convierte en una herramienta fascinante y comprensible.

  • 01:05:00 En esta sección, el disertante analiza el problema de lidiar con movimientos arbitrarios en el procesamiento de imágenes. Señala que el problema surge del hecho de que u y v, que se refieren al movimiento en las direcciones x e y, respectivamente, pueden ser diferentes a lo largo de la imagen. Esto puede conducir a un millón de ecuaciones en dos millones de incógnitas, lo que hace que el problema parezca irresoluble. El disertante sugiere que se pueden necesitar suposiciones adicionales para resolver el problema, pero señala que, en la mayoría de los casos, los puntos vecinos en la imagen se mueven a la misma velocidad o similar, lo que brinda información adicional. También advierte que la solución puede fallar si hay cero gradiente radial en la imagen y explica lo que eso significa.

  • 01:10:00 En esta sección, el disertante analiza los patrones que pueden afectar el éxito del uso de métodos de movimiento de visión directa para calcular el tiempo de contacto. El disertante explica que algunos patrones, como la forma de una x, tienen gradientes que cambian en diferentes direcciones y, por lo tanto, brindan información valiosa para calcular el tiempo de contacto. Sin embargo, otro patrón, como un gráfico circular, no brinda esta información ya que los gradientes son consistentes en su dirección. El disertante también menciona que el algoritmo podría recoger exey distinto de cero de pequeñas motas o fibras que existen incluso en patrones relativamente consistentes como una hoja de papel. Finalmente, la lección introduce dos nuevas variables, fu de z y fv de z, que ayudarán a definir el tiempo de contacto y el enemigo de manera más conveniente en las ecuaciones.

  • 01:15:00 En esta sección, el orador analiza la fórmula para calcular el foco de expansión, que se basa en los dos parámetros a y b, y cómo f no aparece en la fórmula. Mientras que para muchos propósitos se necesita f para calcular la distancia y la velocidad, el cálculo del tiempo de contacto no requiere f. Luego, el orador formula un problema como un problema de mínimos cuadrados con un número finito de parámetros a, b y c, y procede a diferenciar la integral para encontrar la derivada del integrando.

  • 01:20:00 En esta sección de la conferencia, el orador explica cómo resolver tres ecuaciones lineales y tres incógnitas para descubrir cómo las diferentes variables afectarán la visión del movimiento. La solución tiene una forma cerrada, lo que es beneficioso ya que permite sacar conclusiones rápidamente, en lugar de tener que volver a calcular con diferentes parámetros. Hay tres acumuladores, que se diferencian en la dirección horizontal, vertical y g, que afectan a los coeficientes. La matriz de coeficientes es simétrica, lo que da una idea de la estabilidad de la solución.

  • 01:25:00 En esta sección de la conferencia, el disertante analiza la paralelización del proceso de ejecutar seis acumuladores en una imagen y agregarlos a medida que avanza. Este proceso no requiere interacciones entre píxeles y, por lo tanto, puede acelerarse si se ejecuta en una GPU. Estos acumuladores no dependen de los cambios en el tiempo, ya que solo acumulan patrones de brillo y textura dentro de la imagen. Los tres acumuladores restantes dependen de los cambios en el tiempo. Una vez que se tienen en cuenta todos los acumuladores, se deben resolver tres ecuaciones con tres incógnitas.
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 4: flujo óptico fijo, mouse óptico, suposición de brillo constante, solución de forma cerrada



Clase 4: flujo óptico fijo, mouse óptico, suposición de brillo constante, solución de forma cerrada

En la lección 4 del curso sobre percepción visual para la autonomía, el disertante analiza temas como el flujo óptico fijo, el mouse óptico, la suposición de brillo constante, la solución de forma cerrada y el tiempo de contacto. La suposición de brillo constante conduce a la ecuación de restricción de cambio de brillo, que relaciona el movimiento en la imagen con el gradiente de brillo y la tasa de cambio de brillo. El disertante también demuestra cómo modelar situaciones en las que la cámara o la superficie están inclinadas y analiza el beneficio del promedio multiescala en el manejo de grandes movimientos. Además, la conferencia explora el uso del tiempo para contactar en varias situaciones autónomas y compara diferentes sistemas de control para aterrizar en naves espaciales planetarias. Finalmente, la lección toca la proyección de una línea y cómo se puede definir utilizando la proyección en perspectiva.

El orador analiza las aplicaciones del procesamiento de imágenes, incluido cómo se pueden usar los puntos de fuga para recuperar los parámetros de transformación para la calibración de la cámara y cómo los objetos de calibración con formas conocidas pueden determinar la posición de un punto en el sistema centrado en la cámara. La conferencia también cubre las ventajas y desventajas de usar diferentes formas como objetos de calibración para algoritmos de flujo óptico, como esferas y cubos, y cómo encontrar el centro de proyección desconocido usando un cubo y tres vectores. La conferencia finaliza destacando la importancia de tener en cuenta los parámetros de distorsión radial para la calibración de cámaras robóticas reales.

  • 00:00:00 En esta sección, el disertante habla sobre la formación de imágenes y el seguimiento de movimiento. Discuten las ecuaciones de proyección de perspectiva y el foco de expansión, que es el punto hacia el cual ocurre el movimiento. Se introduce la suposición de brillo constante, lo que significa que, en muchas circunstancias, el brillo de una imagen de un punto en el entorno no cambiará con el tiempo. El disertante explica cómo esta suposición conduce a la ecuación de restricción de cambio de brillo, que relaciona el movimiento en la imagen con el gradiente de brillo y la tasa de cambio de brillo. La conferencia también cubre cómo resolver la velocidad requiere restricciones adicionales y cómo todo lo que se mueve a la misma velocidad puede ser una forma extrema de restricción.

  • 00:05:00 En esta sección de la conferencia, el disertante analiza la técnica de minimizar el error para estimar u y v en problemas de flujo óptico donde hay u y v constantes para toda la imagen, como en el caso de un mouse óptico . Este proceso está muy sobre-restringido, pero podemos obtener una ecuación lineal en las incógnitas, con una matriz simétrica de coeficientes de dos por dos. El orador muestra cómo calcular las derivadas y las condiciones bajo las cuales este método no funcionará. También explican un tipo particular de imagen donde e_x y e_y están en la misma proporción en todas partes, y esta condición se cumplirá.

  • 00:10:00 En esta sección, el disertante habla sobre la isofoto donde exy es constante, que es una línea recta con líneas paralelas que solo se diferencian en c. Este tipo de imagen plantea problemas para los sistemas de ratón óptico porque no pueden medir el deslizamiento en una dirección, por lo que es imposible determinar la otra parte de la misma. Luego, la conferencia presenta el concepto de tiempo de contacto, que depende de proporciones de partes fraccionarias en lugar de valores absolutos, lo que permite que el sistema funcione sin calibración. El disertante también demuestra cómo diferenciar la ecuación, mostrando que el tamaño del objeto es constante, lo que lleva a que la derivada del producto sea cero.

  • 00:15:00 En esta sección, el disertante explica una relación simple que traduce un cierto cambio porcentual en el tamaño entre fotogramas en un cierto cambio porcentual en la distancia, que se traduce directamente en el tiempo de contacto (TTC). El disertante enfatiza la importancia de medir con precisión el tamaño de la imagen al estimar el TTC usando el método del tamaño de la imagen, ya que el cambio fraccional en la imagen de cuadro a cuadro es relativamente pequeño para un TTC alto. El disertante también analiza las suposiciones hechas en el tiempo de contacto en relación con una superficie plana, señalando que la suposición de que z es constante aún se aplica.

  • 00:20:00 En esta sección, el disertante analiza cómo modelar situaciones en las que la cámara o la superficie están inclinadas. En el caso de un plano inclinado, la profundidad ya no será constante en la imagen. La ecuación de un plano es una ecuación lineal en x e y, que puede ser un modelo más complicado de observar. En general, las ecuaciones pueden volverse demasiado complicadas allí y es posible que no haya una solución de forma cerrada. Sin embargo, es mejor centrarse primero en los casos en los que existe una solución de forma cerrada. Si la superficie no es plana, podemos aproximarla mediante polinomios para establecer un problema de mínimos cuadrados. Desafortunadamente, no encontraremos una solución de forma cerrada, por lo que necesitamos una solución numérica. No obstante, debemos tener cuidado al introducir más variables porque permite que la solución se desvíe en otra dirección, perdiendo cualquier ventaja sobre el modelado de que la superficie es plana.

  • 00:25:00 En esta sección, el orador analiza los problemas con la implementación de múltiples escalas en el flujo óptico. A pesar de la implementación exitosa, menciona que la precisión de los resultados disminuye a medida que aumenta el movimiento en la imagen. Una forma de manejar este problema es trabajar con imágenes más pequeñas, lo que reduce el movimiento por cuadro. El orador también analiza el beneficio del promedio de múltiples escalas, que implica trabajar con conjuntos de imágenes cada vez más pequeños para manejar grandes movimientos. La cantidad de trabajo requerido aumenta con el número de subconjuntos, pero el esfuerzo computacional total se reduce. El disertante enfatiza que el proceso de optimización de múltiples escalas es más complicado que el simple promedio de bloques de dos por dos que se usó en la lección anterior.

  • 00:30:00 En esta sección de la conferencia, el orador analiza cómo trabajar en múltiples escalas puede mejorar en gran medida los resultados de los cálculos de flujo óptico. Explica que el submuestreo se debe realizar después del filtrado de paso bajo para evitar el aliasing, y aunque uno podría submuestrear por un factor menos agresivo, como la raíz cuadrada de 2, a menudo se ignora en favor del bloque más simple de dos por dos. método de promedio. El orador también menciona varias aplicaciones interesantes del flujo óptico, como usar el tiempo de contacto para prevenir accidentes de avión y mejorar el aterrizaje de naves espaciales en la luna de Júpiter, Europa. Explica cómo un sistema de control puede usar el tiempo para contactar las mediciones para cambiar la aceleración del motor del cohete y derribar una nave espacial de manera más confiable.

  • 00:35:00 En esta sección, la conferencia analiza un sistema simple para mantener un tiempo constante de contacto durante el descenso, que se puede usar en varias situaciones autónomas, como automóviles o naves espaciales. La idea básica es ajustar la fuerza aplicada al motor en función de si el tiempo de contacto medido es más corto o más largo de lo deseado, para mantenerlo constante. Este método no depende de ninguna textura o calibración específica, sino que simplemente se basa en la relación entre la altura y la velocidad. La ecuación de este sistema se puede resolver como una ecuación diferencial ordinaria, que tiene una solución proporcional a z.

  • 00:40:00 En esta sección, el disertante analiza un sistema de control de tiempo de contacto constante y lo compara con un enfoque más tradicional para aterrizar en naves espaciales planetarias. El sistema de control de tiempo de contacto constante es ventajoso ya que es más eficiente energéticamente ya que mantiene constante el tiempo de contacto y no requiere un conocimiento detallado sobre la distancia a la superficie y la velocidad. El disertante muestra los cálculos del tiempo de contacto bajo aceleración constante y enfatiza que el tiempo de contacto es siempre la mitad de lo que se observa usando una estrategia de altura constante.

  • 00:45:00 En esta sección, el disertante analiza el concepto de control de aceleración constante y cómo se compara con los enfoques tradicionales para estimar distancias y velocidades. Luego introduce la generalización del flujo óptico, que se llama flujo fijo, y explica que asume que el movimiento de todas las partes de la imagen es el mismo. Sin embargo, en los casos en que hay movimientos independientes o un pequeño número de incógnitas, el sistema puede estar sobredeterminado. También analiza el problema mal planteado de los sistemas con restricciones insuficientes y cómo se puede usar una restricción fuerte para resolverlo.

  • 00:50:00 En esta sección, el disertante analiza cómo los puntos vecinos en una imagen no se mueven de forma independiente, sino que tienden a moverse a velocidades similares, lo que crea restricciones para el flujo óptico. Sin embargo, esta restricción no es una ecuación sencilla y requiere herramientas más precisas para resolverla. Si estas herramientas no están disponibles, la imagen se puede dividir en partes más pequeñas donde la suposición de velocidad constante en esa área es menos significativa. Pero esta división también crea compensaciones entre la resolución y la uniformidad del brillo en esas áreas. La conferencia también aborda la idea de los puntos de fuga y cómo se pueden usar para calibrar la cámara o determinar la orientación relativa de dos sistemas de coordenadas.

  • 00:55:00 En esta sección de la conferencia, el profesor analiza la proyección de una línea y cómo se puede definir de varias formas, incluso algebraica y geométricamente. Explica que una línea en 3D se puede definir mediante un punto y una dirección usando un vector unitario, y que diferentes puntos en la línea tienen diferentes valores de s. El profesor continúa explicando cómo se puede proyectar esto en la imagen utilizando la proyección en perspectiva, lo que da como resultado una ecuación desordenada con las variables x, y y z. Sin embargo, al hacer s muy grande, la ecuación se puede simplificar y se pueden estudiar los efectos de la calibración de la cámara y los sistemas de imágenes.

  • 01:00:00 En esta sección, el disertante habla sobre los puntos de fuga, que resultan de líneas que convergen en un punto en el plano de la imagen. Estos puntos de fuga se pueden usar para aprender algo sobre la geometría de la imagen, que se puede aplicar en escenarios de la vida real, como advertir a los policías, trabajadores de la construcción y otras personas que pueden estar en peligro debido a un automóvil que se aproxima. La cámara puede determinar la rotación de su sistema de coordenadas centrado en la cámara en relación con la carretera encontrando un punto de fuga. Las líneas paralelas tienen el mismo punto de fuga, lo que significa que si hay una serie de líneas paralelas que forman un rectángulo, se esperan tres puntos de fuga.

  • 01:05:00 En esta sección, el disertante analiza dos aplicaciones del procesamiento de imágenes: encontrar los puntos de fuga para recuperar los parámetros de transformación para la calibración de la cámara y usar objetos de calibración con formas conocidas para determinar la posición de un punto en la cámara centrada. sistema. El ponente explica que encontrar los puntos de fuga permite recuperar el pan y el tilt de la cámara en relación con la dirección de la carretera y el horizonte. La conferencia también cubre la necesidad de recuperar la posición de la lente sobre el plano de la imagen y la altura de la proyección central para una calibración precisa de la cámara. El disertante sugiere usar un objeto de calibración con una forma conocida, como una esfera, para determinar la posición de un punto en el sistema centrado en la cámara.

  • 01:10:00 En esta sección, el disertante analiza las ventajas y desventajas de usar diferentes formas como objetos de calibración para algoritmos de flujo óptico. Mientras que las esferas son relativamente fáciles de hacer y obtener, pueden ser ruidosas y no muy precisas cuando se proyectan en el plano de la imagen. Por otro lado, los cubos tienen ventajas significativas debido a sus ángulos rectos y líneas paralelas, que corresponden a los puntos de fuga. El disertante explica cómo encontrar los puntos de fuga podría ayudar a determinar las proyecciones de imágenes de tres vectores apuntando en 3D a lo largo de las líneas. Esta información se puede utilizar para calibrar los algoritmos de flujo óptico con mayor precisión.

  • 01:15:00 En esta sección, el orador habla sobre cómo encontrar el centro de proyección desconocido, P, usando un objeto de calibración como un cubo y tres vectores: A, B y C. Los tres vectores están en ángulo recto con entre sí, lo que ayuda a crear tres ecuaciones que resuelven las tres incógnitas de P. Sin embargo, los términos de segundo orden en las ecuaciones cuadráticas hacen posible tener múltiples soluciones, que es donde entra en juego el teorema de Zoot. Usando el teorema, el hablante muestra que el número máximo de soluciones es el producto del orden de las ecuaciones. Para simplificar las ecuaciones, el orador las resta por pares, lo que genera tres ecuaciones lineales que se pueden usar para encontrar las incógnitas.

  • 01:20:00 En esta sección, aprendemos que si bien hay tres ecuaciones lineales, no son linealmente independientes y, por lo tanto, solo hay dos soluciones. Las ecuaciones lineales definen planos en el espacio 3D y, cuando se cruzan, dan como resultado una línea que contiene el tercer plano, que no proporciona ninguna información adicional. Esta técnica es útil para calibrar una cámara y encontrar la posición del centro de proyección. Sin embargo, las cámaras reales tienen parámetros de distorsión radial que deben tenerse en cuenta para la calibración de cámaras robóticas reales.
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 5: Demostraciones de TCC y FOR MontiVision, punto de fuga, uso de VP en la calibración de la cámara



Clase 5: Demostraciones de TCC y FOR MontiVision, punto de fuga, uso de VP en la calibración de la cámara

La conferencia cubre varios temas relacionados con la calibración de la cámara, incluido el uso de puntos de fuga en la proyección en perspectiva, la triangulación para encontrar el centro de proyección y el punto principal en la calibración de la imagen y el concepto de matrices normales para representar la rotación en una matriz ortonormal. El disertante también explica las matemáticas para encontrar la distancia focal de una cámara y cómo usar los puntos de fuga para determinar la orientación de una cámara en relación con un sistema de coordenadas mundial. Además, se analiza el uso de TCC y FOR MontiVision Demos, junto con la importancia de comprender la geometría detrás de las ecuaciones para resolver problemas.

La conferencia cubre varios temas relacionados con la visión por computadora, incluida la influencia de la iluminación en el brillo de la superficie, cómo se pueden medir las superficies mate usando dos posiciones de fuente de luz diferentes y el uso del albedo para resolver el vector unitario. La conferencia también analiza el punto de fuga en la calibración de la cámara y un método simple para medir el brillo utilizando tres direcciones de fuente de luz independientes. Por último, el ponente aborda la proyección ortográfica como alternativa a la proyección en perspectiva y las condiciones necesarias para utilizarla en la reconstrucción de superficies.

  • 00:00:00 En esta sección, el orador demuestra el uso de TCC y FOR MontiVision Demos en una cámara web apuntando a un teclado. Discuten la importancia de los cálculos del tiempo de contacto y los factores que afectan esos cálculos. El orador también analiza el concepto de puntos de fuga en la proyección en perspectiva y cómo se pueden utilizar en la calibración de la cámara. Explican la ecuación para los cálculos del tiempo de contacto y cómo el signo de dzdt afecta la imagen de los objetos en movimiento.

  • 00:05:00 En esta sección, el disertante analiza el concepto de un punto de fuga en la calibración de la cámara, que es el punto en el plano de la imagen donde una línea paralela especial pasa por el centro de proyección. Las otras líneas paralelas también tienen puntos de fuga y, a medida que se alejan, su proyección sobre la imagen se acerca más a la proyección de la línea especial. Este concepto permite determinar las relaciones entre los sistemas de coordenadas y la calibración de la cámara, lo cual es útil para el reconocimiento de objetos en aplicaciones de visión artificial. El disertante proporciona un ejemplo de un mundo de objetos rectangulares con conjuntos de líneas paralelas que definen un sistema de coordenadas, que se puede proyectar en el plano de la imagen para la calibración.

  • 00:10:00 En esta sección, el ponente habla sobre los puntos de fuga y su uso en la calibración de cámaras. El orador explica que hay tres puntos de fuga que se pueden determinar con precisión extendiendo líneas paralelas, y estos puntos se pueden usar para encontrar el centro de proyección. El centro de proyección es donde se establece la relación entre el sistema de coordenadas en el objeto y el sistema de coordenadas en el plano de la imagen. Al conectar el centro de proyección a los puntos de fuga en el plano de la imagen, se pueden crear tres vectores, y estos vectores se pueden usar para encontrar el punto donde las direcciones a los puntos de fuga son ángulos rectos entre sí. El hablante señala que el lugar geométrico de todos los lugares en los que podría estar desde donde los puntos de fuga estarán en ángulo recto entre sí es un círculo.

  • 00:15:00 En esta sección, el disertante analiza la versión 3D de TCC y la calibración de la cámara. Explica que la restricción sobre la posición del centro de proyección es que se encuentra en una esfera y cómo usar esferas para reducir las posibilidades del centro de proyección. Luego, el disertante analiza ecuaciones lineales y líneas rectas, así como la parametrización de líneas rectas a través de theta y rho. La parametrización es útil porque evita singularidades y proporciona un mundo de dos grados de libertad para las líneas.

  • 00:20:00 En esta sección, el disertante discute la representación de planos en tres dimensiones usando ecuaciones lineales con tres incógnitas. Explica que en realidad solo hay tres grados de libertad, en lugar de cuatro, debido a un factor de escala. Esta dualidad significa que existe un mapeo entre planos y puntos en 3D, similar al mapeo entre líneas y puntos en 2D. A continuación, el disertante introduce el problema de la calibración de cámaras, comparándolo con el problema de la multilateración en robótica, que consiste en la intersección de tres esferas.

  • 00:25:00 En esta sección, el orador explica cómo resolver el punto de intersección de dos esferas en el espacio 3D. La primera esfera se define como una ecuación con términos de segundo orden, lo que podría dar como resultado hasta ocho soluciones posibles. Sin embargo, al restar esta ecuación de una segunda esfera, se puede obtener una ecuación lineal en su lugar. Al repetir este proceso para todos los pares de esferas, se pueden crear tres ecuaciones lineales, con tres incógnitas que luego se pueden resolver. Si bien esto parece una solución perfecta, es importante tener en cuenta que la matriz creada por este método a menudo es singular y, por lo tanto, no es única en su solución.

  • 00:30:00 En esta sección, el orador analiza el tema de la manipulación de ecuaciones y la pérdida de información importante en el proceso. Él explica que, si bien está perfectamente bien derivar nuevas ecuaciones, se debe tener cuidado de no desechar las ecuaciones originales, ya que aún pueden contener información crucial necesaria para resolver el problema. Él demuestra esto usando el ejemplo de ecuaciones lineales y cuadráticas, y cómo algunas ecuaciones pueden descartarse mientras que otras deben conservarse para obtener el número deseado de soluciones. El orador también destaca la importancia de comprender la geometría detrás de las ecuaciones, ya que puede proporcionar información valiosa que puede no ser evidente de inmediato solo con el álgebra.

  • 00:35:00 En esta sección de la transcripción, el orador analiza la triangulación y cómo encontrar el centro de proyección y el punto principal en la calibración de la imagen. Explican que el centro de proyección se puede encontrar utilizando tres puntos conocidos, lo que produce tres planos, y el centro se puede encontrar en su intersección. Para encontrar el punto principal, dejan caer la perpendicular desde el centro de proyección al plano de la imagen. También analizan los puntos de fuga que se pueden utilizar para detectar si una imagen se ha modificado o recortado.

  • 00:40:00 En esta sección, el disertante analiza el uso de puntos de fuga en fotogrametría y calibración de cámaras. Explica cómo se pueden usar los puntos de fuga para determinar la autenticidad de las imágenes y explora los diversos engaños relacionados con la exploración. Luego profundiza en las matemáticas para encontrar el tercer componente de un vector y resolver una ecuación cuadrática para determinar la distancia focal. Continúa explicando un caso especial en el que se puede determinar la distancia focal sin necesidad de resolver una ecuación cuadrática. El video es parte de una serie de conferencias sobre los aspectos técnicos de la visión artificial.

  • 00:45:00 En esta sección, el orador analiza la aplicación de los puntos de fuga en la calibración de la cámara específicamente para determinar la orientación de una cámara en relación con un sistema de coordenadas mundial. El ponente explica que al identificar características como el bordillo y las marcas viales en la imagen, que supuestamente son paralelas, pueden producir un punto de fuga que se puede reconocer en la imagen. El orador también explica que en el caso ideal donde los tres puntos de fuga están disponibles, los bordes del objeto rectangular capturado por la cámara se pueden usar para definir los ejes x e y y posteriormente determinar la rotación entre el sistema de coordenadas de la cámara y el sistema de coordenadas mundial.

  • 00:50:00 En esta sección, el orador explica el proceso de encontrar los vectores unitarios en el sistema de coordenadas del objeto medido en el sistema de coordenadas de la cámara. Los vectores unitarios deben estar en ángulo recto entre sí y luego se utilizan para calcular las demostraciones de TCC y FOR MontiVision. La matriz de transformación representa la orientación de un sistema de coordenadas en relación con el otro, y el orador dice que harán más de esto en el futuro.

  • 00:55:00 En esta sección, el disertante discute el concepto de una matriz normal, donde las filas son perpendiculares entre sí, y la magnitud de cada fila es uno. El propósito de esto es representar la rotación en una matriz ortonormal. Al determinar la dirección de los ejes de coordenadas en el objeto, es relativamente fácil alternar entre dos sistemas de coordenadas, lo que es particularmente útil para la calibración de la cámara. Finalmente, la conferencia toca el concepto de brillo, donde el brillo observado depende de la superficie del material, la fuente de luz, los ángulos incidente y emergente, y los ángulos de acimut.

  • 01:00:00 En esta sección del video, el orador analiza el concepto de iluminación y cómo afecta el brillo aparente de las superficies. Explican que la potencia que obtiene una superficie de una fuente de luz se ve afectada por el ángulo en el que se inclina la superficie en relación con la dirección de la fuente de luz, que se puede calcular usando el coseno del ángulo. Luego, el orador introduce la idea de una superficie mate, que refleja la luz en varias direcciones pero tiene la propiedad especial de que parece igualmente brillante desde cualquier dirección. Continúan discutiendo cómo determinar la orientación de dicha superficie midiendo su brillo con dos posiciones de fuente de luz diferentes.

  • 01:05:00 En esta sección, el orador analiza la no linealidad involucrada en la resolución de n, que es un vector unitario. Mediante el uso de medidas de brillo, se puede estimar el coseno theta i y se puede determinar el cono de posibles direcciones de la superficie normal. Si se toman dos medidas separadas, se crean dos conos de direcciones, y solo la intersección de esos conos, que consta de dos direcciones posibles, da una dirección normal. Sin embargo, la restricción de que tiene que ser una normal unitaria significa que esas dos direcciones posibles ahora deben intersecarse con una esfera unitaria para tomar una determinación final. El orador explica que al usar el albedo, que define la reflectividad de una superficie, se puede crear un problema de ecuación lineal para determinar qué tan brillante es algo en el plano de la imagen. El valor del albedo varía de cero a uno e indica la cantidad de energía que entra en un objeto que se refleja frente a la cantidad que se absorbe y se pierde.

  • 01:10:00 En esta sección, la conferencia analiza el uso del punto de fuga (VP) en la calibración de la cámara. La lección presenta un vector de tres que encapsula las incógnitas y resuelve el albedo y el vector unitario a través de la multiplicación matricial del vector con las posiciones de la fuente de luz. Sin embargo, este método tiene limitaciones cuando las fuentes de luz son coplanares, es decir, están en el mismo plano, o si dos filas de la matriz son iguales, en cuyo caso es imposible invertir la matriz. La conferencia también señala las implicaciones de estas limitaciones para los astrónomos, ya que deben asegurarse de que las fuentes de luz no estén en el mismo plano.

  • 01:15:00 En esta sección, el orador analiza un método simple para medir el brillo utilizando tres direcciones de fuentes de luz independientes, que se pueden precalcular e implementar de manera eficiente. Se sugiere que explotar los tres conjuntos de sensores en una cámara (RGB) puede ser útil para este propósito. Se puede crear una tabla de búsqueda para calibrar superficies en función de la forma conocida de una esfera y se puede calcular la orientación de la superficie para medir el brillo en tres imágenes. Sin embargo, las superficies reales no siguen esta regla simple y se puede usar una tabla de búsqueda para invertir los valores numéricos para la orientación de la superficie. Por último, el ponente toca la proyección ortográfica como alternativa a la proyección en perspectiva.

  • 01:20:00 En esta sección, el ponente explica las condiciones necesarias para utilizar la proyección ortográfica en la reconstrucción de superficies a partir de imágenes. Él comparte que la suposición se basa en que el rango de profundidad es muy pequeño en comparación con la profundidad misma, lo que permite la ampliación constante que se requiere para esta proyección. La proyección ortográfica se utiliza para la simplificación en el proceso de reconstrucción de superficies a partir de imágenes.
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 6: Estéreo fotométrico, ganancia de ruido, amplificación de errores, revisión de valores propios y vectores propios



Clase 6: Estéreo fotométrico, ganancia de ruido, amplificación de errores, revisión de valores propios y vectores propios

A lo largo de la conferencia, el orador explica los conceptos de ganancia de ruido, valores propios y vectores propios al resolver sistemas de ecuaciones lineales en estéreo fotométrico. La conferencia discute las condiciones para matrices singulares, la relevancia de los valores propios en el análisis de errores y la importancia de la independencia lineal para evitar matrices singulares. La conferencia concluye con una discusión sobre la Ley de Lambert y la orientación de la superficie, y destaca la necesidad de representar superficies usando un vector unitario normal o puntos en una esfera unitaria. En general, la conferencia brinda información sobre los principios matemáticos que subyacen al estéreo fotométrico y destaca los desafíos de recuperar con precisión la topografía de la luna a partir de mediciones terrestres.

En la lección 6 de un curso de fotografía computacional, el orador analiza cómo usar el vector unitario normal y los gradientes de una superficie para encontrar la orientación de la superficie y trazar el brillo en función de la orientación de la superficie. Explican cómo usar la parametrización pq para mapear posibles orientaciones de superficie y muestran cómo se puede usar un plano de pendiente para trazar el brillo en diferentes ángulos de orientación. El orador también analiza cómo reescribir el producto escalar del vector unitario de la fuente de luz y el vector unitario normal en términos de los gradientes para encontrar las curvas en el espacio pq donde esa cantidad es constante. La conferencia termina con una explicación de cómo los conos creados al girar la línea hacia la fuente de luz se pueden usar para encontrar secciones cónicas de diferentes formas.

  • 00:00:00 En esta sección del video, el disertante analiza la ganancia de ruido en el caso 1D, donde hay una incógnita y una medición, y explica que si la curva tiene una pendiente baja, un pequeño error se puede amplificar en un gran área. Pasando al caso 2D, la discusión cambia a los vectores propios y los valores propios, que son característicos de una matriz e indican si el vector obtenido al multiplicar la matriz apunta en la misma dirección que el vector que se usó para multiplicar la matriz. El disertante proporciona detalles sobre cómo encontrar estos vectores y cuántos hay, afirmando que el tamaño y la escala de los vectores no importan, y que puede haber más de un vector propio.

  • 00:05:00 En esta sección, el disertante discute el concepto de matriz singular y su relevancia en la resolución de sistemas de ecuaciones lineales. Una matriz singular es aquella en la que el determinante es cero. Para una matriz simétrica real de n por n, el determinante es un polinomio de n-ésimo orden en lambda, con n raíces. Esto significa que en el caso de un conjunto homogéneo de ecuaciones, hay múltiples soluciones, en lugar de una solución única, si el determinante es cero. Esto es importante cuando se trata de problemas multidimensionales, como la recuperación del mouse óptico, donde el error en ciertas direcciones puede ser diferente de otras direcciones. Por lo tanto, se necesita una imagen más matizada más allá de la simple identificación de un pequeño determinante como problemático.

  • 00:10:00 En esta sección de la conferencia, el orador analiza las ecuaciones homogéneas y sus propiedades interesantes, incluida la condición para que un conjunto de ecuaciones homogéneas tenga una solución no trivial. También se discute el determinante de la matriz, así como los valores propios y los vectores propios. Los vectores propios serán direcciones especiales en las que se cumple la propiedad de los valores propios, y serán ortogonales. Los valores propios determinarán cuánto se amplificará el error, lo cual es importante para medir el error en la práctica. Aunque la búsqueda de valores propios y vectores propios para matrices grandes a menudo se realiza mediante software, es útil comprender el proceso a un nivel básico.

  • 00:15:00 En esta sección, el orador analiza los vectores propios y los valores propios en la resolución de ecuaciones homogéneas para un caso de 2x2. Para encontrar vectores propios, el hablante muestra que las soluciones deben ser perpendiculares a las filas de la matriz. El resultado da cuatro vectores propios que apuntan en la misma dirección para diferentes valores de lambda, y pueden normalizarse para obtener vectores propios unitarios. La técnica se puede extender a una matriz n por n, que proporciona n vectores propios y valores propios correspondientes para analizar la amplificación de errores.

  • 00:20:00 En esta sección, el disertante explica cómo extender la notación del producto escalar a las matrices y muestra que si los valores propios son todos diferentes, entonces todos los vectores propios son ortogonales. También menciona que si algunas de las raíces son iguales, esto no obliga a que los vectores propios sean ortogonales, pero puede seleccionar dos de todos los vectores propios posibles que sean ortogonales entre sí. Esto ayuda a construir una base para el espacio vectorial. El disertante también habla sobre cómo pensar en los vectores como vectores columna o matrices delgadas y muestra cómo el producto escalar se puede escribir de ambas formas.

  • 00:25:00 En esta sección, el disertante analiza los vectores propios y cómo pueden usarse para reexpresar cualquier vector en términos de ellos. Al tomar una medida vectorial arbitraria y multiplicar la matriz por esa medida para obtener variables desconocidas, los diferentes componentes se pueden ampliar en diferentes cantidades a lo largo de las direcciones especiales de los vectores propios. Esto se conoce como la ganancia de error. Sin embargo, también están tratando con problemas inversos donde se usa la matriz inversa, por lo que el disertante introduce el producto diádico de n vectores para aplicar la idea.

  • 00:30:00 En esta sección, el orador habla sobre vectores propios y valores propios, y cómo se pueden usar para reescribir una matriz de varias maneras. Explican que todos estos términos son dependientes, pero los vectores propios no lo son, por lo que pueden factorizarse. Continúan discutiendo cómo se puede usar este enfoque para verificar las propiedades de los valores propios y por qué esto es importante para resolver un problema de visión. Específicamente, explican que la matriz utilizada para resolver este problema a menudo multiplica componentes de la señal por 1 sobre lambda i, por lo que si lambda i es pequeña, puede crear un problema mal planteado que no es estable.

  • 00:35:00 En esta sección, el disertante analiza los vectores propios y los valores propios en el contexto del análisis de errores. Explica que si uno de los vectores propios tiene un valor propio pequeño, incluso un pequeño error en la medición puede provocar un gran cambio en el resultado. La dirección de la isófota corresponde al vector propio con un valor propio pequeño, lo que dificulta la detección precisa del movimiento, mientras que la dirección del gradiente es más tolerante. Luego, el disertante pasa a hablar sobre el estéreo fotométrico, una técnica para recuperar la orientación de la superficie tomando múltiples fotografías de un objeto bajo diferentes condiciones de iluminación. Explica que el parámetro de albedo se utiliza para describir la cantidad de luz que refleja la superficie y que puede ayudar a restringir la orientación de la superficie.

  • 00:40:00 En esta sección, el disertante explica el proceso de usar diferentes fuentes de luz para obtener tres medidas para que se pueda introducir un problema con tres incógnitas y tres medidas. Esto permite eliminar la ambigüedad de la orientación de la imagen mediante el uso de métodos de resolución de ecuaciones lineales, lo que da como resultado una forma sencilla y económica de calcular la solución. El disertante señala que encontrar las dos soluciones surge de una cuadrática, que se puede evitar usando la notación de producto escalar para convertir el vector unitario en un 3-vector arbitrario. Además, el video menciona la importancia de filas linealmente independientes para evitar matrices singulares.

  • 00:45:00 En esta sección de la conferencia, se discuten el estéreo fotométrico, la amplificación de errores y los valores y vectores propios. Se explora la redundancia de las mediciones cuando la suma de las fuentes de luz es cero y se muestra que si tres vectores en el espacio tridimensional son coplanares, entonces el método fallará. Sin embargo, si no son coplanares y se colocan en ángulo recto entre sí, los resultados serán más fiables. La conferencia también hace referencia al uso de estéreo fotométrico para crear mapas topográficos de la luna basados en diferentes iluminaciones del sol.

  • 00:50:00 En esta sección de la conferencia, el profesor analiza los desafíos de tratar de obtener la topografía de la luna a partir de mediciones terrestres. Aunque es posible tomar medidas en diferentes posiciones en la órbita de la luna, este método no funciona porque los vectores son casi coplanares. El profesor también habla sobre el supuesto lambertiano, que supone que un objeto tiene una reflectancia perfectamente difusa y uniforme, pero señala que no es el caso de la superficie de la luna. Sin embargo, esta suposición es útil para comparar dos intensidades de iluminación, lo que se puede lograr iluminando un lado con una fuente y el otro lado con otra fuente y luego equilibrándolo para que los dos lados parezcan igualmente brillantes cuando se miran desde el mismo ángulo.

  • 00:55:00 En esta sección de la conferencia, el profesor analiza los experimentos realizados por Lambert que llevaron al descubrimiento de la Ley de Lambert, que explica cómo las superficies reflejan la luz cuando se iluminan desde diferentes ángulos. La ley establece que el brillo es proporcional al coseno del ángulo de incidencia. La discusión también destaca la necesidad de hablar sobre la orientación de la superficie y cómo se puede representar utilizando un vector normal unitario o mediante puntos en una esfera unitaria. El profesor menciona que este modelo fenomenológico es un comportamiento postulado y no una representación exacta de superficies reales. La sección termina con la introducción de una expansión de la serie de Taylor.
  • 01:00:00 En esta sección del video, el orador analiza la relación entre la notación normal unitaria y la notación de gradiente en problemas computacionales. Explican cómo alternar entre las dos notaciones y dan ejemplos de cómo esto es útil para resolver problemas en diferentes dominios, como coordenadas cartesianas y coordenadas polares. El orador también muestra cómo encontrar tangentes en una superficie y explica cómo usar la dirección de esas tangentes para encontrar la relación entre la unidad normal y p y q, que representan los gradientes en la superficie.

  • 01:05:00 En esta sección, el disertante analiza cómo mapear todas las orientaciones de superficie posibles usando el vector unitario normal de la superficie, y cómo esta información es útil para la visión artificial. El producto vectorial de dos vectores tangentes que se encuentran en la superficie da la dirección del vector unitario normal, que luego se puede normalizar para obtener la dirección de la superficie. Al proyectar las orientaciones de la superficie en un plano 2D utilizando la parametrización pq, se pueden visualizar todas las orientaciones de la superficie posibles. Los puntos en este plano corresponden a diferentes valores de p y q y, por lo tanto, a diferentes orientaciones de la superficie, incluido el piso y cualquier superficie sobre el piso con la misma orientación. El disertante señala que aunque la visión artificial puede recuperar la orientación de la superficie, juntar estas orientaciones para hacer una superficie completa es un problema separado pero sobredeterminado.

  • 01:10:00 En esta sección del video, el orador explica cómo se puede usar un plano de pendiente como herramienta para trazar el brillo en función de la orientación de la superficie en la visión artificial. Cada punto en el plano corresponde a una orientación de superficie particular, y los valores de brillo se pueden determinar experimentalmente a partir de un parche de material en diferentes ángulos de orientación. Sin embargo, una sola medida de brillo no puede recuperar dos incógnitas y se necesitan varias medidas para precisar la orientación del elemento de la superficie. Este concepto se relaciona luego con el estéreo fotométrico y la superficie lambertiana, donde el brillo es proporcional al coseno del ángulo de incidencia y se buscan isófotas en el plano de pendiente.

  • 01:15:00 Aquí habla de reescribir la dirección de la fuente de luz de una manera diferente para realizar completamente la misma transformación en el vector unitario que en n. Esto introduce un punto donde los rayos de luz incidentes son paralelos a la superficie normal, llamado psqs, que está en el plano y proporciona la superficie más brillante para el Lamborghini. Al reescribir los n puntos en una forma específica, pueden determinar las curvas en el espacio pq donde esa cantidad es constante. Después de multiplicarlo todo, les queda una ecuación de segundo orden en p y q, que corresponde a una sección cónica. Los ejemplos dados son parábola y elipse.

  • 01:20:00 En esta sección, el orador analiza un diagrama que se puede usar para gráficos, donde se traza una superficie junto con un diagrama que contiene un conjunto de isofoads para varios tipos de superficies, incluidas parábolas, elipses, círculos, líneas , puntos e hipérbolas. El brillo de la superficie se lee del diagrama y se utiliza como nivel de gris o color en la imagen trazada. La normal unitaria puede obtenerse de la superficie y usarse para determinar el punto en las isofáreas. El diagrama cambia cuando se mueve la fuente de luz, por lo que es importante determinar el punto de intersección de dos conjuntos de isofoads para obtener una solución única. Se utilizan tres fuentes de luz en lugar de dos, ya que tener dos fuentes de luz puede dar como resultado soluciones finitas en lugar de una única solución.

  • 01:25:00 En esta sección, el orador explica cómo se puede girar la línea hacia la fuente de luz para crear conos y diferentes ángulos, creando conos anidados. Estos conos pueden ser cortados por un plano, dando como resultado secciones cónicas que no siempre son elipses, sino también hipérbolas e incluso parábolas. El orador también aclara que el coseno theta no puede ser negativo en la práctica y deja la cuestión de dónde pasa la curva de ser una curva cerrada a abierta como un rompecabezas para futuros problemas de tarea. La conferencia concluye con un recordatorio para registrarse en Piazza para tareas y actualizaciones de anuncios.
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 7: Espacio de gradiente, Mapa de reflectancia, Ecuación de irradiación de imagen, Proyección gnomónica



Clase 7: Espacio de gradiente, Mapa de reflectancia, Ecuación de irradiación de imagen, Proyección gnomónica

Esta lección trata sobre el espacio de gradiente, los mapas de reflectancia y las ecuaciones de irradiación de imágenes. El disertante explica cómo usar un mapa de reflectancia para determinar la orientación y el brillo de la superficie para aplicaciones gráficas, y cómo crear un mapeo numérico desde la orientación de la superficie hasta el brillo usando tres fotografías tomadas bajo diferentes condiciones de iluminación. También introducen el concepto de irradiancia y su relación con la intensidad y la radiancia, así como la importancia de utilizar una apertura finita al medir el brillo. Además, la conferencia aborda las tres reglas de cómo se comporta la luz después de pasar a través de una lente, el concepto de escorzo y cómo la lente enfoca los rayos para determinar qué cantidad de luz de un parche en la superficie se concentra en la imagen.

En esta conferencia, el orador explica la ecuación para determinar la potencia total entregada a un área pequeña en una imagen, que tiene en cuenta ángulos sólidos y coseno theta. Relacionan esta ecuación con el f-stop en las cámaras y cómo el tamaño de la apertura controla la cantidad de luz recibida. El orador también analiza la irradiación de la imagen, que es proporcional a la radiación de los objetos en el mundo real, y cómo el brillo disminuye a medida que nos alejamos del eje. Continúan discutiendo la función de distribución de reflectancia bidireccional, que determina qué tan brillante aparecerá una superficie según la dirección incidente y emitida. El disertante explica que la reflectancia se puede medir usando un goniómetro y que es importante modelar de manera realista cómo un objeto refleja la luz. También explican el concepto de reciprocidad de Helmholtz para la función de distribución de reflectancia bidireccional. Luego, la conferencia pasa a discutir la aplicación del espacio degradado a los modelos de materiales de superficie y les recuerda a los estudiantes que se mantengan actualizados sobre la información de la tarea.

  • 00:00:00 En esta sección, se introduce el concepto de espacio degradado para explorar qué determina el brillo en una imagen. El brillo generalmente depende de la iluminación y la geometría, como la orientación de la superficie, por lo que es necesario mencionar la orientación del parche de superficie para determinar el brillo. También se mencionan las unidades normales y p y q, que son solo abreviaturas convenientes para las pendientes en la imagen. El brillo de una superficie Lambertiana es discutible, dependiendo de la orientación de la superficie en cuestión. Muchas superficies mate son aproximaciones de una superficie lambertiana y tales aproximaciones pueden parecer útiles. Sin embargo, la mayoría de las situaciones cósmicas y microscópicas no son apropiadas para tales aproximaciones.

  • 00:05:00 En esta sección de la conferencia, el orador discute el concepto del mapa de reflectancia, un diagrama que muestra qué tan brillante se supone que debe verse una superficie en función de su orientación. Este diagrama se puede utilizar para determinar la orientación de la superficie y el brillo para aplicaciones gráficas. Luego, el orador continúa explicando cómo este concepto se puede extender a superficies no lambertianas y cómo construir una tabla de búsqueda para determinar el brillo en función de la orientación de la superficie. Se puede utilizar información y restricciones adicionales para refinar aún más la estimación de la orientación de la superficie.

  • 00:10:00 En esta sección, el disertante explica cómo utilizar un objeto de calibración, como una esfera, para la calibración de imágenes. Tomando una imagen de una esfera iluminada desde todos los lados y ajustándole un círculo, se puede estimar el centro y el radio de la imagen. Para esferas, existe una relación conveniente donde un punto a la superficie y un vector unitario son paralelos, lo que facilita determinar la orientación de la superficie. Este método también se puede utilizar para la Tierra, con algunas modificaciones a la definición de latitud. Al calcular p y q usando la fórmula de la lección anterior, se puede determinar n y la orientación de la superficie para cada punto de la imagen.

  • 00:15:00 En esta sección, la conferencia analiza el proceso de construcción de un mapeo numérico desde la orientación de la superficie hasta el brillo en tres imágenes tomadas bajo diferentes condiciones de iluminación. El objetivo es utilizar esta información para calcular la orientación de la superficie al tomar más tarde tres imágenes de un objeto bajo las mismas condiciones de iluminación. El disertante explica la implementación de este proceso, que consiste en crear una matriz tridimensional en la computadora donde cada casilla tiene valores p y q. Luego, las imágenes se cuantifican en intervalos discretos y se usan para colocar información en la matriz. La conferencia también aborda cuestiones como los efectos de cuantización y las celdas vacías que tal vez nunca se llenen.

  • 00:20:00 En esta sección, el orador explica Gradient Space, que es un espacio 2D que se mapea en un espacio 3D sin realmente llenar ese espacio. En su lugar, se forma una superficie en ese espacio, y podemos direccionar puntos en esa superficie usando p y q. Cuando pasamos de dos imágenes a tres, introducimos el factor de albedo, que escala linealmente con e1 e2 e3. Los objetos de calibración se pintan de blanco y se realizan mediciones, generando definiciones de la superficie para rho igual a uno. Sin embargo, para otras filas, podemos rellenar los cubos y generar otras superficies. La tabla de búsqueda donde se colocan las entradas incluye pqand fila, una tabla de búsqueda de 3D a 3D. Si algo sale mal, se refleja como un valor diferente al del albedo rho, lo que indica un error o un bloqueo inesperado de una de las tres fuentes de luz. El método ayuda a reconocer la proyección de sombras o, en el caso de superficies reflectantes que están demasiado cerca o colocadas como formas de donas superpuestas, segmentar y dividir la imagen en partes.

  • 00:25:00 En esta sección de la conferencia, el orador analiza las formas de segmentar las sombras proyectadas y las áreas de alta reflexión utilizando el espacio de gradiente y los mapas de reflectancia. Existe una forma metódica de completar los valores de la tabla con los valores de vóxel correspondientes. El orador también presenta el concepto de irradiancia, que es la potencia por unidad de área de una fuente de luz que incide sobre una superficie. Este concepto no es muy útil en el contexto del procesamiento de imágenes, ya que no estamos exponiendo el sensor directamente a la iluminación. El ponente explica que existe una terminología para la cantidad de potencia emitida dividida por área, pero es inútil para el procesamiento de imágenes.

  • 00:30:00 En esta sección, el ponente explica el concepto de intensidad y su significado en términos de medir la cantidad de radiación que va en una determinada dirección utilizando una fuente puntual. El ángulo sólido se define para normalizar la medida, y sus unidades se miden en estereorradianes, que es similar a los radianes en 2D pero proyectados en tres espacios. El ángulo sólido permite la medición de un conjunto de direcciones en cualquier forma, donde las direcciones posibles alrededor del altavoz equivalen a cuatro pisterradianes. Además, el orador menciona la importancia de tener en cuenta los casos en los que el área de la superficie está inclinada en relación con el centro de la esfera debido al fenómeno de escorzo del objeto, como cuando la lente de una cámara está inclinada en relación con un sujeto descentrado.

  • 00:35:00 En esta sección del video, se explica el concepto de intensidad y resplandor. La intensidad se define como la potencia de un ángulo sólido, mientras que la radiancia es la potencia por unidad de área por unidad de ángulo sólido. La radiación es la cantidad más útil cuando se trata de medir lo que llega a un observador o cámara desde una superficie. En el plano de la imagen, el brillo se mide como irradiancia, que es el brillo que medimos en términos de la radiación de la superficie.

  • 00:40:00 En esta sección, el disertante analiza la relación entre medir energía y potencia, y cómo son proporcionales entre sí. También habla sobre la importancia de usar una apertura finita al medir el brillo y los problemas que surgen al usar el modelo estenopeico. El disertante presenta la lente delgada ideal y sus tres reglas, incluido el rayo central que no se desvía y el rayo del centro focal que emerge paralelo al eje óptico. Explica cómo las lentes brindan la misma proyección que el agujero de alfiler mientras brindan un número finito de fotones, y la penalización por usarlos a una cierta distancia y distancia focal.

  • 00:45:00 En esta sección, el video explica las tres reglas de cómo se comporta la luz después de pasar a través de una lente. La regla número uno afirma que cualquier rayo procedente del centro focal, después de atravesar la lente, será paralelo al eje óptico. La regla número dos establece que una matriz paralela desde la derecha pasará por el centro focal. Finalmente, la regla número tres es una combinación de las dos primeras reglas. El video usa triángulos similares para derivar la fórmula de la lente, que permite determinar el enfoque y la longitud de la lente. Aunque las lentes son impresionantes computadoras analógicas que pueden redirigir los rayos de luz, no pueden lograr una redirección perfecta debido a las limitaciones físicas de la lente.

  • 00:50:00 En esta sección, el video analiza cómo las lentes manejan los rayos provenientes de varias direcciones y cómo existen compensaciones entre diferentes tipos de defectos, como la distorsión radial. El video también explica el concepto de irradiación y radiación de objetos, y cómo se puede usar un diagrama de un sistema de imágenes simple para determinar cuánta energía proviene de un parche de objeto y cuánto termina en un parche de imagen a través de la iluminación. Además, el video señala la suposición de que en las cámaras se utilizan lentes y planos de imagen planos.

  • 00:55:00 En esta sección de la conferencia, el orador explica cómo relacionar el efecto de escorzo del vector unitario en la superficie de un objeto con la luz incidente en el sensor de imagen. Escribe una fórmula para el ángulo sólido y tiene en cuenta el efecto de escorzo al multiplicar por el coseno alfa y dividir por f secante alfa al cuadrado. Luego relaciona la irradiancia en la imagen con la energía total que sale de ese parche y el área delta i. Finalmente, habla sobre cómo la lente enfoca los rayos y cómo el ángulo sólido que ocupa la lente cuando se ve desde el objeto determina la cantidad de luz de ese parche en la superficie que se concentra en la imagen.
  • 01:00:00 En esta sección de la conferencia, el orador explica la ecuación de la potencia total entregada a un área pequeña en una imagen, que tiene en cuenta el ángulo sólido y el coseno theta. Luego, la potencia por unidad de área se encuentra dividiendo la potencia total por el área, que es lo que realmente se mide. El orador también relaciona esta ecuación con el f-stop en las cámaras, que determina qué tan abierta está la apertura y, por lo tanto, controla la cantidad de luz recibida. El tamaño de la apertura generalmente se mide en pasos de raíz cuadrada de 2, y la irradiancia de la imagen es inversamente proporcional al cuadrado del f-stop.

  • 01:05:00 En esta sección, el orador explica cómo la irradiancia de la imagen, que es el brillo de la imagen, es proporcional a la radiancia de los objetos en el mundo real. El brillo de la radiación de la superficie es proporcional al brillo de la radiación de la imagen, lo que nos facilita medir el brillo de la imagen. Sin embargo, el brillo disminuye a medida que nos salimos del eje, representado por el coseno al cuarto alfa, lo que debe tenerse en cuenta al usar una lente gran angular. Aunque este efecto no es muy notorio, se puede compensar en la cadena de procesamiento de la imagen. Esta fórmula justifica la idea de medir el brillo usando niveles de gris en la imagen y demuestra que tiene algo que ver con lo que hay en el mundo real.

  • 01:10:00 En esta sección, el disertante explica el concepto de función de distribución de reflectancia bidireccional, que determina qué tan brillante aparecerá una superficie dependiendo de la dirección incidente y emitida. El disertante revela que la relación de reflectancia no es tan simple como decir que el blanco refleja toda la luz que entra y el negro no refleja nada. El disertante también discutió el uso habitual de ángulos polares y acimutales para especificar la dirección de entrada o salida de la luz. La función de distribución de reflectancia bidireccional es esencial para determinar la reflectancia y mide la potencia que sale dividida por la potencia que entra.

  • 01:15:00 En esta sección de la conferencia, el orador analiza la reflectancia, que se define como el brillo que aparece un objeto cuando se ve desde una posición específica, dividido por la cantidad de energía que se inyecta desde la dirección de la fuente. El orador explica que la reflectancia se puede medir con un goniómetro, que es un dispositivo de medición de ángulos que ayuda a explorar un espacio de cuatro dimensiones. El orador señala que muchas superficies solo requieren la diferencia entre dos ángulos para medir con precisión la reflectancia, lo que simplifica el proceso para ciertos objetos. Es importante modelar de manera realista cómo un objeto refleja la luz, y medir la reflectancia permite este modelado realista en lugar de simplemente aproximarse a un modelo conocido.

  • 01:20:00 En esta sección, el profesor analiza los materiales que requieren el modelo de cuatro dimensiones completo para calcular su apariencia, como elementos iridiscentes con microestructuras que producen color a través de la interferencia y piedras semipreciosas como los ojos de tigre, que tienen microestructuras empaquetadas en la escala de la longitud de onda de la luz. El profesor también introduce el concepto de reciprocidad de Helmholtz para la función de distribución de reflectancia bidireccional, que establece que si intercambias la luz incidente y la emitida, deberías obtener el mismo valor, lo que facilita la recopilación de datos.

  • 01:25:00 En esta sección, el orador analiza una técnica utilizada por un profesor durante un debate. El orador inicialmente pensó que el profesor estaba resaltando su falta de conocimiento al hacer referencia a un libro en alemán, pero luego se dio cuenta de que era solo una técnica de debate. Luego, la conferencia pasa a discutir la aplicación del espacio degradado a los modelos de materiales de superficie para determinar el tono de la superficie en objetos como la luna y los planetas rocosos de nuestro sistema solar. El orador también recuerda a los estudiantes que se mantengan actualizados sobre cualquier extensión o información importante sobre la tarea a través de Piazza.
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lección 8: Sombreado, Casos Especiales, Superficie Lunar, Microscopio Electrónico de Barrido, Teorema de Green




Lección 8: Sombreado, Casos Especiales, Superficie Lunar, Microscopio Electrónico de Barrido, Teorema de Green

En esta conferencia, el profesor cubre varios temas relacionados con la fotometría y el sombreado. Explica la relación entre irradiancia, intensidad y radiancia y cómo se miden y relacionan. La conferencia también presenta la función de distribución de reflectancia bidireccional (BRDF) para explicar cómo la iluminación afecta la orientación y el material de una superficie. El disertante analiza además las propiedades de una superficie lambertiana ideal y sus implicaciones para medir la luz entrante y evitar confusiones cuando se trata de la reciprocidad de Helmhotz. La conferencia también cubre el proceso de conversión de gradiente a vector unitario y cómo se relaciona con la posición de la fuente de luz. Finalmente, la conferencia explica cómo la medición del brillo puede determinar la inclinación o la dirección de la pendiente de una superficie.

La conferencia cubre varios temas relacionados con la óptica y la visión artificial. El profesor analiza el uso de técnicas de forma a partir del sombreado para obtener un perfil de la superficie de un objeto para determinar su forma. Luego pasa a hablar de lentes y justifica el uso de la proyección ortográfica. El disertante también habla sobre la eliminación de la proyección de perspectiva en la visión artificial mediante la construcción de lentes telecéntricos y demuestra varios trucos para compensar las aberraciones debidas a la variación del índice de refracción del vidrio con las longitudes de onda. Finalmente, el disertante introduce el concepto de proyección ortográfica, que simplifica algunos de los problemas asociados con la proyección en perspectiva.

  • 00:00:00 En esta sección, el disertante repasa los conceptos clave de la lección anterior sobre fotometría. Define irradiancia, intensidad y radiancia y explica cómo se miden y relacionan. Luego presenta la relación entre la radiación de una superficie y la radiación de la parte correspondiente de una imagen, que puede usarse para hablar sobre el brillo tanto en el mundo exterior como en el interior de una cámara. El disertante explica cómo esta relación se ve afectada por la apertura de la lente, que limita el ángulo sólido y el área de la imagen.

  • 00:05:00 En esta sección, la atención se centra en determinar la radiación de una superficie en relación con la cantidad de iluminación, la geometría y el material. La función de distribución de reflectancia bidireccional (BRDF) se presenta para explicar cómo la iluminación afecta la orientación y el material de una superficie. El BRDF es una función de la dirección incidente y la dirección emitida de la luz, que se puede calcular calculando la potencia de salida total dividida por la potencia de entrada total. Además, el BRDF tiene que satisfacer una restricción, en la que debe salir igual si se intercambian las direcciones a la fuente y al espectador. Si bien algunos modelos de reflectancia superficial violan esta restricción, no es fundamental para la visión humana o artificial, lo que lo convierte en un atajo para reducir la cantidad de mediciones necesarias.

  • 00:10:00 En esta sección de la conferencia, el profesor analiza las propiedades de una superficie lambertiana ideal: parece igualmente brillante desde todas las direcciones de observación, y si es una superficie lambertiana ideal, también refleja toda la luz incidente. El profesor explica que esto simplifica la fórmula ya que no va a depender de dos de los cuatro parámetros. Luego analiza cómo lidiar con fuentes distribuidas como las luces en una habitación e integrarlas en un hemisferio de direcciones incidentes. El profesor explica que necesitamos integrar sobre todas las direcciones emitidas y cómo calcular el área del parche usando el ángulo polar y el azumit. Finalmente, menciona que el término f es constante.

  • 00:15:00 En esta sección, la conferencia discute el concepto de sombreado y el reflejo de la luz en una superficie. La conferencia destaca que la luz que cae sobre una superficie depende de la radiación entrante y del ángulo de incidencia. Se dice que toda la luz se refleja y que la potencia depositada en la superficie es e coseno theta i veces el área de la superficie. Por lo tanto, cuando se integra la luz reflejada, es igual a la luz entrante. La lección calcula el valor constante de f para la superficie de inversión y concluye que f es 1 sobre pi para la superficie lambertiana. Se observa que la energía reflejada no se irradia por igual en todas las direcciones y se explica cómo el escorzo afecta la potencia emitida por una superficie.

  • 00:20:00 En esta sección de la conferencia, el profesor analiza el concepto de superficie lambertiana, que es una superficie que irradia luz por igual en todas las direcciones. Sin embargo, cuando se trata de una superficie grande y en ángulo con respecto a la fuente de luz, el área del elemento de superficie se reduce y, como resultado, la potencia por unidad de área se vuelve infinita. Para evitar daños en la retina, la superficie irradia menos en ciertas direcciones, pero la potencia por unidad de área se mantiene constante. Esta condición significa que la superficie en realidad irradia más en ciertas áreas y menos en otras, lo que da como resultado una proporción de uno sobre pi en lugar de uno sobre 2 pi. Luego, la conferencia continúa explicando cómo usar este conocimiento para medir la luz entrante y evitar confusiones cuando se trata de la reciprocidad de Helmhotz.

  • 00:25:00 En esta sección, el disertante presenta un tipo de superficie que es diferente de una superficie lambertiana y es muy importante en muchas aplicaciones. Este tipo de superficie es uno sobre la raíz cuadrada del coseno theta i por el coseno theta e, y satisface la reciprocidad de Helmholtz. El resplandor de este tipo de superficie se ve afectado por el escorzo, y se utiliza para modelar las superficies de los planetas lunares y rocosos, así como algunos asteroides. La conferencia explica cómo determinar las isófotas de esta superficie, que son círculos anidados en el espacio 3D, pero se proyectan como elipses en el plano de la imagen, dando una idea de los mapas de contorno de brillo.

  • 00:30:00 En esta sección, el orador analiza la dificultad de encontrar la manera de sombrear un determinado material en el espacio 3D. Explican que el método anterior utilizado en un laboratorio no funcionará para este material, por lo que se necesita un nuevo enfoque. Luego, el orador demuestra el uso de unidades normales para encontrar los valores constantes de todos los puntos en la superficie, que deben ser perpendiculares a un vector fijo. Luego muestra que esto implica que todos los vectores unitarios en la superficie con el mismo brillo deben estar en un plano, revelando información útil sobre el material. Finalmente, el hablante usa coordenadas esféricas para tratar de obtener una mejor comprensión.

  • 00:35:00 En esta sección, el disertante analiza cómo elegir un sistema de coordenadas cuando se trata del sombreado de la superficie lunar, ya que contar con un buen sistema puede evitar un lío algebraico. Recomiendan usar un sistema de coordenadas donde el sol y la tierra estén en z=0, simplificando los cálculos a solo una incógnita. La conferencia también aborda brevemente la apariencia de la luna llena, donde el disco debería ser uniformemente brillante, pero debido a su microestructura no lambertiana, no parece completamente esférico. El modelo Hakka es bueno para predecir este tipo de comportamiento. Finalmente, la lección se sumerge en la fórmula para n punto s sobre n punto v, y finalmente llega a una versión simplificada usando vectores de coordenadas esféricas.

  • 00:40:00 En esta sección, el disertante analiza la relación entre el brillo y el azimut de la superficie lunar. Explican que todos los puntos de la superficie con el mismo brillo tienen el mismo acimut, y que las líneas de longitud constante son isófodas. Esto es muy diferente de una superficie lambertiana. A pesar de que la luna tiene un albedo igual al del carbón, aparece muy brillante en el cielo debido a la falta de objetos de comparación para medir su reflectancia. Sin embargo, podemos usar el estéreo fotométrico para determinar la orientación de la superficie de la luna, y potencialmente incluso su forma, al tomar múltiples fotografías de la superficie bajo diferentes condiciones de iluminación. El modelo de Hopkins se usa para describir la orientación de la superficie en términos del gradiente.

  • 00:45:00 En esta sección, el disertante analiza el proceso de conversión de gradiente a vector unitario y cómo se relaciona con la posición de la fuente de luz. Explican que la raíz cuadrada es necesaria para garantizar la satisfacción de Helmholtz, y al tomar la proporción de ciertos productos escalares, se obtiene una ecuación lineal para las isófotas que se pueden trazar en el espacio pq. El disertante señala que, si bien estas líneas no están espaciadas por igual debido a la raíz cuadrada, son paralelas y hay una línea donde el brillo es cero, lo que indica un giro de 90 grados alejándose de la radiación entrante. En general, esta sección cubre los conceptos matemáticos que subyacen al cálculo de isófotas y la relación entre la posición y el brillo de las fuentes de luz en un espacio determinado.

  • 00:50:00 En esta sección, el disertante analiza las ventajas del sombreado lineal en estéreo fotométrico, que permite resolver fácilmente varios problemas. Con dos condiciones de iluminación diferentes, las dos ecuaciones lineales se intersecan y el punto de intersección es la orientación de la superficie. El profesor apunta que no hay ambigüedad con el sombreado lambertiano, un problema del método anterior, donde había hasta cuatro soluciones. El disertante también demuestra que las primeras derivadas espaciales giran de la misma manera que el sistema de coordenadas, y esto es beneficioso para determinar la orientación de la superficie en una dirección particular sin conocer la orientación completa de la superficie.

  • 00:55:00 En esta sección, el disertante explica cómo la medición del brillo puede determinar la pendiente o la dirección de la pendiente de una superficie, lo que permite a los investigadores recopilar un perfil de una superficie midiendo el brillo o la reflectividad de los puntos vertical y horizontalmente. El proceso requiere una condición inicial para comenzar, que es medir el brillo de la superficie y encontrar z de forma incremental. Sin embargo, la precisión de la medición puede verse afectada por la variación en la reflectividad y las imprecisiones en la medición del brillo.

  • 01:00:00 En esta sección, el profesor analiza cómo obtener un perfil de la superficie de un objeto para determinar su forma usando técnicas de forma a partir del sombreado. Explica cómo, al ejecutar un perfil a través de un objeto, puede obtener la forma del perfil siempre que conozca el valor inicial. Sin embargo, no puede obtener la posición vertical absoluta del perfil si no conoce el valor inicial. Luego aplica esta técnica a la luna para obtener varios perfiles de la superficie para explorar la forma del objeto. El profesor también habla sobre la heurística para unir superficies 3D a partir de los perfiles. Luego, cambia de tema para hablar de lentes y justifica el uso de la proyección ortográfica.

  • 01:05:00 En esta sección, el disertante analiza cómo las lentes compuestas, que constan de múltiples elementos, compensan las aberraciones a través de arreglos cuidadosamente diseñados. Señala que el índice de refracción del vidrio varía con las longitudes de onda, lo que provoca aberraciones cromáticas, pero las lentes compuestas de diferentes materiales pueden compensar esto. El disertante explica cómo se pueden aproximar los lentes gruesos usando puntos nodales y planos principales, y cómo un ingenioso truco de hacer que t (grosor entre puntos nodales) sea negativo puede resultar en un teleobjetivo corto. Esta técnica puede reducir significativamente la longitud de un teleobjetivo manteniendo su gran distancia focal y su pequeño campo de visión.

  • 01:10:00 En esta sección, el disertante demuestra dos trucos para eliminar la proyección en perspectiva en la visión artificial. El primer truco consiste en mover uno de los nodos al infinito, lo que reduce el efecto de variar la ampliación con la distancia. Al construir una lente telecéntrica con un centro de proyección muy distante, el cono de direcciones se vuelve más paralelo y la ampliación permanece constante independientemente de la distancia. El segundo truco implica mover el otro nodo, lo que cambia la ampliación cuando el plano de la imagen no está exactamente en el lugar correcto. Para lograr una imagen nítida, la lente debe enfocarse cambiando la distancia focal del vidrio o moviendo la lente en relación con el plano de la imagen.

  • 01:15:00 En esta sección de la conferencia, el orador analiza los problemas con el coseno de la cuarta ley y el aumento cambiante cuando el centro de proyección no está en más infinito. Él explica cómo mover el punto nodal hacia afuera y usar lentes telecéntricos dobles puede eliminar estos problemas, ya que hace que la radiación llegue a un sensor en particular perpendicular al sensor. Además, el orador analiza la necesidad de tapas de lente pequeñas para concentrar la luz entrante en un área más pequeña y evitar el alias, que puede ocurrir cuando hay componentes de alta frecuencia en la señal. Finalmente, el ponente menciona la relevancia del filtrado de paso bajo y la importancia de solo muestrear la señal el doble del ancho de banda de la señal para reconstruirla perfectamente.

  • 01:20:00 En esta sección, el disertante analiza cómo el filtrado de paso bajo con promedio de bloque puede reducir los problemas de aliasing cuando se usa una matriz de lentes para medir la luz de un área grande. Este método funciona bien si la luz entra en forma perpendicular al sensor, lo que se logra mediante el uso de lentes telecéntricas. Sin embargo, la lección continúa explicando que en ciertos casos, como cuando los cambios de profundidad en una escena son más pequeños que la profundidad misma, es más conveniente utilizar la proyección ortográfica. Esto permite una relación lineal entre x e y en el mundo y x e y en la imagen, lo que permite medir distancias y tamaños de objetos independientemente de cuán lejos estén.

  • 01:25:00 En esta sección, el ponente introduce el concepto de proyección ortográfica, que es útil para aplicaciones prácticas con lentes telecéntricos y simplifica algunos de los problemas que se discutirán. Señalan que, si bien algunos pueden pensar que este método solo funciona para Lamborghini, en realidad funciona para todo, pero las ecuaciones se complican para otras versiones. El ponente explica que el tipo de reconstrucción que abordarán a continuación se puede realizar bajo proyección en perspectiva, pero es complicado y poco perspicaz. Sin embargo, al cambiar a proyección ortográfica, muchos de estos problemas se vuelven más claros.

Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lección 9: Forma a partir del sombreado, caso general: de PDE no lineal de primer orden a cinco ODE



Lección 9: Forma a partir del sombreado, caso general: de PDE no lineal de primer orden a cinco ODE

Esta conferencia cubre el tema de la forma a partir del sombreado, un método para interpretar las formas de los objetos usando variaciones en el brillo de la imagen. El disertante explica el proceso de microscopía electrónica de barrido, donde se usa un colector de electrones secundario para medir la fracción de un haz de electrones entrante que regresa, lo que permite la estimación de la pendiente de la superficie. La lección también analiza el uso de integrales de contorno, momentos y mínimos cuadrados para estimar derivadas de superficie y encontrar la superficie más pequeña dada el ruido de medición. El orador deriva cinco ecuaciones diferenciales ordinarias para la forma a partir del problema del sombreado y también explica el concepto del operador laplaciano, que se utiliza en las operaciones de procesamiento de imágenes.

En esta conferencia sobre "Forma a partir del sombreado", el orador analiza varios enfoques para resolver ecuaciones para la solución de mínimos cuadrados para dar forma a partir del sombreado. El disertante explica diferentes técnicas para satisfacer la condición laplaciana, ajustar valores de píxel y reconstruir superficies utilizando mediciones de imágenes y cálculos de pendiente desde diferentes puntos. La conferencia cubre los temas de valores iniciales, transformada de rotación y transformada inversa a través de menos theta. El disertante concluye con una discusión sobre la generalización de estas ecuaciones para mapas de reflectancia arbitrarios y la importancia de examinar imágenes de microscopio electrónico de barrido para proporcionar ejemplos concretos de interpretación del sombreado.

  • 00:00:00 En esta sección de la conferencia, el profesor presenta la forma a partir del sombreado, que es el método para recuperar las formas de los objetos utilizando medidas de brillo de la imagen. Explica en qué se diferencia este método del estéreo fotométrico, que requiere múltiples exposiciones. El profesor también analiza diferentes tipos de materiales de superficie y sus propiedades reflectantes, incluido el hapke, un modelo para el reflejo de los planetas rocosos y un tercer modelo para microscopía. Presenta una comparación entre los métodos de microscopía electrónica y explica por qué los microscopios electrónicos de barrido producen imágenes que los humanos encuentran fáciles de interpretar debido a sus variaciones específicas en el brillo, que se vuelven más brillantes a medida que te acercas a los bordes.

  • 00:05:00 En esta sección, el disertante analiza la importancia del sombreado en las imágenes, que juega un papel importante en la interpretación de la forma de los objetos. El disertante presenta imágenes de la cabeza de una polilla y una forma ovoide similar a una pelota de fútbol que tienen variaciones de brillo dependiendo de la orientación de su superficie, permitiéndonos interpretar fácilmente sus formas. Curiosamente, a pesar de la superficie no lambertiana del objeto parecido a una pelota de fútbol, los humanos aún pueden interpretar su forma con precisión. Luego, la conferencia profundiza en el funcionamiento de los microscopios electrónicos de barrido, que utilizan un haz de electrones acelerados para crear imágenes de la superficie del objeto.

  • 00:10:00 En esta sección, se describe el proceso de creación de imágenes sombreadas usando microscopía electrónica de barrido. Los electrones a varios kiloelectronvoltios golpean un objeto y algunos rebotan como retrodispersión, pero la mayoría penetra y crea electrones secundarios al perder energía y expulsar electrones de las cosas ionizantes. Algunos de los electrones secundarios salen del objeto y son recogidos por un electrodo para escanear el objeto en forma de trama. La corriente medida aquí se usa para modular un haz de luz en una pantalla, que se puede ampliar a través de la desviación para obtener miles o decenas de miles de aumentos, lo que lo hace más poderoso que la microscopía óptica.

  • 00:15:00 En esta sección de la conferencia, el orador explica el proceso de medir la orientación de una superficie utilizando un colector de electrones secundario. El colector mide la fracción del haz entrante que vuelve a salir, con superficies muy inclinadas que dan como resultado más corriente debido a que escapan más electrones secundarios. Trazando un mapa de reflectancia, brillo versus orientación, se puede determinar la pendiente de la superficie, pero no su gradiente, dejando dos incógnitas y una restricción. Este problema es un ejemplo del problema de la forma a partir del sombreado, donde el objetivo es estimar la forma de la superficie a partir de un patrón de brillo.

  • 00:20:00 En esta sección de la conferencia, el disertante analiza el uso de un mapa de reflectancia para determinar la pendiente o pendiente de una superficie. Explican que este método se puede utilizar para varias superficies y no solo para ciertos tipos. La discusión también cubre los diagramas de agujas y cómo se pueden usar para determinar la orientación y la forma de la superficie. El orador explica que si bien este es un problema simple, está sobredeterminado ya que hay más restricciones que incógnitas. Esto permite una reducción del ruido y un mejor resultado. La conferencia termina con una demostración de cómo integrar p para determinar el cambio de altura desde el origen.

  • 00:25:00 En esta sección, el orador analiza cómo integrar los datos conocidos para estimar las alturas en cualquier lugar a lo largo del eje x o el eje y, que se pueden combinar para completar el área completa. Sin embargo, los valores de p y q utilizados están sujetos al ruido de medición, lo que significa que no hay garantía de que medir p y q de diferentes maneras conduzca a la misma respuesta. Para resolver este problema, se debe establecer una restricción sobre p y q; p y q deben satisfacer esta restricción para cualquier bucle, y el bucle grande se puede descomponer en bucles pequeños que se anulan entre sí para asegurarse de que la restricción también sea cierta para el bucle grande.

  • 00:30:00 En esta sección, el disertante analiza la relación entre una integral de contorno y una integral de área en el contexto de medir las derivadas de una superficie con exterior fotométrico u otros métodos de visión. La lección muestra cómo se puede estimar la pendiente con base en el centro de un tramo, donde la pendiente es prácticamente constante, y usa la expansión de la serie de Taylor para derivar una ecuación que relaciona las derivadas de la superficie z de x y. Se dice que es imposible encontrar el z exacto de xy que da los valores de p y q medidos, pero se presenta una forma más elegante de encontrar una aproximación por mínimos cuadrados.

  • 00:35:00 En esta sección de la conferencia, el orador analiza el beneficio de reducir los cálculos de todos los píxeles a solo el límite de una región en la visión artificial. El orador usa el ejemplo de calcular el área y la posición de una mancha a través de integrales de contorno y momentos, que se pueden calcular de manera eficiente trazando el contorno en lugar de contar píxeles. La lección continúa aplicando el teorema de Green para hacer coincidir la integral de contorno con el cálculo de momentos.

  • 00:40:00 En esta sección, el disertante discute cómo encontrar la superficie más pequeña posible dadas nuestras medidas. Idealmente, encontraríamos una superficie donde sus derivadas x e y coincidieran con la p y la q que obtuvimos de la imagen, respectivamente. Sin embargo, debido al ruido de la medición, esto no será posible, por lo que intentaremos hacerlo lo más pequeño posible resolviendo un problema de mínimos cuadrados. Z es una función con infinitos grados de libertad, por lo que no podemos usar el cálculo ordinario. En cambio, podemos derivar con respecto a cada una de las incógnitas finitas en una cuadrícula y establecer el resultado igual a cero para obtener muchas ecuaciones.

  • 00:45:00 En esta sección de la conferencia, el orador analiza el proceso de encontrar un valor de z para cada punto de la cuadrícula para minimizar el error entre los valores observados y las derivadas estimadas en las direcciones x e y. Para hacer esto, el orador explica que necesitan diferenciar y establecer el resultado igual a cero para todos los valores posibles de i y j, lo que da como resultado un conjunto de ecuaciones lineales que se pueden resolver usando mínimos cuadrados. Sin embargo, el hablante advierte de un problema potencial si los nombres de identificador i y j no se reemplazan con otros nombres, lo que puede resultar en una respuesta incorrecta. A pesar de tener una gran cantidad de ecuaciones, las ecuaciones son escasas, lo que las hace más fáciles de resolver.

  • 00:50:00 En esta sección, el orador repasa el proceso de usar ecuaciones diferenciales parciales no lineales de primer orden para derivar cinco ecuaciones diferenciales ordinarias para el problema de la forma a partir del sombreado. Explican los pasos de diferenciación de los términos dentro de un cuadrado, emparejando términos y considerando varios valores de k y l. El disertante simplifica la ecuación final y separa los términos para identificar las derivadas x e y de p y q respectivamente. El objetivo es finalmente encontrar una solución para todos los puntos de la imagen.

  • 00:55:00 En esta sección, el orador explica el diagrama molecular computacional, que es una forma gráfica de estimar derivadas en visión artificial. Él usa esto para mostrar cómo derivar el operador laplaciano que se usa mucho en las operaciones de procesamiento de imágenes. Explica que el laplaciano es rotacionalmente simétrico y que existen operadores derivados que son muy útiles en la detección de bordes que también son rotacionalmente simétricos.
  • 01:00:00 En esta sección, el orador analiza un enfoque discreto para resolver ecuaciones para la solución de mínimos cuadrados para dar forma a partir del sombreado, en lugar de usar el cálculo de variación. Las ecuaciones resultantes, aunque tienen muchas variables, son escasas, lo que hace posible la solución iterativa. El orador explica cómo resolver estas ecuaciones utilizando un enfoque iterativo que implica calcular los promedios locales de los píxeles vecinos y agregar una corrección basada en la información de la imagen. El orador señala que, si bien las soluciones iterativas son fáciles de proponer, mostrar que convergen es difícil, pero los libros de texto sugieren que lo hacen.

  • 01:05:00 En esta sección, el disertante analiza un enfoque para satisfacer la condición laplaciana ajustando los valores de píxel mediante una ecuación simple con términos dispersos. Este enfoque está relacionado con la resolución de la ecuación del calor y se puede realizar de manera eficiente en paralelo, lo que lo hace estable incluso con ruido de medición. La técnica se puede aplicar a datos estereoscópicos fotométricos para reconstruir una superficie por mínimos cuadrados, proporcionando una solución razonable que coincida con los datos experimentales. Sin embargo, el disertante reconoce que este enfoque no es directamente útil más allá del estéreo fotométrico y que hay problemas más difíciles de resolver, como las reconstrucciones de una sola imagen.

  • 01:10:00 En esta sección, el disertante analiza un caso simple del mapa de reflectancia con líneas rectas paralelas como isófotas. Las líneas paralelas permiten rotar a un sistema de coordenadas más útil y maximizar la información en una dirección mientras la minimizan en otra. La lección proporciona la relación entre p, q, p prima y q prima, el ángulo theta dado por un triángulo y la transformada inversa de rotar a través de menos theta. En última instancia, la conferencia analiza el caso general con líneas onduladas y analiza el concepto de forma a partir del sombreado.

  • 01:15:00 En esta sección, el disertante habla sobre cómo reconstruir una superficie utilizando medidas de imágenes y cálculos de pendiente desde diferentes puntos. La conferencia también cubre la idea de que el enfoque de agregar una constante a la altura de z y encontrar cambios no ajustó el Laplaciano de z de ninguna manera, lo que implica que las diferencias en altura no brindan mucha información, sino solo profundidad relativa. Sin embargo, el profesor señala que se requiere un valor inicial de z para obtener una reconstrucción.

  • 01:20:00 En esta sección, el orador analiza el desafío de tener valores iniciales potencialmente diferentes para cada fila en el cálculo de soluciones para la forma de una superficie con Shape from Shading. Si bien sería fácil lidiar con un cambio general en la altura, tener valores iniciales diferentes para cada fila requiere una curva inicial diferente que se pueda mapear de nuevo al mundo original sin girar. El orador sugiere usar una curva inicial, que es una función de eta, para explorar la superficie moviéndose a lo largo de estas curvas, calculándolas de forma independiente y luego alterando la velocidad a la que se explora la solución.

  • 01:25:00 En esta sección, el disertante explica que al multiplicar con una constante, las ecuaciones se vuelven más simples, y el movimiento en la dirección x e y es proporcional a q s y p s respectivamente, mientras que en la dirección z, hay una fórmula sencilla. La conferencia concluye con una discusión sobre la generalización de estas ecuaciones para mapas de reflectancia arbitrarios y la importancia de examinar imágenes de microscopio electrónico de barrido para proporcionar ejemplos concretos de interpretación del sombreado.
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 10: Expansión de tiras características, Forma a partir de sombreado, Soluciones iterativas



Clase 10: Expansión de tiras características, Forma a partir de sombreado, Soluciones iterativas

En esta lección, el instructor cubre el tema de la forma desde el sombreado utilizando medidas de brillo en el concepto de formación de imágenes. Esto implica comprender la ecuación de irradiancia de la imagen, que relaciona el brillo con la orientación de la superficie, la iluminación, el material de la superficie y la geometría. Explican el método de actualizar las variables p y q mediante el uso de dos sistemas separados de ecuaciones que se alimentan entre sí y trazando una franja completa utilizando el gradiente de brillo. La conferencia también analiza los desafíos de resolver PDE no lineales de primer orden y los diferentes métodos para pasar de un contorno a otro a medida que explora la superficie. Finalmente, el instructor analiza la implementación de la expansión de tira característica y por qué un enfoque secuencial puede no ser el mejor método, recomendando la paralelización y controlando el tamaño del paso.

En la Lección 10, el profesor analiza varios métodos para resolver problemas de forma a partir del sombreado, incluido el uso de puntos estacionarios en la superficie y la construcción de una forma de gorra pequeña a su alrededor para estimar la forma local. El disertante también presenta el concepto del límite de oclusión, que puede proporcionar condiciones iniciales para las soluciones, y analiza el progreso reciente en la computación de soluciones para el problema de los tres cuerpos utilizando métodos sofisticados de análisis numérico. Además, la conferencia toca el tema de los métodos de visión artificial industrial y los patrones relacionados que se discutirán en la siguiente conferencia.

  • 00:00:00 En esta sección, el instructor brinda anuncios sobre el primer cuestionario y el envío de propuestas para el proyecto del término. El término proyecto implica implementar una solución a un problema de visión artificial, y los estudiantes deben enviar una breve propuesta antes del día 22. Luego, el instructor habla sobre el cambio de ritmo en la cobertura de la visión artificial industrial, donde observarán patentes en lugar de artículos publicados o libros de texto. En el proceso, los estudiantes aprenderán sobre el lenguaje de patentes, que es esencial para los empresarios que participan en nuevas empresas. Finalmente, el instructor brinda ejemplos de proyectos de estudiantes, como la implementación de métodos de subpíxeles para la detección de bordes o el tiempo de contacto en un teléfono Android.

  • 00:05:00 En esta sección, el disertante analiza los diferentes aspectos de la formación de imágenes, enfocándose específicamente en el concepto de forma a partir del sombreado usando mediciones de brillo. Esto requiere una comprensión de la ecuación de irradiancia de la imagen, que relaciona el brillo con la orientación de la superficie, la iluminación, el material de la superficie y la geometría. El mapa de reflectancia se usa para simplificar esta ecuación y sirve como una forma de resumir las propiedades reflectantes detalladas, aunque se deriva de la función de distribución de reflectancia bidireccional (BRDF). La conferencia continúa explicando cómo se aplicó este concepto a las propiedades reflectantes de la luna y otros planetas rocosos, lo que resultó en un conjunto de ecuaciones que permiten determinar la orientación de la superficie en ciertas direcciones.

  • 00:10:00 En esta sección, el orador analiza la regla para hacer que un pequeño paso en la imagen se corresponda con un pequeño paso en la altura usando proyección ortográfica. Explica que esto simplifica las matemáticas y se relaciona con la suposición de una lente telecéntrica y una fuente de luz lejana, lo que hace posibles las suposiciones lambertianas. El proceso general implica resolver numéricamente tres ecuaciones diferenciales ordinarias con el método de Euler directo y alimentar el brillo a través de la superficie tipo Hapka. El orador muestra cómo expresar esto en términos de p y q y luego derivar la ecuación para la imagen de radiancia.

  • 00:15:00 En esta sección, el orador analiza la relación directa entre la cantidad medida de brillo superficial y la solución necesaria para una superficie específica. Explica que hay una constante llamada rs, que depende de la posición de la fuente, que se usa para simplificar la solución. La técnica implica tomar el brillo, elevarlo al cuadrado, multiplicarlo por rs y restar uno con la derivada en la dirección z. El ponente también explica cómo obtener una condición inicial para las ecuaciones diferenciales y cómo se puede definir una curva mediante parámetros. Luego, el método se generaliza para abordar el caso general en el que la pendiente no se puede determinar localmente.

  • 00:20:00 En esta sección, el disertante analiza la construcción de una solución utilizando una expansión de tira característica. Para hacerlo, se necesita calcular el cambio de altura para saber cómo va a cambiar z. Suponen que comenzamos con x, y y z, junto con la orientación de la superficie, p y q, y actualizamos las reglas para x, y y z, y el cambio en la altura de z viene dado por una ecuación. Es necesario actualizar p y q a medida que avanzamos, lo que da como resultado una franja característica que lleva la orientación de la superficie, que es más información que solo tener una curva. El disertante explica cómo actualizar p y q usando una matriz de dos por dos y las segundas derivadas parciales de la altura, que corresponden a la curvatura.

  • 00:25:00 En esta sección, el disertante discute cómo calcular la matriz de curvatura para una superficie 3D, que es más complicada que para una curva en el plano. La matriz de curvatura requiere una matriz completa de derivadas de segundo orden llamada matriz hessiana. Sin embargo, el uso de derivadas de orden superior para continuar con la solución daría lugar a más incógnitas. Por lo tanto, se necesita la ecuación de irradiancia de la imagen, particularmente el gradiente de brillo, ya que los cambios en la orientación de la superficie corresponden a la curvatura que afecta el brillo de la imagen. Al observar la matriz común H en las ecuaciones de gradiente de curvatura y brillo, calcular H permitiría una actualización en x, y, z, p y q, completando el método.

  • 00:30:00 En esta sección, el disertante discute el concepto de resolver para h usando dos ecuaciones lineales. H aparece en ambas ecuaciones, pero como tenemos dos ecuaciones y tres incógnitas, no podemos resolver para h. Sin embargo, al usar un delta x y un delta y específicos, podemos controlar el tamaño del paso y elegir una dirección particular para calcular delta p y delta q. El disertante también explica que la dirección puede cambiar a medida que se explora la superficie. Reemplazando esto en la ecuación, podemos encontrar cómo cambiar p y q para resolver el problema.

  • 00:35:00 En esta sección, el disertante analiza las cinco ecuaciones diferenciales ordinarias requeridas para resolver la variable z en la ecuación de irradiancia de la imagen, y presenta un método para generar una franja usando el gradiente de brillo para actualizar las variables p y q. El disertante continúa explicando la parte interesante de la solución que involucra dos sistemas de ecuaciones que se alimentan entre sí, y cómo determinan la dirección del gradiente y se pueden usar para trazar una franja completa. En última instancia, la ecuación diferencial parcial se reduce a simples ecuaciones diferenciales ordinarias utilizando p y q para que la ecuación parezca menos intimidante.

  • 00:40:00 En esta sección, el orador analiza los desafíos de las PDE no lineales de primer orden para resolver el brillo en el contexto de la forma a partir del sombreado. Esta es una desviación de las PDE típicamente lineales y de segundo orden que se encuentran en la física, lo que significa que se requiere un método especial para resolver este tipo de PDE. Se discute el caso general para cualquier R de P y Q y luego se aplica a dos propiedades superficiales específicas: hapke y el microscopio electrónico de barrido. Se muestra que las reglas de actualización para X e Y son proporcionales a PS y QS, respectivamente.

  • 00:45:00 En esta sección, el disertante explica el método para actualizar los ejes x, y y de altura utilizando la expansión de tira característica y la forma del sombreado con soluciones iterativas. El método consiste en diferenciar con respecto a p y q para calcular la actualización de xey y usar prp más qrq para actualizar el eje de altura. La conferencia señala que este método se puede utilizar en imágenes de microscopio electrónico de barrido y también aborda el concepto de características básicas, que implica proyectar las tiras características en el plano de la imagen para explorar la mayor parte posible de la imagen.

  • 00:50:00 En esta sección, el orador analiza la implementación de la expansión de la tira característica y por qué un enfoque secuencial puede no ser el mejor método. Debido a las soluciones independientes que se encuentran a lo largo de cada curva, se puede ejecutar un proceso a lo largo de cada curva, lo que hace que el cálculo sea paralelizable. Se analiza la velocidad del cálculo, que debe tener un tamaño de paso razonable, y se examina un caso simple en el que el tamaño de paso está controlado por la constante z. Al dividir por PRP y QRQ en la ecuación de z, la tasa de cambio se convierte en uno, lo que da como resultado soluciones constantes a lo largo de cada curva con contornos en valores crecientes de z.

  • 00:55:00 En esta sección de la conferencia, el orador discute diferentes formas de pasar de un contorno a otro mientras exploras la superficie. Mencionan la opción de avanzar en incrementos de tamaño constante en la dirección z, o tener un tamaño de paso constante en la imagen, lo que requiere dividir todas las ecuaciones por un factor constante. Otra opción es el paso a paso en incrementos de tamaño constante en 3D, donde la suma de los cuadrados de los incrementos es 1, y finalmente, la posibilidad de paso a paso en isófodas en los contornos de la imagen de contraste o brillo. Sin embargo, algunos de estos métodos pueden tener problemas, como diferentes curvas que se ejecutan a diferentes velocidades o se dividen por cero, por lo que es esencial tener en cuenta estas limitaciones.
  • 01:00:00 En esta sección de la conferencia, el profesor analiza el producto escalar de los dos gradientes en la imagen y el mapa de refractancia, pero no entra en demasiados detalles. Moverse de un contorno a otro en la imagen permite vincular más fácilmente las soluciones vecinas, y los métodos de análisis numérico crudo pueden proporcionar resultados suficientes. Luego, el profesor continúa discutiendo el progreso reciente en la computación de soluciones para el problema de los tres cuerpos y cómo se están utilizando métodos sofisticados de análisis numérico para resolver ecuaciones que de otro modo serían difíciles, si no imposibles, de resolver analíticamente.

  • 01:05:00 En esta sección, el disertante analiza el desafío de necesitar una curva inicial para explorar una superficie, junto con su orientación, utilizando métodos ópticos de visión artificial. Afortunadamente, existe una ecuación de irradiancia de imagen que impone una restricción sobre la orientación de la curva, y sabemos que la curva está en la superficie, lo que nos permite calcular las derivadas y resolver una ecuación lineal. Esto significa que podemos encontrar la orientación y deshacernos de la necesidad de una tira inicial en el objeto si podemos encontrar puntos especiales en el objeto donde conocemos la forma, la orientación, etc.

  • 01:10:00 En esta sección, el orador analiza el concepto de límite de oclusión, que es el lugar donde un objeto se enrosca, de modo que la parte de un lado es visible y la otra no. Si construimos una superficie normal en ese punto, será paralela a un vector construido a lo largo del límite de oclusión, lo que nos da las condiciones iniciales para comenzar nuestras soluciones. Sin embargo, no podemos usar las proporciones del límite de oclusión para resolver las ecuaciones ya que la pendiente es infinita. El ponente también introduce el concepto de puntos estacionarios, que son extremos únicos, globales y aislados, y resultan de los puntos más brillantes en la superficie de un objeto cuando se ilumina. Estos puntos nos brindan la orientación de la superficie en ese punto, que es información valiosa para resolver problemas de forma a partir de sombreado.

  • 01:15:00 En esta sección, el disertante analiza los puntos estacionarios en el mapa de reflectancia y la imagen, que corresponden a extremos o mínimos según la técnica de imagen utilizada. Sin embargo, los puntos estacionarios no permiten el inicio directo de la solución porque no hay cambio en las variables dependientes. La solución solo puede alejarse del punto estacionario cuando se intenta construir una aproximación de la superficie para iniciar la solución. La idea es construir un pequeño plano usando la orientación del punto estacionario y luego hacer un radio para comenzar la solución. Al hacerlo, la solución puede alejarse del punto estacionario y comenzar a iterar hacia una mejor solución.

  • 01:20:00 En esta sección de la conferencia, el orador analiza el concepto de puntos estacionarios en superficies curvas en relación con la forma del sombreado. La idea es encontrar una solución única para la curvatura de una superficie que tiene un punto estacionario. El orador explica que estos puntos son importantes en la percepción humana y pueden afectar la singularidad de una solución. Luego, la lección continúa explicando el proceso de encontrar la curvatura de una superficie usando un ejemplo, donde se supone que la superficie tiene un tipo de mapa de reflectancia sem y tiene un punto estacionario en el origen. Se encuentra que el gradiente de la imagen es cero en el origen, lo que confirma la presencia de un extremo en ese punto. Sin embargo, el gradiente no se puede utilizar para estimar la forma local porque es cero en el origen, lo que requiere una segunda derivada.

  • 01:25:00 En esta sección, el ponente explica cómo tomar las segundas derivadas parciales del brillo puede proporcionar información sobre la forma y cómo recuperarla, estimando la forma local a partir de puntos estacionarios y construyendo una forma de casquete pequeño a su alrededor. Además, el orador introduce el tema de los métodos de visión artificial industrial y los patrones relacionados que se discutirán en la siguiente lección.
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Clase 11: Detección de bordes, Posición de subpíxeles, CORDIC, Detección de líneas (patente de US. 6408109)



Clase 11: Detección de bordes, Posición de subpíxeles, CORDIC, Detección de líneas (patente de  US. 6408109)

Este video de YouTube titulado "Conferencia 11: Detección de bordes, Posición de subpíxeles, CORDIC, Detección de líneas (US 6,408,109)" cubre varios temas relacionados con la detección de bordes y la ubicación de subpíxeles en sistemas de visión artificial. El ponente explica la importancia de las patentes en el proceso de invención y cómo se utilizan en las guerras de patentes. También analizan varios operadores de detección de bordes y sus ventajas y limitaciones. El video incluye explicaciones detalladas de las fórmulas matemáticas utilizadas para convertir coordenadas cartesianas en coordenadas polares y determinar la posición del borde. El video concluye discutiendo la importancia de escribir reivindicaciones amplias y limitadas para patentes y la evolución de la ley de patentes a lo largo del tiempo.

En la lección 11, el ponente se centra en diferentes moléculas computacionales para la detección de bordes y la estimación de derivadas, con énfasis en la eficiencia. Se presentan los operadores de Sobel y Roberts Cross para calcular la suma de los cuadrados de los gradientes, y se analizan las variaciones en la fórmula y la técnica. Para lograr una precisión de subpíxeles, se utilizan varios operadores y se presentan técnicas como el ajuste de una parábola o el uso de un modelo de triángulo para determinar el pico de la curva. Además, la conferencia analiza las alternativas a la cuantificación y los problemas con la dirección del gradiente en una cuadrícula cuadrada. En general, la conferencia enfatiza la importancia de considerar muchos detalles para lograr un buen desempeño en la detección de bordes.

  • 00:00:00 En esta sección, el disertante introduce el tema de la visión artificial industrial y su importancia en los procesos de fabricación, incluido el uso de la visión artificial para la alineación e inspección en la fabricación de circuitos integrados y la legibilidad de las etiquetas farmacéuticas. El disertante explica el propósito de las patentes como una forma de obtener un monopolio limitado en el uso de una invención a cambio de explicar cómo funciona para beneficiar a la sociedad a largo plazo. También se analizan la estructura y los metadatos de una patente, incluidos el número y el título de la patente, la fecha de la patente y el uso de las patentes como munición en las guerras de patentes entre empresas. Luego, la conferencia describe brevemente una patente de Bill Silver en Cognex, una empresa líder en visión artificial, sobre detección y ubicación de subpíxeles.

  • 00:05:00 En esta sección, el disertante analiza el proceso de detección de bordes en imágenes digitales, donde se da énfasis a la transición entre diferentes niveles de brillo. El disertante señala que encontrar bordes con una precisión de subpíxeles es crucial en los mundos de la cinta transportadora y los circuitos integrados, ya que reduce significativamente los bits necesarios para describir algo. La conferencia explica además que este proceso se puede lograr con una cámara de mayor píxel, pero es costoso y, por lo tanto, sería beneficioso contar con un software que pueda realizarlo a menor costo. El disertante también explica que se puede lograr una cuadragésima parte de un píxel, lo cual es una ventaja significativa, pero conlleva desafíos. La conferencia concluye con una discusión sobre la presentación de patentes y cómo ha cambiado el proceso con el tiempo, incluido el lenguaje arcano utilizado en los documentos y la demora experimentada en la presentación de una solicitud de patente.

  • 00:10:00 En esta sección del video, el orador analiza varios documentos técnicos y patentes relacionados con la detección de bordes en la visión artificial, que se remonta a la década de 1950. El primer artículo famoso sobre este tema fue el de Roberts en 1965, que utilizó un detector de bordes simple pero engañoso. El orador también menciona otros documentos y patentes relacionados con la detección de bordes, discutiendo las ventajas y desventajas de varios operadores de detección de bordes, incluido el operador de Sobel, el detector de bordes cruzados de Roberts y los operadores alternativos de Bill Silva para rejillas hexagonales. El orador enfatiza la importancia de la detección de bordes en varias aplicaciones y los esfuerzos continuos de ingenieros e investigadores para mejorar los algoritmos de detección de bordes.

  • 00:15:00 En esta sección, la conferencia explica las ventajas y desventajas de usar cámaras con cuadrícula hexagonal en términos de resolución y simetría rotacional, pero señala que el problema adicional de trabajar con una cuadrícula hexagonal era demasiado para los ingenieros. Luego, la conferencia continúa discutiendo la conversión de coordenadas cartesianas a polares utilizando la fórmula para la magnitud del gradiente y su dirección en lugar del gradiente de brillo en sí, a pesar del costo de tomar raíces cuadradas y arcotangentes. Luego, la conferencia explora soluciones alternativas, como el uso de tablas de búsqueda o el método CORDIC, que es una forma de estimar la magnitud y la dirección de un vector mediante pasos iterativos para reducir la diferencia con operaciones aritméticas mínimas requeridas.

  • 00:20:00 En esta sección de la conferencia, el orador analiza la detección de bordes y los algoritmos de posición de subpíxeles. Explican cómo ubicar dónde un gradiente es grande y cómo usar la supresión no máxima para encontrar la dirección máxima del gradiente. El orador también habla sobre la cuantificación de las direcciones del gradiente y señala que mirar más lejos puede conducir a una gama más amplia de direcciones. Para encontrar el pico real del gradiente, se ajusta una parábola a los datos y se diferencia para encontrar el pico. Finalmente, la conferencia discute el comportamiento esperado del brillo cuando se trabaja con un modelo del mundo basado en Mondrian.

  • 00:25:00 En esta sección, el video analiza las técnicas para lograr una precisión de subpíxeles en la detección de bordes. Un enfoque consiste en cuantificar las direcciones y encontrar el pico, pero puede haber ambigüedad sobre qué punto elegir a lo largo del borde. Otro método es realizar una interpolación perpendicular para encontrar el punto del borde con la mayor proximidad al píxel central. Sin embargo, es posible que la posición real del borde no se ajuste a los modelos supuestos, lo que puede introducir sesgos. El video sugiere una corrección simple para calibrar el sesgo y mejorar la precisión.

  • 00:30:00 En esta sección, el disertante analiza formas de mejorar la precisión de detección de bordes en los sistemas de visión artificial. La patente que está examinando sugiere el uso de diferentes potencias de "s" para eliminar el sesgo y aumentar la precisión en función del sistema específico que se utilice. La dirección del gradiente también afecta el sesgo y requiere una compensación para una precisión aún mayor. El diagrama general del sistema incluye la estimación de los gradientes de brillo, la determinación de la magnitud y la dirección, la supresión no máxima y la detección de picos para interpolar la posición y compensar el sesgo utilizando el punto más cercano al máximo en el borde. La invención proporciona un aparato y un método para la detección de subpíxeles en imágenes digitales y se resume en una versión breve al final de la patente.

  • 00:35:00 En esta sección, el orador analiza el proceso de patentar una invención y cómo se relaciona con los litigios de patentes. Explican cómo los inventores a menudo crean tanto un aparato como un método para cubrir todas las bases y cómo esto puede dar lugar a afirmaciones innecesarias. El orador describe un caso en el que una empresa canadiense, Matrox, fue acusada de violar una patente a través de su implementación de software de lo que estaba en la patente. Se trajeron testigos expertos para analizar el código y, al final, la conclusión fue que todo era software y no patentable. La sección también cubre la importancia de hacer una patente lo más amplia posible y pensar en todas las modificaciones posibles, que pueden hacer que las patentes escritas por abogados sean difíciles de leer.

  • 00:40:00 En esta sección del video, el orador repasa fórmulas y una explicación detallada de cómo convertir coordenadas cartesianas a coordenadas polares. También explican las diferentes fórmulas utilizadas para encontrar picos en parábolas y formas de onda triangulares. Luego, el video pasa a las patentes y al proceso de reclamar lo que crees que se te ocurrió para protegerlo. El orador lee el primer reclamo, que es un aparato para detectar y ubicar subpíxeles de bordes en una imagen digital, y desglosa los diferentes componentes que conforman el reclamo, incluido un estimador de gradiente, un detector de picos y un interpolador de subpíxeles. También se analiza la importancia de tener múltiples reclamos, ya que protege contra futuros reclamos e infracciones.

  • 00:45:00 En esta sección de la conferencia, el orador analiza cómo escribir y estructurar reclamos de patentes. Explica que el primer reclamo en una patente suele ser un reclamo amplio, seguido de reclamos más específicos que son más específicos para garantizar que incluso si se invalida el reclamo general, los reclamos más específicos pueden seguir en pie. Luego, el orador pasa a examinar las reivindicaciones de la patente para la estimación de gradientes, destacando algunas de las condiciones que deben cumplirse para que cada reivindicación sea válida. Finalmente, explica cómo la ley de patentes ha evolucionado con el tiempo con respecto a la duración de la validez de una patente y las reglas que rodean las reivindicaciones de prioridad.

  • 00:50:00 En esta sección, el video analiza la detección de bordes en la visión artificial. Se presenta el modelo del mundo de Mondrian, que consiste en condensar imágenes en solo discutir los bordes para encontrar dónde está algo en una cinta transportadora o alinear diferentes capas de una máscara de circuito integrado. La detección de bordes se define como un proceso para determinar la ubicación de los límites entre las regiones de la imagen que son diferentes y aproximadamente uniformes en brillo. Un borde se define como un punto en una imagen donde la magnitud del gradiente de la imagen alcanza un máximo local en la dirección del gradiente de la imagen o donde la segunda derivada del brillo cruza cero en la dirección del gradiente de la imagen. El video también aborda la detección de bordes de múltiples escalas y explica la desventaja de tener una resolución infinita para una imagen.

  • 00:55:00 En esta sección de la conferencia, el orador analiza la detección de bordes y los problemas de medir un borde que está perfectamente alineado con un píxel. Para combatir esto, el ponente explica el uso de un detector de bordes laplaciano, que busca cruces por cero y dibuja contornos, lo que facilita la localización del borde. Sin embargo, este método puede conducir a un peor rendimiento en presencia de ruido. El orador también cubre el concepto de un punto de inflexión y cómo se relaciona con el máximo de la derivada, que se puede usar para definir el borde. La conferencia también cubre la estimación del gradiente de brillo y el uso de operadores en ángulos de 45 grados para hacer referencia al mismo punto.

  • 01:00:00 En esta sección de la conferencia, el disertante analiza la detección de bordes y la estimación de derivadas usando diferentes moléculas computacionales. Se presentan dos operadores utilizados por Roberts, que se pueden utilizar para calcular la suma de cuadrados de gradientes en el sistema de coordenadas original. También se menciona el concepto de operadores de Sobel y se discute la estimación de la derivada usando una técnica de promedio. Se muestra que el término de error de orden más bajo de la estimación es de segundo orden, por lo que no es muy confiable para líneas curvas. Los términos de orden superior también se introducen para mejorar la precisión.

  • 01:05:00 En esta sección, el disertante describe el uso de un operador para aproximar una derivada para la detección de bordes, lo que permite un término de error de orden superior que puede funcionar para una línea curva siempre que su tercera derivada no sea demasiado grande. Al promediar dos valores y encontrar una estimación de la derivada, se pueden usar incluso las derivadas que están compensadas por medio píxel. Al comparar dos operadores con el mismo término de error de orden más bajo, se encuentra que uno con un multiplicador más pequeño es ventajoso. Sin embargo, aplicar el operador para estimar tanto la derivada de x como la de y conduce a inconsistencias, que pueden solucionarse mediante el uso de un operador bidimensional. Este enfoque también es útil para calcular las derivadas de la dirección y para un cubo completo de datos en un flujo óptico fijo.

  • 01:10:00 En este apartado, el ponente destaca la importancia de la eficiencia en los operadores a la hora de realizar la detección de bordes con millones de píxeles. Al organizar los cálculos de manera inteligente, el operador puede reducirse de seis operaciones a cuatro. El disertante menciona al operador Roberts Cross y Urbain Sobel, quienes replicaron al operador de una manera particular al hacer un promedio sobre un bloque de 2x2 para reducir el ruido pero también desenfocar la imagen.

  • 01:15:00 En esta sección del video, el disertante analiza cómo evitar el problema de desplazamiento de medio píxel en la detección de bordes mediante el uso de múltiples operadores. La discusión incluye variaciones de fórmulas y preferencias de implementación. La conferencia también explica los siguientes pasos, incluida la conversión de coordenadas cartesianas a polares para el gradiente de brillo, la cuantificación de la dirección de la magnitud del gradiente y la búsqueda de valores máximos. La precisión de subpíxeles no se puede lograr debido al problema de cuantización de píxeles. El disertante explica cómo mantener solo los máximos ignorando los no máximos en la imagen.

  • 01:20:00 En esta sección, el video analiza la necesidad de condiciones asimétricas en la detección de bordes y un desempate para situaciones en las que g cero es igual a g más o igual a g menos. Para encontrar el pico de la curva, el video describe el ajuste de una parábola al borde con un desempate, y se muestra que la s calculada de esta manera está limitada en magnitud a la mitad. Otro método que se muestra es un modelo de triángulo pequeño, que asume que las pendientes de las dos líneas son iguales y estima las posiciones vertical y horizontal, lo que da como resultado la fórmula para s. Ambos métodos son para lograr una precisión de subpíxeles, y el video sugiere que el modelo triangular puede parecer extraño pero es efectivo en ciertas circunstancias.

  • 01:25:00 En esta sección, el disertante analiza la forma de un borde en el caso de desenfoque, específicamente cómo afecta el método de recuperación de la posición real del borde. También habla sobre alternativas a la cuantificación de la dirección del gradiente y cómo puede ser problemático, particularmente en una cuadrícula donde solo hay ocho direcciones. Este problema muestra que hay muchos detalles a considerar si se quiere un buen rendimiento, como encontrar una buena forma de calcular derivadas.
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
Razón de la queja: