Apprendimento automatico e Reti Neurali - pagina 12

 

Lezione 2: Formazione dell'immagine, Proiezione prospettica, Derivata temporale, Campo di movimento



Lezione 2: Formazione dell'immagine, Proiezione prospettica, Derivata temporale, Campo di movimento

In questa conferenza, il concetto di proiezione prospettica e il suo rapporto con il movimento sono ampiamente discussi. Il docente dimostra come l'uso della differenziazione dell'equazione della proiezione prospettica può aiutare a misurare il movimento dei modelli di luminosità nell'immagine e come si collega al movimento nel mondo reale. La conferenza copre anche argomenti come il focus dell'espansione, le immagini continue e discrete e l'importanza di avere un punto di riferimento per la trama quando si stima la velocità di un oggetto in un'immagine. Inoltre, la lezione tocca le derivate totali lungo le curve e la questione del conteggio delle equazioni e dei vincoli quando si tenta di recuperare il campo del vettore di flusso ottico.

L'oratore copre vari argomenti come il gradiente di luminosità, il movimento di un oggetto, il caso 2D e le isofote. Una sfida affrontata nel calcolo della velocità di un oggetto è il problema dell'apertura causato dalla relazione proporzionale del gradiente di luminosità, che viene risolto ponderando i contributi a diverse regioni dell'immagine o cercando soluzioni minime. La conferenza approfondisce quindi i diversi casi di isofote e sottolinea l'importanza di calcolare una risposta significativa rispetto a una rumorosa quando si determina la velocità, utilizzando il concetto di guadagno di rumore, che misura la sensibilità del cambiamento nell'immagine al cambiamento nel risultato .

  • 00:00:00 In questa sezione, il docente discute la proiezione prospettica e il movimento. La proiezione prospettica implica una relazione tra punti nel mondo 3D e l'immagine 2D, che può essere rappresentata attraverso opportuni sistemi di coordinate. Spiegano che la differenziazione dell'equazione prospettica può aiutare a misurare il movimento dei modelli di luminosità nell'immagine, che possono quindi essere utilizzati per determinare il movimento nel mondo reale. Il docente riduce la complessità delle equazioni utilizzando simboli più facilmente assimilabili come le velocità nelle direzioni x e y.

  • 00:05:00 In questa sezione, il docente spiega come utilizzare i vettori di movimento per trovare il punto focale dell'espansione, un punto nell'immagine in cui non c'è movimento. Questo punto è significativo perché ci permette di determinare la direzione del moto semplicemente collegandolo all'origine, e ci dice qualcosa sull'ambiente o sul moto. Il docente prosegue mostrando come apparirà il modello dell'immagine se il fuoco dell'espansione si trova in un certo punto e come si può disegnare il diagramma vettoriale per mostrare il campo di movimento.

  • 00:10:00 In questa sezione della conferenza, il concetto di messa a fuoco di espansione e compressione viene introdotto nel contesto della formazione dell'immagine e della proiezione prospettica. L'equazione descrive i vettori che si irradiano verso l'esterno dal centro di espansione, che è importante per misurare la distanza e la velocità. Il rapporto di w su z determina la dimensione dei vettori e l'inverso del focus di espansione è il focus di compressione. Prendendo il rapporto di z su w, è possibile stimare il tempo all'impatto, utile per l'atterraggio di veicoli spaziali o per misurare la distanza. L'idea viene quindi introdotta in forma vettoriale, sebbene non sia immediatamente utile.

  • 00:15:00 In questa sezione, il relatore discute l'equazione della proiezione prospettica e come può essere utilizzata per introdurre le coordinate dell'immagine. Il focus dell'espansione viene introdotto come il punto in cui r dot è zero, che corrisponde a z. Differenziando ogni componente rispetto al tempo, possiamo derivare equazioni per il movimento in 3D e il movimento in profondità. Il relatore utilizza anche un risultato dell'appendice del libro per trasformare le equazioni in un'affermazione generale sul flusso, consentendo l'espressione del movimento dell'immagine in termini di movimento del mondo.

  • 00:20:00 In questa sezione, il docente discute il concetto di movimento dell'immagine e la sua relazione con l'asse z. Il movimento dell'immagine risultante risulta essere perpendicolare all'asse z, il che non sorprende poiché l'immagine è solo in due dimensioni con velocità nelle direzioni x e y. La conferenza esplora quindi il concetto di movimento radiale e il suo effetto sul movimento dell'immagine, con la conclusione che se l'oggetto si muove direttamente verso o lontano dall'osservatore, non c'è movimento dell'immagine. Il docente conclude esaminando esempi di campi di flusso in cui i vettori non sono tutti della stessa lunghezza, dimostrando che, sebbene spiacevole, ciò può essere vantaggioso.

  • 00:25:00 In questa sezione, il docente discute di come la comprensione del processo in avanti della formazione dell'immagine possa aiutare a risolvere il problema inverso del recupero della profondità dai campi di movimento. Il docente osserva che la profondità e la velocità sono i due fattori chiave che influenzano l'aspetto del campo di movimento e conoscerne uno può aiutare a calcolare l'altro. Tuttavia, il ripristino di entrambi può portare a un problema mal posto con più o nessuna soluzione. Il docente tocca anche brevemente i modelli di luminosità dell'immagine, che possono essere rappresentati come un modello 2D di valori di luminosità, e la rappresentazione del colore utilizzando valori RGB, che saranno discussi in seguito. Infine, il docente spiega che le immagini possono essere rappresentate come continue o discrete, con immagini digitali quantizzate nello spazio e tipicamente su una griglia rettangolare.

  • 00:30:00 In questa sezione della conferenza, il professore discute la differenza tra domini continui e discreti nell'elaborazione delle immagini. Mentre in pratica le immagini sono spesso rappresentate da matrici di numeri con due indici, l'utilizzo di funzioni continue può facilitare la comprensione di determinate operazioni, come l'assunzione di integrali. Inoltre, il professore parla dell'approssimazione delle derivate x e y della luminosità con metodi differenziali e dell'importanza del gradiente di luminosità nell'elaborazione delle immagini. La conferenza tocca anche i sensori 1D e come possono essere utilizzati per l'imaging, con il movimento che serve come mezzo per scansionare l'immagine. Il professore pone il problema di determinare la velocità del moto tra due fotogrammi di un'immagine e fa un esempio di mouse ottico che mappa la superficie di un tavolo.

  • 00:35:00 In questa sezione, il docente discute le ipotesi fatte nella tecnologia del mouse ottico, in particolare l'ipotesi di luminosità costante quando si guarda una superficie. Spiega anche come è possibile utilizzare una piccola approssimazione lineare di una curva per determinare il movimento analizzando il cambiamento di luminosità tra i fotogrammi. Il docente introduce la notazione della derivata parziale e le componenti del gradiente di luminosità che possono essere utilizzate per il rilevamento dei bordi. Infine, la formula delta e = e sub x per delta x viene derivata e divisa per delta t per calcolare il movimento.

  • 00:40:00 In questa sezione della conferenza, il relatore discute su come recuperare il movimento da un singolo pixel in un'immagine 1D. Il risultato consente all'altoparlante di recuperare il movimento, ma questo approccio non funziona per le immagini 2D. L'oratore spiega che valori ET maggiori indicano movimenti più veloci e che c'è un problema quando EX è zero poiché la divisione per zero o valori piccoli comporterebbe errori dovuti a problemi di misurazione. Inoltre, l'oratore spiega che valori EX piccoli o pari a zero comportano stime rumorose a causa di errori di misurazione.

  • 00:45:00 In questa sezione della conferenza, il relatore discute l'importanza di avere un punto di riferimento con una trama quando si stima la velocità di un oggetto in un'immagine. Questo tipo di misurazione può essere rumoroso e inaffidabile a meno che non vengano soddisfatte determinate condizioni dell'immagine. Tuttavia, i risultati possono essere notevolmente migliorati utilizzando più pixel e applicando tecniche come i minimi quadrati per ridurre l'errore. Combinando più pixel, la deviazione standard delle misurazioni può essere ridotta della radice quadrata di n, che è significativa per immagini di grandi dimensioni. Tuttavia, è importante ponderare le misurazioni in base alla pendenza della trama per evitare di contaminare aree a bassa pendenza con informazioni provenienti da aree ad alta pendenza. Infine, l'analisi viene estesa alle immagini 2D e vengono discussi diversi approcci per ottenere il risultato successivo.

  • 00:50:00 In questa sezione, il docente spiega come i fotogrammi video possono essere concettualizzati come un volume tridimensionale di valori di luminosità con x, y e t come assi. La lezione prosegue poi descrivendo le derivate parziali e come vengono derivate dalle differenze dei pixel vicini nelle direzioni x, y o t. Il docente approfondisce poi il concetto di derivate totali lungo curve, in particolare in relazione al gradiente di luminosità di un oggetto in movimento. Utilizzando la regola della catena, la derivata totale può essere espressa come derivata parziale, consentendo la previsione di come la luminosità dell'oggetto cambierà nel tempo. Infine, la lezione introduce il concetto di trovare u e b da sequenze di immagini.

  • 00:55:00 In questa sezione, il docente discute la questione del conteggio delle equazioni e dei vincoli quando si tenta di recuperare il campo del vettore di flusso ottico. Nel caso di una u incognita e di un'equazione di vincolo, è possibile ottenere un numero finito di soluzioni. Tuttavia, con due incognite u e ve un vincolo di equazione, sembra senza speranza. L'equazione del vincolo deriva dal presupposto che le immagini non cambino di luminosità mentre si muovono. Il docente mostra che tracciare l'equazione del vincolo nello spazio delle velocità rivela che si tratta di una linea, il che rappresenta uno sviluppo significativo nella soluzione del problema. L'obiettivo è fissare il punto in un punto e ottenere il preciso campo del vettore di flusso ottico.

  • 01:00:00 In questa sezione del video, l'oratore discute l'importanza del gradiente di luminosità nel determinare il movimento di un oggetto. Il gradiente di luminosità è un vettore unitario che punta perpendicolarmente alla transizione tra aree di alta e bassa luminosità. Il relatore spiega che quando si effettua una misurazione localizzata, non ci sono abbastanza equazioni per determinare il moto di un oggetto. Tuttavia, è possibile determinare il movimento nella direzione del gradiente di luminosità. L'oratore passa quindi a discutere il caso 2D e afferma che è necessario utilizzare più vincoli per determinare il movimento di un oggetto. Per dimostrarlo, il relatore risolve una semplice equazione lineare per recuperare i valori di u e v.

  • 01:05:00 In questa sezione, il docente spiega come invertire una matrice 2x2 e usarla per risolvere l'insieme di equazioni lineari per il movimento dell'immagine. Tuttavia, in alcuni casi limite, il determinante della matrice può essere zero, il che significa che i gradienti di luminosità sono proporzionali tra loro, determinando il problema dell'apertura. Questo problema suggerisce che i contributi a diverse regioni dell'immagine devono essere ponderati in modo diverso, piuttosto che fare solo la media del risultato. Per risolvere questo problema, dobbiamo cercare i valori di u e v che rendono l'equazione zero, o il più piccolo possibile.

  • 01:10:00 In questa sezione, l'oratore discute un vincolo che si applica in un caso ideale in cui i valori corretti di u e v risultano in un'integranda pari a zero quando integrati sull'intera immagine. Questa può essere la base per una strategia per trovare i valori corretti di u e v. L'oratore osserva che questo approccio può fallire quando non c'è luce o trama nella scena, con conseguenti valori zero per ex ed ey. Il relatore spiega poi come l'integranda viene trasformata in qualcosa di sempre positivo elevandola al quadrato e minimizzandola, portando a un problema di calcolo di due equazioni con due incognite. Tuttavia, questo può fallire se il determinante della matrice due per due è zero, il che può verificarsi se ex è zero ovunque o se ex è uguale a ey.

  • 01:15:00 In questa sezione, l'oratore discute i diversi casi di isofote, che sono linee di uguale gradiente di luminosità. Le isofote possono essere ad un angolo di 45 gradi, linee parallele o linee curve. Tuttavia, l'oratore sottolinea che il caso più generale sono le isofote con una certa angolazione perché comprende tutti gli altri casi. Menzionano anche che l'unico problema sorge quando le isofote sono linee parallele, che possono essere superate cercando aree nell'immagine in cui il gradiente di luminosità cambia molto, come angoli o aree con elevata curvatura isofotica. Infine, il relatore introduce il concetto di aumento del rumore e incoraggia gli studenti a inviare eventuali domande sulla lezione o sul prossimo compito a casa.

  • 01:20:00 In questa sezione, il docente discute l'importanza di calcolare una risposta significativa, piuttosto che rumorosa, quando si determina la velocità del movimento. Spiega il concetto di guadagno di rumore, che si riferisce alla sensibilità del cambiamento nell'immagine al cambiamento nel risultato, e come influisce sul calcolo della velocità. Prosegue poi descrivendo una trasformazione unidimensionale in cui la funzione diretta è nota e l'obiettivo è invertirla in modo sensibile e non eccessivamente sensibile al rumore.
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 3: Tempo di Contatto, Focus dell'Espansione, Metodi di Visione in Movimento Diretto, Guadagno di Rumore



Lezione 3: Tempo di Contatto, Focus dell'Espansione, Metodi di Visione in Movimento Diretto, Guadagno di Rumore

In questa conferenza, viene enfatizzato il concetto di guadagno di rumore in relazione ai processi di visione artificiale, con particolare attenzione alle diverse direzioni e alle variazioni di precisione. Il docente discute l'importanza di misurare con precisione i vettori e comprendere il guadagno per ridurre al minimo gli errori nei calcoli. Il discorso copre il concetto di tempo al contatto, il focus dell'espansione e i campi di movimento, con una dimostrazione di come calcolare i gradienti radiali per stimare il tempo al contatto. Il docente dimostra anche come superare i limiti nei calcoli fotogramma per fotogramma utilizzando superpixel multiscala, con una dimostrazione dal vivo utilizzando una webcam. Nel complesso, la conferenza fornisce utili spunti sulla complessità dei processi di visione artificiale e su come misurare con precisione varie quantità.

La conferenza discute vari aspetti della visione del movimento e la loro applicazione nel determinare il tempo di contatto, il focus dell'espansione e i metodi di visione del movimento diretto. Il relatore illustra gli strumenti per visualizzare i risultati intermedi, ma ne riconosce anche i limiti e gli errori. Inoltre, viene affrontato il problema della gestione dei movimenti arbitrari nell'elaborazione delle immagini e viene sottolineata l'importanza dei punti vicini che si muovono a velocità simili. La conferenza approfondisce anche i modelli che influenzano il successo dei metodi di visione del movimento diretto e introduce nuove variabili per definire il tempo di contatto e nemico in modo più conveniente. Infine, viene discusso il processo di risoluzione di tre equazioni lineari e tre incognite per capire come diverse variabili influenzano la visione del movimento, insieme alla parallelizzazione del processo per accelerare il calcolo.

  • 00:00:00 In questa sezione, il docente discute il guadagno di rumore, che si riferisce alla relazione tra errori nella misurazione ed errori nella stima delle quantità relative all'ambiente. Usa un esempio di un sistema GPS per interni che utilizza punti di accesso Wi-Fi per illustrare l'idea. L'accuratezza del sistema è limitata dalla misurazione dei tempi di andata e ritorno dal telefono al punto di accesso e ritorno con elevata precisione. Il docente sottolinea che l'analisi del guadagno di rumore di alcuni processi di visione artificiale sarà diversa in direzioni diverse e non sarà un singolo numero. Piuttosto, la precisione può essere determinata abbastanza bene in una direzione, ma non in un'altra, a seconda di come ti muovi.

  • 00:05:00 In questa sezione del video, il docente discute il concetto di utilizzo dei transponder per determinare la posizione e gli errori corrispondenti che ciò può causare. Spiega che se vengono utilizzati due transponder e posizionati in linea, determinare la precisione in una certa direzione diventa difficile a causa di piccoli cambiamenti di distanza. Tuttavia, se i transponder sono posizionati a 90 gradi l'uno dall'altro, la precisione migliora. Inoltre, il docente spiega l'uso dei cerchi in relazione alla determinazione del luogo delle possibili posizioni con la stessa quantità di errore.

  • 00:10:00 In questa sezione, il docente spiega il concetto di trasformazione in avanti che ci porta da una quantità nell'ambiente che deve essere misurata a qualcosa che può essere osservato in uno strumento. Spiega che la misurazione potrebbe non essere perfetta e quindi il rumore nella quantità di interesse è correlato al rumore nella misurazione mediante la derivata della funzione di trasferimento. Il relatore sottolinea anche l'importanza del guadagno di rumore, sottolineando che un piccolo valore di f primo di x non è buono in quanto l'incertezza risultante nella quantità misurata sarebbe grande.

  • 00:15:00 In questa sezione, il relatore discute come misurare i vettori e l'importanza di comprendere il guadagno in queste misurazioni. Spiegano che la misurazione di un vettore richiede un po' più di complessità rispetto alla misurazione di una quantità scalare, ma può comunque essere eseguita applicando trasformazioni lineari. Il relatore sottolinea che un aspetto cruciale delle misurazioni vettoriali è la comprensione del guadagno, che comporta la presa in considerazione dell'anisotropia e la determinazione dell'entità del cambiamento nei risultati e nelle misurazioni. Determinare l'inverso del determinante è essenziale per risolvere equazioni lineari ed è fondamentale evitare che questo valore sia zero o troppo piccolo per ridurre al minimo l'amplificazione degli errori nei calcoli. Il relatore fornisce un esempio di matrice due per due per spiegare come ottenere una matrice inversa.

  • 00:20:00 In questa sezione della lezione, il concetto di guadagno di rumore viene applicato a un esempio che coinvolge il movimento e la risoluzione delle variabili u e v. Viene spiegato che se la quantità è piccola, il rumore verrà amplificato in modo significativo e ciò è dovuto al fatto che i gradienti di luminosità dei due pixel sono simili nell'orientamento, fornendo poche differenze nelle informazioni. Viene utilizzato un diagramma dello spazio delle velocità per mostrare come le due linee si intersecano e come un piccolo spostamento in una linea può causare un grande cambiamento nel punto di intersezione, che non è un caso desiderabile. Tuttavia, non tutte le speranze sono perse, poiché si nota che il guadagno di rumore potrebbe non essere ugualmente elevato in tutte le direzioni ed è utile sapere quale componente può essere considerato attendibile. La conferenza continua quindi a rivedere l'ipotesi di luminosità costante e l'equazione del vincolo prima di passare al concetto di tempo al contatto.

  • 00:25:00 notazione più complessa. In questa sezione, il docente discute il problema del mouse ottico e come affrontarlo utilizzando l'approccio dei minimi quadrati. L'obiettivo è trovare la velocità corretta utilizzando le misurazioni di ex, ey ed et, ma queste misurazioni sono generalmente corrotte dal rumore, quindi il minimo dell'integrale (non zero) sarà la nostra stima di u e v. qualche calcolo per determinare il minimo e spiega l'importanza di minimizzare questo integrale. Passano quindi a casi semplici in cui u e v sono prevedibili, come nel caso del fuoco dell'espansione, e riesaminano la relazione tra le coordinate del mondo e le coordinate dell'immagine nella proiezione prospettica.

  • 00:30:00 In questa sezione, l'oratore discute la relazione tra le velocità, le distanze e il centro dell'espansione per i moti con velocità zero nelle direzioni x e y. Il discorso copre la quantità di w di az, che è la componente del moto nella direzione z, e la distanza di una velocità misurata in metri al secondo o secondi, nota anche come tempo di contatto, che è utile per trovare come ci vorrà molto tempo prima che uno vada a sbattere contro un oggetto se non cambia nulla. L'oratore prosegue poi dimostrando, con un semplice esempio, come funziona il focus dell'espansione quando qualcuno si sta muovendo verso un muro e come sarebbe il campo di movimento in quello scenario.

  • 00:35:00 In questa sezione, il relatore spiega che mentre potremmo pensare che trovare i vettori sia l'approccio più semplice per risolvere il problema di trovare il punto focale dell'espansione, la realtà è che tutto ciò che abbiamo sono immagini che sono modelli di luminosità e non ci sono vettori al loro interno. Invece, dobbiamo utilizzare i dati dell'immagine di un'immagine che si espande o si restringe per risolvere questo problema. Il relatore mostra un diagramma dei vettori che mostrano la compressione piuttosto che l'espansione, ma sottolinea che il focus dell'espansione è un fattore essenziale in questo esperimento. Il relatore introduce anche l'idea del gradiente radiale, che è il prodotto scalare di due vettori: il vettore del gradiente di luminosità e il vettore del centro ottico della fotocamera, e questo può essere utilizzato per misurare l'inverso del tempo per contatto utilizzando derivati di luminosità in un punto dell'immagine. Tuttavia, questi numeri sono soggetti a rumore e la stima delle derivate peggiora le cose, quindi questo metodo non è molto preciso.

  • 00:40:00 In questa sezione, il docente spiega come calcolare i gradienti radiali e utilizzarli per stimare il tempo di contatto di un'immagine. Il gradiente radiale viene calcolato prendendo il prodotto scalare del gradiente dell'immagine con un vettore radiale in un sistema di coordinate polari eretto nell'immagine. Il docente mostra quindi come utilizzare i minimi quadrati per ridurre al minimo la differenza tra il gradiente radiale calcolato e il valore teorico pari a zero per una sorgente puntiforme di luce. Questo viene applicato ad un semplice caso di moto lungo l'asse ottico, dove la stima del parametro c fornisce il tempo di contatto.

  • 00:45:00 In questa sezione della conferenza, il professore spiega il suo approccio alla stima del tempo di contatto utilizzando metodi di visione del movimento diretto. Usa il calcolo per minimizzare l'errore quadratico medio in presenza di rumore e deriva la formula per c, che è l'inverso del tempo di contatto. La chiave è stimare il gradiente di luminosità utilizzando i pixel vicini nelle direzioni x e y, quindi calcolare il gradiente radiale e infine calcolare i doppi integrali su tutti i pixel per ottenere le stime di g e g al quadrato. Con questi, il tempo di contatto può essere stimato facilmente utilizzando la formula per c. Il metodo è semplice ed efficace, senza necessità di elaborazione di alto livello o sofisticate tecniche di riconoscimento degli oggetti, rendendolo un calcolo diretto del tempo di contatto.

  • 00:50:00 In questa sezione, il relatore discute la misurazione della posizione di un autobus utilizzando tecniche di analisi delle immagini. Misurando il numero di pixel nell'immagine del bus e come cambia nel tempo, è possibile determinare con precisione la posizione del bus. Tuttavia, questo processo richiede un alto livello di precisione e può diventare impegnativo quando si ha a che fare con scenari più complessi. Per dimostrare queste tecniche, il relatore utilizza un programma chiamato Montevision, che elabora le immagini per stimare il tempo di contatto e messa a fuoco dell'espansione con vari oggetti. Il programma calcola tre valori per ottimizzare l'accuratezza dell'analisi basata su immagini, ma poiché i risultati sono rumorosi, richiedono un miglioramento costante per essere efficaci.

  • 00:55:00 In questa sezione, il docente discute un metodo per calcolare il tempo di contatto e le limitazioni di farlo utilizzando calcoli fotogramma per fotogramma. Queste limitazioni includono i cambiamenti della messa a fuoco dell'immagine e il fallimento del metodo per adattarsi a velocità maggiori in oggetti più vicini. Il docente dimostra come superare queste limitazioni utilizzando superpixel multiscala o raggruppando i pixel per migliorare la velocità e l'accuratezza dell'elaborazione delle immagini. Infine, il docente mostra una dimostrazione dal vivo utilizzando una webcam per visualizzare il tempo di contatto in base al movimento della telecamera.

  • 01:00:00 In questa sezione, il docente mostra uno strumento in grado di visualizzare risultati intermedi, per cui la derivata x controlla il rosso e la derivata y controlla il verde, dando un effetto tridimensionale, simile alla rapida variazione di un gradiente in una topografia carta geografica. Inoltre, si dimostra che la derivata radiale, g, va verso l'esterno, e quando moltiplicata per la derivata temporale, et, può determinare il moto. Tuttavia, si riconosce che tale strumento ha limiti ed errori calcolabili e nessun codice magico, che lo rende uno strumento affascinante e comprensibile.

  • 01:05:00 In questa sezione, il docente discute il problema della gestione dei movimenti arbitrari nell'elaborazione delle immagini. Nota che il problema nasce dal fatto che u e v, che si riferiscono rispettivamente al movimento nelle direzioni x e y, possono essere differenti in tutta l'immagine. Questo può portare a un milione di equazioni in due milioni di incognite, facendo sembrare il problema irrisolvibile. Il docente suggerisce che potrebbero essere necessarie ulteriori ipotesi per risolvere il problema, ma osserva che nella maggior parte dei casi i punti vicini nell'immagine si muovono a velocità uguali o simili, fornendo informazioni aggiuntive. Avverte inoltre che la soluzione potrebbe fallire se nell'immagine è presente un gradiente radiale pari a zero e spiega cosa significa.

  • 01:10:00 In questa sezione, il docente discute i modelli che possono influenzare il successo dell'utilizzo dei metodi di movimento della visione diretta per calcolare il tempo di contatto. Il docente spiega che alcuni modelli, come una forma a x, hanno gradienti che cambiano in direzioni diverse e, quindi, forniscono informazioni preziose per calcolare il tempo di contatto. Tuttavia, un altro modello, come un grafico a torta, non riesce a fornire queste informazioni poiché i gradienti sono coerenti nella loro direzione. Il docente menziona anche che l'algoritmo potrebbe raccogliere exey diverso da zero da minuscoli granelli o fibre che esistono anche in schemi relativamente coerenti come un pezzo di carta. Infine, la lezione introduce due nuove variabili, fu di z e fv di z, che aiuteranno a definire più convenientemente il tempo di contatto e nemico nelle equazioni.

  • 01:15:00 In questa sezione, l'oratore discute la formula per calcolare il focus dell'espansione, che si basa sui due parametri a e b, e come f non compare nella formula. Mentre per molti scopi, f è necessario per calcolare la distanza e la velocità, il calcolo del tempo di contatto non richiede f. L'oratore quindi formula un problema come problema dei minimi quadrati con un numero finito di parametri a, bec, e procede a derivare l'integrale per trovare la derivata dell'integrando.

  • 01:20:00 In questa sezione della conferenza, il relatore spiega come risolvere tre equazioni lineari e tre incognite per scoprire in che modo diverse variabili influenzeranno la visione del movimento. La soluzione ha una forma chiusa, il che è vantaggioso in quanto consente di trarre conclusioni rapidamente, piuttosto che dover ricalcolare con parametri diversi. Ci sono tre accumulatori, che si differenziano nella direzione orizzontale, verticale e g, che influenzano tutti i coefficienti. La matrice dei coefficienti è simmetrica, il che fornisce una comprensione della stabilità della soluzione.

  • 01:25:00 In questa sezione della conferenza, il relatore discute il parallelismo del processo di esecuzione di sei accumulatori in un'immagine e l'aggiunta di essi man mano che procedi. Questo processo non richiede interazioni tra i pixel e può quindi essere accelerato se eseguito su una GPU. Questi accumulatori non dipendono dai cambiamenti nel tempo in quanto accumulano solo modelli di luminosità e texture all'interno dell'immagine. I restanti tre accumulatori dipendono dai cambiamenti nel tempo. Una volta contabilizzati tutti gli accumulatori, devono essere risolte tre equazioni in tre incognite.
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 4: Flusso Ottico Fisso, Mouse Ottico, Ipotesi di Luminosità Costante, Soluzione in Forma Chiusa



Lezione 4: Flusso Ottico Fisso, Mouse Ottico, Ipotesi di Luminosità Costante, Soluzione in Forma Chiusa

Nella lezione 4 del corso sulla percezione visiva per l'autonomia, il docente discute argomenti come il flusso ottico fisso, il mouse ottico, l'assunzione di luminosità costante, la soluzione in forma chiusa e il tempo di contatto. L'assunzione di luminosità costante porta all'equazione del vincolo di variazione della luminosità, che mette in relazione il movimento nell'immagine con il gradiente di luminosità e la velocità di variazione della luminosità. Il docente dimostra anche come modellare situazioni in cui la telecamera o la superficie è inclinata e discute il vantaggio della media multiscala nella gestione di movimenti di grandi dimensioni. Inoltre, la conferenza esplora l'uso del tempo per il contatto in varie situazioni autonome e mette a confronto diversi sistemi di controllo per l'atterraggio in veicoli spaziali planetari. Infine, la conferenza tocca la proiezione di una linea e come può essere definita usando la proiezione prospettica.

Il relatore discute le applicazioni dell'elaborazione delle immagini, incluso il modo in cui i punti di fuga possono essere utilizzati per recuperare i parametri di trasformazione per la calibrazione della fotocamera e come gli oggetti di calibrazione con forme note possono determinare la posizione di un punto nel sistema incentrato sulla fotocamera. La conferenza copre anche i vantaggi e gli svantaggi dell'utilizzo di forme diverse come oggetti di calibrazione per algoritmi di flusso ottico, come sfere e cubi, e come trovare il centro di proiezione sconosciuto utilizzando un cubo e tre vettori. La conferenza si conclude evidenziando l'importanza di tenere conto dei parametri di distorsione radiale per la calibrazione della camera robotica reale.

  • 00:00:00 In questa sezione, il docente parla della formazione dell'immagine e del tracciamento del movimento. Discutono delle equazioni della proiezione prospettica e del focus dell'espansione, che è il punto verso il quale sta avvenendo il movimento. Viene introdotta l'ipotesi di luminosità costante, il che significa che in molte circostanze la luminosità di un'immagine di un punto nell'ambiente non cambierà nel tempo. Il docente spiega come questa ipotesi porti all'equazione del vincolo di variazione della luminosità, che mette in relazione il movimento nell'immagine con il gradiente di luminosità e la velocità di variazione della luminosità. La conferenza spiega anche come risolvere la velocità richiede vincoli aggiuntivi e come tutto ciò che si muove alla stessa velocità può essere una forma estrema di vincolo.

  • 00:05:00 In questa sezione della lezione, il relatore discute la tecnica di minimizzare l'errore per stimare u e v in problemi di flusso ottico dove c'è una costante u e v per l'intera immagine, come nel caso di un mouse ottico . Questo processo è altamente sovravincolato, ma possiamo ottenere un'equazione lineare nelle incognite, con una matrice di coefficienti due per due simmetrica. Il relatore mostra come calcolare le derivate e le condizioni in cui questo metodo non funziona. Spiegano anche un particolare tipo di immagine in cui e_x e e_y sono ovunque nello stesso rapporto, e questa condizione sarà vera.

  • 00:10:00 In questa sezione, il docente parla dell'isofoto dove exy è costante, che è una linea retta con linee parallele che differiscono solo in c. Questo tipo di immagine pone problemi ai sistemi di mouse ottici perché non possono misurare lo scorrimento in una direzione, rendendo impossibile determinarne l'altra parte. La conferenza introduce quindi il concetto di tempo di contatto, che dipende da rapporti di parti frazionarie piuttosto che da valori assoluti, consentendo al sistema di funzionare senza calibrazione. Il docente dimostra anche come differenziare l'equazione, mostrando che la dimensione dell'oggetto è costante, il che porta alla derivata del prodotto zero.

  • 00:15:00 In questa sezione, il docente spiega una semplice relazione che traduce una certa variazione percentuale delle dimensioni tra i fotogrammi in una certa variazione percentuale della distanza, che si traduce direttamente nel tempo al contatto (TTC). Il docente sottolinea l'importanza di misurare con precisione la dimensione dell'immagine quando si stima il TTC utilizzando il metodo della dimensione dell'immagine, poiché la variazione frazionaria dell'immagine da fotogramma a fotogramma è relativamente piccola per un TTC elevato. Il docente discute anche le ipotesi fatte nel tempo di contatto rispetto a una superficie planare, osservando che vale ancora l'ipotesi che z sia costante.

  • 00:20:00 In questa sezione, il docente discute come modellare situazioni in cui la telecamera o la superficie è inclinata. Nel caso di un piano inclinato, la profondità non sarà più costante nell'immagine. L'equazione per un piano è un'equazione lineare in x e y, che può essere un modello più complicato da osservare. In generale, le equazioni potrebbero diventare troppo complicate lì e potrebbe non esserci una soluzione in forma chiusa. Tuttavia, è meglio concentrarsi prima sui casi in cui esiste una soluzione in forma chiusa. Se la superficie non è planare, possiamo approssimarla con polinomi per impostare un problema dei minimi quadrati. Sfortunatamente, non troveremo una soluzione in forma chiusa, quindi abbiamo bisogno di una soluzione numerica. Tuttavia, dobbiamo stare attenti a introdurre più variabili perché lascia che la soluzione si muova in un'altra direzione, perdendo qualsiasi vantaggio rispetto alla modellazione che la superficie è planare.

  • 00:25:00 In questa sezione, il relatore discute i problemi con l'implementazione multiscala nel flusso ottico. Nonostante il successo dell'implementazione, afferma che la precisione dei risultati diminuisce man mano che il movimento nell'immagine aumenta. Un modo per gestire questo problema è lavorare con immagini più piccole, che riducono il movimento per fotogramma. Il relatore discute anche il vantaggio della media multiscala, che comporta il lavoro con set di immagini sempre più piccoli per gestire movimenti di grandi dimensioni. La quantità di lavoro richiesta aumenta con il numero di sottoinsiemi, ma lo sforzo computazionale totale si riduce. Il relatore sottolinea che il processo di ottimizzazione multiscala è più complicato del semplice calcolo della media dei blocchi due per due utilizzato nella lezione precedente.

  • 00:30:00 In questa sezione della conferenza, il relatore spiega come lavorare su più scale può migliorare notevolmente i risultati dei calcoli del flusso ottico. Spiega che il sottocampionamento dovrebbe essere eseguito dopo il filtraggio passa-basso per prevenire l'aliasing, e mentre si potrebbe sottocampionare in base a un fattore meno aggressivo, come la radice quadrata di 2, spesso viene ignorato a favore del più semplice blocco due per due metodo della media. L'oratore cita anche diverse interessanti applicazioni del flusso ottico, come l'utilizzo del tempo di contatto per prevenire incidenti aerei e per migliorare l'atterraggio di veicoli spaziali sulla luna di Giove, Europa. Spiega come un sistema di controllo può utilizzare il tempo per contattare le misurazioni per modificare l'accelerazione del motore a razzo e abbattere un veicolo spaziale in modo più affidabile.

  • 00:35:00 In questa sezione, la conferenza discute un semplice sistema per mantenere un tempo di contatto costante durante la discesa, che può essere utilizzato in varie situazioni autonome, come automobili o veicoli spaziali. L'idea di base è quella di regolare la forza applicata al motore in base al fatto che il tempo di contatto misurato sia più breve o più lungo di quanto desiderato, in modo da mantenerlo costante. Questo metodo non dipende da alcuna texture o calibrazione specifica, ma si basa semplicemente sul rapporto tra altezza e velocità. L'equazione per questo sistema può essere risolta come un'equazione differenziale ordinaria, che ha una soluzione proporzionale a z.

  • 00:40:00 In questa sezione, il docente discute un sistema di controllo del tempo di contatto costante e lo confronta con un approccio più tradizionale per l'atterraggio in un veicolo spaziale planetario. Il sistema di controllo del tempo di contatto costante è vantaggioso in quanto è più efficiente dal punto di vista energetico poiché mantiene costantemente costante il tempo di contatto e non richiede una conoscenza dettagliata della distanza dalla superficie e della velocità. Il docente mostra i calcoli del tempo di contatto in condizioni di accelerazione costante e sottolinea che il tempo di contatto è sempre la metà di quello osservato utilizzando una strategia di altezza costante.

  • 00:45:00 In questa sezione, il docente discute il concetto di controllo dell'accelerazione costante e come si confronta con gli approcci tradizionali per la stima di distanza e velocità. Quindi introduce la generalizzazione del flusso ottico, che è chiamato flusso fisso, e spiega che presuppone che il movimento di tutte le parti dell'immagine sia lo stesso. Tuttavia, nei casi in cui ci sono moti indipendenti o un piccolo numero di incognite, il sistema può essere sovradeterminato. Discute anche il problema mal posto dei sistemi sottovincolati e come un vincolo pesante può essere utilizzato per risolverlo.

  • 00:50:00 In questa sezione, il docente discute di come i punti vicini in un'immagine non si muovano indipendentemente, ma piuttosto tendano a muoversi a velocità simili, il che crea vincoli per il flusso ottico. Tuttavia, questo vincolo non è un'equazione semplice e richiede strumenti più precisi per risolverlo. Se questi strumenti non sono disponibili, l'immagine può essere suddivisa in parti più piccole in cui l'ipotesi di velocità costante in quell'area è meno significativa. Ma questa divisione crea anche compromessi tra la risoluzione e l'uniformità della luminosità in quelle aree. La conferenza tocca anche l'idea dei punti di fuga e come possono essere utilizzati per la calibrazione della fotocamera o per determinare l'orientamento relativo di due sistemi di coordinate.

  • 00:55:00 In questa sezione della lezione, il professore discute la proiezione di una linea e come può essere definita in vari modi, anche algebricamente e geometricamente. Spiega che una linea in 3D può essere definita da un punto e una direzione utilizzando un vettore unitario e che punti diversi sulla linea hanno valori diversi di s. Il professore prosegue spiegando come questo possa essere proiettato nell'immagine usando la proiezione prospettica, risultando in un'equazione disordinata con variabili x, y e z. Tuttavia, rendendo s molto grande, l'equazione può essere semplificata e si possono studiare gli effetti della calibrazione della fotocamera e dei sistemi di imaging.

  • 01:00:00 In questa sezione, l'oratore parla di punti di fuga, che derivano da linee che convergono in un punto nel piano dell'immagine. Questi punti di fuga possono essere utilizzati per imparare qualcosa sulla geometria dell'immagine, che può essere applicata in scenari di vita reale come avvertire agenti di polizia, operai edili e altre persone che potrebbero essere in pericolo a causa di un'auto in arrivo. La telecamera può determinare la rotazione del suo sistema di coordinate incentrato sulla telecamera rispetto alla strada trovando un punto di fuga. Le linee parallele hanno lo stesso punto di fuga, il che significa che se c'è una serie di linee parallele che formano una forma rettangolare, sono previsti tre punti di fuga.

  • 01:05:00 In questa sezione, il docente discute due applicazioni dell'elaborazione delle immagini: la ricerca dei punti di fuga per recuperare i parametri di trasformazione per la calibrazione della fotocamera e l'utilizzo di oggetti di calibrazione con forme note per determinare la posizione di un punto nell'area incentrata sulla fotocamera sistema. Il docente spiega che trovare i punti di fuga consente di recuperare la panoramica e l'inclinazione della telecamera rispetto alla direzione della strada e dell'orizzonte. La lezione copre anche la necessità di recuperare la posizione dell'obiettivo sopra il piano dell'immagine e l'altezza della proiezione centrale per un'accurata calibrazione della fotocamera. Il docente suggerisce di utilizzare un oggetto di calibrazione con una forma nota, come una sfera, per determinare la posizione di un punto nel sistema incentrato sulla telecamera.

  • 01:10:00 In questa sezione, il docente discute i vantaggi e gli svantaggi dell'utilizzo di forme diverse come oggetti di calibrazione per algoritmi di flusso ottico. Sebbene le sfere siano relativamente facili da realizzare e ottenere, possono essere rumorose e non molto precise quando vengono proiettate sul piano dell'immagine. D'altra parte, i cubi hanno vantaggi significativi dovuti ai loro angoli retti e alle linee parallele, che corrispondono ai punti di fuga. Il docente spiega come trovare i punti di fuga potrebbe aiutare a determinare le proiezioni dell'immagine di tre vettori che puntano in 3D lungo le linee. Queste informazioni possono essere utilizzate per calibrare gli algoritmi di flusso ottico in modo più accurato.

  • 01:15:00 In questa sezione, l'oratore parla della ricerca del centro sconosciuto di proiezione, P, utilizzando un oggetto di calibrazione come un cubo e tre vettori: A, B e C. I tre vettori sono ad angolo retto rispetto l'un l'altro, il che aiuta a creare tre equazioni che risolvono per le tre incognite di P. Tuttavia, i termini di secondo ordine nelle equazioni quadratiche rendono possibile avere più soluzioni, ed è qui che entra in gioco il teorema di Zoot. Usando il teorema, l'oratore mostra che il numero massimo di soluzioni è il prodotto dell'ordine delle equazioni. Per semplificare le equazioni, l'oratore le sottrae a coppie, portando a tre equazioni lineari che possono essere utilizzate per trovare le incognite.

  • 01:20:00 In questa sezione impariamo che mentre ci sono tre equazioni lineari, non sono linearmente indipendenti, e quindi ci sono solo due soluzioni. Le equazioni lineari definiscono i piani nello spazio 3D e, quando intersecate, risultano in una linea che contiene il terzo piano, che non fornisce alcuna informazione aggiuntiva. Questa tecnica è utile per calibrare una telecamera e trovare la posizione del centro di proiezione. Tuttavia, le telecamere reali hanno parametri di distorsione radiale che devono essere presi in considerazione per la calibrazione della telecamera robotica reale.
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
Lecture 4: Fixed Optical Flow, Optical Mouse, Constant Brightness Assumption, Closed Form Solution
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 5: dimostrazioni TCC e FOR MontiVision, punto di fuga, utilizzo di VP nella calibrazione della fotocamera



Lezione 5: dimostrazioni TCC e FOR MontiVision, punto di fuga, utilizzo di VP nella calibrazione della fotocamera

La conferenza copre vari argomenti relativi alla calibrazione della fotocamera, compreso l'uso dei punti di fuga nella proiezione prospettica, la triangolazione per trovare il centro di proiezione e il punto principale nella calibrazione dell'immagine e il concetto di matrici normali per rappresentare la rotazione in una matrice ortonormale. Il docente spiega anche la matematica per trovare la lunghezza focale di una telecamera e come utilizzare i punti di fuga per determinare l'orientamento di una telecamera rispetto a un sistema di coordinate mondiali. Inoltre, viene discusso l'uso di TCC e FOR MontiVision Demos, insieme all'importanza di comprendere la geometria dietro le equazioni nella risoluzione dei problemi.

La conferenza copre vari argomenti relativi alla visione artificiale, tra cui l'influenza dell'illuminazione sulla luminosità della superficie, come le superfici opache possono essere misurate utilizzando due diverse posizioni della sorgente luminosa e l'uso dell'albedo per risolvere il vettore unitario. La conferenza discute anche il punto di fuga nella calibrazione della fotocamera e un metodo semplice per misurare la luminosità utilizzando tre direzioni di sorgenti luminose indipendenti. Infine, il relatore tocca la proiezione ortografica come alternativa alla proiezione prospettica e le condizioni necessarie per utilizzarla nella ricostruzione della superficie.

  • 00:00:00 In questa sezione, il relatore dimostra l'uso di TCC e FOR MontiVision Demos su una webcam puntata su una tastiera. Discutono dell'importanza dei calcoli del tempo di contatto e dei fattori che influenzano tali calcoli. Il relatore discute anche il concetto di punti di fuga nella proiezione prospettica e come possono essere utilizzati nella calibrazione della fotocamera. Spiegano l'equazione per i calcoli del tempo di contatto e come il segno di dzdt influisce sull'immagine degli oggetti in movimento.

  • 00:05:00 In questa sezione, il docente discute il concetto di punto di fuga nella calibrazione della fotocamera, che è il punto sul piano dell'immagine in cui una speciale linea parallela attraversa il centro di proiezione. Anche le altre linee parallele hanno punti di fuga, e man mano che si allontanano, la loro proiezione sull'immagine si avvicina alla proiezione della linea speciale. Questo concetto consente la determinazione delle relazioni tra i sistemi di coordinate e la calibrazione della telecamera, utile per il riconoscimento degli oggetti nelle applicazioni di visione artificiale. Il docente fornisce un esempio di un mondo di oggetti rettangolari con insiemi di linee parallele che definiscono un sistema di coordinate, che può essere proiettato sul piano dell'immagine per la calibrazione.

  • 00:10:00 In questa sezione, il relatore parla dei punti di fuga e del loro utilizzo nella calibrazione della fotocamera. L'oratore spiega che ci sono tre punti di fuga che possono essere determinati con precisione estendendo linee parallele, e questi punti possono essere usati per trovare il centro di proiezione. Il centro di proiezione è dove viene stabilita la relazione tra il sistema di coordinate nell'oggetto e il sistema di coordinate nel piano dell'immagine. Collegando il centro di proiezione ai punti di fuga nel piano dell'immagine, è possibile creare tre vettori e questi vettori possono essere utilizzati per trovare il punto in cui le direzioni verso i punti di fuga sono ad angolo retto tra loro. L'oratore osserva che il luogo di tutti i luoghi in cui potresti essere da cui i punti di fuga saranno ad angolo retto tra loro è un cerchio.

  • 00:15:00 In questa sezione, il docente discute la versione 3D del TCC e la calibrazione della fotocamera. Spiega che il vincolo sulla posizione del centro di proiezione è che si trova su una sfera e come usare le sfere per restringere le possibilità per il centro di proiezione. Il docente discute quindi le equazioni lineari e le rette, oltre a parametrizzare le rette tramite theta e rho. La parametrizzazione è utile in quanto evita le singolarità e fornisce un mondo a due gradi di libertà per le linee.

  • 00:20:00 In questa sezione il docente discute la rappresentazione dei piani in tre dimensioni mediante equazioni lineari a tre incognite. Spiega che in realtà ci sono solo tre gradi di libertà, anziché quattro, a causa di un fattore di scala. Questa dualità significa che esiste una mappatura tra piani e punti in 3D, analogamente alla mappatura tra linee e punti in 2D. Il docente introduce poi il problema della calibrazione della telecamera, confrontandolo con il problema della multilaterazione in robotica, che prevede l'intersezione di tre sfere.

  • 00:25:00 In questa sezione, il relatore spiega come risolvere il punto di intersezione di due sfere nello spazio 3D. La prima sfera è definita come avente un'equazione con termini di secondo ordine, che potrebbe risultare in un massimo di otto possibili soluzioni. Tuttavia, sottraendo questa equazione da una seconda sfera, si può invece ottenere un'equazione lineare. Ripetendo questo processo per tutte le coppie di sfere, si possono creare tre equazioni lineari, con tre incognite che poi possono essere risolte. Mentre questa sembra una soluzione perfetta, è importante notare che la matrice creata da questo metodo è spesso singolare, e quindi non unica nella sua soluzione.

  • 00:30:00 In questa sezione, l'oratore discute il problema della manipolazione delle equazioni e della perdita di informazioni importanti nel processo. Spiega che mentre è perfettamente corretto derivare nuove equazioni, bisogna stare attenti a non buttare via le equazioni originali poiché potrebbero ancora contenere informazioni cruciali necessarie per risolvere il problema. Lo dimostra usando l'esempio delle equazioni lineari e quadratiche e come alcune equazioni possono essere scartate mentre altre devono essere mantenute per ottenere il numero desiderato di soluzioni. Il relatore sottolinea anche l'importanza di comprendere la geometria dietro le equazioni, in quanto può fornire preziose intuizioni che potrebbero non essere immediatamente evidenti solo dall'algebra.

  • 00:35:00 In questa sezione della trascrizione, il relatore discute la triangolazione e come trovare il centro di proiezione e il punto principale nella calibrazione dell'immagine. Spiegano che il centro di proiezione può essere trovato utilizzando tre punti noti che producono tre piani e il centro può essere trovato alla loro intersezione. Per trovare il punto principale, lasciano cadere la perpendicolare dal centro di proiezione nel piano dell'immagine. Discutono anche dei punti di fuga che possono essere utilizzati per rilevare se un'immagine è stata modificata o ritagliata.

  • 00:40:00 In questa sezione, il docente discute l'uso dei punti di fuga nella fotogrammetria e nella calibrazione della fotocamera. Spiega come i punti di fuga possono essere utilizzati per determinare l'autenticità delle immagini ed esplora le varie bufale legate all'esplorazione. Quindi approfondisce la matematica per trovare il terzo componente di un vettore e risolvere un'equazione quadratica per determinare la lunghezza focale. Continua spiegando un caso speciale in cui la lunghezza focale può essere determinata senza la necessità di risolvere un'equazione quadratica. Il video fa parte di una serie di conferenze sugli aspetti tecnici della visione artificiale.

  • 00:45:00 In questa sezione, il relatore discute l'applicazione dei punti di fuga nella calibrazione della fotocamera specificamente per determinare l'orientamento di una fotocamera rispetto a un sistema di coordinate mondiali. L'oratore spiega che identificando caratteristiche come il marciapiede e la segnaletica orizzontale nell'immagine, che sono presumibilmente parallele, possono produrre un punto di fuga che può essere riconosciuto nell'immagine. Il relatore spiega anche che nel caso ideale in cui sono disponibili tutti e tre i punti di fuga, i bordi dell'oggetto rettangolare catturato dalla telecamera possono essere utilizzati per definire gli assi x e y e successivamente determinare la rotazione tra il sistema di coordinate della telecamera e il sistema di coordinate mondiali.

  • 00:50:00 In questa sezione, l'oratore spiega il processo di ricerca dei vettori unitari nel sistema di coordinate dell'oggetto misurato nel sistema di coordinate della telecamera. I vettori unitari devono essere ad angolo retto l'uno rispetto all'altro e vengono quindi utilizzati per calcolare le demo TCC e FOR MontiVision. La matrice di trasformazione rappresenta l'orientamento di un sistema di coordinate rispetto all'altro e l'oratore afferma che in futuro lo faranno di più.

  • 00:55:00 In questa sezione, il docente discute il concetto di matrice normale, in cui le righe sono perpendicolari tra loro e la grandezza di ciascuna riga è uno. Lo scopo di questo è rappresentare la rotazione in una matrice ortonormale. Determinando la direzione degli assi delle coordinate nell'oggetto, è relativamente facile spostarsi avanti e indietro tra due sistemi di coordinate, il che è particolarmente utile per la calibrazione della fotocamera. Infine, la conferenza tocca il concetto di luminosità, in cui la luminosità osservata dipende dalla superficie del materiale, dalla sorgente luminosa, dagli angoli incidenti ed emergenti e dagli angoli azimutali.

  • 01:00:00 In questa sezione del video, il relatore discute il concetto di illuminazione e come influisce sulla luminosità apparente delle superfici. Spiegano che la potenza che una superficie riceve da una sorgente luminosa è influenzata dall'angolo di inclinazione della superficie rispetto alla direzione della sorgente luminosa, che può essere calcolata utilizzando il coseno dell'angolo. L'oratore introduce quindi l'idea di una superficie opaca, che riflette la luce in varie direzioni ma ha la speciale proprietà di apparire ugualmente luminosa da qualsiasi direzione. Proseguono discutendo su come determinare l'orientamento di una tale superficie misurandone la luminosità con due diverse posizioni della sorgente luminosa.

  • 01:05:00 In questa sezione, il relatore discute la non linearità coinvolta nella risoluzione di n, che è un vettore unitario. Utilizzando misure di luminosità, è possibile stimare il coseno theta i e determinare il cono delle possibili direzioni della normale alla superficie. Se si effettuano due misurazioni separate, si creano due coni di direzioni e solo l'intersezione di quei coni, consistenti in due possibili direzioni, dà una direzione normale. Tuttavia, il vincolo che deve essere un'unità normale significa che queste due possibili direzioni devono ora essere intersecate con una sfera unitaria per effettuare una determinazione finale. L'oratore spiega che utilizzando l'albedo, che definisce la riflettività di una superficie, è possibile creare un problema di equazione lineare per determinare quanto è luminoso qualcosa nel piano dell'immagine. Il valore dell'albedo varia da zero a uno e indica quanta energia entra in un oggetto viene riflessa rispetto a quanta viene assorbita e persa.

  • 01:10:00 In questa sezione, la conferenza discute l'uso del punto di fuga (VP) nella calibrazione della fotocamera. La conferenza introduce un trivettore che incapsula le incognite e risolve l'albedo e il vettore unitario attraverso la moltiplicazione matriciale del vettore con le posizioni della sorgente luminosa. Tuttavia, questo metodo è limitato quando le sorgenti luminose sono complanari, cioè sono sullo stesso piano, o se due righe della matrice sono uguali, nel qual caso è impossibile invertire la matrice. La conferenza rileva anche le implicazioni di questi vincoli per gli astronomi, poiché devono garantire che le sorgenti luminose non si trovino sullo stesso piano.

  • 01:15:00 In questa sezione, il relatore discute un metodo semplice per misurare la luminosità utilizzando tre direzioni di sorgenti luminose indipendenti, che possono essere precalcolate e implementate in modo efficiente. Si suggerisce che lo sfruttamento dei tre set di sensori in una fotocamera (RGB) possa essere utile a questo scopo. È possibile creare una tabella di ricerca per calibrare le superfici in base alla forma nota di una sfera e calcolare l'orientamento della superficie per misurare la luminosità in tre immagini. Tuttavia, le superfici reali non seguono questa semplice regola ed è possibile utilizzare una tabella di ricerca per invertire i valori numerici per l'orientamento della superficie. Infine, il relatore tocca la proiezione ortografica come alternativa alla proiezione prospettica.

  • 01:20:00 In questa sezione il relatore spiega le condizioni necessarie per l'utilizzo della proiezione ortografica nella ricostruzione delle superfici a partire dalle immagini. Condivide che l'ipotesi si basa sul fatto che l'intervallo di profondità è molto piccolo rispetto alla profondità stessa, consentendo l'ingrandimento costante richiesto per questa proiezione. La proiezione ortografica viene utilizzata per la semplificazione nel processo di ricostruzione delle superfici dalle immagini.
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
Lecture 5: TCC and FOR MontiVision Demos, Vanishing Point, Use of VPs in Camera Calibration
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 6: Stereo fotometrico, guadagno di rumore, amplificazione dell'errore, revisione degli autovalori e degli autovettori



Lezione 6: Stereo fotometrico, guadagno di rumore, amplificazione dell'errore, revisione degli autovalori e degli autovettori

Durante la lezione, il relatore spiega i concetti di guadagno di rumore, autovalori e autovettori durante la risoluzione di sistemi di equazioni lineari in stereo fotometrico. La conferenza discute le condizioni per matrici singolari, la rilevanza degli autovalori nell'analisi degli errori e l'importanza dell'indipendenza lineare nell'evitare matrici singolari. La conferenza si conclude con una discussione della legge di Lambert e dell'orientamento della superficie, e sottolinea la necessità di rappresentare le superfici utilizzando un vettore normale unitario o punti su una sfera unitaria. Nel complesso, la conferenza fornisce informazioni sui principi matematici alla base dello stereo fotometrico e mette in evidenza le sfide del recupero accurato della topografia della luna dalle misurazioni della terra.

Nella lezione 6 di un corso di fotografia computazionale, il relatore discute come utilizzare il vettore normale unitario e i gradienti di una superficie per trovare l'orientamento della superficie e tracciare la luminosità in funzione dell'orientamento della superficie. Spiegano come utilizzare la parametrizzazione pq per mappare i possibili orientamenti della superficie e mostrano come è possibile utilizzare un piano inclinato per tracciare la luminosità a diversi angoli di orientamento. Il relatore discute anche come riscrivere il prodotto scalare del vettore unitario della sorgente luminosa e del vettore normale unitario in termini di gradienti per trovare le curve nello spazio pq dove tale quantità è costante. La conferenza si conclude con una spiegazione di come i coni creati ruotando la linea verso la sorgente luminosa possono essere utilizzati per trovare sezioni coniche di forme diverse.

  • 00:00:00 In questa sezione del video, il docente discute il guadagno di rumore nel caso 1D, dove c'è un'incognita e una misura, e spiega che se la curva ha una pendenza bassa, un piccolo errore può essere amplificato in un grande la zona. Passando al caso 2D, la discussione si sposta sugli autovettori e sugli autovalori, che sono caratteristici di una matrice e indicano se il vettore ottenuto dalla moltiplicazione della matrice punta nella stessa direzione del vettore utilizzato per moltiplicare la matrice. Il docente fornisce dettagli su come trovare questi vettori e quanti ce ne sono, affermando che la dimensione e la scala dei vettori non contano e che può esserci più di un autovettore.

  • 00:05:00 In questa sezione, il relatore discute il concetto di matrice singolare e la sua rilevanza nella risoluzione di sistemi di equazioni lineari. Una matrice singolare è quella in cui il determinante è zero. Per una matrice simmetrica reale n per n, il determinante è un polinomio di ordine n in lambda, con n radici. Ciò significa che nel caso di un insieme omogeneo di equazioni, ci sono più soluzioni, piuttosto che un'unica soluzione, se il determinante è zero. Questo è importante quando si affrontano problemi multidimensionali come il ripristino del mouse ottico, in cui l'errore in determinate direzioni può essere diverso da altre direzioni. Pertanto, è necessario un quadro più sfumato al di là della semplice identificazione di un piccolo determinante come problematico.

  • 00:10:00 In questa sezione della lezione, il relatore discute le equazioni omogenee e le loro proprietà interessanti, inclusa la condizione per un insieme di equazioni omogenee di avere una soluzione non banale. Viene anche discusso il determinante della matrice, così come gli autovalori e gli autovettori. Gli autovettori saranno direzioni speciali in cui vale la proprietà degli autovalori e saranno ortogonali. Gli autovalori determineranno quanto verrà amplificato l'errore, il che è importante per misurare l'errore nella pratica. Sebbene la ricerca di autovalori e autovettori per matrici di grandi dimensioni venga spesso eseguita tramite software, è utile comprendere il processo a livello di base.

  • 00:15:00 In questa sezione, il relatore discute gli autovettori e gli autovalori nella risoluzione di equazioni omogenee per un caso 2x2. Per trovare gli autovettori, il relatore mostra che le soluzioni dovrebbero essere perpendicolari alle righe della matrice. Il risultato fornisce quattro autovettori che puntano nella stessa direzione per diversi valori di lambda e possono essere normalizzati per ottenere autovettori unitari. La tecnica può essere estesa a una matrice n per n, che fornisce n autovettori e corrispondenti autovalori per discutere l'amplificazione dell'errore.

  • 00:20:00 In questa sezione, il docente spiega come estendere la notazione del prodotto scalare alle matrici e mostra che se gli autovalori sono tutti diversi, allora tutti gli autovettori sono ortogonali. Dice anche che se alcune delle radici sono le stesse, questo non forza gli autovettori ad essere ortogonali, ma può selezionare due tra tutti i possibili autovettori che sono ortogonali tra loro. Questo aiuta a costruire una base per lo spazio vettoriale. Il docente parla anche di come pensare ai vettori come vettori colonna o matrici scarne e mostra come il prodotto scalare può essere scritto in entrambi i modi.

  • 00:25:00 In questa sezione, il docente discute gli autovettori e come possono essere utilizzati per riesprimere qualsiasi vettore in termini di essi. Prendendo una misura vettoriale arbitraria e moltiplicando la matrice per quella misura per ottenere variabili sconosciute, diversi componenti possono essere ingranditi di quantità diverse lungo le direzioni speciali degli autovettori. Questo è noto come guadagno di errore. Tuttavia, si occupano anche di problemi inversi in cui viene utilizzata la matrice inversa, quindi il docente introduce il prodotto diadico di n vettori per applicare l'idea.

  • 00:30:00 In questa sezione, il relatore parla di autovettori e autovalori e di come possono essere usati per riscrivere una matrice in vari modi. Spiegano che questi termini sono tutti dipendenti, ma gli autovettori stessi non lo sono, quindi possono essere presi in considerazione. Continuano a discutere su come questo approccio può essere utilizzato per verificare le proprietà degli autovalori e perché questo è importante per risolvere un problema di visione. Nello specifico, spiegano che la matrice utilizzata per risolvere questo problema spesso moltiplica le componenti del segnale per 1 su lambda i, quindi se lambda i è piccola, può creare un problema mal posto che non è stabile.

  • 00:35:00 In questa sezione, il docente discute gli autovettori e gli autovalori nel contesto dell'analisi degli errori. Spiega che se uno degli autovettori ha un piccolo autovalore, anche un piccolo errore nella misurazione può comportare un grande cambiamento nel risultato. La direzione dell'isofota corrisponde all'autovettore con un piccolo autovalore, rendendo difficile rilevare un movimento accurato, mentre la direzione del gradiente è più indulgente. Il docente passa quindi a discutere lo stereo fotometrico, una tecnica per recuperare l'orientamento della superficie scattando più immagini di un oggetto in diverse condizioni di illuminazione. Spiega che il parametro albedo viene utilizzato per descrivere quanta luce riflette la superficie e che può aiutare a limitare l'orientamento della superficie.

  • 00:40:00 In questa sezione, il docente spiega il processo di utilizzo di diverse sorgenti luminose per ottenere tre misurazioni in modo da poter introdurre un problema con tre incognite e tre misurazioni. Ciò consente di disambiguare l'orientamento dell'immagine utilizzando metodi di risoluzione di equazioni lineari, che si traducono in un modo semplice ed economico per calcolare la soluzione. Il docente osserva che la ricerca delle due soluzioni deriva da una quadratica, che può essere evitata utilizzando la notazione del prodotto scalare per convertire il vettore unitario in un 3-vettore arbitrario. Inoltre, il video menziona l'importanza di righe linearmente indipendenti per evitare matrici singolari.

  • 00:45:00 In questa sezione della lezione vengono discussi lo stereo fotometrico, l'amplificazione dell'errore, gli autovalori e gli autovettori. Viene esplorata la ridondanza delle misurazioni quando la somma delle sorgenti luminose è zero e viene dimostrato che se tre vettori nello spazio tridimensionale sono complanari, il metodo fallirà. Tuttavia, se non sono complanari e sono disposti ad angolo retto tra loro, i risultati saranno più affidabili. La conferenza fa anche riferimento all'uso dello stereo fotometrico per creare mappe topografiche della luna basate su diverse illuminazioni dal sole.

  • 00:50:00 In questa sezione della conferenza, il professore discute le sfide del tentativo di ottenere la topografia della luna dalle misurazioni della terra. Sebbene sia possibile effettuare misurazioni in diverse posizioni nell'orbita della luna, questo metodo non funziona perché i vettori sono quasi complanari. Il professore parla anche dell'ipotesi lambertiana, che presuppone che un oggetto abbia una riflettanza perfettamente diffusa e uniforme, ma osserva che non è il caso della superficie della luna. Tuttavia, questa ipotesi è utile per confrontare due intensità di illuminazione, che possono essere ottenute illuminando un lato con una fonte e l'altro lato con un'altra fonte e quindi bilanciandolo in modo che i due lati appaiano ugualmente luminosi se guardati dalla stessa angolazione.

  • 00:55:00 In questa sezione della conferenza, il professore discute gli esperimenti condotti da Lambert che hanno portato alla scoperta della Legge di Lambert, che spiega come le superfici riflettono la luce quando sono illuminate da diverse angolazioni. La legge afferma che la luminosità è proporzionale al coseno dell'angolo incidente. La discussione evidenzia anche la necessità di parlare dell'orientamento della superficie e di come può essere rappresentato utilizzando un vettore normale unitario o mediante punti su una sfera unitaria. Il professore afferma che questo modello fenomenologico è un comportamento postulato e non una rappresentazione esatta delle superfici reali. La sezione termina introducendo uno sviluppo in serie di Taylor.
  • 01:00:00 In questa sezione del video, il relatore discute la relazione tra la notazione normale unitaria e la notazione gradiente nei problemi computazionali. Spiegano come passare avanti e indietro tra le due notazioni e forniscono esempi di come ciò sia utile per risolvere problemi in diversi domini, come le coordinate cartesiane e le coordinate polari. Il relatore mostra anche come trovare le tangenti in una superficie e spiega come utilizzare la direzione di tali tangenti per trovare la relazione tra l'unità normale e p e q, che rappresentano i gradienti sulla superficie.

  • 01:05:00 In questa sezione, il docente discute come mappare tutti i possibili orientamenti della superficie utilizzando il vettore normale unitario della superficie e come queste informazioni siano utili per la visione artificiale. Il prodotto incrociato di due vettori tangenti che giacciono sulla superficie fornisce la direzione del vettore normale unitario, che può quindi essere normalizzato per ottenere la direzione della superficie. Proiettando gli orientamenti della superficie in un piano 2D utilizzando la parametrizzazione pq, è possibile visualizzare tutti i possibili orientamenti della superficie. I punti su questo piano corrispondono a diversi valori di p e q e quindi a diversi orientamenti della superficie, compreso il pavimento e qualsiasi superficie al di sopra del pavimento con lo stesso orientamento. Il docente osserva che sebbene la visione artificiale possa recuperare l'orientamento della superficie, mettere insieme questi orientamenti per creare una superficie completa è un problema separato, ma sovradeterminato.

  • 01:10:00 In questa sezione del video, il relatore spiega come un piano inclinato può essere utilizzato come strumento per tracciare la luminosità in funzione dell'orientamento della superficie nella visione artificiale. Ogni punto sul piano corrisponde a un particolare orientamento della superficie e i valori di luminosità possono essere determinati sperimentalmente da un pezzo di materiale a diversi angoli di orientamento. Tuttavia, una singola misurazione della luminosità non può recuperare due incognite e sono necessarie più misurazioni per definire l'orientamento dell'elemento di superficie. Questo concetto è quindi correlato allo stereo fotometrico e alla superficie lambertiana, in cui la luminosità è proporzionale al coseno dell'angolo incidente e le isofote sono ricercate nel piano inclinato.

  • 01:15:00 Qui discute la riscrittura della direzione della sorgente luminosa in un modo diverso per eseguire completamente la stessa trasformazione sul vettore unitario come su n. Questo introduce un punto in cui i raggi di luce incidenti sono paralleli alla superficie normale, chiamata psqs, che è nel piano e fornisce la superficie più luminosa per la Lamborghini. Riscrivendo gli n punti s in una forma specifica, possono determinare le curve nello spazio pq dove quella quantità è costante. Dopo aver moltiplicato tutto, rimane un'equazione di secondo ordine in p e q, che corrisponde a una sezione conica. Gli esempi forniti sono parabola ed ellisse.

  • 01:20:00 In questa sezione, il relatore discute un diagramma che può essere utilizzato per la grafica, in cui viene tracciata una superficie insieme a un diagramma che contiene un insieme di isofoad per vari tipi di superfici, tra cui parabole, ellissi, cerchi, linee , punti e iperboli. La luminosità della superficie viene letta dal diagramma e utilizzata come livello di grigio o colore nell'immagine tracciata. L'unità normale può essere ricavata dalla superficie e utilizzata per determinare il punto sulle isofodie. Il diagramma cambia quando la sorgente luminosa viene spostata, quindi è importante determinare il punto di intersezione di due set di isofoad per ottenere una soluzione unica. Vengono utilizzate tre sorgenti luminose invece di due, poiché avere due sorgenti luminose può portare a soluzioni finite invece di un'unica soluzione.

  • 01:25:00 In questa sezione, il relatore spiega come la linea verso la fonte di luce può essere ruotata per creare coni e angoli diversi, creando coni nidificati. Questi coni possono essere tagliati da un piano, risultando in sezioni coniche che non sono sempre ellissi, ma anche iperboli e persino parabole. Il relatore chiarisce inoltre che il coseno theta non può essere negativo in pratica e lascia la questione di dove la curva si trasforma da curva chiusa ad aperta come un puzzle per futuri problemi con i compiti. La conferenza si conclude con un promemoria per iscriversi su Piazza per i compiti e gli aggiornamenti degli annunci.
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
Lecture 6: Photometric Stereo, Noise Gain, Error Amplification, Eigenvalues and Eigenvectors Review
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 7: Gradient Space, mappa di riflettanza, equazione dell'irraggiamento dell'immagine, proiezione gnomonica



Lezione 7: Gradient Space, mappa di riflettanza, equazione dell'irraggiamento dell'immagine, proiezione gnomonica

Questa conferenza discute lo spazio del gradiente, le mappe di riflettanza e le equazioni di irradianza dell'immagine. Il docente spiega come utilizzare una mappa di riflettanza per determinare l'orientamento e la luminosità della superficie per applicazioni grafiche e come creare una mappatura numerica dall'orientamento della superficie alla luminosità utilizzando tre immagini scattate in diverse condizioni di illuminazione. Introducono anche il concetto di irradianza e la sua relazione con l'intensità e la radianza, nonché l'importanza di utilizzare un'apertura finita quando si misura la luminosità. Inoltre, la conferenza tocca le tre regole di come si comporta la luce dopo essere passata attraverso una lente, il concetto di scorcio e come la lente focalizza i raggi per determinare quanta luce da una macchia sulla superficie è concentrata nell'immagine.

In questa conferenza, il relatore spiega l'equazione per determinare la potenza totale fornita a una piccola area in un'immagine, che tiene conto degli angoli solidi e del coseno theta. Collegano questa equazione all'f-stop nelle fotocamere e al modo in cui la dimensione dell'apertura controlla la quantità di luce ricevuta. L'oratore discute anche dell'irradianza dell'immagine, che è proporzionale alla radianza degli oggetti nel mondo reale, e di come la luminosità diminuisce man mano che andiamo fuori asse. Passano a discutere la funzione di distribuzione della riflettanza bidirezionale, che determina quanto luminosa apparirà una superficie a seconda dell'incidente e della direzione emessa. Il docente spiega che la riflettanza può essere misurata utilizzando un goniometro e che è importante modellare realisticamente il modo in cui un oggetto riflette la luce. Spiegano anche il concetto di reciprocità di Helmholtz per la funzione di distribuzione della riflettanza bidirezionale. La lezione passa quindi a discutere l'applicazione dello spazio gradiente ai modelli di materiale di superficie e ricorda agli studenti di tenersi aggiornati sulle informazioni sui compiti a casa.

  • 00:00:00 In questa sezione viene introdotto il concetto di spazio gradiente per esplorare ciò che determina la luminosità in un'immagine. La luminosità dipende solitamente dall'illuminazione e dalla geometria, come l'orientamento della superficie, rendendo così necessario menzionare l'orientamento della macchia di superficie per determinare la luminosità. Vengono anche menzionate le normali unitarie, ep e q, che sono solo comode scorciatoie per le pendenze nell'immagine. La luminosità di una superficie lambertiana è discutibile, a seconda dell'orientamento della superficie in questione. Molte superfici opache sono approssimazioni di una superficie lambertiana e tali approssimazioni possono sembrare utili. Tuttavia, la maggior parte delle situazioni cosmiche e microscopiche non sono appropriate per tali approssimazioni.

  • 00:05:00 In questa sezione della conferenza, il relatore discute il concetto di mappa di riflettanza, un diagramma che mostra quanto dovrebbe apparire luminosa una superficie in base al suo orientamento. Questo diagramma può essere utilizzato per determinare l'orientamento e la luminosità della superficie per le applicazioni grafiche. Il relatore prosegue poi spiegando come questo concetto possa essere esteso a superfici non lambertiane e come costruire una tabella di ricerca per determinare la luminosità in base all'orientamento della superficie. Ulteriori informazioni e vincoli possono essere utilizzati per perfezionare ulteriormente la stima dell'orientamento della superficie.

  • 00:10:00 In questa sezione, il docente discute come utilizzare un oggetto di calibrazione, come una sfera, per la calibrazione dell'immagine. Prendendo l'immagine di una sfera illuminata da tutti i lati e adattandovi un cerchio, si può stimare il centro e il raggio dell'immagine. Per le sfere esiste una relazione conveniente in cui un punto rispetto alla superficie e un vettore unitario sono paralleli, facilitando la determinazione dell'orientamento della superficie. Questo metodo può essere utilizzato anche per la Terra, con alcune modifiche alla definizione di latitudine. Calcolando p e q usando la formula della lezione precedente, si possono determinare n e l'orientamento della superficie per ogni punto dell'immagine.

  • 00:15:00 In questa sezione, la conferenza discute il processo di costruzione di una mappatura numerica dall'orientamento della superficie alla luminosità in tre immagini scattate in diverse condizioni di illuminazione. L'obiettivo è utilizzare queste informazioni per calcolare l'orientamento della superficie quando successivamente si acquisiscono tre immagini di un oggetto nelle stesse condizioni di illuminazione. Il docente spiega l'implementazione di questo processo, che prevede la creazione di un array tridimensionale nel computer in cui ogni casella ha valori p e q. Le immagini vengono quindi quantizzate a intervalli discreti e utilizzate per inserire informazioni nell'array. La conferenza affronta anche questioni come gli effetti di quantizzazione e le celle vuote che potrebbero non essere mai riempite.

  • 00:20:00 In questa sezione, l'oratore spiega Gradient Space, che è uno spazio 2D che viene mappato in uno spazio 3D senza effettivamente riempire quello spazio. Invece, in quello spazio si forma una superficie e possiamo indirizzare i punti su quella superficie usando p e q. Quando passiamo da due immagini a tre, introduciamo il fattore albedo, che scala linearmente con e1 e2 e3. Gli oggetti di calibrazione vengono dipinti di bianco e vengono effettuate misurazioni, generando definizioni della superficie per rho uguale a uno. Tuttavia, per altre righe, possiamo riempire i cubi e generare altre superfici. La tabella di ricerca in cui sono posizionate le voci include p qand row, una tabella di ricerca da 3D a 3D. Se qualcosa va storto, viene riflesso come un valore diverso da quello dell'albedo rho, indicando un errore o un blocco imprevisto di una delle tre sorgenti luminose. Il metodo aiuta a riconoscere la proiezione di ombre o, per le superfici riflettenti troppo vicine o posizionate come in forme di ciambelle sovrapposte, a segmentare e scomporre l'immagine in parti.

  • 00:25:00 In questa sezione della lezione, il relatore discute i modi per segmentare le ombre proiettate e le aree ad alta riflessione utilizzando lo spazio del gradiente e le mappe di riflettanza. Esiste un modo metodico per compilare i valori della tabella con i corrispondenti valori di voxel. Il relatore introduce anche il concetto di irradianza, che è la potenza per unità di area di una sorgente luminosa che colpisce una superficie. Questo concetto non è molto utile nel contesto dell'elaborazione delle immagini, poiché non esponiamo il sensore direttamente all'illuminazione. Il relatore spiega che esiste una terminologia per la quantità di potenza emessa divisa per area, ma è inutile per l'elaborazione delle immagini.

  • 00:30:00 In questa sezione, l'oratore spiega il concetto di intensità e il suo significato in termini di misurazione della quantità di radiazione che va in una certa direzione utilizzando una sorgente puntiforme. L'angolo solido è definito per normalizzare la misura e le sue unità sono misurate in steradianti, che è simile ai radianti in 2D ma proiettati nello spazio tridimensionale. L'angolo solido consente la misurazione di un insieme di direzioni in qualsiasi forma, dove le possibili direzioni attorno all'altoparlante sono uguali a quattro pi steradianti. Inoltre, il relatore tocca l'importanza di tenere conto dei casi in cui la superficie è inclinata rispetto al centro della sfera a causa del fenomeno di scorcio dell'oggetto, come quando l'obiettivo di una fotocamera è inclinato rispetto a un soggetto fuori centro.

  • 00:35:00 In questa sezione del video vengono spiegati i concetti di intensità e radiosità. L'intensità è definita come potenza per un angolo solido, mentre la radianza è la potenza per unità di area per unità di angolo solido. La radianza è la quantità più utile quando si tratta di misurare ciò che raggiunge un osservatore o una telecamera da una superficie. Nel piano dell'immagine, la luminosità è misurata come irradianza, che è la luminosità che misuriamo in termini di radianza della superficie.

  • 00:40:00 In questa sezione, il docente discute la relazione tra la misurazione dell'energia e della potenza e come sono proporzionali tra loro. Parla anche dell'importanza di utilizzare un'apertura finita quando si misura la luminosità e dei problemi che sorgono quando si utilizza il modello a foro stenopeico. Il docente introduce la lente sottile ideale e le sue tre regole, tra cui il raggio centrale non deviato e il raggio dal centro focale che emerge parallelamente all'asse ottico. Spiega come le lenti forniscano la stessa proiezione del foro stenopeico fornendo un numero finito di fotoni e la penalità per usarle a una certa lunghezza focale e distanza.

  • 00:45:00 In questa sezione, il video spiega le tre regole di come si comporta la luce dopo aver attraversato una lente. La regola numero uno afferma che qualsiasi raggio dal centro focale, dopo aver attraversato la lente, sarà parallelo all'asse ottico. La regola numero due afferma che una matrice parallela da destra passerà attraverso il centro focale. Infine, la regola numero tre è una combinazione delle prime due regole. Il video utilizza triangoli simili per derivare la formula dell'obiettivo, che consente di determinare la messa a fuoco e la lunghezza dell'obiettivo. Sebbene gli obiettivi siano computer analogici impressionanti in grado di reindirizzare i raggi di luce, non possono ottenere un reindirizzamento perfetto a causa dei limiti fisici dell'obiettivo.

  • 00:50:00 In questa sezione, il video illustra come le lenti gestiscono i raggi provenienti da varie direzioni e come esistono compromessi tra diversi tipi di difetti, come la distorsione radiale. Il video spiega anche il concetto di irradianza e radianza dell'oggetto e come utilizzare un diagramma di un semplice sistema di imaging per determinare quanta energia esce da una patch di oggetto e quanta finisce in una patch di immagine attraverso l'illuminazione. Inoltre, il video rileva il presupposto che i piani dell'immagine e gli obiettivi piatti siano utilizzati nelle fotocamere.

  • 00:55:00 In questa sezione della conferenza, il relatore discute su come mettere in relazione l'effetto di scorcio del vettore unitario sulla superficie di un oggetto con la luce incidente sul sensore di immagine. Scrive una formula per l'angolo solido e tiene conto dell'effetto di scorcio moltiplicando per il coseno alfa e dividendo per f secante alfa al quadrato. Quindi mette in relazione l'irraggiamento nell'immagine con l'energia totale proveniente da quella macchia e dall'area delta i. Infine, parla di come l'obiettivo mette a fuoco i raggi e di come l'angolo solido che l'obiettivo occupa quando visto dall'oggetto determina quanta luce da quella macchia sulla superficie è concentrata nell'immagine.
  • 01:00:00 In questa sezione della conferenza, il relatore spiega l'equazione per la potenza totale erogata a una piccola area in un'immagine, che tiene conto dell'angolo solido e del coseno theta. La potenza per unità di area viene quindi trovata dividendo la potenza totale per l'area, che è quella effettivamente misurata. L'oratore mette in relazione questa equazione anche con l'f-stop nelle fotocamere, che determina quanto è aperta l'apertura e quindi controlla la quantità di luce ricevuta. La dimensione dell'apertura viene solitamente misurata in incrementi di radice quadrata di 2 e l'irradianza dell'immagine è inversamente proporzionale al quadrato dell'apertura focale.

  • 01:05:00 In questa sezione, il relatore discute di come l'irradianza dell'immagine, che è la luminosità dell'immagine, sia proporzionale alla radianza degli oggetti nel mondo reale. La luminosità della radianza della superficie è proporzionale alla luminosità nell'irradianza dell'immagine, facilitando la misurazione della luminosità nell'immagine. Tuttavia, la luminosità diminuisce man mano che andiamo fuori asse, rappresentato dal coseno al quarto alfa, che deve essere preso in considerazione quando si utilizza un obiettivo grandangolare. Sebbene questo effetto non sia molto evidente, può essere compensato nella catena di elaborazione delle immagini. Questa formula giustifica l'idea di misurare la luminosità utilizzando i livelli di grigio nell'immagine e mostra che ha qualcosa a che fare con ciò che è nel mondo reale.

  • 01:10:00 In questa sezione, il docente spiega il concetto di funzione di distribuzione della riflettanza bidirezionale, che determina quanto luminosa apparirà una superficie a seconda dell'incidente e della direzione emessa. Il docente rivela che il rapporto di riflettanza non è così semplice come dire che il bianco riflette tutta la luce che entra e il nero non ne riflette nessuna. Il docente ha anche discusso l'uso consueto degli angoli polari e azimutali per specificare la direzione della luce che entra o che esce. La funzione di distribuzione della riflettanza bidirezionale è essenziale per determinare la riflettanza e misura la potenza in uscita divisa per la potenza in entrata.

  • 01:15:00 In questa sezione della conferenza, il relatore discute la riflettanza, che è definita come la luminosità di un oggetto quando viene visto da una posizione specifica divisa per quanta energia viene immessa dalla direzione della sorgente. L'oratore spiega che la riflettanza può essere misurata utilizzando un goniometro, che è un dispositivo di misurazione dell'angolo che aiuta a esplorare uno spazio quadridimensionale. Il relatore osserva che molte superfici richiedono solo la differenza tra due angoli per misurare con precisione la riflettanza, rendendo il processo più semplice per determinati oggetti. La modellazione realistica del modo in cui un oggetto riflette la luce è importante e la misurazione della riflettanza consente questa modellazione realistica piuttosto che una semplice approssimazione con un modello noto.

  • 01:20:00 In questa sezione, il professore discute i materiali che richiedono il modello quadridimensionale completo per calcolarne l'aspetto, come oggetti iridescenti con microstrutture che producono colore attraverso l'interferenza e pietre semipreziose come gli occhi di tigre, che hanno strettamente microstrutture impaccate sulla scala della lunghezza d'onda della luce. Il professore introduce anche il concetto di reciprocità di Helmholtz per la funzione di distribuzione della riflettanza bidirezionale, in cui si afferma che se si scambia la luce incidente e quella emessa, si dovrebbe ottenere lo stesso valore, facilitando la raccolta dei dati.

  • 01:25:00 In questa sezione, il relatore discute una tecnica utilizzata da un professore durante un dibattito. L'oratore inizialmente pensava che il professore stesse evidenziando la loro mancanza di conoscenza facendo riferimento a un libro in tedesco, ma in seguito si rese conto che si trattava solo di una tecnica di discussione. La conferenza passa quindi a discutere l'applicazione dello spazio gradiente ai modelli di materiale superficiale per determinare l'ombra superficiale su oggetti come la luna e i pianeti rocciosi nel nostro sistema solare. Il relatore ricorda inoltre agli studenti di tenersi aggiornati su eventuali proroghe o informazioni importanti riguardanti i compiti tramite Piazza.
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
Lecture 7: Gradient Space, Reflectance Map, Image Irradiance Equation, Gnomonic Projection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 8: Ombreggiatura, Casi speciali, Superficie lunare, Microscopio elettronico a scansione, Teorema di Green




Lezione 8: Ombreggiatura, Casi speciali, Superficie lunare, Microscopio elettronico a scansione, Teorema di Green

In questa conferenza, il professore copre diversi argomenti relativi alla fotometria e all'ombreggiatura. Spiega la relazione tra irradianza, intensità e radianza e come vengono misurate e correlate. La conferenza introduce anche la funzione di distribuzione della riflettanza bidirezionale (BRDF) per spiegare come l'illuminazione influisce sull'orientamento e sul materiale di una superficie. Il docente discute ulteriormente le proprietà di una superficie lambertiana ideale e le sue implicazioni per misurare la luce in entrata ed evitare confusione quando si tratta della reciprocità di Helmhotz. La lezione copre anche il processo di conversione da gradiente a vettore unitario e come si collega alla posizione della sorgente luminosa. Infine, la lezione spiega come la misurazione della luminosità può determinare la pendenza o la direzione della pendenza di una superficie.

La conferenza copre vari argomenti relativi all'ottica e alla visione artificiale. Il professore discute l'uso della forma dalle tecniche di ombreggiatura per ottenere un profilo della superficie di un oggetto per determinarne la forma. Quindi passa alla discussione degli obiettivi e giustifica l'uso della proiezione ortografica. Il docente parla anche della rimozione della proiezione prospettica nella visione artificiale costruendo obiettivi telecentrici e dimostra vari trucchi per compensare le aberrazioni dovute alla variazione dell'indice di rifrazione del vetro con le lunghezze d'onda. Infine, il relatore introduce il concetto di proiezione ortografica, che semplifica alcuni dei problemi legati alla proiezione prospettica.

  • 00:00:00 In questa sezione, il docente passa in rassegna i concetti chiave della lezione precedente sulla fotometria. Definisce l'irraggiamento, l'intensità e la radiosità e spiega come vengono misurati e correlati. Quindi introduce la relazione tra la luminosità di una superficie e l'irradiazione della parte corrispondente di un'immagine, che può essere utilizzata per parlare di luminosità sia nel mondo che all'interno di una macchina fotografica. Il docente spiega come questa relazione sia influenzata dall'apertura dell'obiettivo, che limita l'angolo solido e l'area dell'immagine.

  • 00:05:00 In questa sezione, l'obiettivo è determinare la radianza di una superficie in relazione alla quantità di illuminazione, geometria e materiale. Viene introdotta la funzione di distribuzione della riflettanza bidirezionale (BRDF) per spiegare come l'illuminazione influisce sull'orientamento e sul materiale di una superficie. Il BRDF è una funzione della direzione incidente e della direzione emessa della luce, che può essere calcolata calcolando la potenza di uscita totale divisa per la potenza di ingresso totale. Inoltre, il BRDF deve soddisfare un vincolo, in cui deve risultare lo stesso se le direzioni verso la sorgente e lo spettatore vengono scambiate. Sebbene alcuni modelli di riflettanza superficiale violino questo vincolo, non è fondamentale per la visione umana o artificiale, rendendolo una scorciatoia per ridurre il numero di misurazioni necessarie da effettuare.

  • 00:10:00 In questa sezione della lezione, il professore discute le proprietà di una superficie lambertiana ideale: appare ugualmente luminosa da ogni direzione di osservazione, e se è una superficie lambertiana ideale, riflette anche tutta la luce incidente. Il professore spiega che questo semplifica la formula poiché non dipenderà da due dei quattro parametri. Quindi discute su come gestire le fonti distribuite come le luci in una stanza e l'integrazione su un emisfero di direzioni incidenti. Il professore spiega che dobbiamo integrare su tutte le direzioni emesse e come calcolare l'area della macchia usando l'angolo polare e l'azumith. Infine, afferma che il termine f è costante.

  • 00:15:00 In questa sezione, la conferenza discute il concetto di ombreggiatura e il riflesso della luce su una superficie. La conferenza mette in evidenza che la luce che cade su una superficie dipende dalla radiazione incidente e dall'angolo di incidenza. Si dice che tutta la luce viene riflessa e la potenza depositata sulla superficie è e coseno theta i volte l'area della superficie. Pertanto, quando la luce riflessa è integrata, è uguale alla luce entrante. La lezione calcola il valore costante di f per la superficie di inversione e conclude che f è 1 su pi greco per la superficie lambertiana. Si nota che l'energia riflessa non viene irradiata in modo uniforme in tutte le direzioni e si spiega come lo scorcio influisca sulla potenza emessa da una superficie.

  • 00:20:00 In questa sezione della conferenza, il professore discute il concetto di superficie lambertiana, che è una superficie che irradia luce in modo uniforme in tutte le direzioni. Tuttavia, quando si ha a che fare con una superficie ampia e inclinata rispetto alla sorgente luminosa, l'area dell'elemento di superficie si restringe e, di conseguenza, la potenza per unità di area diventa infinita. Per evitare danni alla retina, la superficie irradia meno in certe direzioni, ma la potenza per unità di superficie rimane costante. Questa condizione significa che la superficie effettivamente irradia di più in certe aree e meno in altre, risultando in un rapporto di uno su pi greco invece di uno su 2 pi greco. La conferenza prosegue poi spiegando come utilizzare questa conoscenza per misurare la luce in entrata ed evitare confusione quando si tratta della reciprocità di Helmhotz.

  • 00:25:00 In questa sezione, il docente introduce un tipo di superficie che è diverso da una superficie lambertiana ed è piuttosto importante in molte applicazioni. Questo tipo di superficie è uno sopra la radice quadrata di coseno theta i per coseno theta e, e soddisfa la reciprocità di Helmholtz. La radianza di questo tipo di superficie è influenzata dallo scorcio, ed è usata per modellare le superfici dei pianeti lunari e rocciosi così come alcuni asteroidi. La conferenza spiega come determinare le isofote di questa superficie, che sono cerchi nidificati nello spazio 3D, ma sono proiettati come ellissi nel piano dell'immagine, fornendo informazioni sulle mappe di contorno della luminosità.

  • 00:30:00 In questa sezione, il relatore discute la difficoltà nel trovare il modo di sfumare un certo materiale nello spazio 3D. Spiegano che il metodo precedente utilizzato in un laboratorio non funzionerà per questo materiale, quindi è necessario un nuovo approccio. L'oratore quindi dimostra l'utilizzo delle normali unitarie per trovare i valori costanti di tutti i punti sulla superficie, che devono essere perpendicolari a un vettore fisso. Mostra quindi che ciò implica che tutti i vettori unitari sulla superficie con la stessa luminosità devono giacere su un piano, rivelando informazioni utili sul materiale. Infine, l'oratore utilizza le coordinate sferiche per cercare di ottenere una migliore comprensione.

  • 00:35:00 In questa sezione, il docente discute su come scegliere un sistema di coordinate quando si ha a che fare con l'ombreggiatura della superficie lunare, poiché avere un buon sistema in atto può prevenire un pasticcio algebrico. Raccomandano di utilizzare un sistema di coordinate in cui il sole e la terra sono a z=0, semplificando i calcoli a una sola incognita. La conferenza tocca anche brevemente l'aspetto della luna piena, dove il disco dovrebbe essere uniformemente luminoso, ma a causa della sua microstruttura non lambertiana, non sembra completamente sferico. Il modello Hakka è buono per prevedere questo tipo di comportamento. Infine, la lezione approfondisce la formula per n punto s su n punto v, arrivando infine a una versione semplificata utilizzando vettori di coordinate sferiche.

  • 00:40:00 In questa sezione, il docente discute la relazione tra la luminosità e l'azimut della superficie lunare. Spiegano che tutti i punti sulla superficie con la stessa luminosità hanno lo stesso azimut e che le linee di longitudine costante sono isofode. Questo è molto diverso da una superficie lambertiana. Nonostante la luna abbia un'albedo pari al carbone, appare molto luminosa nel cielo a causa della mancanza di oggetti di confronto per misurarne la riflettanza. Tuttavia, possiamo usare lo stereo fotometrico per determinare l'orientamento della superficie della luna, e potenzialmente anche la sua forma, scattando più immagini della superficie in diverse condizioni di illuminazione. Il modello Hopkin viene utilizzato per descrivere l'orientamento della superficie in termini di gradiente.

  • 00:45:00 In questa sezione, il docente discute il processo di conversione da gradiente a vettore unitario e come si collega alla posizione della sorgente luminosa. Spiegano che la radice quadrata è necessaria per garantire la soddisfazione di Helmholtz e, prendendo il rapporto di determinati prodotti scalari, si ottiene un'equazione lineare per le isofote che possono essere tracciate nello spazio pq. Il docente osserva che mentre queste linee non sono equidistanti a causa della radice quadrata, sono parallele e c'è una linea in cui la luminosità è zero, indicando una deviazione di 90 gradi dalla radiazione in arrivo. Nel complesso, questa sezione copre i concetti matematici alla base del calcolo delle isofote e la relazione tra posizione e luminosità delle sorgenti luminose in un dato spazio.

  • 00:50:00 In questa sezione, il docente discute i vantaggi dell'ombreggiatura lineare in stereo fotometrico, che consente una facile soluzione di vari problemi. Con due diverse condizioni di illuminazione, le due equazioni lineari si intersecano e il punto di intersezione è l'orientamento della superficie. Il docente osserva che non c'è ambiguità con l'ombreggiatura lambertiana, un problema con il metodo precedente, dove c'erano fino a quattro soluzioni. Il docente dimostra anche che le prime derivate spaziali ruotano allo stesso modo del sistema di coordinate, e questo è utile per determinare l'orientamento della superficie in una particolare direzione senza conoscere l'intero orientamento della superficie.

  • 00:55:00 In questa sezione, il docente spiega come la misurazione della luminosità può determinare la pendenza o la direzione della pendenza di una superficie, consentendo ai ricercatori di raccogliere un profilo di una superficie misurando la luminosità o la riflettività dei punti verticalmente e orizzontalmente. Il processo richiede una condizione iniziale per l'avvio, che consiste nel misurare la luminosità della superficie e trovare in modo incrementale z. Tuttavia, la precisione della misurazione può essere influenzata dalla variazione della riflettività e dalle imprecisioni nella misurazione della luminosità.

  • 01:00:00 In questa sezione, il professore discute come ottenere un profilo della superficie di un oggetto per determinarne la forma utilizzando la forma delle tecniche di ombreggiatura. Spiega come, eseguendo un profilo su un oggetto, può ottenere la forma del profilo purché conosca il valore iniziale. Tuttavia, non può ottenere la posizione verticale assoluta del profilo se non conosce il valore iniziale. Quindi applica questa tecnica alla luna per ottenere vari profili della superficie per esplorare la forma dell'oggetto. Il professore parla anche di euristica per ricucire superfici 3D dai profili. Successivamente, cambia argomento per parlare di obiettivi e giustifica l'uso della proiezione ortografica.

  • 01:05:00 In questa sezione, il docente discute di come le lenti composte, costituite da più elementi, compensino le aberrazioni attraverso disposizioni attentamente progettate. Nota che l'indice di rifrazione del vetro varia con le lunghezze d'onda, causando aberrazioni cromatiche, ma lenti composte di materiali diversi possono compensare questo. Il docente spiega come le lenti spesse possono essere approssimate usando punti nodali e piani principali, e come un bel trucco per rendere negativo t (spessore tra i punti nodali) può portare a un teleobiettivo corto. Questa tecnica può ridurre significativamente la lunghezza di un teleobiettivo pur mantenendo la sua lunga lunghezza focale e il piccolo campo visivo.

  • 01:10:00 In questa sezione, il docente mostra due trucchi per rimuovere la proiezione prospettica nella visione artificiale. Il primo trucco consiste nello spostare uno dei nodi all'infinito, il che riduce l'effetto della variazione dell'ingrandimento con la distanza. Costruendo un obiettivo telecentrico con un centro di proiezione molto distante, il cono delle direzioni diventa più parallelo e l'ingrandimento rimane costante indipendentemente dalla distanza. Il secondo trucco consiste nello spostare l'altro nodo, che cambia l'ingrandimento quando il piano dell'immagine non è esattamente nel posto giusto. Per ottenere un'immagine nitida, l'obiettivo deve essere messo a fuoco modificando la lunghezza focale del vetro o spostando l'obiettivo rispetto al piano dell'immagine.

  • 01:15:00 In questa sezione della conferenza, il relatore discute i problemi con il coseno alla quarta legge e la modifica dell'ingrandimento quando il centro di proiezione non è a più infinito. Spiega come lo spostamento del punto nodale all'esterno e l'utilizzo di doppie lenti telecentriche possano eliminare questi problemi, poiché fa sì che la radiazione raggiunga un particolare sensore perpendicolare al sensore. Inoltre, il relatore discute la necessità di piccoli coperchi delle lenti per concentrare la luce in entrata in un'area più piccola ed evitare l'aliasing, che può verificarsi quando ci sono componenti ad alta frequenza nel segnale. Infine, il relatore menziona l'importanza del filtraggio passa-basso e l'importanza di campionare solo il doppio della larghezza di banda del segnale per ricostruirlo perfettamente.

  • 01:20:00 In questa sezione, il docente spiega come il filtraggio passa-basso con la media dei blocchi può ridurre i problemi di aliasing quando si utilizza un array di lenti per misurare la luce da una vasta area. Questo metodo funziona bene se la luce arriva perpendicolarmente al sensore, il che si ottiene utilizzando lenti telecentriche. Tuttavia, la conferenza prosegue spiegando che in certi casi, come quando i cambiamenti di profondità in una scena sono minori della profondità stessa, è più conveniente usare la proiezione ortografica. Ciò consente una relazione lineare tra x e y nel mondo e x e y nell'immagine, consentendo la misurazione delle distanze e delle dimensioni degli oggetti indipendentemente dalla loro distanza.

  • 01:25:00 In questa sezione il relatore introduce il concetto di proiezione ortografica, utile per applicazioni pratiche con obiettivi telecentrici e semplifica alcuni dei problemi che verranno trattati. Notano che mentre alcuni potrebbero pensare che questo metodo funzioni solo per Lamborghini, in realtà funziona per tutto, ma le equazioni diventano confuse per altre versioni. Il relatore spiega che il tipo di ricostruzione che affronteranno in seguito può essere fatto in proiezione prospettica, ma è complicato e poco perspicace. Tuttavia, passando alla proiezione ortografica, molti di questi problemi diventano più chiari.
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
Lecture 8: Shading, Special Cases, Lunar Surface, Scanning Electron Microscope, Green's Theorem
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs



Lezione 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs

Questa conferenza copre l'argomento della forma dall'ombreggiatura, un metodo per interpretare le forme degli oggetti utilizzando le variazioni di luminosità dell'immagine. Il docente spiega il processo di microscopia elettronica a scansione, in cui un collettore di elettroni secondario viene utilizzato per misurare la frazione di un fascio di elettroni in arrivo che lo fa tornare indietro, consentendo la stima della pendenza della superficie. La conferenza discute anche l'uso di integrali di contorno, momenti e minimi quadrati per stimare le derivate di superficie e trovare la superficie più piccola dato il rumore di misura. Il relatore deriva cinque equazioni differenziali ordinarie per la forma dal problema dell'ombreggiatura e spiega anche il concetto dell'operatore laplaciano, che viene utilizzato nelle operazioni di elaborazione delle immagini.

In questa conferenza su "Forma dall'ombreggiatura", il relatore discute vari approcci per risolvere le equazioni per la soluzione dei minimi quadrati per modellare dall'ombreggiatura. Il docente spiega diverse tecniche per soddisfare la condizione laplaciana, regolare i valori dei pixel e ricostruire le superfici utilizzando misurazioni dell'immagine e calcoli della pendenza da punti diversi. La lezione copre gli argomenti dei valori iniziali, trasformata di rotazione e trasformata inversa attraverso meno theta. Il docente conclude con una discussione sulla generalizzazione di queste equazioni per mappe di riflettanza arbitrarie e sull'importanza di esaminare le immagini del microscopio elettronico a scansione per fornire esempi concreti di interpretazione dell'ombreggiatura.

  • 00:00:00 In questa sezione della lezione, il professore introduce la forma dall'ombreggiatura, che è il metodo per recuperare le forme degli oggetti utilizzando le misurazioni della luminosità dell'immagine. Spiega in che modo questo metodo differisce dallo stereo fotometrico, che richiede esposizioni multiple. Il professore discute anche di diversi tipi di materiali di superficie e delle loro proprietà riflettenti, incluso l'hapke, un modello per la riflessione dei pianeti rocciosi, e un terzo modello per la microscopia. Presenta un confronto tra i metodi di microscopia elettronica e spiega perché i microscopi elettronici a scansione producono immagini che gli esseri umani trovano facili da interpretare a causa delle loro specifiche variazioni di luminosità, che diventano più luminose man mano che ci si avvicina ai bordi.

  • 00:05:00 In questa sezione, il docente discute l'importanza dell'ombreggiatura nelle immagini, che svolge un ruolo significativo nell'interpretazione della forma degli oggetti. Il docente presenta immagini di una testa di falena e di una forma ovoidale simile a un pallone da calcio che presentano variazioni di luminosità a seconda dell'orientamento della superficie, consentendoci di interpretare facilmente le loro forme. È interessante notare che, nonostante la superficie non lambertiana dell'oggetto simile a un pallone da calcio, gli esseri umani sono ancora in grado di interpretarne accuratamente la forma. La conferenza approfondisce quindi il funzionamento dei microscopi elettronici a scansione, che utilizzano un raggio di elettroni accelerati per creare immagini della superficie dell'oggetto.

  • 00:10:00 In questa sezione viene descritto il processo di creazione di immagini ombreggiate utilizzando la microscopia elettronica a scansione. Gli elettroni a diversi chiloelettronvolt colpiscono un oggetto e alcuni rimbalzano come retrodiffusione, ma la maggior parte penetra e crea elettroni secondari perdendo energia e urtando elettroni su cose ionizzanti. Alcuni degli elettroni secondari escono dall'oggetto e vengono raccolti da un elettrodo per scansionare l'oggetto in modo raster. La corrente misurata qui viene quindi utilizzata per modulare un raggio di luce in un display, che può essere ingrandito attraverso la deflessione per ottenere da migliaia a decine di migliaia di ingrandimenti, rendendolo più potente della microscopia ottica.

  • 00:15:00 In questa sezione della conferenza, il relatore spiega il processo di misurazione dell'orientamento di una superficie utilizzando un collettore di elettroni secondario. Il collettore misura la frazione del raggio in entrata che lo fa tornare indietro, con superfici molto inclinate che determinano più corrente a causa della fuoriuscita di più elettroni secondari. Tracciando una mappa di riflettanza, luminosità rispetto all'orientamento, è possibile determinare la pendenza della superficie, ma non il suo gradiente, lasciando due incognite e un vincolo. Questo problema è un esempio del problema della forma dall'ombreggiatura, in cui l'obiettivo è stimare la forma della superficie da un modello di luminosità.

  • 00:20:00 In questa sezione della conferenza, il relatore discute l'uso di una mappa di riflettanza per determinare la pendenza o il gradiente di una superficie. Spiegano che questo metodo può essere utilizzato per varie superfici e non solo per alcuni tipi. La discussione copre anche i diagrammi ad ago e come possono essere utilizzati per determinare l'orientamento e la forma della superficie. L'oratore spiega che mentre questo è un problema semplice, è sovradeterminato in quanto vi sono più vincoli che incognite. Ciò consente una riduzione del rumore e un risultato migliore. La lezione si conclude con una dimostrazione dell'integrazione di out p per determinare la variazione di altezza dall'origine.

  • 00:25:00 In questa sezione, il relatore discute come integrare i dati noti per stimare le altezze ovunque lungo l'asse x o y, che possono essere combinati per riempire l'intera area. Tuttavia, i valori p e q utilizzati sono soggetti a rumore di misurazione, il che significa che non vi è alcuna garanzia che la misurazione di p e q in modi diversi porti alla stessa risposta. Per risolvere questo problema occorre porre un vincolo su p e q; p e q devono soddisfare questo vincolo per qualsiasi ciclo e il ciclo grande può essere scomposto in piccoli cicli che si annullano a vicenda per assicurarsi che il vincolo sia vero anche per il ciclo grande.

  • 00:30:00 In questa sezione, il docente discute la relazione tra un integrale di contorno e un integrale di area nel contesto della misurazione delle derivate di una superficie con esterno fotometrico o altri metodi di visione. La lezione mostra come la pendenza può essere stimata in base al centro di un tratto, dove la pendenza è praticamente costante, e utilizza l'espansione in serie di Taylor per derivare un'equazione che mette in relazione le derivate della superficie z di x y. Si dice che trovare l'esatta z di xy che dà la p e la misurata sia impossibile, ma viene presentato un modo più elegante per trovare un'approssimazione ai minimi quadrati.

  • 00:35:00 In questa sezione della conferenza, il relatore discute il vantaggio di ridurre i calcoli da tutti i pixel al solo confine di una regione nella visione artificiale. L'oratore utilizza l'esempio del calcolo dell'area e della posizione di un blob attraverso integrali e momenti di contorno, che possono essere calcolati in modo efficiente tracciando il contorno invece di contare i pixel. La lezione prosegue applicando il teorema di Green per abbinare l'integrale di contorno al calcolo dei momenti.

  • 00:40:00 In questa sezione, il docente discute su come trovare la superficie più piccola possibile date le nostre misurazioni. Idealmente, troveremmo una superficie in cui le sue derivate x e y corrispondono rispettivamente a p e q che abbiamo ottenuto dall'immagine. Tuttavia, a causa del rumore di misurazione, ciò non sarà possibile, quindi cercheremo di renderlo il più piccolo possibile risolvendo un problema dei minimi quadrati. Z è una funzione con infiniti gradi di libertà, quindi non possiamo usare il calcolo ordinario. Invece, possiamo differenziare rispetto a ciascuna delle incognite finite su una griglia e impostare il risultato uguale a zero per ottenere molte equazioni.

  • 00:45:00 In questa sezione della conferenza, il relatore discute il processo per trovare un valore di z per ogni punto della griglia per minimizzare l'errore tra i valori osservati e le derivate stimate in entrambe le direzioni x e y. Per fare ciò, l'oratore spiega che devono differenziare e impostare il risultato uguale a zero per tutti i possibili valori di i e j, il che si traduce in un insieme di equazioni lineari risolvibili utilizzando i minimi quadrati. Tuttavia, l'oratore avverte di un potenziale problema se i nomi identificatori i e j non vengono sostituiti con altri nomi, il che può comportare l'ottenimento di una risposta sbagliata. Nonostante abbia un gran numero di equazioni, le equazioni sono sparse, rendendole più facili da risolvere.

  • 00:50:00 In questa sezione, il relatore esamina il processo di utilizzo di equazioni alle derivate parziali non lineari del primo ordine per derivare cinque equazioni differenziali ordinarie per la forma dal problema dell'ombreggiatura. Spiegano i passaggi della differenziazione per i termini all'interno di un quadrato, confrontando i termini e considerando vari valori di k e l. Il docente semplifica l'equazione finale e separa i termini per identificare rispettivamente le derivate x e y di p e q. L'obiettivo è infine trovare una soluzione per tutti i punti dell'immagine.

  • 00:55:00 In questa sezione, il relatore spiega il diagramma molecolare computazionale, che è un modo grafico per stimare le derivate nella visione artificiale. Lo usa per mostrare come derivare l'operatore laplaciano che è molto usato nelle operazioni di elaborazione delle immagini. Spiega che il laplaciano è rotazionalmente simmetrico e ci sono operatori derivati molto utili nel rilevamento dei bordi che sono anche rotazionalmente simmetrici.

  • 01:00:00 In questa sezione, il relatore discute un approccio discreto alla risoluzione di equazioni per la soluzione dei minimi quadrati da modellare dall'ombreggiatura, piuttosto che utilizzare il calcolo della variazione. Le equazioni risultanti, pur avendo molte variabili, sono sparse, il che rende possibile la soluzione iterativa. Il relatore spiega come risolvere queste equazioni utilizzando un approccio iterativo che prevede il calcolo delle medie locali dei pixel vicini e l'aggiunta di una correzione basata sulle informazioni dell'immagine. Il relatore osserva che mentre le soluzioni iterative sono facili da proporre, mostrare che convergono è difficile, ma i libri di testo suggeriscono che lo fanno.

  • 01:05:00 In questa sezione, il docente discute un approccio per soddisfare la condizione laplaciana regolando i valori dei pixel utilizzando una semplice equazione con termini sparsi. Questo approccio è correlato alla risoluzione dell'equazione del calore e può essere eseguito in modo efficiente in parallelo, rendendolo stabile anche con il rumore di misurazione. La tecnica può essere applicata a dati stereo fotometrici per ricostruire una superficie in modo dei minimi quadrati, fornendo una soluzione ragionevole che corrisponda ai dati sperimentali. Tuttavia, il docente riconosce che questo approccio non è direttamente utile oltre lo stereo fotometrico e che ci sono problemi più impegnativi da risolvere, come le ricostruzioni di immagini singole.

  • 01:10:00 In questa sezione, il docente discute un semplice caso della mappa di riflettanza con linee rette parallele come isofote. Le linee parallele consentono di ruotare verso un sistema di coordinate più utile e massimizzare le informazioni in una direzione minimizzandole in un'altra. La lezione fornisce la relazione tra p, q, p primo e q primo, l'angolo theta dato da un triangolo e la trasformata inversa della rotazione per meno theta. Infine, la conferenza analizza il caso generale con linee ondulate e discute il concetto di forma dall'ombreggiatura.

  • 01:15:00 In questa sezione, il docente parla di come ricostruire una superficie utilizzando misurazioni di immagini e calcoli di inclinazione da diversi punti. La conferenza copre anche l'idea che l'approccio di aggiungere una costante all'altezza di z e trovare i cambiamenti non ha aggiustato in alcun modo il laplaciano di z, il che implica che le differenze di altezza non forniscono molte informazioni, ma solo profondità relativa. Tuttavia, il docente osserva che è necessario un valore iniziale per z per ottenere una ricostruzione.

  • 01:20:00 In questa sezione, il relatore discute la sfida di avere valori iniziali potenzialmente diversi per ogni riga nel calcolo delle soluzioni per la forma di una superficie con Shape from Shading. Mentre sarebbe facile gestire un cambiamento generale di altezza, avere valori iniziali diversi per ogni riga richiede una curva iniziale diversa che può essere mappata al mondo originale, non ruotato. L'oratore suggerisce di utilizzare una curva iniziale, che è una funzione di eta, per esplorare la superficie muovendosi lungo queste curve, calcolandole indipendentemente e quindi modificando la velocità con cui esplorare la soluzione.

  • 01:25:00 In questa sezione, il relatore spiega che moltiplicando per una costante, le equazioni diventano più semplici e il movimento nella direzione x e y è proporzionale rispettivamente a q s e p s, mentre nella direzione z c'è un formula semplice. La conferenza si conclude con una discussione sulla generalizzazione di queste equazioni per mappe di riflettanza arbitrarie e sull'importanza di esaminare le immagini del microscopio elettronico a scansione per fornire esempi concreti di interpretazione dell'ombreggiatura.
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
Lecture 9: Shape from Shading, General Case - From First Order Nonlinear PDE to Five ODEs
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 10: Espansione caratteristica delle strisce, forma dall'ombreggiatura, soluzioni iterative



Lezione 10: Espansione caratteristica delle strisce, forma dall'ombreggiatura, soluzioni iterative

In questa lezione, l'istruttore copre l'argomento della forma dall'ombreggiatura utilizzando le misurazioni della luminosità nel concetto di formazione dell'immagine. Ciò comporta la comprensione dell'equazione dell'irradianza dell'immagine, che mette in relazione la luminosità con l'orientamento della superficie, l'illuminazione, il materiale della superficie e la geometria. Spiegano il metodo per aggiornare le variabili p e q utilizzando due sistemi separati di equazioni che si alimentano a vicenda e tracciando un'intera striscia utilizzando il gradiente di luminosità. La conferenza discute anche le sfide della risoluzione di PDE non lineari di primo ordine e diversi metodi per passare da un contorno all'altro mentre esplori la superficie. Infine, l'istruttore discute l'implementazione della caratteristica espansione della striscia e perché un approccio sequenziale potrebbe non essere il metodo migliore, raccomandando la parallelizzazione e controllando la dimensione del passo.

Nella lezione 10, il professore discute vari metodi per risolvere i problemi di forma dall'ombreggiatura, compreso l'utilizzo di punti stazionari sulla superficie e la costruzione di una forma a calotta attorno ad essa per stimare la forma locale. Il docente introduce anche il concetto di confine occlusivo, che può fornire le condizioni di partenza per le soluzioni, e discute i recenti progressi nelle soluzioni di calcolo per il problema dei tre corpi utilizzando sofisticati metodi di analisi numerica. Inoltre, la conferenza tocca l'argomento dei metodi di visione artificiale industriale e i relativi modelli che saranno discussi nella lezione successiva.

  • 00:00:00 In questa sezione, l'istruttore fornisce gli annunci relativi al primo quiz e alla presentazione della proposta per il progetto a termine. Il termine progetto prevede l'implementazione di una soluzione a un problema di visione artificiale e gli studenti devono presentare una breve proposta entro il 22. L'istruttore parla quindi del cambio di passo nella copertura della visione artificiale industriale, dove esamineranno i brevetti invece di articoli pubblicati o libri di testo. Nel processo, gli studenti impareranno il linguaggio dei brevetti, che è essenziale per gli imprenditori coinvolti nelle startup. Infine, l'istruttore fornisce esempi di progetti degli studenti come l'implementazione di metodi subpixel per il rilevamento dei bordi o il tempo di contatto su un telefono Android.

  • 00:05:00 In questa sezione, il docente discute i diversi aspetti della formazione dell'immagine, concentrandosi in particolare sul concetto di forma dall'ombreggiatura utilizzando misurazioni della luminosità. Ciò richiede una comprensione dell'equazione dell'irradianza dell'immagine, che mette in relazione la luminosità con l'orientamento della superficie, l'illuminazione, il materiale della superficie e la geometria. La mappa di riflettanza viene utilizzata per semplificare questa equazione e serve come un modo per riassumere le proprietà riflettenti dettagliate, sebbene sia derivata dalla funzione di distribuzione della riflettanza bidirezionale (BRDF). La conferenza prosegue spiegando come questo concetto è stato applicato alle proprietà riflettenti della luna e di altri pianeti rocciosi, risultando in una serie di equazioni che consentono di determinare l'orientamento della superficie in determinate direzioni.

  • 00:10:00 In questa sezione, l'oratore discute la regola per fare in modo che un piccolo passo nell'immagine corrisponda a un piccolo passo in altezza usando la proiezione ortografica. Spiega che questo semplifica la matematica e si lega all'ipotesi di una lente telecentrica e di una sorgente di luce lontana, il che rende possibili ipotesi lambertiane. Il processo complessivo prevede la risoluzione numerica di tre equazioni differenziali ordinarie con il metodo di Eulero in avanti e l'alimentazione della luminosità attraverso la superficie di tipo Hapka. L'oratore mostra come esprimerlo in termini di p e q e quindi derivare l'equazione per l'immagine della radianza.

  • 00:15:00 In questa sezione, il relatore discute la relazione diretta tra la quantità misurata di luminosità superficiale e la soluzione necessaria per una superficie specifica. Spiega che esiste una costante chiamata rs, che dipende dalla posizione della sorgente, che viene utilizzata per semplificare la soluzione. La tecnica consiste nel prendere la luminosità, elevarla al quadrato, moltiplicarla per rs e sottrarre uno con la derivata nella direzione z. Il relatore spiega anche come ottenere una condizione iniziale per le equazioni differenziali e come definire una curva mediante parametri. Il metodo viene quindi generalizzato per affrontare il caso generale in cui la pendenza non può essere determinata localmente.

  • 00:20:00 In questa sezione, il docente discute la costruzione di una soluzione utilizzando un'espansione caratteristica della striscia. Per fare ciò, è necessario calcolare il cambiamento di altezza per sapere come cambierà z. Presumono che iniziamo con x, y e z, insieme all'orientamento della superficie, p e q, e aggiorna le regole per x, y e z, e la variazione dell'altezza di z è data da un'equazione. È necessario aggiornare p e q man mano che procediamo, risultando in una striscia caratteristica che trasporta l'orientamento della superficie, che è più informazioni rispetto al semplice avere una curva. Il docente spiega come aggiornare p e q utilizzando una matrice due per due e le derivate parziali seconde dell'altezza, che corrispondono alla curvatura.

  • 00:25:00 In questa sezione, il docente discute come calcolare la matrice di curvatura per una superficie 3D, che è più complicata che per una curva nel piano. La matrice di curvatura richiede un'intera matrice di derivate di secondo ordine chiamata matrice Hessiana. Tuttavia, l'utilizzo di derivate di ordine superiore per continuare la soluzione porterebbe a più incognite. Pertanto, è necessaria l'equazione dell'irradianza dell'immagine, in particolare il gradiente di luminosità, poiché i cambiamenti nell'orientamento della superficie corrispondono alla curvatura che influisce sulla luminosità dell'immagine. Osservando la matrice comune H in entrambe le equazioni del gradiente di curvatura e luminosità, il calcolo di H consentirebbe un aggiornamento in x, y, z, p e q, completando il metodo.

  • 00:30:00 In questa sezione, il docente discute il concetto di risoluzione di h utilizzando due equazioni lineari. H compare in entrambe queste equazioni, ma poiché abbiamo due equazioni e tre incognite, non possiamo risolvere h. Tuttavia, utilizzando un delta x e un delta y specifici, possiamo controllare la dimensione del passo e scegliere una direzione particolare per calcolare delta p e delta q. Il docente spiega anche che la direzione può cambiare man mano che la superficie viene esplorata. Inserendo questo nell'equazione, possiamo trovare come cambiare p e q per risolvere il problema.

  • 00:35:00 In questa sezione, il docente discute le cinque equazioni differenziali ordinarie necessarie per risolvere la variabile z nell'equazione dell'irradianza dell'immagine e introduce un metodo per generare una striscia utilizzando il gradiente di luminosità per aggiornare le variabili p e q. Il docente prosegue spiegando la parte interessante della soluzione che coinvolge due sistemi di equazioni che si alimentano a vicenda, e come determinano la direzione del gradiente e possono essere usati per tracciare un'intera striscia. In definitiva, l'equazione alle derivate parziali viene ridotta a semplici e ordinarie equazioni differenziali utilizzando p e q per rendere l'equazione meno intimidatoria.

  • 00:40:00 In questa sezione, il relatore discute le sfide delle PDE non lineari di primo ordine nel risolvere la luminosità nel contesto della forma dall'ombreggiatura. Questo è un allontanamento dalle PDE tipicamente di secondo ordine e lineari che si trovano in fisica, il che significa che è necessario un metodo speciale per risolvere questi tipi di PDE. Il caso generale per qualsiasi R di P e Q viene discusso e quindi applicato a due proprietà superficiali specifiche: hapke e il microscopio elettronico a scansione. Le regole di aggiornamento per X e Y sono proporzionali rispettivamente a PS e QS.

  • 00:45:00 In questa sezione, il docente spiega il metodo per aggiornare gli assi x, y e altezza utilizzando la caratteristica espansione e forma della striscia dall'ombreggiatura con soluzioni iterative. Il metodo prevede la differenziazione rispetto a p e q per calcolare l'aggiornamento per x e y e l'utilizzo di prp più qrq per aggiornare l'asse delle altezze. La conferenza rileva che questo metodo può essere utilizzato su immagini al microscopio elettronico a scansione e tocca anche il concetto di caratteristiche di base, che implica la proiezione delle strisce caratteristiche sul piano dell'immagine per esplorare il più possibile l'immagine.

  • 00:50:00 In questa sezione, il relatore discute l'implementazione della caratteristica espansione a strisce e perché un approccio sequenziale potrebbe non essere il metodo migliore. A causa delle soluzioni indipendenti trovate lungo ciascuna curva, un processo può essere eseguito lungo ciascuna curva, rendendo il calcolo parallelizzabile. Viene discussa la velocità del calcolo, che deve avere una dimensione del passo ragionevole, e viene esaminato un semplice caso in cui la dimensione del passo è controllata dalla costante z. Dividendo per PRP e QRQ nell'equazione per z, il tasso di variazione diventa uno, risultando in soluzioni costanti lungo ciascuna curva con contorni a valori crescenti di z.

  • 00:55:00 In questa sezione della conferenza, l'oratore discute i diversi modi di passare da un contorno all'altro mentre esplori la superficie. Menzionano l'opzione di avanzare con incrementi di dimensione costante nella direzione z, o avere una dimensione di passo costante nell'immagine, che richiede di dividere tutte le equazioni per un fattore costante. Un'altra opzione è l'inserimento di incrementi di dimensioni costanti in 3D, dove la somma dei quadrati degli incrementi è 1 e, infine, la possibilità di inserire isofode nei contorni nell'immagine di contrasto o luminosità. Tuttavia, alcuni di questi metodi possono presentare problemi, ad esempio curve diverse eseguite a velocità variabili o divisioni per zero, quindi è essenziale prendere nota di queste limitazioni.

  • 01:00:00 In questa sezione della lezione, il professore discute il prodotto scalare dei due gradienti nell'immagine e nella mappa di rifrangenza, ma non entra troppo nei dettagli. Il passaggio da un contorno all'altro nell'immagine consente di collegare più facilmente le soluzioni vicine e metodi di analisi numerica grezzi possono fornire risultati sufficienti. Il professore passa poi a discutere i recenti progressi nelle soluzioni di calcolo per il problema dei tre corpi e come sofisticati metodi di analisi numerica vengono utilizzati per risolvere equazioni che altrimenti sarebbero difficili se non impossibili da risolvere analiticamente.

  • 01:05:00 In questa sezione, il docente discute la sfida di aver bisogno di una curva iniziale per esplorare una superficie, insieme al suo orientamento, utilizzando metodi di visione artificiale ottica. Fortunatamente esiste un'equazione di irradianza dell'immagine che fornisce un vincolo sull'orientamento della curva e sappiamo che la curva è nella superficie, il che ci consente di calcolare le derivate e risolvere un'equazione lineare. Ciò significa che possiamo trovare l'orientamento ed eliminare la necessità di una striscia iniziale sull'oggetto se riusciamo a trovare punti speciali sull'oggetto di cui conosciamo la forma, l'orientamento, ecc.

  • 01:10:00 In questa sezione, l'oratore discute il concetto di confine occlusivo, che è il luogo in cui un oggetto si avvolge, in modo tale che la parte su un lato sia visibile e l'altra no. Se costruiamo una superficie normale in quel punto, sarà parallela a un vettore costruito lungo il confine occlusivo, che ci fornisce le condizioni di partenza per iniziare le nostre soluzioni. Tuttavia, non possiamo usare i rapporti del confine occlusivo per risolvere le equazioni poiché la pendenza è infinita. Il relatore introduce anche il concetto di punti stazionari, che sono estremi unici, globali, isolati e risultano dai punti più luminosi sulla superficie di un oggetto quando è illuminato. Questi punti ci forniscono l'orientamento della superficie in quel punto, che è un'informazione preziosa per risolvere i problemi di forma dai problemi di ombreggiatura.

  • 01:15:00 In questa sezione, il docente discute i punti stazionari sulla mappa di riflettanza e sull'immagine, che corrispondono agli estremi o ai minimi a seconda della tecnica di imaging utilizzata. Tuttavia, i punti stazionari non consentono l'avvio diretto della soluzione perché non vi è alcun cambiamento nelle variabili dipendenti. La soluzione può allontanarsi dal punto stazionario solo quando si tenta di costruire un'approssimazione della superficie per avviare la soluzione. L'idea è di costruire un piccolo piano utilizzando l'orientamento del punto stazionario e quindi creare un raggio per iniziare la soluzione. In questo modo, la soluzione può allontanarsi dal punto stazionario e iniziare a iterare verso una soluzione migliore.

  • 01:20:00 In questa sezione della conferenza, il relatore discute il concetto di punti stazionari su superfici curve in relazione alla forma dall'ombreggiatura. L'idea è di trovare una soluzione unica per la curvatura di una superficie che ha un punto stazionario. Il relatore spiega che questi punti sono importanti nella percezione umana e possono influenzare l'unicità di una soluzione. La lezione prosegue poi spiegando il processo per trovare la curvatura di una superficie utilizzando un esempio, in cui si presume che la superficie abbia un tipo sem di mappa di riflettanza e abbia un punto stazionario all'origine. Il gradiente dell'immagine risulta nullo all'origine, a conferma della presenza di un estremo in quel punto. Tuttavia, il gradiente non può essere utilizzato per stimare la forma locale perché è zero all'origine, richiedendo quindi una derivata seconda.

  • 01:25:00 In questa sezione, il relatore spiega come prendere le seconde derivate parziali della luminosità può fornire informazioni sulla forma e come recuperarla, stimando la forma locale da punti stazionari e costruendo attorno ad essa una forma a calotta. Inoltre, il relatore introduce l'argomento dei metodi di visione artificiale industriale e dei relativi modelli che saranno discussi nella lezione successiva.
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
Lecture 10: Characteristic Strip Expansion, Shape from Shading, Iterative Solutions
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (brevetto USA 6408109)



Lezione 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (brevetto USA 6408109)

Questo video di YouTube intitolato "Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)" copre diversi argomenti relativi al rilevamento dei bordi e alla posizione dei subpixel nei sistemi di visione artificiale. Il relatore spiega l'importanza dei brevetti nel processo di invenzione e come vengono utilizzati nelle guerre dei brevetti. Discutono anche di vari operatori di rilevamento dei bordi e dei loro vantaggi e limiti. Il video include spiegazioni dettagliate delle formule matematiche utilizzate per convertire le coordinate cartesiane in coordinate polari e determinare la posizione del bordo. Il video si conclude discutendo l'importanza di scrivere rivendicazioni ampie e ristrette per i brevetti e l'evoluzione della legge sui brevetti nel tempo.

Nella lezione 11, il relatore si concentra su diverse molecole computazionali per il rilevamento dei bordi e la stima delle derivate, con un'enfasi sull'efficienza. Vengono presentati gli operatori Sobel e Roberts Cross per il calcolo della somma dei quadrati dei gradienti, con variazioni nella formula e nella tecnica discusse. Per ottenere una precisione subpixel, vengono utilizzati più operatori e vengono presentate tecniche come l'adattamento di una parabola o l'utilizzo di un modello triangolare per determinare il picco della curva. Inoltre, la conferenza discute alternative alla quantizzazione e problemi con la direzione del gradiente su una griglia quadrata. Nel complesso, la conferenza sottolinea l'importanza di considerare molti dettagli per ottenere buone prestazioni per il rilevamento dei bordi.

  • 00:00:00 In questa sezione, il docente introduce l'argomento della visione artificiale industriale e la sua importanza nei processi di produzione, compreso l'uso della visione artificiale per l'allineamento e l'ispezione nella produzione di circuiti integrati e la leggibilità delle etichette farmaceutiche. Il docente spiega lo scopo dei brevetti come un modo per ottenere un monopolio limitato nell'uso di un'invenzione in cambio della spiegazione di come funziona a beneficio della società a lungo termine. Vengono discussi anche la struttura e i metadati di un brevetto, inclusi il numero e il titolo del brevetto, la data del brevetto e l'uso dei brevetti come munizioni nelle guerre sui brevetti tra aziende. La conferenza descrive quindi brevemente un brevetto di Bill Silver presso Cognex, un'azienda leader nella visione artificiale, sul rilevamento e la localizzazione dei sub-pixel.

  • 00:05:00 In questa sezione, il docente discute il processo di rilevamento dei bordi nelle immagini digitali, in cui l'attenzione è rivolta alla transizione tra diversi livelli di luminosità. Il docente osserva che trovare bordi con precisione sub-pixel è fondamentale nei mondi del nastro trasportatore e dei circuiti integrati, poiché riduce significativamente i bit necessari per descrivere qualcosa. La conferenza spiega inoltre che questo processo può essere ottenuto con una fotocamera con pixel più alti, ma è costoso e quindi un software in grado di eseguirlo a costi inferiori sarebbe vantaggioso. Il docente spiega anche che è possibile ottenere un 40esimo di pixel, il che è un vantaggio significativo, ma comporta delle sfide. La conferenza si conclude con una discussione sul deposito di brevetti e su come il processo sia cambiato nel tempo, compreso il linguaggio arcano utilizzato nei documenti e il ritardo riscontrato nella presentazione di una domanda di brevetto.

  • 00:10:00 In questa sezione del video, il relatore discute vari documenti tecnici e brevetti relativi al rilevamento dei bordi nella visione artificiale, che risale agli anni '50. Il primo documento famoso su questo argomento fu di Roberts nel 1965, che utilizzava un rilevatore di bordi semplice ma fuorviante. Il relatore cita anche altri documenti e brevetti relativi al rilevamento dei bordi, discutendo i vantaggi e gli svantaggi di vari operatori di rilevamento dei bordi, tra cui l'operatore di Sobel, il rilevatore di bordi incrociati di Roberts e gli operatori alternativi di Bill Silva per le griglie esagonali. Il relatore sottolinea l'importanza del rilevamento dei bordi in varie applicazioni e gli sforzi continui di ingegneri e ricercatori per migliorare gli algoritmi di rilevamento dei bordi.

  • 00:15:00 In questa sezione, la conferenza spiega i vantaggi e gli svantaggi dell'utilizzo di telecamere a griglia esagonale in termini di risoluzione e simmetria rotazionale, ma osserva che il problema aggiuntivo di lavorare con una griglia esagonale era troppo difficile da gestire per gli ingegneri. La conferenza prosegue poi discutendo la conversione da coordinate cartesiane a coordinate polari usando la formula per l'ampiezza del gradiente e la sua direzione piuttosto che il gradiente di luminosità stesso, nonostante la spesa per prendere radici quadrate e arcotangenti. La lezione quindi esplora soluzioni alternative, come l'utilizzo di tabelle di ricerca o il metodo CORDIC, che è un modo per stimare l'ampiezza e la direzione di un vettore utilizzando passaggi iterativi per ridurre la differenza con operazioni aritmetiche minime richieste.

  • 00:20:00 In questa sezione della conferenza, il relatore discute il rilevamento dei bordi e gli algoritmi di posizione dei subpixel. Spiegano come individuare dove un gradiente è grande e usano la soppressione non massima per trovare la direzione massima del gradiente. L'oratore parla anche della quantizzazione delle direzioni del gradiente e osserva che guardare più lontano può portare a una gamma più ampia di direzioni. Per trovare il picco effettivo del gradiente, una parabola viene adattata ai dati e differenziata per trovare il picco. Infine, la conferenza discute il comportamento previsto della luminosità quando si lavora con un modello del mondo basato su Mondrian.

  • 00:25:00 In questa sezione, il video illustra le tecniche per ottenere una precisione subpixel nel rilevamento dei bordi. Un approccio prevede la quantizzazione delle direzioni e la ricerca del picco, ma può esserci ambiguità su quale punto scegliere lungo il bordo. Un altro metodo consiste nell'eseguire un'interpolazione perpendicolare per trovare il punto del bordo con la massima vicinanza al pixel centrale. Tuttavia, la posizione effettiva del bordo potrebbe non corrispondere ai modelli ipotizzati, il che può introdurre distorsioni. Il video suggerisce una semplice correzione per calibrare il bias e migliorare la precisione.

  • 00:30:00 In questa sezione, il docente discute i modi per migliorare la precisione del rilevamento dei bordi nei sistemi di visione artificiale. Il brevetto che sta esaminando suggerisce di utilizzare diverse potenze di "s" per rimuovere i bias e aumentare la precisione in base allo specifico sistema utilizzato. Anche la direzione del gradiente influisce sulla polarizzazione e richiede una compensazione per una precisione ancora maggiore. Il diagramma generale del sistema include la stima dei gradienti di luminosità, la ricerca dell'ampiezza e della direzione, la soppressione del non massimo e il rilevamento del picco per interpolare la posizione e compensare la distorsione utilizzando il punto più vicino al massimo sul bordo. L'invenzione fornisce un'apparecchiatura e un metodo per il rilevamento di subpixel in immagini digitali ed è riassunta in una versione breve alla fine del brevetto.

  • 00:35:00 In questa sezione, il relatore discute il processo di brevettazione di un'invenzione e come si collega al contenzioso sui brevetti. Spiegano come gli inventori spesso creino sia un apparato che un metodo per coprire tutte le basi e come ciò possa comportare affermazioni non necessarie. L'oratore descrive un caso in cui una società canadese, Matrox, è stata accusata di aver violato un brevetto attraverso l'implementazione software di ciò che era contenuto nel brevetto. Sono stati chiamati testimoni esperti per analizzare il codice e alla fine la conclusione è stata che era tutto software e non brevettabile. La sezione copre anche l'importanza di rendere un brevetto il più ampio possibile e di pensare a tutte le possibili modifiche, che possono rendere difficile la lettura dei brevetti scritti da avvocati.

  • 00:40:00 In questa sezione del video, il relatore ripercorre le formule e una spiegazione dettagliata di come convertire le coordinate cartesiane in coordinate polari. Spiegano anche le diverse formule utilizzate per trovare i picchi nelle parabole e nelle forme d'onda triangolari. Il video passa quindi ai brevetti e al processo di rivendicazione di ciò che pensi di aver inventato per proteggerlo. L'oratore legge la prima affermazione, che è un apparato per il rilevamento e la posizione subpixel dei bordi in un'immagine digitale, e scompone i diversi componenti che compongono l'affermazione, tra cui uno stimatore del gradiente, un rilevatore di picco e un interpolatore subpixel. Viene anche discussa l'importanza di avere più reclami, in quanto protegge da futuri reclami e violazioni.

  • 00:45:00 In questa sezione della conferenza, il relatore discute come scrivere e strutturare le rivendicazioni per i brevetti. Spiega che la prima rivendicazione in un brevetto è solitamente una rivendicazione ampia, seguita da rivendicazioni più ristrette che sono più specifiche per garantire che anche se la rivendicazione ampia viene invalidata, le rivendicazioni più ristrette possono ancora essere valide. Il relatore passa quindi ad esaminare le rivendicazioni del brevetto per la stima del gradiente, evidenziando alcune delle condizioni che devono essere soddisfatte affinché ciascuna richiesta sia valida. Infine, spiega come il diritto dei brevetti si è evoluto nel tempo per quanto riguarda la durata della validità di un brevetto e le regole relative alle rivendicazioni di priorità.

  • 00:50:00 In questa sezione, il video illustra il rilevamento dei bordi nella visione artificiale. Viene introdotto il modello Mondrian del mondo, che prevede la condensazione delle immagini semplicemente discutendo i bordi per trovare dove si trova qualcosa su un nastro trasportatore o allineare diversi strati di una maschera a circuito integrato. Il rilevamento dei bordi è definito come un processo per determinare la posizione dei confini tra regioni dell'immagine che sono diverse e approssimativamente uniformi in termini di luminosità. Un bordo è definito come un punto in un'immagine in cui l'ampiezza del gradiente dell'immagine raggiunge un massimo locale nella direzione del gradiente dell'immagine o in cui la derivata seconda della luminosità attraversa lo zero nella direzione del gradiente dell'immagine. Il video tocca anche il rilevamento dei bordi multiscala e spiega lo svantaggio di avere una risoluzione infinita per un'immagine.

  • 00:55:00 In questa sezione della conferenza, il relatore discute il rilevamento dei bordi e i problemi con la misurazione di un bordo che è perfettamente allineato con un pixel. Per contrastare questo, l'oratore spiega l'uso di un rilevatore di bordi laplaciano, che cerca passaggi per lo zero e disegna contorni, facilitando l'individuazione del bordo. Tuttavia, questo metodo può portare a prestazioni peggiori in presenza di rumore. L'oratore copre anche il concetto di punto di flesso e come si relaziona al massimo della derivata, che può essere utilizzato per definire il bordo. La lezione copre anche la stima del gradiente di luminosità e l'uso di operatori ad angoli di 45 gradi per fare riferimento allo stesso punto.

  • 01:00:00 In questa sezione della conferenza, il relatore discute il rilevamento dei bordi e la stima dei derivati utilizzando diverse molecole computazionali. Vengono introdotti due operatori usati da Roberts, che possono essere usati per calcolare la somma dei quadrati dei gradienti nel sistema di coordinate originale. Viene anche menzionato il concetto di operatori di Sobel e viene discussa la stima della derivata utilizzando una tecnica di media. Il termine di errore di ordine più basso della stima risulta essere di secondo ordine, rendendolo poco affidabile per le linee curve. Vengono introdotti anche i termini di ordine superiore per migliorare la precisione.

  • 01:05:00 In questa sezione, il docente descrive l'utilizzo di un operatore per approssimare una derivata per il rilevamento dei bordi, consentendo un termine di errore di ordine superiore che può funzionare per una linea curva purché la sua terza derivata non sia troppo grande. Calcolando la media di due valori e trovando una stima della derivata, è possibile utilizzare anche le derivate sfalsate di mezzo pixel. Confrontando due operatori con lo stesso termine di errore di ordine più basso, uno con un moltiplicatore più piccolo risulta essere vantaggioso. Tuttavia, l'applicazione dell'operatore per stimare sia la derivata x che la y porta a incoerenze, che possono essere risolte utilizzando un operatore bidimensionale. Questo approccio è utile anche per calcolare le derivate della direzione y per un intero cubo di dati in un flusso ottico fisso.

  • 01:10:00 In questa sezione, il relatore sottolinea l'importanza dell'efficienza degli operatori quando eseguono il rilevamento dei bordi con milioni di pixel. Organizzando i calcoli in modo intelligente, l'operatore può essere ridotto da sei operazioni a quattro. L'oratore cita l'operatore Roberts Cross e Urbain Sobel, che hanno replicato l'operatore in modo particolare facendo una media su un blocco 2x2 per ridurre il rumore ma anche offuscare l'immagine.

  • 01:15:00 In questa sezione del video, il docente spiega come evitare il problema dell'offset di mezzo pixel nel rilevamento dei bordi utilizzando più operatori. La discussione include variazioni di formula e preferenze di implementazione. La conferenza spiega anche i passaggi successivi, inclusa la conversione dalle coordinate cartesiane a quelle polari per il gradiente di luminosità, la quantizzazione della direzione della magnitudine del gradiente e la scansione dei valori massimi. La precisione dei subpixel non è ottenibile a causa del problema di quantizzazione dei pixel. Il docente spiega come mantenere solo i massimi ignorando i non massimi nell'immagine.

  • 01:20:00 In questa sezione, il video discute la necessità di condizioni asimmetriche nel rilevamento dei bordi e un tie breaker per situazioni in cui g zero è uguale a g più o è uguale a g meno. Per trovare il picco della curva, il video descrive l'adattamento di una parabola al bordo con un tie-break, e viene mostrato che la s calcolata in questo modo è limitata in grandezza alla metà. Un altro metodo mostrato è un piccolo modello a triangolo, che presuppone che le pendenze delle due linee siano le stesse e stima le posizioni verticale e orizzontale, risultando nella formula per s. Entrambi i metodi servono per ottenere una precisione subpixel e il video suggerisce che il modello a triangolo può sembrare strano ma è efficace in determinate circostanze.

  • 01:25:00 In questa sezione, il docente discute la forma di un bordo nel caso di sfocatura, in particolare come influisce sul metodo di recupero della posizione effettiva del bordo. Parla anche di alternative alla quantizzazione della direzione del gradiente e di come possa essere problematica, in particolare su una griglia quadrata dove ci sono solo otto direzioni. Questo problema mostra che ci sono molti dettagli da considerare se si vogliono buone prestazioni, come trovare un buon modo per calcolare le derivate.
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
Motivazione: