Apprendimento automatico e Reti Neurali - pagina 25

 

MIT 6.S192 - Lezione 19: Facile creazione di contenuti 3D con campi neurali coerenti, Ajay Jain



MIT 6.S192 - Lezione 19: Facile creazione di contenuti 3D con campi neurali coerenti, Ajay Jain

In questa conferenza, Ajay Jain presenta il suo lavoro sulle rappresentazioni di scene neurali, concentrandosi in particolare sul modello Neural Radiance Fields che utilizza viste di input scarsamente campionate per costruire una rappresentazione della geometria e del colore 3D di una scena. Jain discute le sfide dell'adattamento di un campo di radianza neurale a una singola scena, nonché i modi per migliorare l'efficienza dei dati del processo di addestramento aggiungendo la perdita fotometrica e la perdita di coerenza semantica. Parla anche dell'utilizzo di CLIP per rimuovere gli artefatti in NeRF e generare oggetti 3D dai sottotitoli nel progetto Dream Fields. Altri argomenti includono la creazione di oggetti in primo piano coerenti nelle scene, l'acquisizione di set di dati di oggetti 3D con sottotitoli, la riduzione dei costi di rendering e l'ottimizzazione delle prestazioni del sistema.

  • 00:00:00 In questa sezione del video, Ajay Jain parla del suo viaggio e dei suoi interessi di ricerca nei modelli generativi e negli strumenti di intelligenza artificiale. Discute anche i diversi tipi di rappresentazioni di scene, concentrandosi su approcci volumetrici che sono più facili da addestrare e utilizzare in un contesto di apprendimento rispetto alle rappresentazioni mesh comunemente utilizzate nelle applicazioni grafiche. Jain evidenzia anche il recente interesse per le rappresentazioni di scene neurali.

  • 00:05:00 In questa sezione, il relatore discute il concetto di rappresentazione di scene neurali, concentrandosi in particolare su un modello chiamato Neural Radiance Fields. Questo modello affronta il problema della sintesi della vista, in cui le viste di input scarsamente campionate di una scena vengono utilizzate per costruire una rappresentazione della geometria e del colore 3D della scena, consentendo il rendering da nuove prospettive. Il Neural Radiance Field è stimato da queste immagini e consente un'interpolazione fluida delle viste scarsamente campionate. Il modello è anche in grado di modellare effetti dipendenti dalla vista come specularità su superfici lucide. La rete neurale è rappresentata come funzione di mappatura dalle coordinate dello spazio 3D e dalla direzione di visualizzazione e prevede il colore e la densità per ciascuna coordinata. Il rendering viene eseguito tramite ray tracing e rendering volumetrico.

  • 00:10:00 In questa sezione, il relatore discute il processo di rendering del colore in base alla rappresentazione della scena neurale al fine di ottimizzare i pesi della rete neurale per ottenere i colori desiderati. Spiegano che l'MLP che codifica la scena consente un rendering differenziabile dei punti di vista rendendo più facile l'ottimizzazione. Questo processo è chiamato grafica inversa e comporta il passaggio dallo spazio 2D all'ottimizzazione per la rappresentazione 3D sottostante che ricostruirà quelle viste. Il relatore spiega anche come le coordinate di input vengono inserite nella rete neurale utilizzando un approccio di codifica posizionale sinusoidale che proietta l'input a 5 dimensioni in uno spazio dimensionale superiore.

  • 00:15:00 In questa sezione, il video discute le sfide dell'adattamento di un Neural Radiance Field a una singola scena, poiché generalmente richiede una grande quantità di dati per l'addestramento. Il video mostra una scena sintetica che ha richiesto un centinaio di immagini per adattarsi al campo, mentre alcune scene all'aperto hanno richiesto meno immagini. Il video discute quindi un modo per migliorare l'efficienza dei dati del processo di addestramento aggiungendo un'ulteriore perdita all'addestramento del campo di radianza neurale, chiamata perdita fotometrica, in posizioni non osservate. Ciò consente il rendering di nuove viste anche prima che la scena sia convergente.

  • 00:20:00 In questa sezione, il relatore discute il concetto di perdita di coerenza semantica, che consente la regolarizzazione delle scene da qualsiasi prospettiva durante l'allenamento. Utilizzando un codificatore visivo, ogni visualizzazione di input è rappresentata nello spazio delle funzionalità, che consente la codifica dell'identità dell'oggetto e di altre funzionalità che sono coerenti tra i punti di vista. La scelta della funzione è cruciale, in quanto dovrebbe codificare l'identità e le proprietà dell'oggetto invece di dettagli di basso livello come i colori dei pixel. Il relatore propone di utilizzare la rete CLIP perché ha imparato ad abbinare le immagini alle didascalie associate, il che gli consente di codificare classi di oggetti, pose di oggetti e dettagli sull'intera scena. L'oratore mostra che la somiglianza del coseno degli incorporamenti dal codificatore di immagini di CLIP all'interno di una particolare scena da diverse pose della telecamera è molto simile, ma molto diversa nello spazio dei pixel.

  • 00:25:00 In questa sezione del video, il relatore parla dei loro esperimenti sull'uso di CLIP per rimuovere gli artefatti in NeRF massimizzando la somiglianza dello spazio delle caratteristiche, e poi discute l'uso di CLIP per generare oggetti 3D da una semplice didascalia nel loro secondo lavoro, Campi da sogno. Ottimizzano una rappresentazione della scena condivisa in modo che assomigli a una dieta NeRF con regolarizzatori aggiuntivi, quindi visualizzano nuove viste per ogni prospettiva. Usano il codificatore di testo di CLIP per massimizzare la somiglianza nello spazio delle caratteristiche tra la scena e la didascalia invece di ottimizzare la somiglianza delle caratteristiche nello spazio delle caratteristiche dell'immagine. Notano che i sottotitoli automatici con CLIP sono impegnativi a causa della difficoltà del processo di ricerca e ottimizzazione.

  • 00:30:00 In questa sezione, Ajay Jain discute il processo di creazione di oggetti coerenti in primo piano nelle scene 3D utilizzando Dream Fields. Campionando casualmente le pose nella scena e il rendering delle immagini, cercano di garantire che le caratteristiche semantiche corrispondano alle caratteristiche della didascalia. Tuttavia, l'applicazione ingenua di questo approccio senza regolarizzazione può portare a scene degenerate. Pertanto, regolarizzano la scena componendo sfondi campionati casualmente e oggetti in primo piano altamente trasparenti per incoraggiare la scarsità nella scena. Con questa regolarizzazione, sono in grado di creare oggetti in primo piano più coerenti nella scena. Inoltre, sperimentano diversi modelli di didascalie per misurare la generalizzazione compositiva del modello.

  • 00:35:00 In questa sezione, il relatore discute le sfide dell'acquisizione di set di dati di oggetti 3D con sottotitoli e come ha risolto questo problema utilizzando CLIP, un'immagine 2D pre-addestrata e un codificatore di testo. Il progetto Dream Fields eleva questa rappresentazione 2D in 3D attraverso una rappresentazione condivisa della geometria. Il relatore parla anche delle tecniche utilizzate per migliorare la qualità degli oggetti 3D generati e del costo del processo di ottimizzazione. L'obiettivo del progetto è semplificare la creazione di contenuti 3D e generare risorse utili per le applicazioni a valle e il codice è disponibile per chiunque voglia provarlo.

  • 00:40:00 In questa sezione, Ajay Jain spiega che la struttura 3D degli oggetti emerge solo grazie alla rappresentazione condivisa, che soddisfa CLIP da qualsiasi prospettiva. Non esiste un precedente sulla struttura 3D appresa dai dati, quindi manca una certa coerenza sui dati 3D e questa è un'opportunità per il lavoro futuro. Jain menziona anche che quando la geometria sottostante non è visibile, la consistenza non viene preservata, portando a strutture ripetute. La rete neurale generata dalla mappatura delle funzioni dalle coordinate deve essere post-elaborata, il che comporta la conversione dell'output del campo neurale in un file o mesh .fbx, con alcuni algoritmi che consentono questa conversione.

  • 00:45:00 In questa sezione, il relatore discute le strategie per ridurre i costi di rendering nelle rappresentazioni volumetriche del campo di radianza neurale, incluso il rendering di immagini a bassa risoluzione e l'utilizzo di una singola GPU con poca memoria per accelerare significativamente il processo. Spiegano anche come gli oggetti trasparenti possono essere gestiti all'interno di questo tipo di rappresentazione e menzionano i passi futuri per rendere questo approccio più pratico per gli artisti 3D, come sintetizzare oggetti deformabili e incorporare il feedback umano durante la formazione. Infine, condividono un taccuino Colab per implementare il sistema e regolare le impostazioni di qualità per diversi prompt.

  • 00:50:00 In questa sezione, il relatore discute le curve di apprendimento e il processo di ottimizzazione coinvolti nella creazione di contenuti 3D utilizzando campi neurali coerenti. Spiegano diversi fattori che influenzano il processo di ottimizzazione, come la trasparenza dei pixel nella scena e il numero di aumenti di dati per iterazione. Suggeriscono inoltre di modificare i parametri di configurazione per ridurre l'utilizzo della memoria, che include la riduzione del numero di campioni e l'utilizzo del CLIP b32 invece del CLIP b16 predefinito. Infine, menzionano l'opzione di parallelizzazione su più GPU per ottimizzare le prestazioni.
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
MIT 6.S192 - Lecture 19: Easy 3D content creation with consistent neural fields, Ajay Jain
  • 2022.04.19
  • www.youtube.com
Ajay JainDoctoral student (Ph.D.), UC Berkeleyhttps://ajayj.comMore about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can...
 

MIT 6.S192 - Lezione 20: Arte generativa usando la diffusione, Prafulla Dhariwal



MIT 6.S192 - Lezione 20: Arte generativa usando la diffusione, Prafulla Dhariwal

In questa conferenza, Prafulla Dhariwal di OpenAI discute i progressi della modellazione generativa per compiti creativi difficili, in particolare con i modelli di diffusione. Il processo consiste nell'iniziare con un'immagine e aggiungere lentamente rumore gaussiano ad essa, quindi invertire il processo prendendo un po' di danno rumoroso e rimuovendolo per creare immagini meno rumorose. Il modello generativo si ottiene addestrando un modello per invertire il rumore in questo modo, producendo un'immagine dal rumore puro al momento del test eseguendo il modello passo dopo passo all'indietro. Anche la previsione inversa del processo assomiglia a una distribuzione gaussiana quando la quantità di rumore aggiunta è molto piccola, che viene utilizzata per prevedere la media e la varianza del modello. Dhariwal discute anche di come utilizzare i modelli di diffusione per l'in-painting e affrontare i potenziali pericoli dei contenuti generati dall'IA.

  • In questa sezione del video, Prafulla Dhariwal di OpenAI discute il suo background e le motivazioni per condurre ricerche sull'IA. Mostra anche alcuni esempi di potenti modelli ML creativi, come GPT-3 e JukeBox, che possono generare poesia e musica, rispettivamente, da pochi esempi. Il video include anche un esempio di output di JukeBox, che ha generato musica e testi insieme, in quanto sono interdipendenti. Gli spettatori sono incoraggiati a porre domande in qualsiasi momento durante la presentazione.

  • 00:05:00 In questa sezione, Prafulla Dhariwal discute i progressi della modellazione generativa per compiti creativi difficili. Il relatore spiega che un modo per capire se i modelli stanno davvero imparando qualcosa è vedere se possono creare cose complesse e difficili da capire. L'addestramento dei modelli per creare immagini, audio e video è uno dei compiti più difficili in questi domini, ma ci sono stati molti progressi nel tentativo di creare cose da modelli o modellazione generativa. Dhariwal discute come funzionano i modelli generativi, quali input richiedono e come vengono valutati. Il relatore parla anche dei recenti progressi dei modelli di diffusione, che possono generare volti realistici e diverse categorie di immagini. Dhariwal mostra che questi modelli sono migliori dei GAN nel generare immagini.

  • In questa sezione della conferenza, Prafulla Dhariwal discute l'arte generativa attraverso l' uso di modelli di diffusione. I modelli funzionano partendo da un'immagine e aggiungendovi lentamente rumore gaussiano, cercando di invertire il processo subendo un danno rumoroso e riducendolo per creare immagini meno rumorose. Il modello generativo si ottiene addestrando un modello per invertire il rumore in questo modo, producendo un'immagine dal rumore puro al momento del test eseguendo il modello passo dopo passo all'indietro. Anche la previsione inversa del processo assomiglia a una distribuzione gaussiana quando la quantità di rumore aggiunta è molto piccola, che viene utilizzata per prevedere la media e la varianza del modello.

  • In questa sezione, Prafulla Dhariwal discute il processo di utilizzo della diffusione per invertire il rumore aggiunto a un'immagine. Il processo prevede la previsione di una gaussiana nella direzione opposta e l'utilizzo di trucchi di addestramento per semplificare il processo. Il modello prende un'immagine x0, un rumore casuale e una combinazione dei due per produrre un rumore x_t, e la rete viene addestrata per prevedere il rumore che è stato aggiunto all'immagine usando la perdita L2. I modelli utilizzati per questo compito sono in genere modelli convoluzionali in stile UNet, che effettuano il downsampling dell'immagine e apprendono le caratteristiche a diversi livelli di granularità prima di eseguire nuovamente il campionamento in una previsione del rumore. Il processo può essere utilizzato per ottenere un modello generativo prevedendo la media del processo inverso.

  • In questa sezione, apprendiamo come rendere condizionale la classe del modello di diffusione fornendo etichette al modello durante il tempo di addestramento, in modo che il modello possa produrre un'immagine da p di x dato y, la distribuzione delle immagini rappresentate da un'etichetta. Inoltre, il modello può essere condizionato su immagini a bassa risoluzione e campionarle in immagini ad alta risoluzione. Tuttavia, questo tipo di modello produce campioni incoerenti, quindi viene introdotto il trucco della guida. Ciò comporta l'addestramento di un classificatore su immagini rumorose e quindi l'assunzione del gradiente del classificatore per guidare il modello di diffusione verso la generazione di immagini che hanno maggiori probabilità di essere classificate come l'etichetta desiderata.

  • In questa sezione, Dhariwal spiega la necessità di mantenere il classificatore nel processo di campionamento, poiché i gradienti vengono utilizzati direttamente dal classificatore. Il processo inverso modificato utilizza un termine con varianza aggiuntiva, che è il controllo della dimensione del passo nel processo, con ridimensionamento dal parametro aggiuntivo, s. Il parametro s aiuta il modello a concentrarsi sulle modalità della distribuzione e sui risultati più ristretti. Un piccolo valore di s non influenza molto il classificatore, mentre un valore grande lo influenza notevolmente. Il fattore di scala controlla la guida ricevuta dal classificatore e influisce sulla distribuzione in cui collassa.

  • In questa sezione, Prafulla Dhariwal discute l'utilizzo di modelli di diffusione per generare arte basata su descrizioni testuali. Condizionando i modelli di diffusione sulle descrizioni del testo, il modello può essere spinto verso la produzione di immagini che si allineano con il testo. CLIP può essere utilizzato per misurare quanto strettamente l'immagine e il testo si allineano e si può prendere un gradiente per dirigere il processo di generazione del modello verso la descrizione del testo. In alternativa, è possibile utilizzare la guida senza classificatore per addestrare un modello di diffusione con e senza etichette, quindi la differenza tra le due previsioni può essere utilizzata come direzione di spinta durante il tempo di test. Il parametro scale viene utilizzato per controllare la quantità di scostamento verso la distribuzione basata sull'etichetta.

  • 00:35:00 In questa sezione, il relatore discute una forma di guida per i modelli condizionali di testo chiamata guida senza classificatore. Questo metodo prevede l'utilizzo del modello di diffusione stesso come guida chiedendo al modello di prevedere in che direzione dovrebbe andare per aumentare la probabilità che l'immagine generata provenga dalla classe corretta. Il relatore affronta anche una domanda sull'aggiunta graduale di elementi a un'immagine e suggerisce due possibili metodi per raggiungere questo obiettivo, uno dei quali prevede la modifica dell'immagine generata in modo iterativo utilizzando il rumore e la ripetizione del processo con nuovi suggerimenti. Il relatore presenta esempi che confrontano l'efficacia della guida CLIP e della guida senza classificatori, con quest'ultima che produce i migliori risultati.

  • In questa sezione, Prafulla Dhariwal discute una nuova classe di modello per la generazione di immagini che utilizza una tecnica di diffusione. Spiega che questo modello non sta facendo le cose in modo autoregressivo, ma piuttosto genera un'intera immagine, che consente compiti più complicati, come la pittura. L'in-painting comporta il mascheramento di una parte di un'immagine e quindi l'utilizzo del modello per riempire quella parte. Ciò può essere ottenuto anche con la condizione del testo nella pittura, in cui viene fornita un'etichetta di testo per indicare al modello come dipingere la regione. L'in-painting iterativo può essere utilizzato per aggiungere elementi all'immagine uno per uno, come aggiungere un dipinto di un corgi su un muro sopra un divano. Il modello ha generato campioni più realistici rispetto ai modelli precedenti come DALL·E e ha utilizzato meno parametri.

  • In questa sezione della conferenza, Prafulla Dhariwal discute di come l'in -painting possa essere utilizzato per rimuovere oggetti da un'immagine o inserire qualsiasi informazione mancante. Spiega anche l'out-painting, che comporta lo spostamento del rettangolo all'esterno dell'immagine e la richiesta al modello di riempire quell'area. Inoltre, Dhariwal osserva che i taccuini rilasciati utilizzano un modello GLIDE filtrato poiché l'originale potrebbe generare immagini problematiche. Nonostante il divario di prestazioni, il modello più piccolo può comunque generare immagini dall'aspetto realistico. Dimostra esempi di opere d'arte generate dagli utenti su Twitter trovando suggerimenti interessanti ed espandendoli con la tecnica dell'outpainting. Infine, c'è la questione relativa al pericolo creato dal modello GLIDE originale, a cui Dhariwal consiglia di leggere il documento per ulteriori dettagli.

  • In questa sezione, il relatore discute i compromessi tra l'utilità dei modelli e il potenziale pericolo del contenuto generato. Il relatore sottolinea la difficoltà di garantire che i modelli producano solo contenuti sicuri, dato che sono strumenti potenti che potrebbero facilmente creare dati fuorvianti o violenti. Per filtrare parti non sicure del modello, il team deve addestrare classificatori per identificare punti dati potenzialmente problematici. Il relatore prosegue discutendo le preoccupazioni pratiche durante la distribuzione del modello, come la scelta delle scale e delle fasi temporali per il processo di diffusione, nonché come aggiungere maschere personalizzate ai file di immagine per dipingere un'area specifica.

  • 00:55:00 In questa sezione, Prafulla Dhariwal consiglia ulteriori letture a coloro che sono interessati alla teoria alla base dei modelli utilizzati nell'arte generativa. Suggerisce di leggere il "De-Noising Diffusion Probabilistic Models Paper" di Jonathan Ho, così come il loro articolo su "Diffusion Models Beat GANs on Image Synthesis" per ulteriori informazioni sulla guida CLIP e sulla guida senza classificatori. Inoltre, Dhariwal consiglia l'articolo di Yang Song, "Generative Modeling by Estimating Gradients of the Data Distribution", che affronta il problema da una diversa prospettiva di corrispondenza dei punteggi, una lente diversa per comprendere i modelli di diffusione. Durante le domande e risposte, Dhariwal osserva che esiste una relazione tra il rumore bidimensionale utilizzato e gli output del modello, ma è indiretta. Suggerisce di campionare il rumore una volta all'inizio e quindi eseguire un processo inverso deterministico per campionare dal modello come un modo per rendere più chiara questa relazione.

  • In questa sezione, i relatori discutono il processo di rimozione del rumore e il ruolo del condizionamento del testo nella generazione di immagini senza CLIP. Spiegano che l'addestramento di un modello senza etichette di testo rende difficile generare un campione per una data distribuzione di testo, ma il modello di diffusione è addestrato per essere condizionato dal testo. Mentre la guida può essere utilizzata in aggiunta ai modelli incondizionato e condizionale, il modello originale può anche utilizzare la guida per migliorare la sua capacità di produrre un'immagine dato il testo. I relatori incoraggiano gli spettatori a leggere i blog ed esplorare altri taccuini Colab per ulteriori informazioni.
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
  • 2022.04.19
  • www.youtube.com
Prafulla DhariwalResearch Scientist, OpenAIhttps://prafulladhariwal.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessib...
 

MIT 6.S192 - Conferenza 21: Tra arte, mente e macchine, Sarah Schwettmann



MIT 6.S192 - Conferenza 21: Tra arte, mente e macchine, Sarah Schwettmann

In questa conferenza, Sarah Schwettmann discute l'intersezione tra arte, mente e macchine. Approfondisce la percezione visiva e la sfida di sperimentare un ricco mondo 3D attraverso una tela 2D, che richiede al cervello di risolvere un problema inverso e costruire una migliore spiegazione delle informazioni in arrivo. Schwettmann parla anche di progetti che coinvolgono modelli generativi profondi addestrati su opere d'arte, come l'uso dell'inversione GAN per incorporare le immagini della collezione Met nello spazio delle caratteristiche di un modello di fondazione per comprendere la struttura della creatività umana e la creazione di un vocabolario di concetti visivi per un arbitrario GAN spazio latente campionando lo spazio delle trasformazioni salienti o possibili e utilizzando quelle direzioni del campione come schermo per proiettare giudizi percettivi umani. L'interazione umana e l'etichettatura sono importanti in questo processo e il vocabolario risultante può essere applicato ad altri modelli e utilizzato per manipolare le immagini in vari modi. Nonostante il rumore nei dati dovuto alla diversa scelta delle parole, il loro metodo di distillazione dei vocabolari utilizzando qualsiasi dimensione della libreria di annotazioni può essere ridimensionato e può comportare la formazione di un sottotitolatore per etichettare automaticamente le indicazioni.

Sarah Schwettmann discute anche vari modi per esplorare e assegnare significato alle direzioni all'interno di modelli addestrati sulla creazione umana. Presenta un esperimento che cattura e apprende direzioni visive senza linguaggio, che consente agli esseri umani di definire la trasformazione che desiderano puramente visivamente interagendo con un piccolo gruppo di immagini campionate dallo spazio latente o dallo spazio delle caratteristiche. Questo metodo è utile per etichettare e comprendere le immagini con caratteristiche sfumate e difficili da spiegare. Inoltre, lo spazio latente può diventare uno schermo su cui proiettare le esperienze umane, consentendo ai ricercatori di comprendere meglio aspetti della percezione umana altrimenti difficili da formalizzare.

  • 00:00:00 In questa sezione, Sarah Schwettmann parla del suo background nelle neuroscienze e di come si è interessata al punto d'incontro tra il sé e il mondo, in particolare nelle aree in cui l'arte visiva e gli aspetti cognitivi di livello superiore si intersecano. Descrive la percezione visiva come fondamentalmente costruttiva, che richiede un po' di creatività per risolvere problemi inversi mal posti, e osserva che la parte posteriore dell'occhio umano è una tela piatta 2D composta da una gerarchia di cellule che costituiscono una tela 2D che comprende dati di immagini in arrivo e rappresenta le immagini in termini di modelli di attivazioni tramite un mosaico di cellule.

  • 00:05:00 In questa sezione della conferenza, Sarah Schwettmann discute la sfida di sperimentare un ricco mondo 3D guardandolo attraverso una tela 2D. Sebbene i classici problemi di visione artificiale siano in grado di riconoscere la struttura 3D di un oggetto, non possono trasmettere i significati e le associazioni associati che ne derivano. Il nostro cervello deve risolvere un problema inverso per passare da una bassa informazione bidimensionale a una ricca 3D, che è un problema mal posto perché ci sono infinite configurazioni che potrebbero causare la stessa proiezione 2D. La percezione è fondamentalmente costruttiva e richiede al cervello di costruire una migliore spiegazione delle informazioni in arrivo, rendendola un atto di creazione. Un modo popolare per risolvere questo problema di inferenza è utilizzare modelli del mondo, come gli approcci bayesiani o di deep learning. Schwettmann fornisce quindi un esempio di una demo dal vivo in cui le informazioni visive sono limitate a una singola linea di luce laser rossa, costringendo il pubblico a dedurre ciò che è seduto su un tavolo ricoperto di velluto nero.

  • 00:10:00 In questa sezione del video, Sarah Schwettmann discute di come i nostri modelli mentali su forme e forme possono aiutare a informare la nostra percezione. Presenta un esempio in cui una singola linea di luce laser si muove sulla superficie di diverse forme e come possiamo dedurre quali sono quelle forme in base a come la luce si piega attorno alla superficie. Ciò porta a una discussione sulla fisica intuitiva e su come il cervello rappresenta proprietà fisiche come la massa, che potrebbero essere utilizzate come input per un motore astratto generalizzato per la simulazione fisica. Schwettmann tocca anche il tema dei modelli nell'arte, spiegando come sia difficile sviluppare un formalismo computazionale per certe opere d'arte dove le dimensioni sottostanti non sono chiare.

  • 00:15:00 In questa sezione, il Dott. Sarah Schwettmann parla del corso Vision in Art and Neuroscience offerto dal MIT. Si tratta di un seminario approfondito che approfondisce i principi alla base della visione attraverso la letteratura sulle neuroscienze, il calcolo e la pratica artistica. Schwettmann presenta esempi dalla fotografia di Minor White e discute di come diversi fattori possono influenzare la percezione veritiera. Il corso include anche una sezione di studio in cui gli studenti esplorano come esternare e visualizzare i principi della visione in contesti artistici. Inoltre, i corsi culminano nello sviluppo di un'opera d'arte, offrendo agli studenti un'opportunità unica di mostrare le proprie opere d'arte.

  • 00:20:00 In questa sezione, Sarah Schwettmann discute un progetto incentrato su come i modelli generativi profondi potrebbero essere utilizzati per comprendere la struttura della creatività umana. Il Metropolitan Museum of Art ha fornito un set di dati di alcune centinaia di migliaia di immagini digitali di opere nella loro collezione. I ricercatori hanno chiesto se potevano costruire profondi modelli generativi associati a questi archivi che incorporassero il lavoro creato nel loro contesto culturale. Hanno utilizzato l'inversione GAN (generative adversarial network) per incorporare ogni immagine nel set di dati nello spazio delle caratteristiche di un modello di base. Ciò ha permesso loro di definire sottospazi di questi grandi modelli con cui interagire, piuttosto che dover riaddestrare un modello sul proprio set di dati. Il progetto mirava a sperimentare la storia culturale su una linea temporale che consentisse una rapida evoluzione nel presente.

  • 00:25:00 In questa sezione, Schwettmann parla di un progetto a cui ha lavorato coinvolgendo la collezione Met e BigGAN ImageNet. Hanno selezionato categorie condivise tra i due e creato una perdita in due parti per massimizzare la somiglianza tra l'immagine Met e l'immagine BigGAN a livello di pixel e semantica. Sono stati in grado di visualizzare i singoli incorporamenti e fare interpolazioni tra le immagini esistenti sul grafico per creare immagini ipotetiche o oniriche che esistono tra gli spazi delle opere esistenti nella collezione. Il progetto è stato esposto al Met ed è stata resa disponibile una versione web app. Il progetto continua ad evolversi con l'uso di StyleGAN2-ADA per l'addestramento su set di dati più piccoli.

  • 00:30:00 In questa sezione, Schwettmann parla di un progetto che prevede la creazione di dipinti ad olio stratificati da brevi passeggiate nello spazio latente utilizzando un pittore ad olio robotico per rappresentare visivamente il lavoro di manovrabilità trattato nel corso. Questo progetto è in mostra presso la galleria d'arte contemporanea dell'Università del Texas settentrionale. Discute anche l'importanza di comprendere e interpretare le dimensioni alla base dei modelli generativi addestrati su corpi di lavoro artistico provenienti da collezioni digitali di musei, con l'obiettivo di creare storie alternative e immaginarie dell'arte costruite da passeggiate latenti uniche. L'obiettivo è comprendere gli aspetti condivisi del linguaggio delle immagini che possono essere presenti in generi artistici molto diversi.

  • 00:35:00 In questa sezione, Schwettmann discute l'intersezione tra creatività di modellazione e apprendimento automatico, in particolare per quanto riguarda la modellazione di tecniche e stili artistici individuali. Nota inoltre che i modelli generativi addestrati sulle opere d'arte possono offrire approfondimenti sulla struttura alla base della creatività e possono essere utilizzati come strumenti per la collaborazione. Schwettmann prosegue quindi esplorando i modi in cui gli esseri umani possono interagire con i modelli generativi per saperne di più sulla visione umana e costruire vocabolari condivisi, come la progettazione di esperimenti che consentono la visualizzazione e l'interazione di passeggiate latenti. L'interazione umana in questo processo comporta una selezione di immagini rappresentative per l'addestramento di insiemi di dati e la selezione di passeggiate arbitrarie attraverso lo spazio latente, con il passo successivo di creare un linguaggio più sistematico per le diverse passeggiate.

  • 00:40:00 In questa sezione, Sarah Schwettmann discute l'uso dell'interazione umana nell'etichettatura e nella selezione di diverse passeggiate attraverso lo spazio latente per produrre cambiamenti sfumati nello sviluppo dell'arte. Sottolinea l'importanza di coinvolgere direttamente i modelli, piuttosto che fare affidamento su un sottotitolatore intermedio, e coinvolgere diversi tipi di esseri umani nel giro per utilizzare le loro conoscenze per creare una sintesi unica con il modello generativo. Schwettmann discute quindi un progetto incentrato sulla costruzione di un vocabolario di concetti visivi per uno spazio latente GAN arbitrario, che prevede il campionamento dello spazio di trasformazioni salienti o possibili e l'utilizzo di quelle direzioni campione come schermo per proiettare giudizi percettivi umani. L'obiettivo è quello di districare i concetti in un vocabolario di concetti visivi compositivi aperti e definire un vocabolario condiviso tra caratteristiche profonde nella rappresentazione di un modello e concetti significativi per gli esseri umani nella comprensione della scena visiva.

  • 00:45:00 In questa sezione della conferenza, Sarah Schwettmann discute di come gli esseri umani possono essere usati per etichettare un set di dati per un vocabolario che è sia vario che specifico. Definendo direzioni selettive del livello reciprocamente ortogonali che riducono al minimo il cambiamento nella rappresentazione delle caratteristiche in alcuni livelli di BigGAN, Schwettmann è in grado di catturare cambiamenti mirati e cambiamenti a diversi livelli di astrazione. Queste trasformazioni significative minime vengono quindi etichettate dagli spettatori umani, che Schwettmann decompone quindi in un vocabolario di concetti visivi costituito da singole direzioni etichettate con singole parole. Si è scoperto che oltre 2000 concetti corrispondono a molti tipi diversi di cambiamenti visivi, consentendo manipolazioni come zoom, rotazione, colore e persino cambiamenti di umore. Attraverso questo processo, Schwettmann è in grado di districare le trasformazioni che corrispondono a concetti etichettati dallo spettatore, come far sembrare una cucina più moderna e applicare queste trasformazioni ad altre immagini.

  • 00:50:00 In questa sezione, Sarah Schwettmann discute la natura componibile e generalizzabile del metodo proposto per trovare dimensioni di interesse visivo significative per gli esseri umani nello spazio latente di un modello formato su immagini del mondo reale. Hanno condotto una serie di esperimenti comportamentali per valutare il successo del loro metodo e hanno scoperto che è possibile aggiungere concetti appresi in una categoria a una categoria diversa. Il metodo è indipendente dal modello e può essere applicato ad altri modelli, compresi quelli formati su archivi di immagini d'arte. Esistono anche diversi metodi che possono essere utilizzati per campionare lo spazio latente, ma il metodo di selezione del livello è risultato essere il più efficace nell'isolare cambiamenti specifici. L'intervento umano è ancora necessario per l'annotazione, ma il lavoro futuro potrebbe comportare l'addestramento di un sottotitolatore su un set di dati etichettato più grande o l'utilizzo di qualcosa come CLIP per le annotazioni automatiche, preservando l'opportunità per gli esperti di annotare modelli specializzati.

  • 00:55:00 In questa sezione del video, Sarah Schwettmann discute il processo di annotazione per il progetto e il processo decisionale alla base della scelta delle direzioni da visualizzare. Il team ha raccolto almeno due annotazioni per ciascuna direzione per misurare l'accordo tra soggetti e ha utilizzato i punteggi BLEU e BERTS per l'accordo tra annotatori. Hanno visualizzato 64 z per categoria e una serie di direzioni significative minime diverse per loro. La decisione è stata in qualche modo ad hoc, ma il metodo che hanno utilizzato può distillare i vocabolari utilizzando qualsiasi dimensione della libreria di annotazioni. Ora stanno decidendo se aumentare le dimensioni e raccogliere più annotazioni per addestrare un sottotitolatore a etichettare automaticamente le indicazioni. In termini di etichettatura, non c'erano standard per gli annotatori in termini di scelta delle parole, il che ha comportato un certo rumore nei dati. Sebbene abbiano fatto un'esercitazione e esaminato esempi prima delle annotazioni, l'accordo tra annotatori si basava esclusivamente sulla finestra grezza nella percezione fornita dalla scelta delle parole.

  • 01:00:00 In questa sezione, il relatore discute la sua ricerca sulla valutazione del vocabolario utilizzato per descrivere i cambiamenti nel cielo. Hanno scoperto che l'utilizzo di BERTScores per valutare la somiglianza semantica delle annotazioni era più efficace rispetto alla semplice osservazione della corrispondenza basata sulle parole. Discutono anche dell'idea di raggruppare annotazioni simili sotto un unico ombrello per aumentare il potere, ma notano la bellezza delle diverse parole usate per descrivere i cambiamenti. L'oratore e il membro del pubblico discutono quindi delle passeggiate non lineari attraverso i sottospazi negli spazi latenti e la mancanza di normalizzazione nel significato visivo corrispondente agli aggettivi. Il relatore conclude con un metodo beta per costruire un vocabolario condiviso tra umani e modelli.

  • 01:05:00 In questa sezione, Sarah Schwettmann descrive il suo esperimento di catturare e apprendere direzioni visive senza linguaggio. Questo metodo è ispirato al "lavoro di guida" e consente agli esseri umani di definire la trasformazione che desiderano in modo puramente visivo, interagendo con un piccolo gruppo di immagini campionate dallo spazio latente o dallo spazio delle caratteristiche. Gli utenti possono ordinare le immagini nella direzione della particolare caratteristica visiva che vogliono definire, e il metodo è simpatico con il lavoro di manovrabilità. Hanno definito una trasformazione semplicemente imparando un iperpiano che separa diverse classi di immagini e immagini campionate dallo spazio latente. È possibile discernere queste direzioni con un certo grado di affidabilità utilizzando poche immagini in ciascuna categoria, rendendo semplice per l'utente interagire con tali sistemi. Questo metodo è utile per etichettare e comprendere le immagini che hanno caratteristiche sfumate e difficili da spiegare.

  • 01:10:00 In questa sezione della conferenza, Sarah Schwettmann discute lo spazio latente e come può essere utilizzato per esplorare e assegnare un significato alle direzioni trovate all'interno di modelli che sono stati addestrati sulla creazione umana. Esaminando il modo in cui un modello apprende le differenze visive tra le categorie, i ricercatori possono apprendere dimensioni significative come la pienezza, che possono essere applicate a scene al di là di ciò su cui il modello è stato addestrato. Attraverso questo processo, lo spazio latente può diventare uno schermo su cui proiettare le esperienze umane, consentendo ai ricercatori di comprendere meglio aspetti della percezione umana altrimenti difficili da formalizzare. Il risultato è una collaborazione tra uomo e macchina che può produrre risultati squisiti.

  • 01:15:00 In questa sezione, Sarah Schwettmann discute l'idea di spazi latenti e la connessione tra la nostra immaginazione e i modelli che creiamo. Esprime il suo apprezzamento per questa relazione e poi conclude il video consentendo eventuali domande rimanenti da parte del pubblico.
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
  • 2022.04.19
  • www.youtube.com
Sarah SchwettmannPostDoc in MIT CSAILhttps://www.cogconfluence.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessibility...
 

MIT 6.S192 - Lezione 22: Modelli probabilistici di diffusione, Jascha Sohl-Dickstein



MIT 6.S192 - Lezione 22: Modelli probabilistici di diffusione, Jascha Sohl-Dickstein

In questa conferenza, Jascha Sohl-Dickstein discute i modelli di diffusione, che vengono utilizzati per apprendere compiti separati dai dati di addestramento. I modelli sono probabilistici e possono essere utilizzati per codificare o decodificare i dati. Il processo di diffusione in avanti è un processo fisso e anche il processo inverso è vero.

Questa conferenza discute i modelli probabilistici di diffusione e spiega che, sebbene esista una corrispondenza biunivoca tra lo spazio latente e lo spazio dell'immagine, è possibile lavorare con più classi all'interno dello stesso modello. La conferenza prosegue poi spiegando come utilizzare questi modelli per generare nuove immagini.

  • 00:00:00 In questo discorso, Jascha Sohl-Dickstein discute i modelli di diffusione, che vengono utilizzati per generare immagini in una varietà di discipline, inclusa l'arte. Condivide anche esempi di come i modelli di diffusione vengono utilizzati insieme al testo per produrre immagini migliori.

  • 00:05:00 In questa conferenza, Jascha Sohl-Dickstein discute l'intuizione fisica alla base dei modelli di diffusione e mostra come possono essere utilizzati per generare campioni da una distribuzione di dati. Discute quindi le connessioni tra modelli di diffusione e ODE neurali.

  • 00:10:00 In questo video, il professor Jascha Sohl-Dickstein del Dipartimento di ingegneria elettrica del MIT discute i modelli di diffusione, che vengono utilizzati per studiare il comportamento dei sistemi nel tempo. Uno dei principali vantaggi dei modelli di diffusione è che possono essere utilizzati per generare campioni di dati che rappresentano il sistema mentre evolve nel tempo, senza perdere informazioni sulla struttura sottostante del sistema.

  • 00:15:00 In questa conferenza, Jascha Sohl-Dickstein spiega come funzionano i modelli di diffusione. Innanzitutto, mostra come un esempio 1D è illustrato in tre milioni di dimensioni. Successivamente, spiega come funzionano i modelli di diffusione in 2D e 3D. Infine, dimostra come i modelli di diffusione possono essere utilizzati per apprendere funzioni che descrivono la media e la covarianza di una sequenza di gaussiane.

  • 00:20:00 In questa conferenza, Jascha Sohl-Dickstein illustra le basi matematiche dei modelli di diffusione, spiegando come addestrarli utilizzando un limite variazionale. Discute anche della disuguaglianza di Jensen e di come limitare la probabilità logaritmica inferiore del modello. Se le distribuzioni diretta e inversa sulle traiettorie si sovrappongono esattamente, la verosimiglianza logaritmica può essere scritta come una somma sulle divergenze KL, entrambe distribuzioni gaussiane.

  • 00:25:00 In questa conferenza, il Dr. Sohl-Dickstein discute la divergenza KL tra due distribuzioni di probabilità, spiegando la sua importanza per l'apprendimento supervisionato. Continua dicendo che, in generale, KL viene calcolato dai dati al modello e che è collegato alla probabilità logaritmica dei dati. Nota inoltre che può essere difficile calcolare la divergenza KL nella direzione opposta.

  • 00:30:00 In questa conferenza, Jascha Sohl-Dickstein spiega come utilizzare le equazioni differenziali stocastiche (SDE) per modellare la diffusione del rumore in una distribuzione di dati. Spiega come trasformare il processo di diffusione in un'equazione differenziale stocastica e come utilizzare il gradiente della funzione di punteggio di probabilità logaritmica per addestrare un'approssimazione di theta alla funzione di punteggio.

  • 00:35:00 Questa lezione discute l'algoritmo di modellazione diffusiva ei suoi vantaggi rispetto ad altre tecniche di modellazione. L'algoritmo è descritto in termini di una SDE a tempo discreto e una funzione di punteggio, e il processo di campionamento è descritto in termini di una rete neurale. La lezione si conclude con una dimostrazione di alcune tecniche di generazione del campione.

  • 00:40:00 Questa lezione copre la differenza tra i modelli stocastico e deterministico e come convertire tra i due. La conferenza discute anche i vantaggi e gli svantaggi dell'utilizzo di un SDE rispetto a ODE per la modellazione.

  • 00:45:00 In questa conferenza, Jascha Sohl-Dickstein illustra la teoria alla base dei modelli di diffusione, spiegando in che modo differiscono dai normali modelli lineari e come possono essere utilizzati per vari scopi, come il controllo della generazione di campioni di rumore in condizioni controllate. Cita anche la regola di Bayes, che può essere utilizzata per addestrare il secondo termine del modello di diffusione senza richiedere una conoscenza preliminare della distribuzione condizionale.

  • 00:50:00 In questa conferenza, Jascha Sohl-Dickstein spiega come i modelli di diffusione possono essere utilizzati per generare plausibili pitture o colori nelle immagini. Accenna anche al fatto che la codifica del modello è identificabile in modo univoco, il che è positivo o negativo a seconda di come lo si guarda. Infine, mostra come il modello può essere utilizzato per generare nuove creazioni artistiche senza dover riqualificare il modello.

  • 00:55:00 Questa lezione discute i modelli di diffusione, che vengono utilizzati per apprendere attività separate dai dati di addestramento. I modelli sono probabilistici e possono essere utilizzati per codificare o decodificare i dati. Il processo di diffusione in avanti è un processo fisso e anche il processo inverso è vero.

  • 01:00:00 Questa conferenza discute i modelli probabilistici di diffusione e spiega che, sebbene esista una corrispondenza biunivoca tra lo spazio latente e lo spazio dell'immagine, è possibile lavorare con più classi all'interno dello stesso modello.
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
  • 2022.04.19
  • www.youtube.com
Jascha Sohl-DicksteinSenior Staff Research Scientist in the Brain Group at Googlehttp://www.sohldickstein.com/More about the course: http://deepcreativity.cs...
 

GenRep: modelli generativi come origine dati per l'apprendimento della rappresentazione multivista in ICLR2022

Codice: https://github.com/ali-design/GenRep



GenRep: modelli generativi come origine dati per l'apprendimento della rappresentazione multivista in ICLR2022

I relatori discutono il concetto di zoo modello, in cui i modelli generativi pre-addestrati sono resi accessibili senza accesso ai dati sottostanti. Utilizzando l'apprendimento contrastivo, i ricercatori possono creare diverse visioni dello stesso oggetto, che rientreranno nello stesso quartiere all'interno dello spazio di rappresentazione. Hanno scoperto che le semplici trasformazioni gaussiane nello spazio latente erano efficaci e che la generazione di più campioni dagli IGM porta a rappresentazioni migliori. Gli IGM esperti, come StyleGAN Car in domini specifici, possono superare le rappresentazioni apprese da dati reali. Il sito Web del progetto e il codice Github sono disponibili per ulteriori esplorazioni.

  • 00:00:00 In questa sezione, i relatori discutono il concetto di zoo modello, in cui i modelli generativi pre-addestrati sono resi accessibili senza accesso ai dati sottostanti. Proseguono spiegando come i modelli generativi impliciti possono essere guidati per offrire molte trasformazioni di immagini generate. Utilizzando l'apprendimento contrastivo, i ricercatori possono creare diverse visioni dello stesso oggetto, che rientreranno nello stesso quartiere all'interno dello spazio di rappresentazione. Spostandosi nello spazio latente, creando diversi punti di vista per l'ancora e combinando insieme le trasformazioni, i ricercatori possono apprendere rappresentazioni da questi IGM. Questa ricerca ha mostrato che se vengono applicate entrambe le trasformazioni offerte dagli IGM, possono avvicinarsi alle prestazioni dei dati reali e competere con loro. I risultati sono stati sorprendentemente superiori ai dati reali nel caso di StyleGAN Car.

  • 00:05:00 In questa sezione, il relatore discute l'uso dell'apprendimento contrastivo e della guidabilità nella creazione di diversi punti di vista per l'apprendimento della rappresentazione. Hanno scoperto che le semplici trasformazioni gaussiane nello spazio latente erano efficaci e che la generazione di più campioni dagli IGM porta a rappresentazioni migliori. Hanno anche scoperto che gli IGM esperti, come StyleGAN Car in domini specifici, possono superare le rappresentazioni apprese da dati reali. Il sito Web del progetto e il codice Github sono disponibili per ulteriori esplorazioni.
GitHub - ali-design/GenRep
GitHub - ali-design/GenRep
  • ali-design
  • github.com
Table of Contents: Setup Visualizations - plotting image panels, videos, and distributions Training - pipeline for training your encoder Testing - pipeline for testing/transfer learning your encoder Notebooks - some jupyter notebooks, good place to start for trying your own dataset generations Colab Demo - a colab notebook to demo how the...
 

Un'intervista con Gilbert Strang sull'insegnamento dei metodi a matrice nell'analisi dei dati, nell'elaborazione dei segnali e nell'apprendimento automatico



Un'intervista con Gilbert Strang sull'insegnamento dei metodi a matrice nell'analisi dei dati, nell'elaborazione dei segnali e nell'apprendimento automatico

Gilbert Strang, un rinomato matematico, sottolinea l'importanza dei progetti rispetto agli esami nell'insegnamento del deep learning, una parte cruciale dell'apprendimento automatico che si basa fortemente sull'algebra lineare. Crede che i progetti consentano agli studenti di capire come applicare il deep learning nel mondo reale e siano un modo più efficace di apprendere. Strang sottolinea inoltre che l'insegnamento riguarda l'apprendimento e il lavoro con gli studenti piuttosto che limitarsi a valutarli. Consiglia ai nuovi professori di usare un gesso grande e di prendersi il tempo di stare con la classe per avere successo nell'insegnamento.

  • 00:00:00 In questa sezione, Gilbert Strang discute di come è stato coinvolto nell'insegnamento del deep learning, una parte importante dell'apprendimento automatico che dipende fortemente dall'algebra lineare. Sottolinea inoltre che i progetti sono di gran lunga migliori degli esami in quanto danno agli studenti un'idea di come utilizzare il deep learning in situazioni del mondo reale e sono un modo più efficace di apprendere. Chiedendo agli studenti di porre le proprie domande e scrivere i propri programmi, sono in grado di creare progetti interessanti e memorabili. Tuttavia, Strang ammette che non aveva idea di cosa aspettarsi quando ha iniziato a insegnare il corso in questo modo, e ci è voluto del tempo per capire la logistica per facilitare i progetti.

  • 00:05:00 In questa sezione del video, Gilbert Strang discute la sua filosofia riguardo alla valutazione del lavoro degli studenti. Crede che il suo compito principale come insegnante sia quello di insegnare o imparare insieme agli studenti, non di valutarli. Riconosce che la classificazione è importante, ma non è la sua principale preoccupazione. Consiglia ai nuovi professori di usare un gesso grande e di non affrettarsi, ma di restare con la classe. Crede che insegnare sia il miglior lavoro possibile.
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
  • 2019.08.19
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert Strang, Sarah HansenView the complete cou...
 

MIT 18.065. Metodi a matrice nell'analisi dei dati, nell'elaborazione dei segnali e nell'apprendimento automatico



Introduzione al corso del Professor Strang

Il professor Strang presenta il suo nuovo corso 18.065, che copre quattro argomenti chiave: algebra lineare, deep learning, ottimizzazione e statistica. Il corso si concentrerà sulle migliori matrici, matrici simmetriche e ortogonali e la loro relazione con l'algebra lineare. Tratterà anche il deep learning, che è fondamentale per l'algebra lineare e comporta calcoli complessi che possono richiedere l'uso di GPU per giorni o addirittura settimane. Il corso toccherà la statistica, che svolge un ruolo nel mantenere i numeri nella funzione di apprendimento entro un buon intervallo, e l'ottimizzazione e la teoria della probabilità, che sono importanti nell'apprendimento degli algoritmi, e le equazioni differenziali che svolgono un ruolo chiave nelle applicazioni scientifiche e ingegneristiche . Il corso include esercizi, problemi e discussioni per fornire una presentazione completa dell'argomento.

  • 00:00:00 In questa sezione, il professor Strang presenta il suo nuovo corso 18.065 e il nuovo libro di testo sull'algebra lineare e l'apprendimento dai dati. Spiega che il corso copre due materie matematiche essenziali e due supplementari, ma importanti. Il primo grande argomento è l'algebra lineare, che è diventata sempre più importante nella pratica, e il professor Strang si concentra sulle migliori matrici, matrici simmetriche e ortogonali, e sulla loro relazione. Il secondo argomento importante è il deep learning che si occupa della creazione di una funzione di apprendimento che riconosca i modelli negli input e produca output, utilizzando moltiplicazioni di matrici e una funzione non lineare molto semplice. Il corso copre anche l'ottimizzazione e la teoria della probabilità, che sono importanti nell'apprendimento degli algoritmi, e le equazioni differenziali, che svolgono un ruolo chiave nelle applicazioni scientifiche e ingegneristiche.

  • 00:05:00 In questa sezione, il professor Strang introduce quattro argomenti chiave che saranno trattati nel corso: algebra lineare, deep learning, ottimizzazione e statistica. L'algebra lineare è fondamentale per comprendere il deep learning, che comporta calcoli complessi che possono richiedere l'uso di GPU per giorni o addirittura settimane. Il corso toccherà anche le statistiche, che svolgono un ruolo nel mantenere i numeri nella funzione di apprendimento entro un buon intervallo. Sebbene questo corso non si concentri sulle statistiche, verrà utilizzato nel contesto del deep learning. Il corso copre una vasta gamma di materiali oltre ai semplici video, inclusi esercizi, problemi e discussioni per fornire una presentazione completa dell'argomento.
Course Introduction of 18.065 by Professor Strang
Course Introduction of 18.065 by Professor Strang
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 1: Lo spazio colonna di A contiene tutti i vettori Ax



Lezione 1: Lo spazio colonna di A contiene tutti i vettori Ax

Questa lezione si concentra sul concetto di spazio delle colonne di una matrice, che è una raccolta di tutti i vettori che si possono ottenere moltiplicando la matrice per tutti i possibili vettori. Il docente spiega che lo spazio delle colonne dipende dalla matrice e potrebbe essere l'intero spazio di R3 o un sottoinsieme più piccolo di esso. Il professore discute ulteriormente i concetti di spazio di riga, rango di colonna e rango di riga, nonché la relazione tra questi ranghi. La lezione tocca anche brevemente il primo grande teorema dell'algebra lineare, che afferma che il rango di colonna di una matrice è uguale al rango di riga della matrice. Inoltre, il professore discute i metodi per la moltiplicazione di matrici e il numero di moltiplicazioni richieste per il processo. Nel complesso, la lezione offre un'introduzione all'algebra lineare e alla sua importanza nell'apprendimento dai dati.

  • 00:00:00 In questa sezione, il professore presenta se stesso e il corso, che si concentra sull'apprendimento dai dati e coinvolge molta algebra lineare. Cita un sito pubblico con un sommario per il libro in uscita, così come il fatto che non ci saranno quiz, solo compiti a casa che riguarderanno sia domande di algebra lineare che applicazioni pratiche come il riconoscimento della grafia e l'unione di immagini. Il professore inizia quindi con le basi dell'algebra lineare dimostrando il modo corretto di moltiplicare una matrice per un vettore e in seguito esplorerà la moltiplicazione di matrici per matrici.

  • 00:05:00 In questa sezione, il docente spiega l'importanza di pensare a una matrice come a un oggetto intero che moltiplica un vettore per dare un altro vettore. Introduce il concetto di spazio colonna di una matrice, che è una raccolta di tutti i vettori ottenibili moltiplicando la matrice per tutti i vettori possibili. Spiega che lo spazio delle colonne dipende dalla matrice e potrebbe essere l'intero spazio di R3 o un sottoinsieme più piccolo di esso. In definitiva, il docente sottolinea che l'algebra lineare fornisce un modo per rispondere a domande sulle raccolte di vettori, come lo spazio delle colonne di una matrice.

  • 00:10:00 In questa sezione, il docente spiega che lo spazio delle colonne di una matrice 3x3 casuale potrebbe non essere necessariamente tutte le nostre tre, ma potrebbe invece essere un piano o anche una linea. Fornisce un esempio di una matrice il cui spazio di colonna è solo una linea, e un altro esempio di una matrice la cui terza colonna è una combinazione delle prime due, rendendo il suo spazio di colonna un piano invece dell'intero spazio. Quindi introduce le matrici di primo grado, che sono elementi costitutivi dell'algebra lineare e della scienza dei dati, e mostra come possono essere pensate come una moltiplicazione di colonna per riga.

  • 00:15:00 In questa sezione, il docente discute lo spazio delle colonne di una matrice, che è l'insieme di tutte le possibili combinazioni delle sue colonne. Spiega il concetto di colonne indipendenti e quante colonne indipendenti ha una matrice, che è nota come rango. Il rango è il numero di colonne indipendenti che riempiono lo spazio e una base è costituita dalle colonne indipendenti. Il docente mostra come trovare un modo naturale per creare una base per lo spazio delle colonne cercando vettori che non siano combinazioni di quelli già scelti. Mette in mostra una matrice con tre colonne, due delle quali indipendenti e costituiscono la base per lo spazio delle colonne, mentre la terza non è indipendente e non può far parte della base.

  • 00:20:00 In questa sezione della lezione, l'istruttore spiega il processo di fattorizzazione matriciale e introduce la prima fattorizzazione matriciale, famosa nell'insegnamento vicino all'algebra. Il processo prevede la produzione di una matrice R che indica all'utente come ottenere le colonne di una matrice dalle colonne di un'altra matrice. La forma di R è determinata dalla matrice originale e l'istruttore prosegue spiegando come inserire i numeri giusti per ottenere la corretta fattorizzazione della matrice. La lezione tocca anche brevemente il primo grande teorema dell'algebra lineare, che afferma che il rango di colonna di una matrice è uguale al rango di riga della matrice.

  • 00:25:00 In questa sezione, il docente introduce il concetto di spazio riga e la sua relazione con lo spazio colonna. Spiega che lo spazio delle righe di una matrice è la combinazione delle sue righe, mentre lo spazio delle colonne di una matrice è la combinazione delle sue colonne. Spiega inoltre che la dimensione dello spazio delle righe è il rango delle righe della matrice, che può essere determinato trovando una base per lo spazio delle righe. Il relatore sottolinea l'importanza di questo fatto e offre una dimostrazione, mostrando che le righe di una matrice possono costituire una base per il suo spazio righe.

  • 00:30:00 In questa sezione della lezione, il professore spiega come verificare se due vettori sono una base per lo spazio delle righe verificando se sono indipendenti e se le loro combinazioni producono tutte le righe. Lo dimostra attraverso un esempio che coinvolge la moltiplicazione di matrici e mostra che la fattorizzazione a = CR è l'idea chiave per trovare lo spazio delle righe. Viene discusso anche lo spazio delle colonne, noto anche come intervallo, ponendo l'accento sulle diverse lingue e sui diversi modi di esprimere concetti matematici fondamentali.

  • 00:35:00 In questa sezione, il docente discute i concetti di rango di colonna e rango di riga, che sono rispettivamente il numero di colonne e righe in una matrice che sono linearmente indipendenti, nonché la relazione tra questi due ranghi. Spiega che per una matrice grande non è pratico esaminare tutte le voci e deve essere utilizzato il campionamento casuale, ad esempio prendendo un vettore casuale X e osservando l'asse corrispondente. Il docente tocca anche fattorizzazioni come prendere colonne o righe di una matrice e la forma a scaglioni ridotta di righe di una matrice.

  • 00:40:00 In questa sezione del video, il professor Gilbert Strang spiega che i problemi di algebra lineare faranno parte dei compiti del corso. Tuttavia, ciò che rende speciale questo corso sono gli altri compiti online, che possono essere svolti utilizzando MATLAB, Python o Julia. Parla di come i concetti del corso siano accreditati al professor Rao, Università del Michigan, che in precedenza aveva creato problemi con i compiti online per un corso di successo in EE al Michigan. Il professor Johnson, una parte di questo corso, tiene un tutorial su Julia ogni semestre, a cui gli studenti possono partecipare. Mentre MATLAB ha lanciato una rampa verso il deep learning, anche Julia sta diventando un linguaggio popolare per il deep learning grazie alla sua facilità d'uso.

  • 00:45:00 In questa sezione della lezione, l'istruttore tratta l'argomento della moltiplicazione di una matrice per un vettore. Anche se questo può sembrare semplice a molti, l'istruttore esplora un modo più profondo di comprendere la moltiplicazione di matrici, dove diventa una combinazione di colonne per righe. Questo approccio è una generalizzazione dell'idea AX=B, dove AB è la somma dei prodotti esterni. La lezione tocca brevemente il numero di moltiplicazioni individuali richieste per una matrice M per N moltiplicata per una matrice N per P.

  • 00:50:00 In questa sezione, il docente discute il numero di moltiplicazioni necessarie per la moltiplicazione di matrici utilizzando l'esempio di un vecchio metodo e di un nuovo metodo. Nel vecchio metodo, sono necessarie n moltiplicazioni per fare un prodotto scalare, e ci sono m e p prodotti scalari nella risposta, risultando in m e p moltiplicazioni complessive. Tuttavia, il nuovo metodo richiede mp moltiplicazioni per ogni colonna e moltiplicazione di riga, e ce ne sono n, portando a mp volte n moltiplicazioni. Nonostante le diverse metodologie, entrambi i metodi danno la stessa risposta e il docente indica che ne discuterà ulteriormente venerdì.
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
  • 2019.08.19
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert Strang, Sarah HansenView the complete cou...
 

Lezione 2: Moltiplicazione e fattorizzazione di matrici



Lezione 2: Moltiplicazione e fattorizzazione di matrici

Questa lezione tratta le basi della moltiplicazione e della fattorizzazione delle matrici. L'autore spiega come le matrici abbiano dimensioni sia nello spazio di riga che in quello di colonna, e come lo spazio di riga abbia dimensione R mentre lo spazio nullo ha dimensione M meno R. La conferenza discute anche la relazione tra righe e soluzioni di un'equazione, così come l'ortogonalità dei vettori nello spazio bidimensionale. Infine, l'autore spiega il teorema fondamentale dell'algebra lineare, il quale afferma che le dimensioni di uno spazio emergono proprio quando si elabora la geometria.

  • 00:00:00 In questa lezione, Gilbert Strang spiega come moltiplicare le matrici usando colonna per riga come metodo. Spiega anche le cinque fattorizzazioni chiave delle matrici e come sono importanti in matematica. Infine, mostra come creare matrici e discutere la loro importanza nell'algebra lineare.

  • 00:05:00 In questa conferenza, l'autore discute il concetto di matrici ortogonali e il loro significato. Continua spiegando la regola per la moltiplicazione di matrici e mostra come può essere applicata a due semplici esempi. Quindi procede a discutere il rango di una matrice e come è correlato alle colonne e alle righe della matrice. Infine, l'autore dimostra come moltiplicare una matrice per la sua matrice diagonale.

  • 00:10:00 In questa conferenza, il professor Gilbert Strang fornisce una breve panoramica del problema degli autovalori simmetrici e delle sue varie applicazioni. Quindi dimostra come la suddivisione di una matrice in pezzi di rango 1 può fornire gli autovettori e gli autovalori corretti.

  • 00:15:00 In questa conferenza, il professor Gilbert Strang tratta le fattorizzazioni fondamentali delle matrici, inclusa la Singular Value Decomposition (SVD). Discute anche dell'eliminazione e spiega come è espressa da L per U. Infine, dimostra come questo può essere applicato a una matrice invertibile e mostra come si fattorizza in triangolare inferiore per triangolare superiore.

  • 00:20:00 In questa conferenza, il professor Gilbert Strang spiega il concetto di eliminazione e come viene utilizzato per risolvere le equazioni. Continua mostrando come l'eliminazione può essere applicata a una matrice due per due e fornisce un esempio che illustra il processo.

  • 00:25:00 Il teorema fondamentale dell'algebra lineare afferma che ci sono quattro sottospazi di una matrice, ciascuno con una dimensione diversa. I sottospazi sono lo spazio riga, lo spazio colonna, lo spazio vettoriale di tutte le trasformazioni lineari sulla matrice e lo spazio di tutte le matrici.

  • 00:30:00 Lo spazio nullo di una matrice è l'insieme delle soluzioni della parola "null" (un vettore con tutte le sue componenti uguali a zero). Questo spazio è chiuso, nel senso che non contiene soluzioni di "ax uguale a zero" che non siano anche soluzioni di "e". Inoltre, lo spazio nullo di una trasposizione è l'insieme delle soluzioni della parola "null" che sono anche soluzioni di "x transpose y".

  • 00:35:00 Il teorema fondamentale dell'algebra lineare afferma che ci sono tipicamente soluzioni indipendenti alle equazioni in un sistema se le dimensioni dei due spazi coinvolti sono uguali. Questo teorema è spesso utilizzato per determinare le dimensioni di un sistema di equazioni.

  • 00:40:00 La lezione sulla moltiplicazione e la fattorizzazione delle matrici copre i fondamenti della moltiplicazione e della fattorizzazione delle matrici. La lezione spiega che le matrici hanno dimensioni sia nello spazio di riga che in quello di colonna, e che lo spazio di riga ha dimensione R mentre lo spazio nullo ha dimensione M meno R. La sezione finale della lezione discute la geometria degli spazi di matrice e dimostra come trovare vettori che risolvono per una particolare equazione in una matrice.

  • 00:45:00 In questa conferenza, l'autore spiega la relazione tra righe e soluzioni di un'equazione, così come l'ortogonalità dei vettori nello spazio bidimensionale. Discute anche il teorema fondamentale dell'algebra lineare, che afferma che le dimensioni di uno spazio emergono proprio quando viene elaborata la geometria.
Lecture 2: Multiplying and Factoring Matrices
Lecture 2: Multiplying and Factoring Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 3. Colonne ortonormali in Q Dare Q'Q = I



3. Le colonne ortonormali in Q danno Q'Q = I

Questa sezione del video spiega il concetto di matrici ortogonali e il loro significato nell'algebra lineare numerica. L'oratore dimostra che la lunghezza al quadrato di QX deve essere la stessa di X trasposizione QX usando il fatto che Q trasposizione Q è uguale all'identità. Il video discute anche la costruzione di matrici ortogonali utilizzando vari metodi come le matrici Gordan e le matrici Householder. Viene anche spiegata l'importanza e la costruzione delle wavelet, insieme al concetto di utilizzo di autovettori ortogonali nell'elaborazione del segnale. Infine, il relatore parla di come testare vettori ortogonali con numeri complessi e menziona che le matrici ortogonali hanno autovettori ortogonali con autovalori diversi.

  • 00:00:00 In questa sezione, l'argomento è sulle matrici Q, che prendono il nome dalle loro colonne ortonormali. Il fatto chiave nelle matrici Q è che le colonne ortonormali si traducono nel semplice fatto che Q traspone Q è uguale alla matrice identità. La spiegazione di ciò è che la lunghezza al quadrato di ciascun vettore nella parte normale della matrice è 1, risultando in uno nella matrice identità. La parte ortogonale della matrice ha zeri, producendo una semplice identità. Per le matrici quadrate Q, la trasposizione Q è uguale alla matrice identità, rendendo Q una matrice ortogonale. Se Q è rettangolare, un esempio per ottenere una matrice ortogonale 2 per 2 è tramite cos e seno theta. La matrice rappresenta una rotazione.

  • 00:05:00 In questa sezione del video, il relatore discute l'importante proprietà delle matrici ortogonali, ovvero che non cambiano la lunghezza di nessun vettore. Questa proprietà li rende popolari per gli algoritmi numerici poiché non c'è mai underflow o overflow quando si moltiplicano per matrici ortogonali. L'oratore dimostra che la lunghezza al quadrato di QX deve essere la stessa di X trasposizione QX usando il fatto che Q trasposizione Q è uguale all'identità. Il relatore menziona anche che le matrici ortogonali sono anche chiamate matrici ortonormali, e pone un paio di esempi di matrici ortogonali due per due.

  • 00:10:00 In questa sezione, il relatore discute il concetto di matrice di riflessione, che si ottiene dopo aver apportato una piccola modifica a una matrice di rotazione. La matrice risultante è simmetrica e ha un determinante pari a -1. Quando applicata ai vettori unitari (1,0) e (0,1), la matrice li riflette rispettivamente lungo una linea e perpendicolarmente alla prima colonna. L'oratore menziona anche che matrici più grandi come queste sono chiamate riflessioni Householder.

  • 00:15:00 In questa sezione, la trascrizione discute il concetto di matrici ortogonali e il loro significato nell'algebra lineare numerica. La matrice Householder viene presentata come un'importante matrice ortogonale. Una matrice Householder viene creata partendo da un vettore unitario e sottraendo due volte il prodotto del vettore unitario e la sua trasposta, risultando in una matrice simmetrica e ortogonale. La trascrizione spiega che queste matrici sono utili per rendere le cose ortogonali e osserva che sono migliori del metodo di Gram-Schmidt. Viene anche dimostrato il processo di verifica se la matrice Householder è ortogonale, concludendo che si tratta di una famiglia affidabile di matrici ortogonali simmetriche.

  • 00:20:00 In questa sezione, il relatore discute la costruzione di matrici ortogonali utilizzando il concetto di matrici di Gordan, che sono matrici costituite da solo uno e negativi. Costruisce esempi stimolanti di matrici di Gordan con ciascuna colonna ortogonale l'una all'altra. Il relatore osserva che questo concetto può essere utile nella teoria della codifica e suggerisce che esiste una matrice 12x12 ortogonale composta da uno e uno negativo, portando a congetturare che ogni dimensione di matrice (oltre a 1x1 e 3x3) può essere costruita in questo modo.

  • 00:25:00 In questa sezione, il relatore discute la congettura sull'esistenza di una possibile matrice ortogonale uno e meno uno con colonne ortogonali di ogni dimensione n. Sebbene non sia stato trovato alcun modo sistematico per dimostrarlo, si suggerisce che ogni multiplo di quattro potrebbe essere una possibilità. Il relatore discute anche l'importanza e la costruzione delle wavelet, che sono costruzioni semplici ma significative che aiutano a produrre vettori ortogonali, in particolare per matrici simmetriche. Il relatore illustra questo concetto disegnando una matrice di casi quattro per quattro di quattro quadranti, ciascuno costituito da vettori ortogonali che seguono uno schema di uno e meno uno.

  • 00:30:00 In questa sezione, il relatore discute le wavelet e la costruzione della matrice wavelet di Haar, che è stata sviluppata molti anni prima che il termine "wavelet" fosse inventato. La matrice Haar ha funzioni molto semplici che la rendono utilizzabile, ed è composta da uno e meno uno seguiti da zeri. La matrice ha il vantaggio di essere sparsa ed è coinvolta nel prendere la media e le differenze tra i valori su scale diverse. Le wavelet sono state ulteriormente sviluppate da Ingrid Dobashi, che ha trovato famiglie di matrici ortogonali con buone proprietà. Questa discussione porta alla lezione successiva su autovalori, autovettori e matrici definite positive.

  • 00:35:00 In questa sezione, il relatore parla dell'importanza degli autovettori ortogonali. Gli autovettori di matrici simmetriche e ortogonali sono automaticamente ortogonali, semplificando la ricerca di vettori ortogonali. L'autovettore più importante è la trasformata discreta di Fourier, che entra nella trasformata veloce di Fourier. Il relatore dimostra come gli autovettori di Q siano ortogonali e ribadisce che la trasformata discreta di Fourier è immensamente utile nell'elaborazione del segnale perché aiuta a suddividere i vettori nelle loro frequenze. Le matrici di permutazione sono un riordino della matrice identità e le loro colonne sono ortogonali, rendendole vincenti. Il relatore conclude parlando di come la discussione di mercoledì si concentrerà su autovettori e autovalori di una coda.

  • 00:40:00 In questa sezione, il relatore discute matrici ortogonali, rotazioni, riflessioni e autovettori. Il video spiega come funzionano gli autovettori delle matrici di permutazione e che la prima colonna è ortogonale alla seconda (o in termini di frequenza, la colonna zero è ortogonale alla prima colonna). Il video prosegue mostrando come ciascuna delle quattro colonne sia un autovettore della permutazione e come siano ortogonali tra loro. Infine, il video menziona che questo è simile alla roba discreta di Fourier ma invece di e alla I, II alla IX, ci sono vettori.

  • 00:45:00 In questa sezione del video, il relatore parla di come testare vettori ortogonali con numeri complessi. Afferma che prendere il prodotto scalare senza il coniugato complesso potrebbe non essere accurato, ma l'uso del coniugato complesso può mostrare ortogonalità. Il relatore menziona anche che gli autovettori di una matrice ortogonale con autovalori diversi dovrebbero essere ortogonali.
3. Orthonormal Columns in Q Give Q'Q = I
3. Orthonormal Columns in Q Give Q'Q = I
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
Motivazione: