Apprendimento automatico e Reti Neurali - pagina 34

 

CS 198-126: Lezione 13 - Introduzione alla modellazione di sequenze



CS 198-126: Lezione 13 - Introduzione alla modellazione di sequenze

In questa conferenza sulla modellazione di sequenze, il relatore introduce l'importanza di rappresentare i dati di sequenza e ottenere un numero ragionevole di passi temporali senza perdere troppe informazioni. Le reti neurali ricorrenti (RNN) sono discusse come un primo tentativo di risolvere queste sfide, che hanno la capacità di gestire diverse lunghezze di input e output. Tuttavia, i problemi con gli RNN impediscono loro di funzionare in modo ottimale. L'incorporamento del testo viene introdotto come un modo più efficiente per rappresentare i dati di testo, piuttosto che utilizzare un vettore one-hot ad alta dimensione. Inoltre, il concetto di codifica posizionale è discusso come un modo per rappresentare l'ordine degli elementi in una sequenza utilizzando valori continui, piuttosto che binari.

  • 00:00:00 In questa sezione, il relatore introduce i modelli di sequenza e spiega la motivazione alla base del motivo per cui sono importanti. In particolare, menzionano vari tipi di dati di sequenza, come dati di serie temporali, audio e testo, e come sono comunemente usati nella visione artificiale e nei modelli di elaborazione del linguaggio naturale. Il relatore discute anche l'importanza di rappresentare i dati di sequenza e raggiungere un numero ragionevole di passi temporali senza perdere troppe informazioni. In definitiva, l'obiettivo è creare modelli linguistici che possano essere addestrati su enormi quantità di dati di testo estratti da Internet, rappresentati come una sequenza tokenizzata di vettori one-hot.

  • 00:05:00 In questa sezione, l'istruttore discute le sfide della rappresentazione dei dati di testo come vettori one-hot e l'inefficienza di averne uno per ogni singola parola in un dizionario. L'obiettivo della modellazione della sequenza è gestire dati arbitrariamente lunghi e lunghezze variabili di input e output. L'istruttore fornisce esempi di diversi paradigmi, tra cui l'analisi del sentimento e la traduzione, che devono gestire lunghezze variabili di output. Inoltre, quando si analizzano i dati di testo, è necessario considerare le relazioni a lunga distanza tra le parole in una frase.

  • 00:10:00 In questa sezione, il video discute le sfide della modellazione di sequenze, che richiedono il collegamento di idee da varie parti di una frase e la gestione di relazioni a lunga distanza tra sequenze. Le reti neurali ricorrenti (RNN) vengono introdotte come primo tentativo di risolvere queste sfide e funzionano, ma non particolarmente bene a causa di problemi che impediscono loro di funzionare in modo ottimale. Il video spiega che gli RNN utilizzano un valore di cella condiviso tra tutti gli elementi della sequenza, con ogni cella che ha esattamente gli stessi pesi che elaborano la sequenza di input. Inoltre, l'output generato dall'RNN può essere interpretato come qualsiasi cosa, da una probabilità a una traduzione.

  • 00:15:00 In questa sezione, apprendiamo la forma base di una rete neurale ricorrente (RNN) in cui prendiamo un elemento di sequenza della stessa lunghezza, facciamo uno strato lineare su di esso, prendiamo l'output dal passaggio temporale precedente e l'input in questa fase temporale per eseguire una moltiplicazione di matrici. Quindi li impiliamo uno sopra l'altro o li aggiungiamo insieme per ottenere l'output. La funzione tahn viene utilizzata per assicurarsi che le uscite siano nell'intervallo e per evitare che i valori esplodano o diventino troppo piccoli durante la propagazione in avanti o all'indietro. Impilando più livelli, possiamo iniziare a imparare funzioni più complesse.

  • 00:20:00 In questa sezione della lezione, l'istruttore discute le sfide e le soluzioni della creazione di un modello di sequenza. Utilizzando una funzione tanh sull'output di ogni cella, i valori vengono mantenuti tra -1 e 1, evitando valori elevati che possono causare problemi durante ripetute moltiplicazioni di matrici. Il modello può gestire dimensioni di input arbitrarie, lunghezze di output variabili e relazioni a lunga distanza. L'istruttore introduce quindi gli incorporamenti come un modo più efficiente per rappresentare i dati di testo, piuttosto che utilizzare un vettore one-hot di 100.000 dimensioni. Idee come la codifica binaria e trinaria vengono esplorate come possibile soluzione.

  • 00:25:00 In questa sezione, il relatore introduce il concetto di incorporamento del testo e come può essere utilizzato nella modellazione di sequenze. Invece di utilizzare vettori one-hot per ogni parola nel dizionario, un vettore più piccolo che rappresenta la parola viene appreso e inserito nel modello. Questa compressione della rappresentazione consente una riduzione della dimensionalità e crea un vettore incorporato che assomiglia a un libro di codici. La speranza è che questi incorporamenti consentano una rappresentazione intelligente delle parole, con parole simili come "gatto" e "cane" relativamente vicine, mentre parole con poca correlazione come "gatto" e "erba" sono più distanti. Sebbene non vi sia alcuna garanzia che questa relazione di prossimità esista, può essere utilizzata per rendere più facile la comprensione di come l'analisi del sentimento e altri modelli siano influenzati da specifiche scelte di parole.

  • 00:30:00 In questa sezione, il docente discute l'uso della discesa del gradiente su un libro di codici di vettori incorporati per raggruppare insieme parole semanticamente simili. Cita anche il concetto di codifica posizionale, in cui il tempo trascorso o la posizione in una sequenza può essere importante per determinati domini, e discute alcuni metodi per rappresentare un vettore caldo per la posizione prima di passare a ciò che funziona bene, noto come codifica posizionale.

  • 00:35:00 In questa sezione della lezione, l'istruttore discute l'idea di utilizzare un timestamp nella modellazione della sequenza per indicare a che punto siamo nella sequenza. Tuttavia, l'utilizzo di una codifica binaria come timestamp può diventare limitato per lunghezze di sequenza maggiori poiché può rappresentare solo un numero limitato di passaggi temporali univoci. Per affrontare questo problema, l'istruttore suggerisce di utilizzare un analogico continuo sostituendo la codifica binaria con onde seno e coseno di frequenze diverse. In questo modo, possiamo ancora utilizzare un vettore più piccolo per rappresentare un numero maggiore di passaggi temporali univoci.

  • 00:40:00 In questa sezione viene discusso il concetto di codifica posizionale, che è un modo per rappresentare l'ordine degli elementi in una sequenza utilizzando valori continui anziché valori binari. Il processo prevede la valutazione delle funzioni seno e coseno a frequenze diverse per ciascun elemento della sequenza e quindi la loro rappresentazione grafica per creare un analogo continuo della codifica posizionale binaria. Il grafico risultante alterna valori alti e bassi, in modo simile alla versione binaria, e può essere aggiunto a ciascun elemento della sequenza. La codifica posizionale può creare un po' di confusione, ma la lezione suggerisce di rivedere le diapositive e sperimentare il concetto per una migliore comprensione.
 

CS 198-126: Lezione 14 - Trasformatori e Attenzione



CS 198-126: Lezione 14 - Trasformatori e attenzione

Questa video conferenza su Transformers e Attenzione copre il concetto e la motivazione dietro l'attenzione, la sua relazione con Transformers e la sua applicazione nella PNL e nella visione. Il docente discute l'attenzione morbida e dura, l'auto-attenzione, l'attenzione locale e l'attenzione multi-testa e come vengono utilizzate nell'architettura Transformer. Spiegano anche il sistema di query valore-chiave, l'importanza delle connessioni residue e della normalizzazione dei livelli e il processo di applicazione di un livello lineare per ottenere kqv dagli incorporamenti di input. Infine, la lezione copre l'uso degli incorporamenti di posizione e del token CLS in esempi di sequenza-vettore, evidenziando l'efficienza computazionale e la scalabilità del meccanismo di attenzione.

  • 00:00:00 In questa sezione della videolezione, l'obiettivo è spiegare la motivazione alla base dell'attenzione e come è correlata ai modelli Transformer. L'attenzione è la pietra angolare dei moderni Vision Transformer ed è necessaria per concentrare gli sforzi e l'attenzione su un determinato luogo. Il docente spiega che l'attenzione utilizza un sistema di valori chiave di query per prendere decisioni più informate su quali cose prestare attenzione. Il moderno sistema di attenzione si basa sul modo in cui gli umani leggono, dove si concentrano su specifiche parole sequenziali e offuscano tutto il resto.

  • 00:05:00 In questa sezione, il docente discute il concetto di attenzione nei modelli di apprendimento automatico, in particolare nel contesto della PNL e delle RNN. L'attenzione consente ai modelli di concentrarsi sulle parti importanti di un input, facendo inferenze utilizzando uno specifico sottoinsieme di dati invece di considerare tutto nel suo insieme. Esistono due tipi di attenzione: l'attenzione dura, che prevede quali indici sono rilevanti in un determinato intervallo di tempo, e l'attenzione morbida, che crea un insieme di pesi morbidi con la funzione softmax per creare una distribuzione di probabilità basata sui token di input che indicano la loro importanza. L'attenzione morbida è generalmente utilizzata e combina le rappresentazioni di diverse caratteristiche. La conferenza discute anche il processo di traduzione dal francese all'inglese come esempio di utilizzo dell'attenzione.

  • 00:10:00 In questa sezione, l'oratore spiega il processo di codifica di ciascuna parola e la creazione di una rappresentazione latente delle parole utilizzando una tradizionale rete codificatore-decodificatore che prevede l'elaborazione sequenziale degli input e un vettore di contesto per la decodifica. Introducono quindi il concetto di attenzione morbida, che utilizza un vettore di contesto che prende le informazioni da ciascuna rappresentazione latente per decodificarle in base alle informazioni decodificate in precedenza. Il processo prevede la creazione di una funzione di punteggio per determinare le somiglianze tra la decodifica precedente e la codifica e l'utilizzo di metriche diverse per ottenere un'importanza relativa, fornendo una rappresentazione probabilistica della correlazione di una query con un gruppo di chiavi.

  • 00:15:00 In questa sezione, il docente spiega il concetto di attenzione locale, che consente al modello di attenzione di interrogare solo una determinata finestra di token di input, anziché tutti, al fine di risparmiare risorse computazionali. La conferenza approfondisce anche l'uso dell'attenzione per la visione, incluso l'uso di reti di compressione ed eccitazione per l'attenzione del canale e l'attenzione spaziale per le immagini. Inoltre, la conferenza tocca brevemente l'uso dell'attenzione per generare frasi che descrivono immagini, come l'uso di circonvoluzioni per estrarre caratteristiche chiave e reti di memoria a breve termine per mantenere connessioni tra le parole.

  • 00:20:00 In questa sezione, il docente discute l'uso dell'attenzione in varie architetture, inclusa l'attenzione spaziale e di sé. L'auto-attenzione comporta la ricerca di token dallo stesso input mentre si presta attenzione alle relazioni tra le parole in una frase, consentendo una migliore previsione della parola successiva in base alle parole precedenti. Il docente introduce anche il concetto di Transformers, che utilizza il sistema di attenzione chiave-valore-query per attendere diverse quantità di somiglianza quando si selezionano le funzionalità del kernel.

  • 00:25:00 In questa sezione del video, il docente introduce il concetto di auto-attenzione e attenzione morbida, utilizzati nel modello Transformer. L'idea è quella di creare una distribuzione di probabilità che si concentri su determinate caratteristiche ignorandone altre, al fine di prevedere determinate relazioni. Il docente spiega quindi come vengono utilizzate le matrici invece del confronto uno a uno di query e chiavi nei modelli Transformer. La conferenza discute anche i limiti degli RNN come la loro incapacità di parallelizzare e catturare lunghe sequenze e come l'attenzione può aiutare a risolvere questi problemi.

  • 00:30:00 In questa sezione della conferenza, il relatore discute l'architettura Transformer e come utilizza l'auto-attenzione per modellare sequenze o gruppi di token. Gli input includono una sequenza di incorporamenti di token e incorporamenti posizionali e l'obiettivo è fornire una rappresentazione che possa essere passata nel modello Transformer. L'attenzione multi-head viene utilizzata per calcolare l'importanza di ciascun token in base alla query e alla chiave e il passaggio di feed forward viene eseguito in parallelo per far emergere i meriti del trasformatore. L'architettura combina connessioni residue e norme di livello per alleviare i gradienti in via di estinzione e fornire una rappresentazione accurata. Infine, alla fine viene aggiunto uno strato lineare per calcolare l'output in base ai segnali, alle chiavi e ai valori delle diverse rappresentazioni.

  • 00:35:00 In questa sezione, l'oratore spiega il processo di applicazione di uno strato lineare per ottenere kqv dagli inserimenti di input per ogni parola nel testo. Ciò comporta l'utilizzo di ponderazioni diverse per chiavi, query e valori uniti tramite la moltiplicazione di matrici. Successivamente, viene trovato un prodotto scalare tra le query e i valori e ogni token si occupa direttamente di ogni altro token, rendendo le connessioni tra gli input infinitamente scalabili. Viene applicata una distribuzione SoftMax in base ai valori del prodotto scalare, quindi i valori vengono riponderati in base a questa distribuzione per ottenere un valore finale token per token. Ridimensionare l'attenzione dividendo per uno sulla radice quadrata di D viene utilizzato per standardizzare le cose e garantire che non ci siano piccoli gradienti, e l'attenzione a più teste viene impiegata per proiettare ogni chiave, query e valore corrispondente a un token H volte. Infine, il dropout viene utilizzato per prevenire l'overfitting e viene applicata una trasformazione ai vettori risultanti prima di inviarli a una rete neurale feedforward.

  • 00:40:00 In questa sezione del video, il docente spiega il meccanismo di attenzione nei trasformatori e l'importanza di aggiungere connessioni residue per gestire i gradienti di fuga nelle reti profonde. Discutono anche delle differenze tra la normalizzazione batch e la normalizzazione dei livelli, con la normalizzazione dei livelli utilizzata nel meccanismo di attenzione per normalizzare ogni dimensione della caratteristica. Il docente spiega anche come la somma ponderata dei valori produca più vettori che vengono poi passati attraverso una matrice ponderata per ottenere un valore singolare passato nella rete di feed forward. Nel complesso, la lezione fornisce una spiegazione approfondita del meccanismo dell'attenzione e dei suoi vari componenti nei trasformatori.

  • 00:45:00 In questa sezione della conferenza su Transformers and Attention, il relatore spiega l'implementazione dell'architettura Transformer della rete neurale, che consiste in operazioni di norma residue e di livello, nonché una convoluzione uno per uno. Ogni perceptron multistrato è parallelizzato e gli incorporamenti della posizione di input vengono utilizzati per concentrarsi su finestre specifiche in base alle informazioni sulla posizione. Un token fittizio viene utilizzato anche in alcune attività di PNL per trasformare una sequenza in una misura vettoriale.

  • 00:50:00 In questa sezione, la lezione discute esempi di sequenze in vettori e l'uso di token CLS. La lezione spiega la matematica alla base del meccanismo di attenzione, che implica la moltiplicazione di matrici tra query, chiave e input di valore. Il risultato è una somma ponderata che rappresenta l'attenzione. Questo metodo è efficiente dal punto di vista computazionale, rendendolo adatto alla parallelizzazione su GPU e scalabile anche per input di grandi dimensioni. La conferenza si conclude discutendo l'architettura del trasformatore, la posizione incorporata e l'introduzione di nessun pregiudizio induttivo che è diverso dai modelli sequenziali.
 

CS 198-126: Lezione 15 - Vision Transformers



CS 198-126: Lezione 15 - Vision Transformers

In questa conferenza, il relatore discute l'uso di Vision Transformers (ViTs) per le attività di elaborazione delle immagini. L'architettura ViT prevede il downsampling delle immagini in patch discrete, che vengono quindi proiettate in incorporamenti di input utilizzando un output di livello lineare prima di passare attraverso un trasformatore. Il modello viene pre-addestrato su un set di dati etichettato di grandi dimensioni prima della messa a punto sul set di dati effettivo, ottenendo prestazioni eccellenti con meno calcoli rispetto ai precedenti metodi all'avanguardia. Vengono discusse le differenze tra ViT e reti neurali convoluzionali (CNN), con ViT che hanno un campo ricettivo globale e maggiore flessibilità rispetto alle CNN. Viene inoltre evidenziato l'uso dell'apprendimento auto-supervisionato e non supervisionato con Transformers per compiti visivi.

  • 00:00:00 In questa sezione, il relatore discute l'uso di Vision Transformers e come possono essere applicati alle immagini. Spiegano il concetto di token, incorporamenti e trasformatori, fornendo un esempio concreto di come possono essere utilizzati per attività di elaborazione del linguaggio naturale. Spiegano quindi come la stessa architettura può essere applicata alle attività di visione artificiale preelaborando l'immagine come una stringa di token e utilizzando la scalabilità, l'efficienza computazionale e i campi ricettivi globali del Transformer per elaborarla in modo efficace. L'oratore tocca anche la pre-elaborazione del testo attraverso la tokenizzazione e la mappatura di ogni parola in un vocabolario.

  • 00:05:00 In questa sezione della conferenza, il docente discute come convertire i metodi di tokenizzazione e incorporamento utilizzati nell'elaborazione del linguaggio naturale (NLP) in elaborazione delle immagini. La tokenizzazione comporta la conversione di parole o frasi in un formato numerico, che viene utilizzato per generare vettori di incorporamento. Tuttavia, questo processo non è semplice per le immagini poiché i valori dei colori sono continui, rendendo difficile creare una tabella per cercarli. Questa sfida può essere affrontata fingendo che i valori siano discreti, in quanto ciò rende possibile trattare ogni pixel come un token. Inoltre, il problema della complessità temporale viene affrontato utilizzando immagini più piccole e addestrandole in modo simile ai modelli linguistici.

  • 00:10:00 In questa sezione, il relatore discute la misurazione del successo del modello Vision Transformer attraverso la classificazione semi-supervisionata utilizzando un set limitato di campioni etichettati. Il modello viene preaddestrato su campioni non etichettati e quindi passato attraverso un classificatore lineare con le rappresentazioni dell'immagine di output come input. Gli incorporamenti di output devono essere sufficientemente buoni affinché il classificatore funzioni bene. Questa tecnica ha portato a una precisione competitiva senza l'utilizzo di etichette ed è stata utilizzata anche per la generazione di immagini. Sebbene il modello abbia successo, richiede una notevole quantità di calcolo e può funzionare solo su immagini con risoluzione 64 x 64. L'attrattiva del modello Transformer è la sua scalabilità rispetto al calcolo, ma saranno necessari mezzi di implementazione più efficienti per le applicazioni a valle.

  • 00:15:00 In questa sezione, il relatore discute l'architettura di Vision Transformers, che è un approccio più efficiente e generale alla classificazione delle immagini. Invece di quantizzare i pixel, le immagini vengono sottocampionate in patch e quindi proiettate in incorporamenti di input direttamente utilizzando un output di livello lineare. Gli incorporamenti di posizione e il token CLS vengono aggiunti in cima a Transformer. Il pre-addestramento viene eseguito su un set di dati etichettato di grandi dimensioni prima della messa a punto del set di dati effettivo, ottenendo prestazioni eccellenti con un calcolo molto inferiore rispetto allo stato dell'arte precedente. L'approccio è più generale perché ha meno pregiudizi induttivi.

  • 00:20:00 In questa sezione vengono discusse le differenze tra reti neurali convoluzionali (CNN) e trasformatori di visione (ViT). Le due principali differenze tra CNN e ViT sono la località e la struttura di quartiere bidimensionale. Le CNN tendono ad essere orientate verso le caratteristiche che si trovano vicine l'una all'altra a causa delle limitazioni nella dimensione del kernel utilizzata per le interazioni tra i pixel. D'altra parte, i ViT proiettano ogni pixel in un embedding e consentono a ogni token di occuparsi di ogni altro token, indipendentemente dalla sua posizione nell'immagine, rendendoli meno orientati verso le caratteristiche locali. I ViT hanno anche rappresentazioni univoche per ogni token e incorporamenti posizionali, che influiscono sulle rappresentazioni risultanti, rendendole più flessibili e in grado di interpolare durante la messa a punto.

  • 00:25:00 In questa sezione, apprendiamo alcuni dei vantaggi dei trasformatori di visione (ViT) rispetto alle tradizionali reti neurali convoluzionali (CNN). I ViT sono in grado di apprendere rappresentazioni di immagini migliori con set di dati più grandi perché non hanno pregiudizi verso l'elaborazione delle immagini all'inizio, il che significa che non assumono una modalità di dati, a differenza dei pregiudizi ingegnerizzati nelle CNN. Questo è anche il motivo per cui i ViT hanno un compromesso con i dati, con prestazioni peggiori quando ci sono meno dati e migliori con più dati. Inoltre, i ViT hanno un campo ricettivo globale, che consente interazioni attraverso l'intera immagine, cosa non possibile con le CNN. Alcune caratteristiche di ViT come l'incorporamento della posizione e le rappresentazioni dell'attenzione lo rendono in qualche modo più interpretabile.

  • 00:30:00 In questa sezione vengono spiegate le differenze tra reti neurali convoluzionali (CNN) e trasformatori di visione. Le CNN utilizzano uno o due strati convoluzionali che limitano la loro capacità di elaborare le informazioni oltre una piccola area. Pertanto, le interazioni tra i token nelle CNN avvengono solo alla fine. Al contrario, i trasformatori di visione utilizzano un campo ricettivo globale in cui ogni token interagisce con ogni altro token dall'inizio, consentendo loro di occuparsi di tutto. Tuttavia, i trasformatori di visione hanno degli svantaggi, ad esempio il loro output è meno granulare a causa dell'uso di patch, portando a problemi nella classificazione e segmentazione delle immagini a grana fine. Viene sottolineato l'obiettivo di avere modelli più generali, in cui i modelli apprendono dai dati invece di essere progettati manualmente per domini specifici, consentendo una più facile combinazione di domini.

  • 00:35:00 In questa sezione, il relatore discute i vantaggi dell'utilizzo dell'apprendimento auto-supervisionato e non supervisionato con Transformers, in particolare nel contesto dei compiti visivi. Con l'accesso a grandi quantità di dati non etichettati da Internet, gli obiettivi auto-supervisionati e non supervisionati consentono una formazione efficiente senza la necessità di annotazioni. Il modello risultante può produrre rappresentazioni che conservano il layout della scena e le informazioni sui limiti degli oggetti e può essere utilizzato per attività di classificazione delle immagini e segmentazione dei video. Il relatore sottolinea anche l'uso riuscito dei Vision Transformers in varie attività di classificazione delle immagini, dimostrando la loro capacità di scalare bene con grandi quantità di dati.

  • 00:40:00 In questa sezione, il docente discute come passare dalle architetture iniziali dei modelli Transformer a quelle in cima alla classifica. Hanno scoperto che una migliore rappresentazione scala con il tempo di calcolo, le dimensioni del modello e le dimensioni del set di dati e che i modelli di grandi dimensioni sono più efficienti in termini di campioni, il che significa che hanno bisogno di meno campioni di addestramento per ottenere le stesse prestazioni. Il docente parla anche di Vision Transformers e CNN, che sono un'architettura ibrida tra i due. Aggiungono distorsioni induttive in Visual Transformers utilizzando valori di peso dipendenti dalla posizione relativa per affrontare l'equivarianza traslazionale mancante in Transformers quando non ci sono dati sufficienti.

  • 00:45:00 In questa sezione, il docente discute l'uso di un vettore peso appreso nei modelli Transformer per le immagini. Questo vettore di peso appreso consente una codifica più semplice delle caratteristiche che dipendono solo dal posizionamento relativo piuttosto che dal posizionamento assoluto. Inoltre, il docente presenta soluzioni al problema del tempo quadratico rispetto alla dimensione spaziale in Transformers, come il raggruppamento e la combinazione di blocchi convoluzionali con blocchi Transformer. Il modello Vision Transformer con i suoi schemi di formazione auto-supervisionati è visto come il passo successivo nella transizione da funzionalità ingegnerizzate a mano a modelli più generali e richiede molti dati come tendono a fare i Transformer. Il modello BTS è scalabile e funziona bene sull'hardware di elaborazione. Il docente conferma che si tratta di un algoritmo di apprendimento supervisionato.
 

CS 198-126: Lezione 16 - Rilevamento avanzato di oggetti e segmentazione semantica



CS 198-126: Lezione 16 - Rilevamento avanzato di oggetti e segmentazione semantica

In questa lezione avanzata di rilevamento di oggetti e segmentazione semantica, il docente discute i vantaggi e gli svantaggi delle reti neurali convoluzionali (CNN) e dei trasformatori, in particolare nell'elaborazione del linguaggio naturale (NLP) e nella visione artificiale. Mentre le CNN eccellono nel pregiudizio strutturale, i Transformer gestiscono in modo efficiente sia le attività di PNL che di visione artificiale utilizzando livelli di auto-attenzione per legare insieme concetti importanti e concentrarsi su input specifici. La conferenza approfondisce quindi i Vision Transformers, che privilegiano la forma rispetto alla trama, rendendoli resistenti alla distorsione. Spiega inoltre i vantaggi e i limiti dello Swin Transformer, una versione migliorata del Vision Transformer, che eccelle nella classificazione delle immagini, nella segmentazione semantica e nel rilevamento degli oggetti. La conferenza sottolinea l'importanza della generalizzabilità nei modelli in grado di gestire qualsiasi tipo di dati e le potenziali applicazioni in campi come le auto a guida autonoma.

  • 00:00:00 In questa sezione, il docente delinea il piano per la conferenza del giorno, che include una rassegna di CNN e Transformer e dei loro vantaggi e svantaggi. La lezione coprirà anche i contesti di PNL, come BERT, e come vengono generati gli incorporamenti, per poi passare a Vision Transformers e confrontarli con le CNN. Verrà discusso lo Swing Transformer, un miglioramento rispetto ai Vision Transformers per le applicazioni di visione artificiale, inclusa la fusione delle patch di attenzione della finestra e l'attenzione della finestra spostata con incorporamenti posizionali. La lezione può anche trattare metodi avanzati di segmentazione, tempo permettendo.

  • 00:05:00 In questa sezione della conferenza, il relatore discute il concetto di CNN e la loro equivalenza traduzionale, nel senso che aderiscono a una struttura di quartiere bidimensionale e catturano informazioni in punti diversi a seconda della distanza del passo. L'oratore sottolinea inoltre che i cnn hanno mostrato una propensione al pregiudizio strutturale rispetto alla forma e che l'aumento della trama può influire sulle loro prestazioni. L'oratore passa quindi al contesto di Transformers per le attività di PNL e come l'attenzione ci consente di legare insieme cose importanti in una frase e di concentrarci su alcune parti dell'input. L'auto-attenzione in Transformers ci permette di farlo all'interno di una frase, sottolineando l'importanza delle parole precedenti incontrate.

  • 00:10:00 In questa sezione, il video illustra come i livelli di auto-attenzione utilizzano query, chiavi e valori per calcolare l'attenzione e le informazioni sul peso in base alla somiglianza o alla differenza. La sezione introduce anche i Vision Transformers, che utilizzano il modello Transformer per gestire sia le attività di NLP che di visione artificiale appiattendo le immagini in patch 16x16 e facendole passare attraverso uno strato lineare per generare incorporamenti. Le informazioni sulla posizione vengono apprese dal modello e utilizzano un percettrone multistrato per classificare l'output. La sezione confronta Vision Transformers con CNNS e sottolinea che i livelli di auto-attenzione sono globali, mentre solo l'MLP confronta i pixel vicini. Il modello Transformer in Vision Transformer non distingue tra input di immagini e parole ed è generalizzabile per una serie di attività.

  • 00:15:00 In questa sezione della lezione viene discusso il concetto di bias induttivo nei modelli di machine learning. Il pregiudizio induttivo si riferisce alle ipotesi che un modello fa sui dati su cui è stato addestrato e la riduzione di questo pregiudizio consente a un modello di essere più generalizzabile. È importante disporre di modelli che possono essere applicati a più attività senza presupporre una conoscenza preliminare. Mentre le CNN superano i Transformer su set di dati più piccoli, il modello Vision Transformer (ViT) si comporta meglio su set di dati più grandi e complessi poiché modella meglio la vista umana dando priorità alla forma rispetto alla trama. La robustezza dell'avversario viene anche introdotta come metrica in cui le immagini vengono distorte introducendo rumore in modo che alcuni classificatori non siano più in grado di classificarle.

  • 00:20:00 In questa sezione vengono discussi i limiti di Vision Transformers nel ripristino dell'immagine e nella segmentazione semantica. Quando le patch vengono passate ed elaborate una alla volta, le informazioni sui bordi possono andare perdute e l'analisi dei pixel a grana fine all'interno di una patch è debole, poiché le informazioni che appartengono a una patch vengono trattate allo stesso modo. Tuttavia, a differenza delle CNN che danno la priorità alla trama rispetto alla forma, i Vision Transformer danno la priorità alla forma rispetto alla trama, rendendoli naturalmente robusti contro le distorsioni visive, anche quando a un'immagine viene aggiunto rumore mirato. L'estrazione delle patch è un problema esclusivo delle immagini e, per le immagini più grandi, il numero di token immagine generati aumenterà rapidamente.

  • 00:25:00 In questa sezione, il docente discute i problemi con l'utilizzo dei tipici trasformatori di visione per il rilevamento e la segmentazione degli oggetti, in particolare durante l'elaborazione di immagini più grandi in quanto richiede molta potenza di elaborazione. Tuttavia, è stata introdotta una soluzione con il Transformer a finestra spostata, che utilizza finestre non sovrapposte per eseguire l'auto-attenzione all'interno dei gruppi e quindi le combina insieme per eseguire l'attenzione incrociata. Ciò consente connessioni di attenzione tra finestre, risultando in una complessità computazionale lineare anziché N-quadrato, poiché la dimensione delle patch rimane la stessa mentre vengono combinate. Questo metodo di segmentazione delle immagini è comunemente utilizzato nelle tecnologie di guida autonoma.

  • 00:30:00 In questa sezione viene introdotto il concetto di Swin Transformer, un modello che eccelle nella classificazione delle immagini, nel rilevamento degli oggetti e nella segmentazione semantica. Il modello di patch di grandi dimensioni di Swin ha una dimensione della patch di 4, una capacità di 192, una dimensione della finestra di 7 ed è addestrato su ImageNet 22k e messo a punto su ImageNet 1k. Il modello utilizza un livello multi-attenzione della finestra e un livello di attenzione della finestra spostata e un MLP con livelli nascosti che utilizzano una funzione di attivazione GELU. L'output della finestra MSA viene passato attraverso una norma di livello per normalizzare le distribuzioni degli strati intermedi prima di entrare nell'MLP.

  • 00:35:00 In questa sezione, il relatore discute i vantaggi dell'utilizzo di Layer Norm nei modelli di addestramento per il rilevamento degli oggetti e la segmentazione semantica. Layer Norm applica un'operazione di smussatura alla superficie del gradiente, con conseguente addestramento più rapido e migliore precisione di generalizzazione. Il relatore confronta Layer Norm con altre tecniche di livellamento come Batch Norm e spiega come si concentri sugli strati intermedi del processo. La discussione si sposta quindi sui blocchi Windowed Multi-Head Self-Attention (WMSA), che eseguono l'auto-attenzione all'interno di ogni finestra di un'immagine. Il numero di vettori di patch in ciascuna finestra è garantito, con conseguente complessità lineare della dimensione dell'immagine, a differenza della complessità quadratica in Vit (una tecnica concorrente). La seconda fase di WMSA prevede un processo di fusione delle patch in cui i blocchi di pixel adiacenti vengono concatenati in una finestra più piccola, creando nuovi bordi delle patch e finestre rifatte.

  • 00:40:00 In questa sezione della conferenza, il relatore spiega la soluzione di Swin Transformer per gestire l'aumento del numero di finestre generate dopo l'avanzamento delle patch. Swin Transformer combina abilmente queste finestre riorganizzando i blocchi in modo da avere solo quattro finestre, riducendo il numero di elementi totali da 64 a 16 mantenendo coerente la quantità totale di informazioni. La tecnica di ottimizzazione prevede uno spostamento ciclico e uno strato lineare viene utilizzato per aumentare la profondità o la dimensione "C" della dimensione di inclusione dopo aver ridotto la rottura delle patch. Questa tecnica consente di risparmiare sulla potenza di calcolo ed evita l'ingenua soluzione dello zero padding prima di eseguire l'attenzione.

  • 00:45:00 In questa sezione, il relatore discute due ottimizzazioni proposte dagli autori per migliorare l'efficienza dell'elaborazione delle immagini. La prima ottimizzazione consiste nello spostare un'immagine in una certa parte prima di calcolare l'attenzione, quindi spostarla indietro contrassegnando che è già stata calcolata. Ciò ottimizza la potenza di calcolo evitando la necessità di eseguire un'operazione completamente nuova per ottenere i valori desiderati. La seconda ottimizzazione avviene tramite incorporamenti posizionali che apprendono le informazioni sulla posizione della patch invece di essere fornite esplicitamente, limitando l'ambito di attenzione che deve essere calcolato. Queste ottimizzazioni, insieme all'uso di vettori di polarizzazione e manipolazioni delle dimensioni del canale, aiutano nell'esecuzione dei calcoli di auto-attenzione nell'elaborazione delle immagini.

  • 00:50:00 In questa sezione, la conferenza discute il processo di unione delle patch nelle fasi due, tre e quattro del modello di trasformatore Swin. Riducendo la dimensionalità delle patch, queste vengono ridotte di un quarto per raggiungere 3136 patch e la dimensione della codifica viene raddoppiata per ottenere 384 codifiche. Il processo viene ripetuto nelle fasi tre e quattro e l'ultimo componente del processo è uno strato di raggruppamento medio, seguito da una testa di classificazione. La conferenza solleva preoccupazione per la reintroduzione del bias induttivo attraverso l'uso di approcci simili alle CNN, ma gli studi hanno dimostrato che i modelli Swin si comportano bene in termini di robustezza della corruzione e hanno un bias di forma inferiore rispetto ai Vision Transformers. La genericità dell'architettura di Transformer consente di acquisire i modelli in modo accurato indipendentemente dal tipo di dati o dal dominio e una maggiore quantità di dati si traduce in prestazioni migliori.

  • 00:55:00 In questa sezione, il docente spiega i vantaggi e gli svantaggi di avere un modello in grado di accettare qualsiasi tipo di dati, elaborarli ed estrarre modelli, noti come generalizzabilità. Viene discussa l'idea di un modello generale di intelligenza artificiale in grado di gestire qualsiasi input/output e vengono esplorate le potenziali applicazioni in campi come le auto a guida autonoma. Il docente osserva inoltre che il campo della robustezza dell'avversario è ancora in via di sviluppo e che sono necessari ulteriori test per determinare l'efficacia di modelli come Swin contro attacchi avversari più avanzati.
 

CS 198-126: Lezione 17 - 3-D Vision Survey, Parte 1



CS 198-126: Lezione 17 - 3-D Vision Survey, Parte 1

Il video discute diverse rappresentazioni visive 3D e i loro pro e contro, tra cui nuvole di punti, mesh, voxel e campi di radianza. La conferenza copre anche il raycasting, avanti e indietro, oltre alla colorazione e al rendering di immagini per oggetti che si intersecano tra loro, con approcci diversi per solidi e trasparenze. Il docente tocca i limiti del rendering differenziabile e come Radiance Fields può creare una funzione per ogni punto XYZ con una densità e un colore fisico, rendendolo più apprendibile.

  • 00:00:00 In questa sezione, il docente discute la necessità di estendere la visione artificiale al 3D, poiché il mondo reale è in tre dimensioni. Esistono infinite applicazioni per il 3D, come la guida autonoma, l'ottimizzazione della forma, gli ambienti virtuali, la generazione di avatar e altro ancora. Vengono quindi presentati diversi metodi per la rappresentazione 3D, tra cui 2.5D, nuvole di punti, mesh, griglie di voxel e campi di regioni. La lezione approfondisce quindi il modello di fotocamera stenopeica, che è importante per capire come funziona l'imaging e, successivamente, come rendere oggetti 3D nello spazio per la simulazione.

  • 00:05:00 In questa sezione della conferenza, viene introdotto il concetto di forward tracing e backtracing come mezzo per determinare la posizione di una telecamera in una scena. Il docente discute anche delle immagini RGB-D (2.5D) e di come contengono informazioni sulla profondità che possono essere utilizzate per generare nuvole di punti, che possono quindi essere utilizzate per creare mesh di una superficie. Vengono inoltre esplorati i vantaggi e i limiti dell'utilizzo delle nuvole di punti per la creazione di mesh.

  • 00:10:00 In questa sezione, il docente descrive diverse rappresentazioni per oggetti 3D. Iniziano discutendo delle strutture mesh e di come sia difficile lavorarci nelle impostazioni di apprendimento automatico a causa della mancanza di tecniche per lavorare con i grafici. La conferenza introduce quindi i voxel come una struttura spaziale 3D discreta composta da piccoli cubi o "Lego" che possono rappresentare oggetti in modo binario o traslucido. Tuttavia, l'utilizzo di voxel ad alta risoluzione può essere proibitivo a causa della complessità computazionale. La conferenza si conclude presentando i campi di radianza, una funzione che emette colori RGB e densità a specifiche coordinate XYZ, come soluzione per rappresentare dettagli ad alta frequenza in oggetti 3D.

  • 00:15:00 In questa sezione, il docente discute diverse rappresentazioni 3D, tra cui nuvole di punti, mesh, voxel e campi di radianza. Ogni tipo ha i suoi pro e contro ed è essenziale scegliere la rappresentazione giusta per un compito particolare. Dopo aver discusso le rappresentazioni 3D, la lezione passa al raycasting e ai due tipi di raycasting: avanti e indietro. Il forward raycasting è utile per il rendering delle nuvole di punti poiché ci consente di vedere ogni punto della scena. Al contrario, il raycasting all'indietro è più adatto per il rendering di mesh o griglie di voxel poiché ci consente di vedere prima la superficie che interseca il raggio.

  • 00:20:00 In questa sezione del video, il relatore discute il processo di colorazione e rendering delle immagini per diversi oggetti che si intersecano tra loro. Questo viene fatto calcolando tre intersezioni triangolari per ogni matrice, che può essere efficiente. Se gli oggetti sono traslucidi, il processo prevede di considerare non solo il colore del primo punto intersecato, ma anche la densità del primo e del secondo punto. Per le regioni senza superfici, come il fumo, il campionamento dei raggi viene utilizzato per campionare diversi punti sul rettilineo e utilizzare il Radiance Field per creare una funzione che emette RGB e D, per ciascun punto. Questi set di colori e densità vengono quindi aggregati utilizzando il rendering volumetrico per creare un volume di pixel.

  • 00:25:00 In questa sezione, il docente discute la resa differenziabile ei suoi limiti. Mentre tutto ciò che viene discusso nel rendering è differenziabile, è differenziabile solo per le superfici visibili che vediamo nell'immagine renderizzata. I campi di radianza risolvono un problema con questo poiché ogni singolo punto campionato avrà un impatto sul colore finale e quindi avrà un gradiente di output. Il docente menziona anche che i Radiance Fields esistono da un po' di tempo e funzionano come un modo per creare una funzione per ogni punto XYZ con una densità e un colore fisico. Successivamente, il docente discuterà la modellazione di f come rete neurale per rendere apprendibile Radiance Fields.

  • 00:30:00 In questa sezione, l'oratore menziona brevemente un ritardo di una settimana nei compiti sui Transformers, ma non fornisce alcun contesto o spiegazione.
 

CS 198-126: Lezione 18 - 3-D Vision Survey, Parte 2



CS 198-126: Lezione 18 - 3-D Vision Survey, Parte 2

In questa conferenza sulla visione 3D, l'istruttore discute i campi di radianza, in particolare i campi di radianza neurale (NeRF), che prendono posizione nello spazio e producono colore e densità. L'oratore spiega il processo di rendering, che prevede l'interrogazione dal punto di vista della telecamera e l'utilizzo della funzione scatola nera per capire come sarà l'immagine. Le lezioni discutono le sfide nel rappresentare prospettive coerenti di oggetti nella visione 3D e l'uso di MLP per acquisire i dati XYZ di un oggetto e visualizzare la direzione per la densità di output e le informazioni RGB. La conferenza copre anche le sfide del rendering volumetrico e l'utilizzo dei derivati Nerf per migliorare la visione artificiale. L'istruttore termina dimostrando l'uso della contrazione dello spazio per generare immagini 3D realistiche utilizzando una rete neurale.

  • 00:00:00 In questa sezione della lezione, gli istruttori discutono i campi di radianza, in particolare i NeRF (Neural Radiance Fields), che prendono posizione nello spazio e producono colore e densità. Il processo di rendering prevede l'interrogazione dal punto di vista della telecamera e l'utilizzo della funzione scatola nera per capire come sarà l'immagine. Il colore è una media ponderata di tutti i campioni e la visibilità è proporzionale alla densità e inversamente proporzionale alla quantità di oggetti davanti alla telecamera. Gli istruttori forniscono esempi per spiegare l'intuizione dietro i campi di radiosità, incluso il modo in cui l'oggetto più vicino alla fotocamera contribuisce maggiormente al colore e l'effetto della densità sul peso.

  • 00:05:00 In questa sezione, il relatore spiega come creare un campo Radiance neurale per generare nuove viste di un oggetto basate su immagini multiple di quell'oggetto. L'obiettivo è creare un campo Radiance neurale che possa essere interrogato in punti della scena per creare nuove immagini. Tuttavia, ottenere le posizioni e le indicazioni delle truppe di terra necessarie per questo può essere un compito difficile e dispendioso in termini di tempo. Sono disponibili programmi che possono aiutare in questo processo, ma l'oratore osserva che può essere considerato un imbroglio fare affidamento esclusivamente su questi strumenti.

  • 00:10:00 In questa sezione, il docente discute l'uso della visione 3D per generare nuove viste di una scena. Spiegano che l'apprendimento di un campo Radiance neurale consente la coerenza della forma tra diverse viste, il che è importante per il rendering di nuove viste di un oggetto con il deep learning. Senza questo collo di bottiglia, è difficile garantire la coerenza, come mostrato in un esempio con StyleGAN che ha prodotto forme incoerenti in viste diverse. Il docente sostiene che l'apprendimento di una rappresentazione 3D di un oggetto è necessario per generare nuove viste dell'oggetto con una forma coerente.

  • 00:15:00 In questa sezione, il relatore discute le sfide nel rappresentare prospettive coerenti di oggetti nella visione 3D. L'uso di Radiance Fields è spiegato come un modo per rappresentare dettagli fini nell'aspetto dell'oggetto, come bagliori e riflessi da diverse angolazioni, che altrimenti sarebbero difficili da catturare. L'oratore entra nei dettagli su come questo processo implichi la presa in posizione e la visualizzazione dei dati di direzione per creare una rappresentazione più accurata dell'oggetto osservato. Viene anche spiegato il concetto di utilizzo di MLP di densità e colore per rappresentare i vari aspetti dell'oggetto.

  • 00:20:00 In questa sezione, il relatore discute l'uso di MLP (dense neural networks) per acquisire i dati XYZ di un oggetto e la sua direzione di visualizzazione per la densità di output e le informazioni RGB. La rete utilizza la codifica posizionale per creare confini decisionali netti, che migliorano la nitidezza dell'immagine che viene ricreata. L'uso della rappresentazione binaria e delle porte logiche consente cambiamenti netti e dettagli ad alta frequenza nell'immagine ricreata. Il relatore osserva che possono fornire una spiegazione più approfondita della codifica posizionale, se necessario.

  • 00:25:00 In questa sezione, il relatore approfondisce i diversi aspetti dell'implementazione di un modello Nerf (campi di radianza neurale) per la visione 3D, incluso l'uso della codifica posizionale per confini netti e la dipendenza dalla vista per effetti come abbagliamento e riflesso. Il relatore discute anche dell'ottimizzazione del processo di campionamento in due round e dell'utilizzo di un MLP separato per apprendere i dettagli più fini dei bordi. Inoltre, il relatore spiega la funzione di perdita utilizzata per l'addestramento della rete, che comporta il confronto dei valori RGB delle immagini di verità del terreno e il rendering di un numero limitato di raggi a causa delle limitazioni della GPU. Non c'è perdita diretta sulla densità, ma la rete impara comunque la densità corretta attraverso la relazione indiretta tra densità e correttezza del colore.

  • 00:30:00 In questa sezione della conferenza, il relatore parla del processo di rendering volumetrico e di come richieda colore e densità corretti per produrre previsioni accurate. L'oratore spiega che l'utilizzo di un numero sufficiente di telecamere consente la triangolazione di diversi punti sull'oggetto e il modo più semplice per la rete di produrre una bassa perdita è emettere il colore corretto e l'alta densità per il punto di intersezione. L'oratore mostra anche un progetto su cui stanno lavorando che utilizza script di pre-elaborazione e una libreria chiamata nerfacto per l'addestramento al rendering in tempo reale. L'oratore osserva che la pre-elaborazione è difficile e talvolta può portare a indicazioni errate.

  • 00:35:00 In questa sezione, il relatore discute la visione 3D e le sfide associate all'acquisizione di immagini in tutte le direzioni. Il video si concentra sull'utilizzo dei derivati Nerf per migliorare la visione artificiale e su come questa tecnica può essere utilizzata per contrarre lo spazio attorno a una scena, rendendo più facile per la rete apprendere buoni valori. Il relatore spiega che il riquadro di delimitazione attorno all'immagine aiuta a vincolare lo spazio, quindi la rete riceve solo valori compresi tra -1 e 1. Il video illustra come funziona la contrazione dello spazio con una formula che prende un punto nello spazio e lo mappa su una palla unitaria, rendendo più facile l'apprendimento del punto e dei valori della scena per la rete.

  • 00:40:00 In questa sezione del video, l'oratore dimostra l'uso della contrazione dello spazio per generare immagini 3D realistiche utilizzando una rete neurale. Mostra l'immagine di una Campanilla e spiega che la rete peggiora progressivamente quando raggiunge il limite dei dati di allenamento. L'oratore menziona anche alcuni progressi nella generazione di immagini 3D che richiedono secondi anziché giorni. Sebbene non abbia avuto abbastanza tempo per discutere perché la funzione di densità è apprendibile, si offre di discutere con il pubblico dopo la lezione.
 

CS 198-126: Lezione 19 - Advanced Vision Pretraining



CS 198-126: Lezione 19 - Advanced Vision Pretraining

Questo video copre varie tecniche utilizzate per il pre-training auto-supervisionato nella visione avanzata, tra cui l'apprendimento contrastivo, gli autocodificatori di denoising, i codificatori di contesto e la rete Mae. Il relatore fornisce una panoramica di ciascun metodo, discutendone i punti di forza e di debolezza, e sottolinea i vantaggi della combinazione delle perdite di contrasto e di ricostruzione nel metodo BYOL, che supera entrambi individualmente. Il video fornisce utili approfondimenti sulle ultime tendenze della ricerca nell'apprendimento auto-supervisionato e sul loro potenziale per migliorare le prestazioni dei modelli di visione artificiale.

  • 00:00:00 In questa sezione, l'istruttore introduce il concetto di apprendimento auto-supervisionato (SSL), che è un ramo dell'apprendimento non supervisionato che crea etichette da set di dati senza alcuna etichetta ad essi associata. Questo approccio è utile quando si lavora con set di dati di piccole dimensioni o durante il pre-addestramento di modelli su set di dati grandi e diversificati per estrarre rappresentazioni che possono essere trasferite alle attività a valle. L'istruttore fornisce anche un'analogia di John McCune per spiegare come SSL fornisce più supervisione dell'apprendimento non supervisionato e meno dell'apprendimento supervisionato, rendendolo un approccio prezioso per vari compiti nella visione artificiale.

  • 00:05:00 In questa sezione, nel contesto della visione artificiale, è stato introdotto il concetto di apprendimento non supervisionato come base dell'intelligenza. L'apprendimento autosupervisionato è stato discusso come un modo per creare etichette da zero come la principale forma di apprendimento, mentre l'apprendimento supervisionato e l'apprendimento per rinforzo erano solo piccole parti del processo. Il concetto di apprendimento contrastivo è stato introdotto come un popolare approccio non supervisionato che si concentra sulla somiglianza come obiettivo di ottimizzazione, e l'obiettivo della funzione di perdita è stato spiegato come spingere l'incorporamento per il campione positivo il più vicino possibile all'incorporamento per l'input, mentre spingendo contemporaneamente l'incorporamento per il campione negativo più lontano dall'incorporamento dell'input.

  • 00:10:00 In questa sezione, il video spiega il concetto di perdita di tripletto utilizzato per addestrare le reti di riconoscimento facciale e come può essere migliorato utilizzando una funzione di perdita contrastiva. La funzione di perdita contrastiva affronta il problema di allontanare l'input da tutti i possibili campioni negativi, cosa non fattibile a causa dell'elevato numero di campioni negativi. L'implementazione di questa funzione di perdita è simile a un problema di classificazione, in cui il campione positivo funge da etichetta corretta e tutti i campioni negativi fungono da etichette errate. Il video introduce quindi l'algoritmo MOCO, che definisce l'apprendimento contrastivo come un reddito da dizionario differenziabile, consentendo la raccolta di tutti i periodi e le query in un unico posto.

  • 00:15:00 In questa sezione, il presentatore spiega il processo di apprendimento contrastivo e come definire la somiglianza attraverso le reti neurali. L'autore definisce cosa significa simile e sottolinea che viene passato attraverso lo stesso campione utilizzando la stessa rete, nota come discriminazione di istanza. Per creare una buona rappresentazione per le attività a valle, la chiave e la query provengono dalla stessa rete, quindi l'utilizzo di più reti non è molto utile e, invece, è necessario un enorme pool di negativi per incoraggiare rappresentazioni migliori. Tuttavia, può essere impegnativo dal punto di vista computazionale e poco pratico scegliere un singolo positivo da un enorme pool di negativi, il che limita la dimensione del batch. Il relatore discute quindi l'idea di pre-calcolare tutte le chiavi e le query da un singolo modello.

  • 00:20:00 In questa sezione della conferenza, il relatore discute l'idea di pre-calcolare gli incorporamenti e di memorizzarli in una coda durante l'addestramento di un modello su una singola rete che si aggiorna nel tempo. Questo approccio aiuta a mantenere la coerenza nel tempo e impedisce l'archiviazione di incorporamenti molto indietro nel processo di formazione. Tuttavia, questo metodo risolve solo il problema del calcolo degli incorporamenti nel passaggio in avanti, non nel passaggio all'indietro. L'oratore suggerisce di aggiornare il codificatore chiave con una media mobile della query e le tariffe dei codificatori chiave per evitare di modificare i pesi del codificatore chiave troppo rapidamente mantenendo la coerenza.

  • 00:25:00 In questa sezione del video, il presentatore discute i modelli Moco e SimCLR, che sono entrambi metodi di apprendimento contrastivo per produrre buone rappresentazioni di immagini senza etichette. Il modello Moco coinvolge codificatori chiave che vengono aggiornati nel tempo man mano che la formazione avanza per produrre buone rappresentazioni, che possono essere utilizzate per attività a valle. Il modello SimCLR semplifica questo processo utilizzando un singolo codificatore e passando gli incorporamenti attraverso un piccolo MLP per ottenere risultati ancora migliori. Questo metodo elimina la necessità di mantenere medie mobili o reti diverse ed è diventato un popolare metodo di apprendimento contrastivo nella ricerca sul deep learning.

  • 00:30:00 In questa sezione impareremo a conoscere il modello SimCLR, un metodo auto-supervisionato per addestrare le rappresentazioni di immagini. Il modello utilizza la perdita di contrasto e il ridimensionamento della temperatura per calcolare gli incorporamenti e introduce la nozione di somiglianza secondo cui la stessa immagine è simile e le diverse non lo sono. Vengono mostrate le tecniche di aumento dei dati utilizzate nel modello e, sorprendentemente, gli aumenti basati sul colore producono i risultati migliori. Anche sessioni di allenamento più lunghe e lotti più grandi mostrano risultati migliori. SimCLR è stato il primo metodo di modello che ha battuto una linea di base completamente supervisionata sulla classificazione delle immagini e ottiene i migliori risultati se messo a punto con solo l'1% e il 10% delle etichette ImageNet.

  • 00:35:00 In questa sezione viene trattato il metodo byol per il pre-allenamento della vista avanzata. Il metodo prevede l'applicazione di diversi aumenti di dati a un'immagine di input, la generazione di viste diverse, il loro passaggio attraverso reti di codificatori e il prelievo delle rappresentazioni da quelle, che vengono quindi proiettate su una piccola rete per ottenere la proiezione C e C primo. Il metodo non è strettamente un metodo di apprendimento contrastivo come simclr, ma piuttosto una combinazione di elementi di simclr e moco in un'unica funzione obiettivo. L'approccio utilizza il bootstrap, il mantenimento di due reti diverse e l'adattamento di un modello basato su metriche stimate da un altro, invece di utilizzare metriche reali dal set di dati.

  • 00:40:00 In questa sezione, apprendiamo il Deep Key Learning in heavy, che è lo stesso di quanto accade nel Deep Free Learning. Questo approccio è stato l'ispirazione per BYOL, dove la seconda rete guida la supervisione della prima rete e viceversa. Utilizzando questo processo di bootstrap, la rete apprende più rappresentazioni per costruire rappresentazioni e, poiché non si tratta di apprendimento contrastivo, è resistente ai cambiamenti nelle dimensioni del batch e nei tipi di organizzazione. BYOL funziona bene anche con lotti di dimensioni inferiori e batte MCLR per gli stessi benchmark. Passiamo quindi alla seconda classe di metodi, in cui l'input viene distrutto e dobbiamo ricostruire l'immagine originale, e questi metodi funzionano bene con una struttura basata su autoencoder. La presentazione introduce Denoising Model Encoder, in cui il rumore viene aggiunto a un'immagine e l'obiettivo è prevedere l'immagine denoising. Lo Stack Denoising Model Encoder era molto popolare perché funziona davvero bene e la rete impara qualcosa di significativo anche con immagini distrutte.

  • 00:45:00 In questa sezione, il relatore discute le difficoltà di addestramento delle reti neurali in passato e come sono stati utilizzati i codificatori automatici di denoising (DAE) come soluzione alternativa. La lezione passa quindi al concetto di mascherare parti di un'immagine per prevedere la regione nascosta, che è chiamata codificatore di contesto. Il metodo, introdotto nel 2016 presso il laboratorio di Berkeley, è stato in grado di ottenere buoni risultati nel rilevamento e nella segmentazione, ma non nella classificazione. Il relatore esamina l'implementazione del codificatore di contesto e come l'aggiunta di un discriminatore alla funzione obiettivo abbia portato a rappresentazioni migliori.

  • 00:50:00 In questa sezione viene discussa la rete Mae, che utilizza un backbone Transformer, in contrasto con i backbone CNN utilizzati in altri metodi. La rete si sostituisce con una vit e utilizza lo stesso obiettivo di un decodificatore di contesto mascherando le patch da un'immagine e passando la regione non mascherata a un codificatore. Gli incorporamenti codificati vengono quindi passati a un decodificatore con l'obiettivo di ricostruire l'immagine originale. Questo processo apprende caratteristiche significative in quel formato e la rete è illustrata con diversi esempi dal documento di Mae. Il token di classe, che acquisisce informazioni sull'intera sequenza, può essere utilizzato per la classificazione.

  • 00:55:00 si concentra sul pre-training auto-supervisionato utilizzando la combinazione di apprendimento contrastivo e ricostruzione basata sull'autoencoder, e supera entrambe le strategie individualmente. Combinano i metodi utilizzando una nuova funzione di perdita che bilancia tra le perdite di contrasto e di ricostruzione. È un approccio promettente che dimostra il potenziale per migliorare le prestazioni dei metodi autocontrollati ed è un'area di ricerca attuale per comprendere le ragioni alla base di questi risultati.

  • 01:00:00 In questa sezione, il relatore discute il nuovo MasS, un modello che combina la ricostruzione dell'immagine e l'apprendimento contrastivo allo stesso tempo attraverso un unico modello. MasS genera due visualizzazioni della stessa immagine, maschera le due diverse visualizzazioni e aggiunge rumore, combinando così l'obiettivo di denoising. La funzione di perdita utilizzata da MasS è una migliore combinazione di endpoint, perdita di ricostruzione e perdita di denoising, che si traduce in prestazioni migliori rispetto ai modelli precedenti. Il relatore osserva che ci sono molti altri modelli nell'area dell'apprendimento rappresentativo che funzionano bene e che il campo è attualmente caldo per la ricerca.
 

CS 198-126: Lezione 20 - Stilizzare le immagini



CS 198-126: Lezione 20 - Stilizzare le immagini

Il video illustra varie tecniche per la stilizzazione delle immagini, tra cui il trasferimento di stili neurali, GAN e Pix2Pix, che richiedono dati accoppiati, e CycleGAN, che utilizza dati non accoppiati per la traduzione da immagine a immagine. I limiti di CycleGAN possono essere affrontati da StarGAN, che può prendere informazioni da più domini per addestrare generatori per attività di transizione di immagini multi-dominio. Il relatore discute anche la traduzione multimodale da immagine a immagine senza supervisione utilizzando informazioni di dominio e codici latenti a bassa dimensione per produrre output diversi, esemplificati dal modello BicycleGAN. Infine, vengono menzionati i potenziali vantaggi dell'utilizzo di Vision Transformers con GAN per le attività di traduzione delle immagini e la conferenza si conclude con divertenti esempi di immagini e un'opportunità per domande e discussioni.

  • 00:00:00 In questa sezione, il relatore discute la traduzione da immagine a immagine e in particolare il trasferimento di stile neurale. L'attività prevede la trasformazione delle immagini dal dominio di origine nell'immagine corrispondente nel dominio di destinazione preservando il contenuto dell'immagine originale. Il trasferimento di stile neurale è una tecnica utilizzata per fondere insieme due immagini ottimizzando l'immagine di output in modo che corrisponda al contenuto di un'immagine e al riferimento di stile di un'altra. Le reti convoluzionali vengono utilizzate per estrarre informazioni rilevanti da entrambe le immagini e creare una nuova immagine con lo stile desiderato. Il relatore entra nei dettagli sugli input richiesti e sull'architettura utilizzata per questa tecnica.

  • 00:05:00 In questa sezione, la conferenza discute il concetto di utilizzo di CNN profonde per rappresentare il contenuto e lo stile delle immagini. Partendo da funzionalità di basso livello come bordi e trame, la CNN astrae funzionalità di livello superiore prima di produrre rappresentazioni di oggetti. La conferenza esplora quindi come misurare la somiglianza di stile tra diverse mappe di caratteristiche attraverso l'uso di un calcolo a matrice di grammi. La conferenza spiega come ottenere contenuto e stile dalle CNN e il metodo di calcolo delle perdite per ciascuna che regola il modello per produrre l'output desiderato.

  • 00:10:00 In questa sezione della conferenza, il relatore discute un paio di diverse tecniche per l'elaborazione delle immagini. In primo luogo, discutono del processo di generazione di un'immagine di output aggiungendo sia la perdita di contenuto che di stile in un ottimizzatore. Mostrano un esempio di un'immagine di contenuto e un'immagine di stile combinate per creare l'immagine finale, con caratteristiche di livello inferiore dall'immagine di contenuto e caratteristiche di livello superiore dall'immagine di stile. Successivamente, esaminano brevemente i GAN, concentrandosi sulle parti del discriminatore e del generatore. Menzionano anche StyleGAN e la sua capacità di separare gli attributi di livello superiore e inferiore nell'immagine. Infine, discutono di un modello chiamato Pix2Pix, che utilizza un GAN condizionale per generare immagini di output basate su informazioni aggiuntive fornite dall'utente.

  • 00:15:00 In questa sezione, il video illustra varie tecniche per la stilizzazione delle immagini, inclusi GAN e pix2pix, che richiedono dati accoppiati, e CycleGAN, che utilizza dati non accoppiati per la traduzione da immagine a immagine. Tuttavia, CycleGAN ha dei limiti, che possono essere risolti da StarGAN, un modello che può prendere informazioni da più domini per addestrare generatori, consentendo così attività di transizione di immagini multi-dominio. L'idea chiave alla base di StarGAN è apprendere un metodo di traduzione flessibile che utilizzi sia l'immagine che le informazioni sul dominio come input.

  • 00:20:00 In questa sezione della conferenza, il relatore discute il concetto di traduzione multimodale non supervisionata da immagine a immagine e come può essere utilizzata per produrre molteplici output realistici e diversi da un'immagine di input. Il documento in discussione incorpora informazioni di dominio e codici latenti a bassa dimensione per produrre risultati più accurati e fedeli. Il modello BicycleGAN è stato presentato come un esempio di come questo approccio può funzionare per ridurre al minimo il collasso della modalità e ottenere risultati diversi. Inoltre, il documento tenta di apprendere un codificatore per mappare l'output nello spazio latente e ridurre al minimo la probabilità che due codici diversi generino lo stesso stile o output.

  • 00:25:00 In questa sezione della conferenza, il relatore discute le sfide dell'utilizzo di Vision Transformers per attività come la traduzione da immagine a immagine e i potenziali vantaggi del loro utilizzo in combinazione con GAN. Citano tecniche recenti che sfruttano i vantaggi dei trasformatori di visione con GAN per affrontare le attività di traduzione delle immagini, sebbene non sia così semplice come utilizzare i GAN da soli per queste attività. Il relatore conclude condividendo alcune immagini divertenti che mostrano le capacità di queste tecniche e aprono la pista a domande e discussioni.
 

CS 198-126: Lezione 21 - Audio generativo



CS 198-126: Lezione 21 - Audio generativo

In questa conferenza sull'audio generativo, il relatore copre vari argomenti come quantizzazione, aliasing, elaborazione del segnale, proiezioni, deep learning e Transformers. Il docente discute come campionare e quantizzare i segnali continui e il compromesso tra la precisione delle profondità di bit e la potenza di calcolo. Vengono inoltre spiegati il teorema del campionamento di Shannon-Nequist ei suoi effetti sulla ricostruzione dei segnali e l'importanza delle proiezioni e del loro uso per la ricostruzione dei segnali. Il deep learning viene esplorato per la ricostruzione audio e il presentatore introduce l'audio generativo e come può ricostruire la musica da registrazioni perse o danneggiate. Viene discusso l'uso di Transformers per la generazione audio e viene spiegato il processo di rappresentazione della musica come una serie di token. Il relatore sottolinea inoltre l'importanza di disporre di un set di dati ampio e vario e discute il funzionamento del modello del trasformatore per le previsioni musicali. La conferenza si conclude con una demo della musica generata, che mostra la capacità del modello di prevedere con precisione le note future.

  • 00:00:00 In questa sezione della lezione, il focus è sull'audio generativo e su come discretizzare i segnali continui, che è necessario ai computer per elaborare l'audio. Il processo di campionamento e quantizzazione di un segnale continuo viene utilizzato per generare segnali digitali. La lezione spiega come il convertitore da analogico a digitale utilizza il circuito Sample and Hold e come l'uscita viene discretizzata, a seconda del livello di precisione richiesto. La conferenza discute anche del convertitore da digitale ad analogico e di come viene utilizzato un filtro passa-basso per mantenere la banda passante del segnale, con determinate frequenze di taglio che determinano la pendenza del segnale. Questi concetti sono essenziali per l'audio generativo e pongono una base importante per la comprensione del materiale successivo della conferenza.

  • 00:05:00 In questa sezione, la lezione copre i livelli di quantizzazione e la loro correlazione con la gamma dinamica del segnale quantizzato. Una maggiore profondità di bit porta a un'approssimazione del segnale più precisa, riducendo significativamente gli errori fino a raggiungere un'approssimazione quasi perfetta a una profondità di 16 bit. Tuttavia, c'è un compromesso quando si tratta di potenza di calcolo, che potrebbe chiedere se un tono senza perdita o un tono con perdita molto più veloce sarebbe sufficiente per l'orecchio dell'ascoltatore. Il teorema del campionamento di Shannon-Nequist afferma che un segnale può essere ricostruito dai suoi campioni senza alcuna perdita di informazioni se e solo se le frequenze del segnale originale si trovano al di sotto della metà della frequenza di campionamento. Il mancato rispetto di questo criterio porterà all'aliasing, che produce un'approssimazione problematica del segnale.

  • 00:10:00 In questa sezione impareremo l'aliasing ei suoi effetti sull'elaborazione del segnale, in particolare in termini di scarsa campionatura che risulta in un segnale di uscita modificato rispetto all'ingresso originale. Ne vediamo esempi attraverso visualizzazioni di forme d'onda e campionamenti di immagini. Inoltre, sentiamo parlare di teoria del segnale geometrico, in particolare l'uso di proiezioni per la ricostruzione del segnale e l'uso di deconvoluzioni nella segmentazione dell'immagine. Infine, il presentatore condivide una divertente demo sulla generazione di musica a 8 bit utilizzando una riga di codice C.

  • 00:15:00 In questa sezione, il docente discute le proiezioni e come possono essere utilizzate per la ricostruzione. La formula di proiezione è il prodotto scalare di due vettori e questa misura di somiglianza può essere utilizzata per ricostruire un segnale utilizzando una combinazione lineare di proiezioni su un altro insieme di vettori. Tuttavia, è necessaria una base e l'insieme di vettori utilizzati deve essere ortogonale tra loro per garantire la massima quantità di informazioni ottenute. Prendendo la proiezione su diverse basi che sono ortogonali tra loro, possiamo ottenere informazioni sul vettore proiettato e infine ricostruire il segnale.

  • 00:20:00 In questa sezione, il docente introduce l'uso del deep learning per la ricostruzione audio e come può generare audio ad alta risoluzione ricostruendo una forma d'onda di bassa qualità. L'architettura del modello assomiglia a quella di un'unità che utilizza una rappresentazione unidimensionale di una convoluzione sub-pixel per l'upsampling. La forma d'onda sottocampionata passa attraverso otto blocchi di sottocampionamento utilizzando strati convoluzionali con un passo di due e la normalizzazione batch viene applicata con una funzione di attivazione ReLU. Al livello del collo di bottiglia, che è costruito in modo identico a un blocco di downsampling, la forma d'onda si collega a otto blocchi di upsampling. Questi blocchi hanno connessioni residue ai blocchi di downsampling e utilizzano una convoluzione sub-pixel per riordinare le informazioni lungo una certa dimensione per espandere il guadagno di informazioni, aumentando la risoluzione della forma d'onda preservando le caratteristiche della forma d'onda a bassa risoluzione. Lo strato convoluzionale finale ha un'operazione di riimpilamento che riordina le informazioni dopo la deconvoluzione dei subpixel e l'upsampling della forma d'onda di output viene generato utilizzando la funzione di perdita dell'errore quadratico medio.

  • 00:25:00 In questa sezione, il docente discute l'uso dell'audio generativo e come può essere utilizzato per ricostruire la musica di band registrate tra la metà e la fine del 1900 le cui registrazioni potrebbero non essere state conservate in piena qualità. Parla dello spettro sottocampionato e di come può essere migliorato per corrispondere alla vera forma d'onda aggiungendovi chiarezza e colore. Il docente passa quindi ai Transformers per la generazione audio e al modo in cui l'architettura Transformer può essere utilizzata per prevedere le note musicali in una melodia. Ciò richiede la conversione dei dati, che sono file musicali, in una sequenza di token, un problema unico che deve essere ampiamente considerato a causa delle serie temporali che devono essere acquisite, come la firma musicale, la chiave e i battiti.

  • 00:30:00 In questa sezione, il relatore discute il processo di rappresentazione della musica come una serie di token che possono essere inseriti in un modello di trasformazione per l'audio generativo. Spiegano come intonazione, durata e altri attributi possono essere utilizzati per acquisire informazioni sulle note musicali, ma notano anche la sfida di tokenizzare i dati 2D del piano roll in un'unica dimensione. Vengono confrontati diversi approcci, come le note uno-a-molti o la mappatura di molte note su un singolo token, e viene introdotto l'uso di token separatori e una dimensione ridotta del vocabolario. Il relatore conclude toccando l'aumento dei dati come un modo per aumentare la diversità dei dati di addestramento per i modelli audio generativi.

  • 00:35:00 In questa sezione, il relatore discute l'importanza di disporre di un set di dati ampio e vario quando si utilizzano modelli audio generativi. Spiegano come un singolo brano può essere trasformato in 12 brani di tonalità diverse e come più dati e generalizzabilità ha un modello, migliori saranno le sue prestazioni. Il relatore discute anche l'uso della codifica del battito posizionale come un modo per fornire metadati al modello per dargli un migliore senso del tempo musicale. Notano che il metodo della struttura posizionale utilizzato nell'elaborazione del linguaggio naturale può essere applicato anche alla musica. La sezione si conclude discutendo la forzatura dell'insegnante, un modo per applicare una maschera di attenzione per impedire al modello di accedere a tutte le informazioni contemporaneamente e far trapelare informazioni sui token che dovrebbe prevedere successivamente.

  • 00:40:00 In questa sezione, il relatore discute come funziona il modello di trasformatore utilizzato nell'audio generativo. Il trasformatore XL utilizzato nell'implementazione presenta la codifica della posizione relativa e la memoria di stato nascosta, che consentono un'inferenza rapida e accurata per le previsioni musicali. Poiché la posizione è importante nella musica, il modello utilizza solo la posizione relativa invece della posizione assoluta. Il modello acquisisce anche due attributi di ciascuna nota, vale a dire altezza e durata, per archiviarli in memoria e prevedere con precisione le note future. L'oratore presenta quindi una demo del Pachelbel Canon in re maggiore generato utilizzando il modello, che mostra che sebbene le note generate si discostino dalla composizione originale, suonano comunque bene.
 

CS 198-126: Lezione 22 - Apprendimento multimodale



CS 198-126: Lezione 22 - Apprendimento multimodale

L'apprendimento multimodale implica la rappresentazione di oggetti in modi diversi, ad esempio attraverso testo, immagini, video o audio, pur riconoscendo che sono lo stesso oggetto. Le lezioni spiegano l'importanza dell'apprendimento multimodale nell'acquisizione di diversi set di dati e nella risoluzione del problema dello spostamento della distribuzione. Il video è incentrato su CLIP, un metodo di pre-addestramento di immagini in lingua contrastante, che utilizza codificatori di testo e immagini per creare incorporamenti per coppie di didascalie immagine simili. Gli incorporamenti possono essere utilizzati per la classificazione, la robotica, la generazione di testo in immagini e la visione 3D. Il relatore sottolinea che l'universalità dei latenti CLIP mostra l'importanza dell'apprendimento della rappresentazione e la sua utilità nell'apprendimento automatico. Il metodo CLIP ha portato all'evoluzione del campo dell'apprendimento multimodale.

  • 00:00:00 In questa sezione del video, il docente spiega il concetto di apprendimento multimodale e la sua importanza. L'apprendimento multimodale comporta la rappresentazione degli oggetti in molti modi diversi, ad esempio attraverso testo, immagini, video o audio, e la cattura delle loro sfumature pur riconoscendo che sono lo stesso oggetto. I set di dati multimodali possono comprendere tutti questi tipi di dati e l'obiettivo è conservare tutte le informazioni per fornire più contesto per l'apprendimento. Il docente sostiene che l'apprendimento multimodale è importante perché i dati possono provenire da fonti e set di dati diversi e buttare via tutte queste informazioni extra può comportare una minore quantità di informazioni per l'apprendimento.

  • 00:05:00 In questa sezione, l'attenzione è rivolta al problema dello spostamento della distribuzione, che si verifica quando un modello di visione artificiale viene addestrato su dati fotorealistici e testato su dati da cartone animato. Il problema è che i singoli set di dati hanno piccole distribuzioni rispetto a quanto è possibile. A causa della diversità dei dati, il problema dello spostamento della distribuzione diventa un problema significativo in quanto esistono diversi set di dati con oggetti, formati di dati e relazioni diversi. L'apprendimento multimodale mira a risolvere questo problema utilizzando tutti i dati disponibili e le relazioni tra i dati per addestrare modelli migliori per dati più diversi. L'obiettivo è apprendere rappresentazioni compresse significative per qualsiasi cosa, dalle immagini al testo e all'audio.

  • 00:10:00 In questa sezione, il video discute l'importanza dell'apprendimento multimodale e le sfide che derivano dai modelli di formazione su set di dati diversi. Il paper in esame si chiama CLIP, acronimo di Contrastive Language Image Pre-Training, e si propone di indagare le relazioni tra immagini e testo corrispondente. L'idea alla base del modello CLIP è che se un'immagine e una didascalia sono correlate, le rappresentazioni apprese sia per l'immagine che per la didascalia dovrebbero essere simili. Il modello utilizza due diversi modelli: un trasformatore di visione per l'elaborazione delle immagini e un trasformatore per l'elaborazione del linguaggio naturale e li addestra da zero. La procedura di addestramento prevede il pre-addestramento sia dei codificatori di testo che di immagine utilizzando una grande quantità di coppie immagine-didascalia da varie fonti, con l'obiettivo di generare incorporamenti per entrambi simili per una coppia immagine-didascalia corrispondente e diversi per una coppia diversa .

  • 00:15:00 In questa sezione, il relatore spiega come il codificatore di immagini e il codificatore di testo lavorano insieme per creare versioni incorporate di dati di immagini e testo che sono molto simili per le coppie corrispondenti e molto diverse per le coppie non corrispondenti. Gli elementi diagonali della matrice risultante rappresentano il prodotto scalare tra gli incorporamenti per coppie corrispondenti, che sono idealmente molto grandi, mentre gli elementi fuori diagonale rappresentano le somiglianze tra incorporamenti che non corrispondono e dovrebbero essere molto piccoli o negativi. Il relatore spiega che questo approccio è simile a un compito di classificazione, in cui la funzione di perdita cerca di rendere gli elementi diagonali più grandi possibile minimizzando gli elementi fuori diagonale. Il codificatore di testo e il codificatore di immagini lavorano insieme per raggiungere questo obiettivo e creare incorporamenti simili per le coppie corrispondenti.

  • 00:20:00 In questa sezione, apprendiamo un'applicazione dell'apprendimento multimodale chiamata CLIP, o Contrastive Language-Image Pre-training. CLIP utilizza un codificatore di testo e un codificatore di immagini per creare incorporamenti di immagini e didascalie. Quindi esegue un prodotto scalare degli incorporamenti per vedere quanto bene l'immagine corrisponde alla didascalia. In questo modo, CLIP può prevedere di cosa tratta l'immagine senza alcuna messa a punto, che è chiamata previsione zero-shot. Questo metodo mostra che le rappresentazioni codificate di testo e immagini sono significative e possono essere generalizzate bene a nuovi dati.

  • 00:25:00 In questa sezione della conferenza, il relatore discute l'applicabilità e l'importanza dell'apprendimento della rappresentazione tramite i latenti CLIP. I latenti sono output generalizzabili e significativi della codifica delle immagini attraverso un modello pre-addestrato congelato. Questi latenti hanno diversi casi d'uso, inclusa la classificazione di oggetti e la robotica, dove possono aiutare nella rappresentazione incorporata delle immagini. Il relatore sottolinea che l'apprendimento della rappresentazione è applicabile ovunque e può essere utile nella generazione di testo in immagini e nella visione 3D. Il campo Radiance può essere ottimizzato utilizzando la funzione di perdita in cui l'immagine renderizzata corrisponde al clip latente corrispondente alle didascalie di input. Il processo di ottimizzazione è differenziabile, rendendolo uno strumento efficace per la ricostruzione dell'immagine.

  • 00:30:00 In questa sezione, il relatore discute il concetto di utilizzo dell'incorporamento di immagini per generare campi di radianza sulla base di un prompt dato. Sebbene questo metodo sia costoso, dimostra l'universalità dei clip latenti, che si basano sul pre-addestramento di una varietà di dati e sull'utilizzo di rappresentazioni o relazioni per generare latenti utilizzabili per qualsiasi dominio. Questa tecnica di apprendimento multimodale si è dimostrata efficace ed è considerata un importante sottocampo nel campo dell'apprendimento automatico. Il relatore osserva che mentre il metodo della clip è solo l'inizio, ha portato a un'ulteriore evoluzione nel campo.
Motivazione: