Apprendimento automatico e Reti Neurali - pagina 21

 

CONFERENZA JENSEN HUANG (NVIDIA) e ILYA SUTSKEVER (OPEN AI). AI OGGI E VISIONE DEL FUTURO



CONFERENZA JENSEN HUANG (NVIDIA) e ILYA SUTSKEVER (OPEN AI). AI OGGI E VISIONE DEL FUTURO

Il CEO di NVIDIA, Jensen Huang, e il co-fondatore di OpenAI, Ilya Sutskever, discutono le origini e i progressi dell'intelligenza artificiale (AI) in una conferenza. Sutskever spiega come l'apprendimento profondo gli sia diventato chiaro, come l'apprendimento senza supervisione attraverso la compressione abbia portato alla scoperta di un neurone che corrispondeva al sentimento e come il pre-addestramento di una rete neurale abbia portato all'istruzione e al perfezionamento con la collaborazione umana e AI. Discutono anche dei progressi e dei limiti del GPT-4 e dell'apprendimento multimodale, nonché del ruolo della generazione di dati sintetici e del miglioramento dell'affidabilità dei sistemi di intelligenza artificiale. Nonostante siano lo stesso concetto di 20 anni fa, entrambi si meravigliano dei progressi compiuti nella ricerca sull'IA.

  • 00:00:00 In questa sezione, Jensen Huang, CEO di NVIDIA, elogia Ilia Sutskever, co-fondatore di OpenAI, per i suoi successi nel campo dell'intelligenza artificiale. Chiede a Ilia della sua intuizione sul deep learning e di come sapeva che avrebbe funzionato. Ilia spiega che era interessato all'intelligenza artificiale a causa della sua curiosità per la coscienza e il suo impatto, e sembrava che i progressi nell'IA avrebbero davvero aiutato in questo. Aggiunge che nel 2002-2003 i computer non potevano imparare nulla e non era nemmeno chiaro se fosse possibile in teoria, ma trovare Jeff Hinton, che lavorava nelle reti neurali, ha dato speranza a Ilia.

  • 00:05:00 In questa sezione, Sutskever parla delle origini di AlexNet e di come gli sia diventata chiara l'idea di utilizzare l'apprendimento supervisionato per costruire una rete neurale ampia e profonda. Spiega che il campo dell'apprendimento automatico non stava guardando le reti neurali in quel momento e utilizzava altri metodi teoricamente eleganti ma che non potevano rappresentare una buona soluzione. Sutskever menziona anche il rivoluzionario metodo di ottimizzazione di un altro studente laureato che ha dimostrato che è possibile addestrare grandi reti neurali. Era quindi chiaro che se una grande rete neurale convoluzionale fosse stata addestrata sul set di dati ImageNet, doveva avere successo. Sutskever parla anche della comparsa della GPU in laboratorio e di come Alex Krizhevsky sia stato in grado di programmare kernel convoluzionali veloci e addestrare il set di dati della rete neurale, che ha portato a battere il record di una visione artificiale con un margine così ampio. Il significato di questa svolta era che il set di dati era così ovviamente difficile e al di fuori della portata delle tecniche classiche.

  • 00:10:00 In questa sezione, Jensen Huang e Ilya Sutskever parlano dei primi giorni di OpenAI e delle loro idee iniziali su come affrontare l'intelligence. Nel 2015-2016, il campo era ancora agli inizi, con molti meno ricercatori e molto meno compreso. La prima grande idea di OpenAI è stata il concetto di apprendimento non supervisionato attraverso la compressione, che all'epoca era un problema irrisolto nell'apprendimento automatico. Sutskever credeva che una buona compressione dei dati avrebbe portato a un apprendimento senza supervisione, consentendo l'estrazione di tutti i segreti nascosti che esistono al suo interno. Ciò ha portato a diversi lavori presso OpenAI, incluso il sentiment neuron, che ha scoperto un neurone all'interno di un LSTM che corrispondeva al suo sentimento.

  • 00:15:00 In questa sezione, Ilya Sutskever discute il concetto di apprendimento non supervisionato e l'importanza di prevedere il token successivo in una sequenza come obiettivo utile per apprendere una rappresentazione. Afferma che la parte difficile dell'apprendimento supervisionato non riguarda dove ottenere i dati, ma piuttosto perché preoccuparsi di addestrare le reti neurali per prevedere il token successivo. Anche il ridimensionamento per il miglioramento delle prestazioni è stato un fattore importante nel loro lavoro e l'apprendimento per rinforzo è stata un'altra area cruciale di interesse, in particolare durante l'addestramento di un agente di apprendimento per rinforzo a giocare al gioco di strategia in tempo reale, DotA 2, per competere contro i migliori giocatori nel mondo.

  • 00:20:00 In questa sezione, Ilya Sutskever spiega il processo di pre-addestramento di una grande rete neurale per prevedere la parola successiva in diversi testi da Internet, che porta all'apprendimento di una rappresentazione astratta compressa utilizzabile del mondo. Tuttavia, il pre-addestramento non specifica il comportamento desiderato che ci aspettiamo dalla rete neurale, ed è qui che entra in gioco la seconda fase di perfezionamento e apprendimento per rinforzo dalla collaborazione umana e AI. La seconda fase è essenziale perché è dove comunichiamo con la rete neurale e la istruiamo su cosa fare e cosa non fare.

  • 00:25:00 In questa sezione, i relatori discutono dei progressi della tecnologia AI come GPT-4, che è diventata l'applicazione in più rapida crescita nella storia dell'umanità solo pochi mesi dopo il suo lancio. GPT-4 è un miglioramento rispetto a Chat GPT, con una migliore precisione nella previsione della parola successiva nel testo, portando ad un aumento della comprensione del testo. Ricercando e innovando costantemente la fedeltà, l'IA è diventata più affidabile e precisa nel seguire le istruzioni previste. Inoltre, la conversazione può affinare l'ambiguità finché l'intelligenza artificiale non comprende l'intento dell'utente. Inoltre, il miglioramento delle prestazioni di GPT-4 in molte aree come i punteggi SAT, i punteggi GRE e gli esami di abilitazione, tra gli altri, è notevole e degno di nota.

  • 00:30:00 In questa sezione, i relatori discutono gli attuali limiti e il potenziale di miglioramento delle capacità di ragionamento delle reti neurali, in particolare GPT4. Sebbene le reti neurali dimostrino alcune capacità di ragionamento, l'affidabilità rimane un grosso ostacolo alla loro utilità. I relatori suggeriscono che chiedere alla rete neurale di pensare ad alta voce e introdurre piani di ricerca ambiziosi potrebbe migliorare l'affidabilità e la precisione. Attualmente, GPT4 non ha una capacità di recupero incorporata, ma eccelle nell'essere un predittore della parola successiva e può consumare immagini.

  • 00:35:00 In questa sezione, Jensen Huang e Ilya Sutskever discutono dell'apprendimento multimodale e della sua importanza. Spiegano che l'apprendimento multimodale, che implica l'apprendimento sia dal testo che dalle immagini, è utile per le reti neurali per comprendere meglio il mondo, poiché gli esseri umani sono animali visivi. L'apprendimento multimodale consente inoltre alle reti neurali di conoscere meglio il mondo fornendo ulteriori fonti di informazioni. Sostengono che mentre è importante vedere per capire cose come il colore, le reti neurali di solo testo possono ancora apprendere informazioni difficili da apprendere dal solo testo attraverso l'esposizione a trilioni di parole.

  • 00:40:00 In questa sezione, Sutskever e Huang discutono dell'importanza delle diverse fonti di dati nell'apprendimento dell'IA, inclusi elementi visivi e audio. Toccano l'idea di multimodalità e come la combinazione di diverse fonti di dati può essere estremamente utile per conoscere il mondo e comunicare visivamente. Sutskever menziona anche un documento che suggerisce che il mondo finirà per esaurire i token su cui allenarsi e come l'IA che genera i propri dati potrebbe essere una possibile soluzione a questo problema.

  • 00:45:00 In questa sezione, i relatori discutono del ruolo della generazione di dati sintetici nella formazione e nell'autoapprendimento dell'IA. Sebbene la disponibilità di dati esistenti non sia da sottovalutare, la possibilità che l'IA generi i propri dati per l'apprendimento e la risoluzione dei problemi è una possibilità futura. L'obiettivo nel prossimo futuro sarà quello di migliorare l'affidabilità dei sistemi di intelligenza artificiale, in modo che possano essere considerati affidabili per importanti processi decisionali. Il potenziale dei modelli di intelligenza artificiale, come GPT-4, per risolvere in modo affidabile problemi matematici e produrre contenuti creativi è entusiasmante, ma c'è ancora del lavoro da fare per migliorare la loro accuratezza e chiarezza nella comprensione e nella risposta alle intenzioni dell'utente.

  • 00:50:00 In questa sezione, Jensen Huang e Ilya Sutskever discutono del sorprendente successo delle reti neurali nell'IA oggi. Nonostante sia lo stesso concetto di rete neurale di 20 anni fa, è diventato più serio e intenso poiché viene addestrato su set di dati più grandi in modi diversi con lo stesso algoritmo di addestramento fondamentale. I lavori fondamentali di Sutskever su Alexnet e GPT presso Open AI sono risultati notevoli e Huang ammira la sua capacità di abbattere il problema e descrivere lo stato dell'arte dei modelli di linguaggio di grandi dimensioni. I due raggiungono e si meravigliano dei progressi compiuti nel campo dell'IA.
CONFERENCE JENSEN HUANG (NVIDIA) and ILYA SUTSKEVER (OPEN AI).AI TODAY AND VISION OF THE FUTURE
CONFERENCE JENSEN HUANG (NVIDIA) and ILYA SUTSKEVER (OPEN AI).AI TODAY AND VISION OF THE FUTURE
  • 2023.03.23
  • www.youtube.com
#chatgpt,#ai#chatbot,#openai,#nvidia,#artificialintelligence,@ilyasutskever
 

È ora di prestare attenzione all'IA (ChatGPT e oltre)



È ora di prestare attenzione all'IA (ChatGPT e oltre)

Il video discute lo sviluppo dell'intelligenza artificiale (AI) e come sta cambiando il modo in cui lavoriamo e viviamo. Alcune persone sono entusiaste del potenziale dell'IA, mentre altre sono preoccupate per le sue potenziali implicazioni. L'oratore fornisce anche un breve riassunto di un recente episodio di podcast.

  • 00:00:00 ChatGPT è un programma di intelligenza artificiale rilasciato nel 2022 che è in grado di generare testo che tenta di prevedere quale sarà la parola successiva in una frase in base a ciò che ha visto nel suo enorme set di dati Internet. ChatGPT è una versione migliorata di gpt3, che l'intelligenza artificiale aperta chiama GPT 3.5. La differenza principale tra GPT 3.5 e GPT è che hanno aggiunto il feedback umano durante il processo di formazione, che si chiama apprendimento di rinforzo supervisionato. In sostanza, durante l'addestramento più versioni delle risposte dell'IA sono state classificate in base alla qualità dalla migliore alla peggiore dagli umani e l'IA viene ricompensata digitalmente quando migliora il modello. ChatGPT viene utilizzato da imprenditori in erba per chiedersi quale sarà la prossima grande novità, poiché il CEO di Open AI ha alcune intuizioni interessanti sul futuro di tutto il settore.

  • 00:05:00 ChatGPT è una startup progettata per rendere più facile per i clienti presentare reclami, annullare abbonamenti e altro ancora. Inoltre, ChatGPT può formulare opinioni su argomenti molto specifici, cosa che nessun motore di ricerca può fare. Si dice anche che ChatGPT sia bravo a programmare, qualcosa che non è comunemente considerato un'abilità che può essere migliorata con l'IA. Sebbene ChatGPT abbia molte applicazioni utili, è ancora nelle sue fasi iniziali e ha ancora molta strada da fare prima di poter essere considerata una tecnologia veramente rivoluzionaria. Tuttavia, vale la pena considerare le potenziali implicazioni di ChatGPT ed è probabile che diventi sempre più importante in futuro.

  • 00:10:00 ChatGPT è un chatbot in grado di "parlare" in modo umano ed è stato utilizzato per mettere in discussione i confini etici stabiliti dall'IA aperta. Si noti che ChatGPT può essere imprevedibile e instabile, rendendone difficile il controllo. Si noti inoltre che ChatGPT ha il potenziale per ridurre il numero di lavoratori necessari in più campi.

  • 00:15:00 L'autore discute i potenziali impatti dell'automazione sulla forza lavoro e come prepararsi. Discute anche di come l'IA stia rapidamente progredendo, con alcune previsioni per il prossimo futuro che dovrebbero essere tenute a mente dagli imprenditori.

  • 00:20:00 ChatGPT è una nuova piattaforma tecnologica che verrà utilizzata per creare modelli del futuro, come modelli di medicina o computer. Ci sarà un nuovo gruppo di startup che utilizzeranno la piattaforma per mettere a punto modelli di grandi dimensioni esistenti per creare modelli specifici per un settore o un caso d'uso.

  • 00:25:00 Il video parla dello sviluppo dell'intelligenza artificiale (AI) e di come sta cambiando il modo in cui lavoriamo e viviamo. Alcune persone sono entusiaste del potenziale dell'IA, mentre altre sono preoccupate per le sue potenziali implicazioni. L'oratore fornisce anche un breve riassunto di un recente episodio di podcast.
It’s Time to Pay Attention to A.I. (ChatGPT and Beyond)
It’s Time to Pay Attention to A.I. (ChatGPT and Beyond)
  • 2022.12.15
  • www.youtube.com
Imagine being able to have a language conversation about anything with a computer. This is now possible and available to many people for the first time with ...
 

La storia interna del sorprendente potenziale di ChatGPT | Greg Brockman | TED



La storia interna del sorprendente potenziale di ChatGPT | Greg Brockman | TED

In questa sezione del video, Greg Brockman discute il ruolo dell'intelligenza artificiale nel migliorare l'istruzione. Sostiene che i metodi educativi tradizionali sono spesso inefficienti e inefficaci, con gli studenti che lottano per conservare la conoscenza e gli insegnanti che lottano per insegnare in un modo che coinvolga ogni studente. Brockman suggerisce che l'intelligenza artificiale potrebbe aiutare a risolvere questi problemi fornendo esperienze di apprendimento personalizzate per ogni studente. Con gli strumenti AI, è possibile monitorare i progressi degli studenti in tempo reale, adattando il curriculum alle loro esigenze e preferenze. Ciò potrebbe portare a esperienze di apprendimento più coinvolgenti ed efficienti, consentendo agli studenti di conservare più conoscenze e agli insegnanti di concentrarsi su compiti più importanti. Brockman sottolinea inoltre l'importanza di progettare strumenti di intelligenza artificiale tenendo presente la privacy, garantendo che i dati degli studenti siano protetti e utilizzati solo per scopi didattici.

  • 00:00:00 In questa sezione, Greg Brockman, CEO di OpenAI, ha dimostrato le capacità di uno strumento di intelligenza artificiale chiamato Dolly che crea strumenti per le IA. Utilizzando questo strumento con ChatGPT, gli utenti possono generare immagini e testo per raggiungere il loro intento con un'interfaccia linguistica unificata, consentendo loro di togliere piccoli dettagli e controllarli incorporandoli con altre applicazioni. Questo nuovo modo di pensare a un'interfaccia utente amplierà le capacità di ciò che l'IA può fare per conto dell'utente e porterà la tecnologia a nuovi livelli.

  • 00:05:00 In questa sezione, Greg Brockman spiega come l'intelligenza artificiale viene addestrata a utilizzare gli strumenti e produrre il risultato desiderato attraverso il feedback. Il processo ha due passaggi: in primo luogo, viene utilizzato un processo di apprendimento senza supervisione in cui all'IA viene mostrato il mondo intero e viene chiesto di prevedere cosa verrà dopo in un testo che non ha mai visto prima. Il secondo passaggio prevede il feedback umano in cui all'IA viene insegnato cosa fare con quelle abilità provando più cose e viene fornito feedback umano per rafforzare l'intero processo utilizzato per produrre la risposta. Questo feedback gli consente di generalizzare e applicare l'apprendimento a nuove situazioni. L'intelligenza artificiale viene utilizzata anche per verificare i fatti e può emettere query di ricerca e scrivere l'intera catena di pensiero, rendendo più efficiente la verifica di qualsiasi parte della catena di ragionamento.

  • 00:10:00 In questa sezione del video, Greg Brockman discute il potenziale di collaborazione tra esseri umani e intelligenza artificiale nella risoluzione di problemi complessi. Mostra un esempio di uno strumento di verifica dei fatti che richiede l'input umano per produrre dati utili per un'altra intelligenza artificiale, dimostrando come gli esseri umani possono fornire gestione, supervisione e feedback mentre le macchine operano in modo affidabile e ispezionabile. Brockman ritiene che ciò porterà alla risoluzione di problemi precedentemente impossibili, incluso il ripensamento del modo in cui interagiamo con i computer. Dimostra come ChatGPT, un potente modello di linguaggio AI, può essere utilizzato per analizzare un foglio di calcolo di 167.000 documenti AI e fornire approfondimenti attraverso grafici esplorativi, mostrando il potenziale dell'IA per aiutare con l'analisi dei dati e il processo decisionale.

  • 00:15:00 In questa sezione, Greg Brockman discute il potenziale dell'IA, affermando che per farlo bene sarà necessaria la partecipazione di tutti alla definizione delle regole e delle linee guida per la sua integrazione nella nostra vita quotidiana. Crede che il raggiungimento della missione OpenAI di garantire che l'intelligenza artificiale generale avvantaggi tutta l'umanità sia possibile attraverso l'alfabetizzazione e la volontà di ripensare il modo in cui facciamo le cose. Brockman riconosce che mentre la tecnologia è sorprendente, è anche spaventosa, poiché richiede di ripensare tutto ciò che facciamo attualmente. Il successo del modello chatGPT di OpenAI è dovuto in parte alle loro scelte deliberate, al confronto con la realtà e all'incoraggiamento alla collaborazione tra team diversi. Brockman attribuisce anche l'emergere di nuove possibilità alla crescita dei modelli linguistici e al principio di emergenza, in cui molti componenti semplici possono portare a comportamenti emergenti complessi.

  • 00:20:00 In questa sezione del video, Greg Brockman discute l'incredibile potenziale della capacità di ChatGPT di apprendere e prevedere, anche in aree che non sono state esplicitamente insegnate alla macchina. Tuttavia, osserva che mentre la macchina è in grado di gestire l'aggiunta di numeri a 40 cifre, spesso presenta un problema di addizione errato quando presenta un numero a 40 cifre e un numero a 35 cifre. Brockman sottolinea inoltre l'importanza della qualità ingegneristica con l'apprendimento automatico, ricostruendo l'intero stack per garantire che ogni pezzo sia progettato correttamente prima di fare previsioni. Riconosce che il ridimensionamento di tale tecnologia potrebbe portare a risultati imprevedibili, ma crede nell'implementazione di modifiche incrementali per supervisionare e allineare adeguatamente l'intento della macchina con il nostro. In definitiva, Brockman crede che con un feedback adeguato e l'integrazione con gli esseri umani, il viaggio verso la verità e la saggezza con l'IA sia possibile.

  • 00:25:00 In questa sezione, Greg Brockman affronta le preoccupazioni circa la responsabilità e le implicazioni per la sicurezza del rilascio di intelligenze artificiali (AI) come GPT senza adeguati guardrail. Spiega che il piano predefinito di costruire in segreto e quindi sperare che la sicurezza sia eseguita correttamente è terrificante e non sembra giusto. Invece, sostiene che l'approccio alternativo è quello di rilasciare l'intelligenza artificiale e consentire alle persone di dare input prima che diventino troppo potenti. Brockman condivide una storia in cui ha riflettuto se vorrebbe che la tecnologia fosse lontana 5 o 500 anni, concludendo che è meglio affrontare questo diritto con responsabilità collettiva e fornire guardrail affinché l'IA sia saggia piuttosto che spericolata.
The Inside Story of ChatGPT’s Astonishing Potential | Greg Brockman | TED
The Inside Story of ChatGPT’s Astonishing Potential | Greg Brockman | TED
  • 2023.04.20
  • www.youtube.com
In a talk from the cutting edge of technology, OpenAI cofounder Greg Brockman explores the underlying design principles of ChatGPT and demos some mind-blowin...
 

MIT Deep Learning nelle scienze della vita - Primavera 2021



MIT Deep Learning nelle scienze della vita - Primavera 2021

Il corso "Deep Learning in Life Sciences" applica l'apprendimento automatico a vari compiti delle scienze della vita ed è tenuto da un ricercatore in machine learning e genomica con un corpo docente di dottorandi e laureandi del MIT. Il corso copre le basi dell'apprendimento automatico, i circuiti regolatori dei geni, la variazione delle malattie, le interazioni e il ripiegamento delle proteine e l'imaging utilizzando TensorFlow tramite Python in una piattaforma Google Cloud. Il corso consisterà in quattro serie di problemi, un quiz e un progetto di gruppo, con sessioni di mentoring intervallate per aiutare gli studenti a progettare i propri progetti. L'istruttore sottolinea l'importanza di costruire una squadra con competenze e interessi complementari e fornisce varie pietre miliari e risultati per tutto il periodo. Il corso mira a fornire un'esperienza del mondo reale, compresa la scrittura di proposte di borse di studio e borse di studio, revisione tra pari, relazioni annuali e sviluppo di capacità di comunicazione e collaborazione. Il relatore discute le differenze tra l'intelligenza artificiale tradizionale e il deep learning, che costruisce una rappresentazione interna di una scena basata su stimoli osservabili, e sottolinea l'importanza del deep learning nelle scienze della vita a causa della convergenza di dati di addestramento, potenza di calcolo e nuovi algoritmi .

Il video è una lezione introduttiva sul deep learning nelle scienze della vita, che spiega l'importanza del machine learning e del deep learning nell'esplorazione della complessità del mondo. Il discorso si concentra sul concetto di inferenza bayesiana e su come svolga un ruolo cruciale nell'apprendimento automatico classico e profondo insieme alle differenze tra approcci generativi e discriminativi all'apprendimento. La conferenza evidenzia anche il potere delle macchine vettoriali di supporto, le prestazioni di classificazione e l'algebra lineare per comprendere le reti attraverso i sistemi biologici. Il relatore osserva che il corso tratterà vari argomenti dell'apprendimento profondo, tra cui la regolarizzazione, l'evitare l'overfitting e i set di formazione. La conferenza si conclude affrontando le questioni relative all'interpretabilità dei neuroni artificiali e delle reti profonde per le lezioni future.

  • 00:00:00 In questa sezione, il relatore introduce il corso, Deep Learning in Life Sciences, e spiega il suo focus sull'applicazione dell'apprendimento automatico alle attività nelle scienze della vita, tra cui regolazione genica, malattia, progettazione terapeutica, imaging medico e computazionale biologia. Il corso si riunisce due volte a settimana con sessioni di mentoring facoltative il venerdì ed è tenuto dal relatore, che è un ricercatore in machine learning e genomica, e da un corpo docente composto da studenti di dottorato e laureandi del MIT. Il relatore fornisce anche collegamenti alle pagine dei corsi dell'anno scorso con le registrazioni di tutte le lezioni.

  • 00:05:00 In questa sezione della trascrizione, l'istruttore introduce le basi su cui si baserà il corso come calcolo, algebra lineare, probabilità e statistica e programmazione. Il corso avrà anche una base introduttiva di biologia su cui gli studenti potranno costruire. L'istruttore descrive quindi in dettaglio la ripartizione dei voti per il corso, che include serie di problemi, un quiz, un progetto finale e la partecipazione. La sezione si conclude con una spiegazione del motivo per cui l'apprendimento profondo è importante nelle scienze della vita a causa della convergenza di set di dati di grandi dimensioni poco costosi, progressi fondamentali nei metodi di apprendimento automatico e calcolo ad alte prestazioni, che ha completamente trasformato il campo scientifico.

  • 00:10:00 In questa sezione, il relatore discute l'importanza ei vantaggi della biologia computazionale. Gli studenti forniscono risposte alla domanda sul perché la biologia computazionale sia importante, compresa la gestione di grandi quantità di dati, la capacità di accelerare la scoperta, la creazione di modelli matematici per processi complessi, la comprensione di modelli da dati biologici e l'uso della visualizzazione per estrarre dati significativi modelli. Il relatore sottolinea l'esistenza di modelli e principi sottostanti in biologia che possono essere compresi attraverso il calcolo e incoraggia gli studenti a esplorare i diversi corsi offerti nel dipartimento e tra i dipartimenti.

  • 00:15:00 In questa sezione, il relatore discute di come i metodi computazionali possono aiutare non solo nella ricerca applicata, ma anche nella generazione di nuove conoscenze fondamentali nella ricerca biologica di base. Sottolineano che mentre i metodi computazionali utilizzati possono non sempre dare risultati perfetti, possono fornire importanti approssimazioni che possono essere ancora più interessanti. Inoltre, il relatore mostra come la biologia computazionale consenta l'integrazione di varie aree di ricerca in una comprensione più completa di malattie complesse che colpiscono più organi. Infine, menzionano l'uso di strumenti computazionali per simulare processi temporali a lungo termine come la trasmissione e la progressione della malattia.

  • 00:20:00 In questa sezione del video, il relatore discute il ruolo del calcolo nelle scienze della vita, in particolare come può simulare la progressione dei processi nel tempo, accorciando i tempi di scoperta e sviluppo di farmaci e trattamenti. Anche l'uso del deep learning sta diventando sempre più diffuso per la progettazione di farmaci e la creazione di dati di test sintetici. Il relatore sottolinea anche l'importanza di studiare la diversità genetica attraverso i dati demografici per una vera equità nei set di dati genetici. La vita stessa è digitale e la sfida nella comprensione della biologia è estrarre segnali dal rumore e riconoscere schemi significativi nei set di dati.

  • 00:25:00 In questa sezione, l'istruttore del corso delinea i compiti e le sfide principali che saranno affrontati nel corso, tra cui le basi dell'apprendimento automatico, i circuiti di regolazione dei geni, la variazione delle malattie, le interazioni e il ripiegamento delle proteine e l'imaging. Il corso utilizzerà serie di problemi per introdurre gli studenti a ciascuna di queste frontiere e gli studenti utilizzeranno TensorFlow tramite Python in un ambiente di programmazione all'interno della piattaforma Google Cloud. Il primo set di problemi si concentrerà sul riconoscimento dei caratteri, seguito dall'utilizzo di queste tecniche per analizzare i dati genomici e riconoscere i modelli di sequenza associati agli eventi di regolazione genica.

  • 00:30:00 In questa sezione, l'istruttore discute la struttura e gli obiettivi del corso, che consisterà in quattro serie di problemi, un quiz e un progetto di squadra per tutta la durata della lezione. Gli istruttori sottolineano che il corso sarà interattivo e incoraggeranno gli studenti a iscriversi come scribi per le lezioni di loro interesse, consentendo loro di investire in quel particolare campo. Gli studenti avranno anche l'opportunità di interagire con docenti ospiti che sono attivi nel campo del deep learning nelle scienze della vita, e i progetti di gruppo saranno costruiti su discussioni per indicazioni di progetti di ricerca, dando agli studenti l'opportunità di applicare le loro nuove competenze per risolvere problemi pratici . Inoltre, gli istruttori menzionano come il campo del deep learning nelle scienze della vita abbia solo dieci anni e i docenti ospiti introdurranno documenti chiave nel campo, rendendo il corso piuttosto entusiasmante e interattivo per gli studenti.

  • 00:35:00 In questa sezione, l'istruttore del corso discute di come il corso avrà sessioni di mentoring intervallate dai moduli per aiutare gli studenti a progettare i propri progetti, trovare idee e bilanciarle con i loro partner e mentori. Queste sessioni di mentoring saranno caratterizzate da membri dello staff o ricercatori che sono attivi nelle aree pertinenti, consentendo agli studenti di far rimbalzare idee su di loro e prepararsi a diventare ricercatori attivi nella biologia computazionale. L'istruttore sottolinea anche gli aspetti intangibili dell'educazione con cui il corso aiuterà, inclusa la creazione di una proposta di ricerca, il lavoro in set di competenze complementari, la ricezione di feedback tra pari e l'identificazione di potenziali difetti nelle proposte dei pari. Il corso avrà un progetto a termine che rispecchia questi compiti immateriali nella vita reale. Gli studenti sono inoltre incoraggiati a incontrare i loro coetanei, formare presto team con competenze complementari e inviare un profilo e un'introduzione video.

  • 00:40:00 In questa sezione, l'istruttore discute le varie pietre miliari stabilite per il corso per garantire una pianificazione, un feedback e una ricerca sufficienti di progetti che corrispondano alle capacità e agli interessi degli studenti. Menziona l'importanza di costruire un team con competenze e interessi complementari, fornendo collegamenti ai progetti dell'anno scorso e documenti recenti per l'ispirazione e stabilendo sessioni periodiche di tutoraggio con studenti senior, postdoc e personale del corso. Il corso includerà anche discussioni di gruppo su vari argomenti e aspetti della revisione tra pari per incoraggiare il pensiero critico sulle proposte e fornire feedback e suggerimenti. L'istruttore sottolinea l'esperienza del mondo reale che verrà acquisita attraverso questo corso, inclusa la scrittura di proposte di borse di studio e borse di studio, revisione tra pari, relazioni annuali e sviluppo di capacità di comunicazione e collaborazione. L'istruttore invita gli studenti a incontrarsi tra loro durante varie sessioni di breakout durante il corso e fornisce una panoramica delle pietre miliari e dei risultati che saranno dovuti durante il semestre.

  • 00:45:00 struttura del corso e dei progetti, il docente fornisce una panoramica dei diversi moduli e documenti disponibili per ciascun argomento. Inoltre, viene delineata la tempistica del corso, inclusa la data di scadenza per le proposte di progetto e le dimostrazioni della pipeline end-to-end. L'istruttore sottolinea l'importanza di disporre di dati e strumenti all'inizio del corso per evitare problemi in seguito. Vengono menzionate anche le relazioni intermedie e una conferenza sulla presentazione, nonché la data di scadenza per i progetti finali e le presentazioni. Possono essere invitati anche docenti ospiti che hanno scritto alcuni dei documenti.

  • 00:50:00 In questa sezione, il relatore presenta le risorse e il supporto disponibili per il corso, compresi i laboratori di mentoring e feedback. Condividono anche i risultati di un sondaggio introduttivo che rivela i diversi background degli studenti che seguono il corso, con una maggioranza di major sei e 20. Il relatore trascorre circa 10 minuti introducendo alcuni degli argomenti di machine learning e biologia che saranno trattati nel naturalmente, sottolineando l'importanza del deep learning e delle sue varie applicazioni. Spiegano anche la differenza tra intelligenza artificiale, deep learning e machine learning.

  • 00:55:00 In questa sezione, il docente discute le differenze tra i tradizionali approcci di intelligenza artificiale (AI) e il deep learning. Mentre l'intelligenza artificiale tradizionale si affida a esperti umani per codificare regole e funzioni di punteggio, il deep learning mira ad apprendere l'intuizione e le regole da solo, senza un'esplicita guida umana. Il docente utilizza l'esempio degli scacchi per illustrare queste differenze e osserva che il deep learning ha rivoluzionato l'intelligenza artificiale consentendo alle macchine di navigare in ambienti complessi come scene naturali e situazioni del mondo reale. Il docente identifica la convergenza di dati di addestramento, potenza di calcolo e nuovi algoritmi come i tre pilastri fondamentali del deep learning e spiega che le macchine costruiscono una rappresentazione interna di una scena basata su stimoli osservabili.

  • 01:00:00 In questa sezione, il relatore spiega che il machine learning e il deep learning implicano la costruzione di rappresentazioni della complessità del mondo analizzando osservazioni e dati. Il machine learning tradizionale utilizza rappresentazioni semplici, mentre il deep learning utilizza rappresentazioni gerarchiche. I modelli generativi consentono di esprimere la probabilità in avanti di un evento dato lo stato nascosto del mondo, mentre la regola di Bayes consente di stimare la probabilità a posteriori che si tratti di una stagione particolare data l'osservazione. Ciò comporta il passaggio dalla probabilità dei dati data un'ipotesi alla probabilità di un'ipotesi dati i dati attraverso un prodotto di verosimiglianza e probabilità precedenti. La probabilità marginale dei dati viene utilizzata per sommare tutte le ipotesi per ottenere la probabilità complessiva dei dati.

  • 01:05:00 In questa sezione, il relatore spiega il concetto di inferenza bayesiana e il suo ruolo nell'apprendimento automatico classico e profondo. L'inferenza bayesiana implica avere un modello generativo per il mondo e quindi dedurre qualcosa su quel modello, che è particolarmente utile nell'apprendimento supervisionato dove esistono etichette per alcuni punti e si può ottenere la classificazione degli oggetti in base alle caratteristiche. Nell'apprendimento automatico tradizionale, un'attività importante era l'ingegneria delle funzionalità o la selezione delle funzionalità giuste da un set di dati, mentre nell'apprendimento approfondito le funzionalità vengono apprese automaticamente. Il clustering è una forma di apprendimento non supervisionato in cui i set di dati possono essere appresi e rappresentati e l'inferenza bayesiana può essere utilizzata per stimare in modo iterativo i parametri di un modello generativo per il set di dati per migliorare le caratteristiche dei dati.

  • 01:10:00 In questa sezione del video, l'istruttore discute le differenze tra approcci generativi e discriminativi all'apprendimento, evidenziando come l'apprendimento discriminativo si concentri sull'apprendimento del miglior separatore tra elementi di dati invece di cercare di catturare l'intera distribuzione dei dati. La conferenza tocca anche il potere delle macchine vettoriali di supporto, le prestazioni di classificazione e l'algebra lineare per comprendere le reti attraverso i sistemi biologici. L'istruttore osserva che la classe si concentrerà sull'apprendimento profondo, in particolare sulla costruzione di caratteristiche semplici e più astratte attraverso strati per classificare vari oggetti e concetti sul mondo. Infine, la conferenza sottolinea che non tutto l'apprendimento è profondo e passa in rassegna gli approcci storici all'intelligenza artificiale e all'apprendimento automatico.

  • 01:15:00 In questa sezione, il relatore discute di come il cervello umano elabora le immagini e riconosce gli oggetti, utilizzando strati di neuroni che apprendono strati astratti di inferenze. Paragona questo processo all'architettura delle reti neurali utilizzate nell'apprendimento profondo e nell'intelligenza artificiale, che sono state trasferite dallo spazio biologico allo spazio computazionale. Il corso tratterà vari argomenti dell'apprendimento profondo, tra cui la regolarizzazione, l'evitare l'overfitting, i set di addestramento e i set di test. L'oratore menziona anche gli autocodificatori per limitare le rappresentazioni a quelle più semplici e gli algoritmi supervisionati che funzionano come metodi non supervisionati. Inoltre, dà il benvenuto ai partecipanti al corso e sottolinea l'importanza degli aspetti biologici del corso.

  • 01:20:00 In questa sezione, il relatore affronta diverse questioni relative all'interpretabilità dei neuroni artificiali e delle reti profonde, che saranno trattate in dettaglio in una prossima conferenza. Ricordano inoltre agli studenti di compilare i loro profili e caricare le loro presentazioni video.
Deep Learning in Life Sciences - Lecture 01 - Course Intro, AI, ML (Spring 2021)
Deep Learning in Life Sciences - Lecture 01 - Course Intro, AI, ML (Spring 2021)
  • 2021.02.17
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Fondamenti di machine learning - Lezione 02 (primavera 2021)



Machine Learning Foundations - Deep Learning in Life Sciences Lezione 02 (primavera 2021)

Questa lezione copre le basi dell'apprendimento automatico, introducendo concetti come set di addestramento e test, tipi di modelli come discriminativo e generativo, valutazione delle funzioni di perdita, regolarizzazione e overfitting e reti neurali. Il docente prosegue spiegando l'importanza degli iperparametri, valutando l'accuratezza nelle scienze della vita, test di correlazione e calcoli di probabilità per il test del modello. Infine, vengono discusse le basi delle reti neurali profonde e la struttura di un neurone, evidenziando il ruolo della non linearità nell'apprendimento di funzioni complesse.

Nella seconda sezione della lezione viene spiegato il concetto di funzioni di attivazione nell'apprendimento approfondito, nonché il processo di apprendimento dell'aggiustamento dei pesi in modo che corrispondano alla funzione di output utilizzando le derivate parziali nell'ottimizzazione degli aggiornamenti dei pesi per ridurre al minimo gli errori, che è il fondamento del gradiente apprendimento basato. Viene introdotto il concetto di backpropagation come metodo per propagare i derivati attraverso una rete neurale al fine di regolare i pesi. Vengono discussi i vari metodi per ottimizzare i pesi in più strati di modelli di deep learning, inclusa la discesa del gradiente stocastico e il concetto di capacità del modello e la dimensione VC. Vengono discussi anche l'efficacia della capacità di un modello su un grafico, la distorsione e la varianza, insieme a varie tecniche di regolarizzazione come l'arresto anticipato e il decadimento del peso. Viene sottolineata l'importanza di trovare il giusto equilibrio tra la complessità e gli studenti sono incoraggiati a presentarsi positivamente ai loro compagni di classe.

  • 00:00:00 In questa sezione, il docente introduce i fondamenti dell'apprendimento automatico e la sua definizione. L'apprendimento automatico è il processo di conversione dell'esperienza in competenza o conoscenza e utilizza metodi computazionali per prevedere con precisione i risultati futuri utilizzando i modelli scoperti nei dati. L'obiettivo dell'apprendimento automatico è sviluppare metodi in grado di rilevare automaticamente modelli nei dati e utilizzarli per fare buone previsioni sull'output. Il docente spiega anche il concetto di training set, utilizzato per adattare i parametri e l'architettura del modello, e il test set, che valuta le prestazioni e il potere di generalizzazione del modello. Infine, il docente tocca l'importanza della regolarizzazione nel controllo dei parametri e della complessità del modello per evitare l'overfitting.

  • 00:05:00 In questa sezione della lezione, l'istruttore introduce i diversi tipi di oggetti utilizzati nell'apprendimento automatico, come scalari, vettori, matrici e tensori. Lo spazio di input è definito come singoli esempi di questi oggetti, in cui un particolare set di dati viene utilizzato con indici e caratteristiche specifici. Viene introdotto anche lo spazio dell'etichetta, con l'etichetta prevista denotata come y hat. L'obiettivo dell'apprendimento automatico è valutare le funzionalità estratte dai dati di input e calcolare un risultato di output utilizzando una funzione che traduce l'input nell'output. L'istruttore spiega anche la differenza tra set di addestramento e test e come la funzione accetta i parametri di input e calcola un output utilizzando vettori di peso e distorsioni.

  • 00:10:00 In questa sezione, l'oratore spiega come pesi e distorsioni vengono utilizzati per ottimizzare l'output di una funzione lineare quando non ci sono assi. La funzione di trasformazione può essere vista come il modello del mondo, che fa inferenze e classificazioni sul mondo. Esistono due tipi di modelli: modelli discriminativi che distinguono tra due classi e modelli generativi che tentano di modellare la distribuzione congiunta di più classi. La regressione lineare è solo un tipo di apprendimento automatico, con la regressione che è un'attività comune oltre alla classificazione.

  • 00:15:00 In questa sezione, il docente discute i diversi tipi di apprendimento automatico, tra cui l'apprendimento supervisionato, semi-supervisionato, non supervisionato e di rinforzo. L'attenzione si concentra sull'apprendimento supervisionato e sui vari tipi di output, come la regressione multivariata, la classificazione binaria e multiclasse e la classificazione multietichetta. Il docente parla anche delle funzioni obiettivo, che vengono utilizzate per ottimizzare i modelli di apprendimento automatico durante l'addestramento e possono essere sotto forma di funzioni di perdita, costo o errore. Vengono presentati diversi tipi di funzioni di perdita, tra cui la perdita zero uno, la perdita di entropia incrociata e la perdita di cerniera, e la lezione si conclude con una discussione sull'errore quadratico medio e sull'errore assoluto medio per la regressione.

  • 00:20:00 In questa sezione, il docente introduce i concetti di regolarizzazione L1 e L2, che sono rispettivamente penalità lineari e quadratiche per deviare da un valore previsto. Discutono su come questi possono essere utilizzati per penalizzare i valori anomali ed evitare l'overfitting assegnando vincoli sui parametri. Il docente esplora quindi diverse funzioni di perdita per compiti di classificazione come la perdita di entropia incrociata binaria, che soppesa tutto in base alla probabilità di occorrenza di un valore, e la perdita di entropia incrociata categoriale, che utilizza un approccio basato sull'informazione. Inoltre, toccano la funzione soft max per mappare i dati su un intervallo da zero a uno. Tutti questi concetti contribuiscono allo stimatore di massima verosimiglianza e alle probabilità a posteriori in un contesto bayesiano.

  • 00:25:00 In questa sezione, la lezione spiega l'output dell'utilizzo di una particolare formula in tutta la classe, che è uno se appartiene a una classe specificata e zero altrimenti. La conferenza discute anche la struttura del problema, inclusi i dati di input, i pesi e un termine di bias. L'ottimizzatore è costruito sulla base delle discrepanze tra i pesi e questi pesi vengono addestrati utilizzando una funzione di perdita, come l'errore quadratico medio o l'errore assoluto medio. La lezione introduce anche l'idea di rischio, che tiene conto del costo associato a previsioni particolari, e spiega come utilizzare il rischio per ottimizzare la funzione obiettivo. La lezione descrive quindi come aggiornare i pesi in base alla funzione di perdita e come utilizzare set di addestramento e test per valutare il modello.

  • 00:30:00 In questa sezione, l'istruttore spiega il concetto di overfitting e underfitting nell'apprendimento automatico. Descrive come, man mano che il set di addestramento migliora, il modello migliora anche nella previsione dei dati nel set di convalida. Tuttavia, dopo un certo punto, il modello inizia a sovrastare il set di addestramento e l'errore sul set di convalida inizia ad aumentare. Pertanto, l'istruttore sottolinea l'importanza di suddividere i dati in set di addestramento, convalida e test, in modo tale che il set di convalida venga utilizzato per ottimizzare gli iperparametri e il set di test per valutare le prestazioni del modello completamente addestrato.

  • 00:35:00 In questa sezione, il relatore discute su come valutare l'accuratezza dei modelli di apprendimento automatico nel contesto delle scienze della vita. Spiegano diversi metodi di valutazione come il vero potere positivo, che si concentra su veri positivi e veri negativi, falsi positivi e falsi negativi. Il relatore discute anche altre tecniche di valutazione come precisione, specificità, richiamo e accuratezza e l'importanza di considerare l'equilibrio del set di dati. Quindi introducono la curva delle caratteristiche operative del ricevitore (ROC) e il modo in cui aiuta a valutare il compromesso tra sensibilità e specificità di un classificatore. Inoltre, la curva di richiamo di precisione è menzionata come un'opzione migliore per set di dati molto sbilanciati per determinate impostazioni di regressione. Entrambe le curve sono complementari e catturano diversi aspetti delle prestazioni di un modello.

  • 00:40:00 In questa sezione, il relatore discute il concetto di correlazione e come può essere utilizzato per valutare i predittori di regressione. Spiegano che la correlazione misura la relazione tra i valori previsti ei valori effettivi e che esistono diversi tipi di test di correlazione, come la correlazione di Pearson e la correlazione del rango di Spearman. Il relatore menziona anche l'importanza dei test di correlazione e come possono essere utilizzati per valutare l'accuratezza del predittore. Spiegano l'uso di test statistici come la distribuzione t di Student e i test binomiali per determinare la probabilità di ottenere un determinato valore di correlazione e se si discosta in modo significativo dal valore atteso.

  • 00:45:00 In questa sezione, il relatore discute la probabilità che il classificatore faccia la scelta corretta a caso calcolando la probabilità che k osservazioni vengano classificate correttamente solo per caso usando la distribuzione ipergeometrica. Sottolinea inoltre che se stai verificando più ipotesi, devi regolare la probabilità del nulla e puoi utilizzare una rigorosa correzione di Bonferroni o una meno rigorosa correzione di Benjamin Hofberg per regolare la tua soglia. L'oratore avverte dei pericoli di trovare correlazioni quasi ovunque con dati sufficienti e sottolinea che la mancanza di correlazione non implica una mancanza di relazioni. La sezione termina con una pausa prima che l'oratore passi alla discussione sulle reti neurali.

  • 00:50:00 In questa sezione della lezione, l'istruttore introduce il concetto di reti neurali profonde e le loro radici nella gerarchia dell'astrazione nell'apprendimento. L'istruttore descrive i livelli della rete, a partire dal livello di input e progredendo attraverso diversi livelli nascosti che apprendono funzionalità sempre più complesse. Il concetto di filtri convoluzionali è accennato brevemente ma sarà trattato più approfonditamente in una lezione successiva. L'istruttore osserva inoltre che queste reti sono ispirate alla struttura biologica dei neuroni nel cervello umano.

  • 00:55:00 In questa sezione, il docente spiega le basi di una rete neurale di deep learning. Descrive la struttura di un neurone come un costrutto computazionale che riceve input ponderati, supera una soglia e quindi invia output identici ai suoi discendenti. L'apprendimento in una rete neurale è incorporato in questi pesi e la funzione calcolata è una probabilità trasformata basata sugli input ricevuti. Il docente sottolinea che le reti neurali sono diventate potenti quando sono andate oltre le funzioni lineari e hanno introdotto una non linearità che può apprendere quasi tutte le funzioni. La non linearità originale era l'unità sigmoidea, che rappresenta un neurone che si attiva a uno o rimane a zero finché non viene superata una soglia. Oltre a ciò, è stata introdotta l'unità soft plus per approssimare funzioni più complesse.

  • 01:00:00 In questa sezione della conferenza, il relatore spiega il concetto di funzioni di attivazione nell'apprendimento profondo e come aiutano i neuroni ad attivarsi in risposta agli input. Introduce varie funzioni di attivazione come il soft plus, il sigmoid e l'unità lineare rettificata (ReLU), tra gli altri. Il relatore discute anche il processo di apprendimento della regolazione dei pesi in modo che corrispondano alla funzione di output e il ruolo delle derivate parziali nell'ottimizzazione degli aggiornamenti del peso per ridurre al minimo gli errori. Questo, spiega, è il fondamento dell'apprendimento basato sul gradiente.

  • 01:05:00 In questa sezione della lezione viene introdotto il concetto di backpropagation come metodo per propagare derivati attraverso una rete neurale al fine di regolare i pesi. La regola della catena viene utilizzata per calcolare la derivata di ciascun livello in funzione del livello precedente, consentendo di apportare modifiche a ciascun livello. A questo processo possono essere aggiunti ulteriori campanelli e fischietti, come un tasso di apprendimento per scalare il gradiente, il decadimento del peso per evitare pesi elevati e la considerazione del delta nella fase temporale precedente per determinare la direzione e la quantità di cambiamento necessaria.

  • 01:10:00 In questa sezione, il relatore spiega i diversi metodi per ottimizzare i pesi in più livelli di modelli di deep learning. Questi metodi includono l'utilizzo della regola della catena per calcolare le derivate dell'output rispetto a ciascun peso, nonché la discesa del gradiente stocastico che campiona casualmente un sottoinsieme di dati di addestramento per aggiornare i pesi. Inoltre, il relatore discute il concetto di capacità del modello e la dimensione VC che descrive la capacità di modellazione complessiva di un modello di deep learning in base sia ai suoi parametri che ai tipi di funzioni che può calcolare. La capacità di un modello non parametrico è definita dalla dimensione del training set.

  • 01:15:00 In questa sezione viene introdotto il concetto di k-nearest neighbor e la sua generalizzabilità. Sebbene k-nearest neighbor sia un buon metodo di base, potrebbe avere uno scarso potere di generalizzazione perché non apprende la funzione che separa i set di dati, rendendo difficile eseguire bene input mai visti prima. Viene anche discussa l'efficacia della capacità di un modello su un grafico, in cui l'asse x mostra il numero effettivo di parametri o dimensioni e l'aumento di questo numero può portare a corrispondenze migliori con i dati, ma con un errore di generalizzazione più elevato. Vengono inoltre introdotti il bias o quanto bene si abbinano dati dati e la varianza o quanto bene si possono abbinare set di dati futuri. Infine, i modelli possono essere regolarizzati scambiando la regolarizzazione dei parametri e la regolarizzazione della complessità del modello, che può essere dimostrata confrontando set di dati con diversi livelli di complessità dei neuroni.

  • 01:20:00 In questa sezione della lezione, l'istruttore discute varie tecniche per aggiungere regolarizzazione alle reti neurali, come l'arresto anticipato, il decadimento del peso, l'aggiunta di rumore come regolarizzatore e i priori bayesiani. Viene discusso anche il concetto di portata, che dipende dalle funzioni di attivazione e dal numero di pesi. L'istruttore sottolinea che il compromesso tra più strati, strati più ampi e più connessioni è un'arte piuttosto che una teoria ed è essenziale trovare il giusto equilibrio di complessità. L'istruttore incoraggia gli studenti a presentarsi positivamente ai loro compagni di classe e a prendersi il tempo per incontrarsi e conoscere i loro profili e video.
Machine Learning Foundations - Deep Learning in Life Sciences Lecture 02 (Spring 2021)
Machine Learning Foundations - Deep Learning in Life Sciences Lecture 02 (Spring 2021)
  • 2021.02.23
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Reti neurali convoluzionali delle CNN - Lezione 03 (primavera 2021)



Reti neurali convoluzionali delle CNN - Apprendimento approfondito nelle scienze della vita - Lezione 03 (primavera 2021)

Questa lezione video copre l'argomento delle reti neurali convoluzionali (CNN) nell'apprendimento approfondito per le scienze della vita. Il relatore discute i principi della corteccia visiva e il modo in cui si relazionano alle CNN, compresi gli elementi costitutivi dei sistemi visivi umani e animali, come gli elementi costitutivi di base della somma e del peso e la soglia di attivazione del bias di un neurone. Spiegano che le CNN utilizzano neuroni specializzati per operazioni di rilevamento di basso livello e livelli di unità nascoste per l'apprendimento di concetti astratti. La lezione copre anche il ruolo della convoluzione e dei livelli di raggruppamento, l'uso di più filtri per l'estrazione di più caratteristiche e il concetto di trasferimento dell'apprendimento. Infine, vengono discusse anche le non linearità e l'uso del riempimento per affrontare i casi limite nella convoluzione. Nel complesso, la conferenza evidenzia il potere e il potenziale delle CNN in una varietà di applicazioni delle scienze della vita.

La seconda parte della lezione copre vari concetti relativi alle reti neurali convoluzionali (CNN). Nella conferenza, il relatore parla dell'importanza di mantenere la dimensione dell'input nelle CNN, dell'aumento dei dati come mezzo per ottenere l'invarianza alle trasformazioni e delle diverse architetture CNN e delle loro applicazioni. La conferenza copre anche le sfide associate all'apprendimento nelle CNN profonde, gli iperparametri e il loro impatto sulle prestazioni complessive e gli approcci all'ottimizzazione degli iperparametri. Il relatore sottolinea l'importanza di comprendere i principi fondamentali alla base delle CNN e sottolinea la loro versatilità come tecnica applicabile in più contesti.

  • 00:00:00 In questa sezione, il relatore introduce l'argomento delle reti neurali convoluzionali (CNN) e sottolinea il loro significato nell'apprendimento profondo in vari domini. L'oratore attribuisce al corso 6s191 e alle note di Coursera di Tess Fernandez grandi risorse per lo studio delle CNN. Il relatore spiega come le CNN siano state ispirate dalle reti neurali del cervello umano e dai risultati degli studi neuroscientifici sulla corteccia visiva animale negli anni '50 e '60. Il relatore prosegue spiegando alcuni dei principi chiave scoperti dagli studi fondamentali delle neuroscienze, incluso il concetto di avere solo campi recettivi limitati e cellule che rispondono ai bordi ad angolo retto. Questi concetti costituiscono la base dei filtri convoluzionali e delle CNN utilizzate oggi.

  • 00:05:00 In questa sezione, il relatore discute i principi della corteccia visiva e come si relazionano alle reti neurali convoluzionali (CNN). La corteccia visiva contiene semplici operazioni primitive come il rilevamento dei bordi, che sono costruite da singoli neuroni che rilevano la luce e l'oscurità in luoghi diversi e soglie quel segnale. Esistono neuroni di ordine superiore che sono invarianti rispetto alla posizione del bordo o dell'oggetto rilevato, il che ha portato al concetto di invarianza posizionale negli strati di raggruppamento delle CNN. Il relatore discute anche gli elementi costitutivi dei sistemi visivi umani e animali, che contengono principi simili che si trovano nelle reti neurali, come gli elementi costitutivi di base della somma e del peso e la soglia di attivazione del bias di un neurone.

  • 00:10:00 In questa sezione della conferenza, il relatore discute le funzioni di attivazione nei neuroni, che determinano se un neurone si attiva o meno in base a input al di sopra di una certa soglia. La non linearità di questo processo consente di apprendere funzioni più complesse, poiché le trasformazioni lineari di informazioni lineari sono ancora trasformazioni lineari. I neuroni sono collegati in reti che hanno proprietà emergenti e consentono l'apprendimento e la memoria. Il cervello umano è estremamente potente, contiene 86 miliardi di neuroni e quadrilioni di connessioni organizzate in reti semplici, grandi e profonde che consentono l'astrazione e il riconoscimento di concetti complessi come bordi e linee. Viene fornito un esempio di come è possibile creare un rilevatore di bordi a un livello inferiore di neuroni basato su segnali positivi e negativi in risposta alle aree chiare e scure.

  • 00:15:00 In questa sezione, il relatore spiega come le connessioni neurali nel cervello rilevano primitive lineari e circolari molto basilari, come bordi e barre, e le usano per percepire caratteristiche più complesse come colore, curvatura e orientamento. Gli strati superiori della corteccia visiva del cervello corrispondono agli strati di astrazione nell'apprendimento profondo, che costruiscono concetti complessi da parti più semplici. La malleabilità del cervello gli consente anche di utilizzare diverse parti del cervello per percepire i segnali corrispondenti, e gli esperimenti sugli animali hanno dimostrato che i circuiti nel cervello sono intercambiabili e possono essere ricablati in caso di lesioni. Inoltre, il relatore nota l'enorme differenza di dimensioni tra il cervello degli esseri umani e dei topi e come l'espansione della neocorteccia nei mammiferi, in particolare nei primati, abbia dato origine a livelli più elevati di astrazione e intelligenza sociale.

  • 00:20:00 In questa sezione, il docente spiega come le reti neurali possono apprendere una vasta gamma di funzioni che ben si adattano al mondo fisico in cui abitiamo, pur non essendo in grado di apprendere ogni funzione matematica. La conferenza esplora anche il modo in cui le illusioni visive possono rivelare le primitive e gli elementi costitutivi dei calcoli in corso all'interno del cervello, che possono essere sfruttati dall'apprendimento profondo per creare esperienze come vedere una persona trasformarsi in una mostruosa combinazione di animali. La lezione passa poi a discutere gli ingredienti chiave delle reti neurali convoluzionali, come la località e il calcolo dei filtri convoluzionali, che sono calcolati localmente piuttosto che in una rete completamente connessa.

  • 00:25:00 In questa sezione della conferenza sulle CNN e il deep learning nelle scienze della vita, il relatore discute diverse caratteristiche chiave delle reti neurali convoluzionali. Questi includono l'uso di neuroni specializzati che eseguono operazioni di rilevamento di basso livello, livelli di unità nascoste in cui i concetti astratti vengono appresi da parti più semplici, funzioni di attivazione che introducono non linearità, livelli di raggruppamento per invarianza di posizione e tempo di calcolo ridotto, filtri multipli che catturare diversi aspetti dell'immagine originale e modi per limitare il peso delle singole unità nascoste per la regolarizzazione. Queste funzionalità sono tutte importanti per costruire CNN efficaci in grado di apprendere e riconoscere modelli in immagini complesse o dati genomici.

  • 00:30:00 In questa sezione, il docente spiega che il cervello umano utilizza anche vari meccanismi per rafforzare connessioni utili limitando l'eccessivo affidamento su ogni singola connessione per un particolare compito. Cita gli esempi di riduzione dell'attivazione dei neuroni nel tempo e di utilizzo dell'apprendimento per rinforzo per migliorare le attività motorie. Traccia anche parallelismi tra questi meccanismi di apprendimento primitivi nel cervello umano e l'algoritmo di backpropagation utilizzato nelle reti neurali convoluzionali. Il docente incoraggia gli studenti a pensare oltre le architetture attuali e considerare nuove architetture computazionali che potrebbero essere derivate da primitive individuali. Infine, risponde a una domanda della chat su come pensare alle applicazioni che richiedono o meno la località all'interno di una rete completamente connessa.

  • 00:35:00 In questa sezione, il relatore discute le due parti delle reti neurali profonde: apprendimento della rappresentazione e classificazione. Avendo livelli gerarchici di apprendimento, le combinazioni di pixel si trasformano in estrazione di funzionalità e segue il rilevamento delle funzionalità. Ciò consente alla rete di apprendere una funzione non lineare complessa attraverso l'accoppiamento delle due attività di backpropagation e di estrazione delle caratteristiche. Il relatore afferma che questo paradigma è molto potente e generalizzabile in diversi domini applicativi. Il campo è ancora agli inizi e c'è molto spazio per la creatività e l'esplorazione, in particolare in genomica, biologia, neuroscienze, imaging e cartelle cliniche elettroniche. Pertanto, questi domini applicativi possono guidare lo sviluppo di nuove architetture che potrebbero avere un'ampia applicabilità alla scienza dei dati in diversi campi.

  • 00:40:00 In questa sezione, il relatore spiega il concetto di reti neurali convoluzionali e il ruolo delle convoluzioni nello sfruttamento della struttura spaziale, nell'esecuzione di calcoli locali e nella condivisione di parametri nell'intera immagine. Applicando un filtro o un kernel a ogni singola patch di un'immagine, la convoluzione viene utilizzata per calcolare una mappa delle caratteristiche che ci dice quanto una caratteristica era presente in ogni patch dell'immagine, eseguendo effettivamente l'estrazione delle caratteristiche. L'oratore sottolinea l'uso di più filtri per estrarre più caratteristiche, come bordi e baffi, e condividere spazialmente i parametri di ciascun filtro per imparare da meno parametri.

  • 00:45:00 In questa sezione sulle CNN, il relatore spiega che i parametri per ogni processo di estrazione delle caratteristiche, come il rilevamento dei bordi, sono condivisi e applicati all'intera immagine contemporaneamente. Ogni neurone in uno strato nascosto riceve l'input da una patch, calcola una somma ponderata e applica un bias per attivarsi con una funzione non lineare. I filtri convoluzionali vengono utilizzati per estrarre caratteristiche dall'immagine e apprendere rappresentazioni, che possono essere apprese tramite filtri specifici dell'attività. Diverse specie hanno sviluppato filtri convoluzionali codificati dalla nascita, che possono essere riutilizzati per le attività più utili.

  • 00:50:00 In questa sezione, il docente parla del processo di apprendimento dei filtri attraverso reti neurali convoluzionali, che estraggono caratteristiche comuni dalle immagini e identificano caratteristiche specifiche per compiti diversi. Mentre alcuni filtri sono codificati, come quelli specifici per una particolare specie, altri, come il rilevamento dei bordi e dei volti, sono utili per varie applicazioni. Viene discusso il concetto di transfer learning, in cui i precedenti filtri convoluzionali possono essere applicati a nuovi dati, per pre-apprendere rappresentazioni intermedie e di alto livello prima di riaddestrare nuove funzionalità. La gerarchia delle funzionalità dal livello basso a quello alto è sintonizzata sull'attività di classificazione in questione. Il docente spiega anche che la convoluzione si riferisce all'effetto di torcere una cosa in un'altra, dopodiché entra in gioco il rilevamento con l'uso delle non linearità.

  • 00:55:00 In questa sezione, il relatore discute il concetto di non linearità e come consentono il rilevamento introducendo il silenzio finché non viene osservata una caratteristica specifica. Discutono anche dell'uso dei livelli di raggruppamento, che trovano il valore massimo all'interno di una certa sezione e riducono la dimensione della rappresentazione, rendendo più robuste alcune caratteristiche rilevate. Il livello completamente connesso apprende quindi funzioni molto più complesse e acquisisce combinazioni delle caratteristiche estratte dalla rete, consentendo in ultima analisi la classificazione. L'oratore tocca anche i casi limite in convoluzione e come il riempimento delle immagini con zeri prima della convoluzione risolva questo problema.

  • 01:00:00 In questa sezione, il relatore discute l'importanza di mantenere la dimensione dell'input nelle reti neurali convoluzionali e i diversi modi per raggiungere questo obiettivo, tra cui zero padding e convoluzione dilatata. Il concetto di aumento dei dati viene introdotto come un modo per ottenere l'invarianza alle trasformazioni nel mondo reale, come i cambiamenti nell'orientamento o nella forma. Trasformando le immagini in primo luogo, la rete può imparare a riconoscere gli oggetti indipendentemente dalla loro posizione o orientamento. Il relatore sottolinea l'importanza di apprendere milioni di caratteristiche dal basso verso l'alto e di trasformare le immagini per ottenere l'invarianza.

  • 01:05:00 In questa sezione, il relatore riassume i concetti discussi nelle sezioni precedenti della conferenza, tra cui località, filtri e caratteristiche, funzioni di attivazione, raggruppamento e multimodalità. Mostra quindi un esempio di una rete neurale convoluzionale profonda, costituita da un volume di input di un'immagine RGB, seguito da 20 filtri con un passo di 2, che crea un volume di 10. L'oratore sottolinea che il numero di filtri calcolati crea un volume corrispondente, che cambia a ogni livello della rete. Dimostra anche come implementare questi concetti in TensorFlow utilizzando il motore Keras per il deep learning, incluse diverse dimensioni del filtro, funzioni di attivazione, raggruppamento e dimensioni del passo.

  • 01:10:00 In questa sezione, il relatore discute diverse architetture di reti neurali convoluzionali e le loro applicazioni, a partire da LeNet-5 per il riconoscimento dei documenti che ha contribuito a stabilire la serie di filtri convoluzionali, sottocampionamento e livelli completamente connessi che compongono CNN oggi. Il relatore spiega che l'addestramento delle CNN è un'arte, poiché richiede molti più dati di addestramento a causa del maggior numero di parametri e livelli. Viene inoltre sottolineata l'importanza della normalizzazione nell'addestramento, poiché i dati asimmetrici possono influire sulle prestazioni del modello. Nel complesso, il relatore sottolinea il modo naturale ed efficace in cui le CNN sono in grado di svolgere compiti di classificazione.

  • 01:15:00 In questa sezione, il docente discute diverse sfide associate all'apprendimento nelle reti neurali convoluzionali profonde. Una delle sfide sono i gradienti che svaniscono o esplodono, che possono essere mitigati scegliendo attentamente i valori iniziali e normalizzando i dati. Il docente spiega anche come scegliere la dimensione del batch, in cui è possibile addestrare l'intero set di dati o utilizzare mini-batch, e parla di diverse tecniche per l'addestramento, come l'elica RMS e la ricottura simulata. La lezione copre anche gli iperparametri, che sono i parametri dell'architettura e dell'allenamento, e il loro impatto sulle prestazioni complessive. Infine, il docente introduce due approcci all'ottimizzazione degli iperparametri, alla ricerca su griglia e alla ricerca casuale e ne discute vantaggi e svantaggi.

  • 01:20:00 In questa sezione, il relatore sottolinea l'importanza dei principi fondamentali alla base delle reti neurali convoluzionali piuttosto che concentrarsi sulla logistica e sugli approcci tradizionali. La conferenza copre le caratteristiche chiave delle CNN, comprese le convoluzioni, le rappresentazioni dell'apprendimento, il rilevamento, le non linearità e i livelli di raggruppamento. Il relatore evidenzia anche le questioni pratiche di rendere l'addestramento invariante a piccole perturbazioni e affrontare diversi tipi di architetture. Inoltre, la classe discuterà l'arte dei modelli di formazione nelle sessioni future. Nel complesso, la conferenza presenta le CNN come una tecnica estremamente versatile applicabile in molteplici contesti.
CNNs Convolutional Neural Networks - Deep Learning in Life Sciences - Lecture 03 (Spring 2021)
CNNs Convolutional Neural Networks - Deep Learning in Life Sciences - Lecture 03 (Spring 2021)
  • 2021.03.02
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Recurrent Neural Networks RNNs, Graph Neural Networks GNNs, Long Short Term Memory LSTMs - Lezione 04 (Primavera 2021)



RNN di reti neurali ricorrenti, GNN di reti neurali a grafo, LSTM di memoria a lungo e breve termine

Questo video copre una serie di argomenti a partire dalle reti neurali ricorrenti (RNN) e dalla loro capacità di codificare il contesto temporale, che è fondamentale per l'apprendimento delle sequenze. Il relatore introduce il concetto di modelli markoviani nascosti e le loro limitazioni, che porta alla discussione dei moduli di memoria a lungo termine (LSTM) come un potente approccio per gestire lunghe sequenze. Il video discute anche del modulo trasformatore, che apprende le relazioni temporali senza srotolarsi o utilizzare RNN. Vengono introdotte le reti neurali a grafo e le loro potenziali applicazioni nella risoluzione di classici problemi di rete e nella biologia computazionale. Il discorso si conclude con una discussione sulle frontiere della ricerca nelle reti neurali a grafo, come la loro applicazione nei modelli di grafi degenerativi e l'inferenza di grafi latente.

Questa seconda parte del video tratta i moduli Recurrent Neural Networks (RNNs), Graph Neural Networks (GNNs) e Long Short Term Memory (LSTM). Spiega come le tradizionali reti neurali feedforward abbiano dei limiti quando si tratta di dati basati su grafici, ma i GNN possono gestire un'ampia gamma di invarianze e propagare informazioni attraverso il grafico. I relatori discutono anche di Graph Convolutional Networks (GCN) e dei loro vantaggi e sfide. Inoltre, il video descrive l'importanza delle funzioni di attenzione nel rendere i GNN più potenti e flessibili.

  • 00:00:00 In questa sezione, il docente introduce gli argomenti che saranno trattati in classe, comprese le reti neurali ricorrenti ei moduli di memoria a lungo termine. Il docente discute come le macchine possono comprendere il contesto e l'attenzione e codificare il contesto temporale utilizzando modelli di markov nascosti e reti neurali ricorrenti. La lezione illustra anche come evitare i gradienti che svaniscono utilizzando i moduli di memoria e introduce il modulo Transformer che può apprendere le relazioni temporali senza srotolare la sequenza. La conferenza tocca anche le reti neurali a grafo e il modo in cui utilizzano i modelli di connettività dei grafi per guidare l'addestramento. Il docente discute quindi la capacità del cervello umano di leggere e comprendere il contesto e introduce esempi di ripristino fonemico e riempimento di parole mancanti in base al contesto.

  • 00:05:00 In questa sezione del video, il relatore discute di come il cervello elabora il linguaggio e il suono attraverso la previsione di ciò che verrà dopo, che è alla base della comprensione. Le reti neurali ricorrenti vengono utilizzate per codificare il contesto temporale quando si applica l'apprendimento automatico alle sequenze al fine di trasformare una sequenza di input in una sequenza di output che vive in un dominio diverso, come trasformare una sequenza di pressioni sonore in una sequenza di identità di parole. Il relatore fornisce anche esempi di effetti cognitivi relativi alle informazioni sul contesto uditivo e visivo, come l'effetto McGurk e il feedback uditivo ritardato, e spiega come funzionano.

  • 00:10:00 In questa sezione del video, il relatore discute il potere dell'utilizzo di un modello di previsione della sequenza per conoscere il mondo. Prevedendo il termine successivo in una sequenza, il processo di apprendimento non supervisionato può essere trasformato in un processo di apprendimento supervisionato. Ciò consente l'uso di metodi progettati per l'apprendimento supervisionato senza la necessità di annotazioni. Il relatore spiega che una singola funzione comune può essere appresa e applicata all'intera sequenza, consentendo la previsione di eventi futuri. Incorporando nodi nascosti e dinamiche interne, è possibile costruire modelli più complessi e archiviare le informazioni per lungo tempo. L'oratore descrive come è possibile dedurre le distribuzioni di probabilità sui vettori di stato nascosti e come l'input può essere utilizzato per guidare i nodi nascosti direttamente o indirettamente fornendo informazioni al nodo nascosto corrente.

  • 00:15:00 In questa sezione, il relatore discute Hidden Markov Models (HMM) e le loro limitazioni. Gli HMM hanno due tipi di parametri: una matrice di emissione che rappresenta la probabilità di osservare ogni output dato lo stato nascosto, e una matrice di transizione che rappresenta la probabilità di transizione a un altro stato nascosto dato quello attuale. Tuttavia, ad ogni passo temporale, è possibile selezionare solo uno degli stati nascosti e, con n stati, è possibile ricordare solo log n bit di informazioni. Per codificare più informazioni precedenti, sarebbe necessario un numero enorme di stati. Questa limitazione è affrontata dalle reti neurali ricorrenti (RNN) che consentono la codifica esplicita delle informazioni.

  • 00:20:00 In questa sezione, apprendiamo le proprietà delle reti neurali ricorrenti (RNN), che ci consentono di memorizzare molte informazioni in modo efficiente utilizzando uno stato nascosto distribuito, aggiornato in modi più complicati con dinamiche non lineari. Mentre la distribuzione di probabilità a posteriori degli stati nascosti in un sistema dinamico lineare o modello di markov nascosto (HMM) è stocastica, lo stato nascosto di un RNN è deterministico. A differenza degli HMM o dei sistemi dinamici lineari, che sono stocastici per natura, gli RNN possono avere tutti i tipi di comportamenti come l'oscillazione o comportarsi in modo caotico, consentendo decisioni imprevedibili. Le reti feedforward e gli RNN sono gli stessi quando il tempo viene srotolato, rendendolo equivalente a una rete feedforward con un numero infinito di stack, con gli stessi pesi condivisi utilizzati per calcolare ogni carattere nella rete.

  • 00:25:00 In questa sezione, il relatore spiega le architetture specifiche che possono essere utilizzate per le reti neurali ricorrenti (RNN) e come possono essere addestrate utilizzando la retropropagazione. Un modo è avere input che alimentano unità nascoste e quindi avere un singolo output dopo l'intera sequenza. Un altro modo è avere una previsione dell'output in ogni fase temporale, consentendo il flusso di informazioni tra unità nascoste e consentendo la previsione delle variabili di output. Lo stesso algoritmo di backpropagation può essere utilizzato per aggiornare i pesi di queste architetture. Il relatore sottolinea che i pesi sono condivisi tra diversi livelli della rete, il che consente un apprendimento più efficiente.

  • 00:30:00 In questa sezione, il relatore discute il concetto di propagazione all'indietro nel tempo nelle reti neurali ricorrenti (RNN) e come consente la codifica della memoria da fasi temporali precedenti. Spiegano che ciò può essere ottenuto facendo fluire l'output dal passaggio temporale precedente nell'unità nascosta corrente o alimentando l'etichetta di output corretta per l'espressione precedente al modello corrente durante l'addestramento. Il processo di addestramento implica prendere la derivata della funzione di perdita rispetto a ogni peso e utilizzarla per aggiornare i pesi sotto vincoli lineari. Il relatore osserva che mentre gli RNN possono sembrare complessi, possono essere addestrati utilizzando le stesse procedure di altre reti neurali.

  • 00:35:00 In questa sezione, il relatore discute il concetto di modellazione di sequenze con strumenti di apprendimento automatico e come gestire sequenze lunghe. Spiega che in casi come la traduzione di frasi o la trascrizione di parole pronunciate, le sequenze di input devono essere trasformate in sequenze di output. Tuttavia, quando non esiste una sequenza target separata, è possibile ottenere un segnale di apprendimento tentando di prevedere il termine successivo della sequenza di input. La sfida di questo approccio sorge quando si ha a che fare con sequenze molto lunghe in cui l'influenza di una particolare parola decade nel tempo. Per far fronte a questo, il relatore spiega vari metodi, come le reti di stato dell'eco e l'utilizzo del momento, ma evidenzia i moduli di memoria a lungo termine come l'approccio più potente. Questi moduli utilizzano unità logistiche e lineari con interazioni moltiplicative per progettare una cella di memoria in grado di ricordare valori per centinaia di intervalli temporali.

  • 00:40:00 In questa sezione, il relatore spiega il concetto di una cella di memoria analogica nelle reti neurali di memoria a lungo termine (LSTM). La cella di memoria è un'unità lineare con un collegamento automatico che ha un peso pari a uno, assicurando che le informazioni rimangano invariate e non diluite da alcun tipo di decadimento del peso. La cella è controllata da cancelli che mantengono una camera d'eco in cui l'informazione viene ripetuta costantemente finché non è necessaria, e la rete decide quando ricordare o dimenticare un'informazione. L'attivazione delle porte di lettura e conservazione consente rispettivamente il recupero e la manutenzione delle informazioni. Alla rete vengono fornite le capacità di ricordare, dimenticare, archiviare e recuperare un ricordo e decide quando è utile ricordare o dimenticare una particolare informazione. L'implementazione di queste porte consente la conservazione delle informazioni per lungo tempo nelle reti neurali ricorrenti.

  • 00:45:00 In questa sezione, il relatore discute l'applicazione delle reti neurali ricorrenti (RNN) nella lettura della scrittura corsiva. Gli RNN con moduli di memoria a breve termine lungo si sono rivelati il miglior sistema per questo compito nel 2009. Una sequenza di piccole immagini è stata utilizzata come sostituto delle coordinate della penna per addestrare la rete. L'oratore mostra una demo del riconoscimento della grafia online, in cui i caratteri vengono dedotti dalla grafia nel tempo e si accede alle probabilità a posteriori per ciascuno di quei caratteri. Lo stato del sistema viene mantenuto e punti diversi ricevono pesi diversi. L'oratore spiega come vengono appresi i caratteri e quali parti del sistema sono importanti. L'oratore discute anche dell'inizializzazione delle unità nascoste e di output degli RNN e di come il loro stato iniziale possa essere trattato come parametri di apprendimento invece di codificarli esplicitamente.

  • 00:50:00 In questa sezione, il video descrive un nuovo sviluppo nelle reti neurali chiamato modulo trasformatore, che apprende le relazioni temporali senza srotolarsi e senza utilizzare reti neurali ricorrenti. Il modulo trasformatore utilizza un ingresso con una codifica posizionale per indicare dove si trova la rete nella sequenza senza la necessità di srotolare la rete nel tempo. Il codificatore sposta l'incorporamento dell'output di uno rispetto all'input per prevedere l'elemento successivo nella frase mentre i moduli di attenzione determinano i punti più vitali della frase. Il modulo utilizza una rappresentazione di query di una parola nella sequenza, rappresentazioni di chiavi di tutte le parole nella sequenza e rappresentazioni di valore di tutte le parole nella sequenza per ottenere le relazioni temporali.

  • 00:55:00 In questa sezione, il relatore discute il Transformer, un tipo di rete neurale utile per la traduzione di sequenze o qualsiasi tipo di attività sequenziale. Codifica le informazioni di contesto dell'intera frase ogni volta nella produzione di ogni parola e le relazioni tra parole consecutive sono codificate in questa relazione input-output, che viene spostata di uno. Il relatore introduce anche le reti neurali a grafo e descrive come possono essere utilizzate per risolvere i classici problemi di rete, nonché la potenziale applicazione nella biologia computazionale. Il discorso si conclude con una discussione sulle frontiere della ricerca delle reti neurali a grafo, come la loro applicazione nei modelli di grafi degenerativi e l'inferenza di grafi latente.

  • 01:00:00 In questa sezione, il relatore parla dei vantaggi dell'utilizzo di Convolutional Neural Networks (CNN) su dati strutturati a griglia come le immagini e del potenziale dell'utilizzo di Graph Neural Networks (GNN) su dati non di griglia come i social network, mappe di connettività cerebrale e molecole chimiche. Il relatore discute anche i tre diversi tipi di caratteristiche che possono essere presenti nei GNN: caratteristiche dei nodi, caratteristiche dei bordi e caratteristiche a livello di grafico. Inoltre, il relatore evidenzia i problemi dell'utilizzo di una rete completamente connessa per le previsioni del grafico, incluso il numero di parametri che si ridimensionano con il numero di nodi, rendendolo poco pratico per molte situazioni.

  • 01:05:00 In questa sezione, il relatore discute alcuni dei limiti dell'utilizzo delle tradizionali reti neurali feedforward per i dati basati su grafi, tra cui il problema della dimensione del grafico e la mancanza di invarianza rispetto all'ordinamento dei nodi. Quindi introducono le reti neurali a grafo (GNN), che possono gestire un'ampia classe di invarianze e propagare le informazioni attraverso un grafico per calcolare le caratteristiche dei nodi e fare previsioni a valle. La formula di base per i GNN prevede il campionamento delle informazioni dal quartiere circostante del nodo e l'aggiornamento della rappresentazione del nodo in base a queste informazioni. Il relatore osserva che questo processo è simile al processo utilizzato nelle reti neurali convoluzionali (CNN) per i dati delle immagini.

  • 01:10:00 In questa sezione, il relatore discute il concetto di reti neurali a grafo a due strati e come vengono aggiornate per diversi nodi in un grafo. Spiegano che le reti neurali a grafo sono diverse da altri tipi di reti perché consentono più informazioni in generale, invece di interazioni di ordine superiore tra diverse parti dello spazio di input. Il relatore parla anche delle reti convoluzionali di grafi (GCN) e di come considerano i grafi non orientati, con una regola di aggiornamento che applica una matrice di peso a ciascuna rappresentazione nascosta dai vicini di un nodo. Viene discussa anche la scalabilità delle reti neurali a grafo, con il suggerimento di sottocampionare il numero di contributori agli aggiornamenti dei nodi per evitare che la rete esploda.

  • 01:15:00 In questa sezione, il relatore spiega le reti neurali a grafo (GNN), che sono un tipo di rete neurale utilizzata per i dati a grafo. I GNN sono meno dipendenti dal peso rispetto alle reti completamente connesse e sono invarianti rispetto alle permutazioni, consentendo la classificazione su grafici di grandi dimensioni. I GNN hanno un supporto indiretto per le funzionalità edge e un adattamento consiste nell'utilizzare gli edge embedding per far passare completamente i messaggi attraverso la rete. Il relatore utilizza le reti di citazioni come esempio e spiega come funziona il meccanismo di aggiornamento nei GNN.

  • 01:20:00 In questa sezione del video, il relatore spiega come funziona una rete neurale a grafo per l'aggiornamento da bordo a vertice e come la funzione di attenzione gioca un ruolo fondamentale nel rendere la rete flessibile e potente. L'obiettivo dell'aggiornamento da bordo a vertice di GNN è quello di ottenere lo stato di uno dei bordi, che può essere ottenuto prendendo un'aggregazione delle rappresentazioni dai nodi incidenti e applicando una funzione non lineare specifica per gli aggiornamenti di bordo. Allo stesso modo, gli aggiornamenti dei vertici implicano informazioni dai bordi incidenti di un nodo. Tuttavia, le attivazioni basate su edge diventano enormi, rendendo difficile la gestione di grafici di grandi dimensioni. La funzione di attenzione fornisce una rappresentazione vettoriale esplicita senza includere tutte le informazioni sui bordi, riducendo i requisiti computazionali dei modelli pur mantenendo la loro flessibilità e potenza. L'oratore descrive come i punteggi di attenzione possono mostrare quanto ogni vicino stia contribuendo all'aggiornamento del nodo centrale, rendendo possibile dedurre alcune relazioni o contribuire a proprietà.

  • 01:25:00 In questa sezione, i relatori discutono di Graph Convolutional Networks (GCN) e dei loro vantaggi e sfide. I GCN consentono l'applicazione di più livelli in tutto il grafico e ogni aggiornamento ha la stessa forma. Sono utili per la classificazione dei nodi, la classificazione dei grafici e la previsione dei collegamenti. Tuttavia, ci sono ancora problemi di ottimizzazione dovuti agli aggiornamenti paralleli in tutto il grafico e potrebbe essere necessario correggere le costanti di normalizzazione per evitare la destabilizzazione. Inoltre, i GCN possono soffrire di problemi di espressività rispetto ad altri metodi come Graph Attention Networks (GAT). Tuttavia, i GCN sono ancora più veloci dei metodi che richiedono edge embedding o passaggio di messaggi neurali.

  • 01:30:00 In questa sezione, il relatore discute le reti neurali grafiche (GNN), che sono un tipo di modello che può essere applicato a grafici o reti di dati. I GNN comportano l'assunzione del prodotto scalare tra le rappresentazioni di due nodi qualsiasi nel grafico, l'applicazione di una funzione non lineare come un sigmoide e quindi la produzione di una probabilità dell'esistenza di tale bordo. I GNN consentono anche la modellazione predittiva in aree come l'interazione genica in biologia. Il relatore conclude riassumendo i vari tipi di reti discusse, comprese le reti neurali convoluzionali (CNN), le reti neurali ricorrenti (RNN), i moduli di memoria a lungo termine e i moduli Transformer.
Recurrent Neural Networks RNNs, Graph Neural Networks GNNs, Long Short Term Memory LSTMs
Recurrent Neural Networks RNNs, Graph Neural Networks GNNs, Long Short Term Memory LSTMs
  • 2021.03.02
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 04 - RNNs, LSTMs, Transformers, GNNs (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis Kellis...
 

Interpretable Deep Learning - Deep Learning nelle scienze della vita - Lezione 05 (primavera 2021)



Interpretable Deep Learning - Deep Learning nelle scienze della vita - Lezione 05 (primavera 2021)

Questo video discute l'importanza dell'interpretabilità nei modelli di deep learning, in particolare nel campo delle scienze della vita, dove le decisioni possono avere conseguenze disastrose. Il relatore spiega due tipi di interpretabilità: incorporarla nella progettazione del modello fin dall'inizio e sviluppare metodi di interpretabilità post hoc per modelli già costruiti. Continuano esplorando diverse tecniche per interpretare i modelli, tra cui la visualizzazione del peso, la costruzione di modelli surrogati e la massimizzazione dell'attivazione, e discutono dell'importanza di comprendere le rappresentazioni interne del modello. Il docente spiega anche diversi metodi per interpretare le decisioni individuali, come i metodi basati su esempi e attribuzione. Inoltre, il relatore discute la sfida dell'interpretazione di concetti complessi e i limiti delle interpretazioni del modello di rete neurale, nonché l'esplorazione di ipotesi relative alla discontinuità dei gradienti nelle reti neurali di deep learning.

Nella seconda parte della conferenza, il relatore ha affrontato le sfide dei gradienti discontinui e delle funzioni saturate nei modelli di deep learning nel campo delle scienze della vita. Hanno proposto metodi come la media di piccole perturbazioni di input su più campioni per ottenere un gradiente più uniforme, utilizzando il rumore casuale per evidenziare le caratteristiche salienti nella classificazione delle immagini e tecniche di backpropagation come reti neurali deconvoluzionali e backpropagation guidata per interpretare i modelli di regolazione genica. Il relatore ha anche discusso la valutazione quantitativa dei metodi di attribuzione, inclusa la procedura di pixel flipping e l'approccio del punteggio di rimozione e sostituzione. Infine, hanno sottolineato la necessità di interpretabilità nei modelli di deep learning e le varie tecniche per ottenerla.

  • 00:00:00 In questa sezione, il relatore discute l'importanza dell'interpretabilità nell'apprendimento profondo e i diversi metodi per ottenerla. Spiegano che mentre i modelli di deep learning possono superare gli umani, è importante capire come stanno prendendo decisioni e se queste decisioni possono essere considerate attendibili. L'interpretabilità può aiutare con il debug, fare scoperte e fornire spiegazioni per le decisioni. Il presentatore prosegue discutendo i metodi anti-falco e post hoc per l'interpretazione, nonché l'interpretazione dei modelli rispetto alle decisioni. Quindi approfondiscono metodi specifici per interpretare i modelli, come la visualizzazione del peso, la creazione di modelli surrogati, la massimizzazione dell'attivazione e modelli basati su esempi. Infine, il relatore discute i metodi di attribuzione e la valutazione dell'efficacia di questi metodi attraverso misure qualitative e quantitative.

  • 00:05:00 In questa sezione viene sottolineata l'importanza dell'interpretabilità nell'apprendimento automatico, specialmente nel campo delle scienze della vita, dove decisioni sbagliate possono avere conseguenze costose. L'approccio tradizionale di costruire un modello gigante senza capire come e perché funziona non è più sufficiente e, invece, è necessario estrarre informazioni interpretabili dai modelli a scatola nera. L'apprendimento automatico interpretabile fornisce previsioni verificate ottimizzate non solo per l'errore di generalizzazione, ma anche per l'esperienza umana. È importante comprendere i meccanismi fisici, biologici e chimici della malattia per formare meglio i medici e ottenere informazioni su come funziona il cervello umano. Inoltre, il diritto alla spiegazione è fondamentale per combattere i pregiudizi che possono essere insiti nei set di dati di formazione a causa di secoli di discriminazione.

  • 00:10:00 In questa sezione del video, il relatore discute due tipi di interpretabilità nel deep learning: costruire l'interpretabilità nella progettazione del modello e costruire l'interpretabilità post hoc sviluppando tecniche speciali per interpretare modelli complessi dopo che sono stati costruiti . Spiegano che il deep learning ha milioni di parametri, rendendo impossibile costruire modelli interpretabili per cominciare. Pertanto, l'attenzione si concentra sullo sviluppo di tecniche per l'interpretazione post hoc in base al loro grado di località. Il relatore discute anche i modi per costruire reti neurali interpretabili sia a livello di modello che di decisione.

  • 00:15:00 In questa sezione, il relatore discute i due tipi di modelli interpretabili per il deep learning: quelli che interpretano il modello stesso e quelli che interpretano le decisioni. Le decisioni possono essere basate su metodi di attribuzione o metodi basati su esempi. Il relatore parla anche dell'analisi delle rappresentazioni stesse e della generazione di dati dal modello. Introducono quattro tipi di approcci all'analisi delle rappresentazioni che includono la visualizzazione del peso, la costruzione di modelli surrogati e la comprensione degli input che massimizzano le unità di attivazione. Infine, il relatore sottolinea l'importanza di comprendere le rappresentazioni interne del modello, in particolare le caratteristiche gerarchiche estratte dalla metà sinistra del modello che possono fornire informazioni su come i modelli di deep learning effettuano inferenze.

  • 00:20:00 In questa sezione, il docente discute l'idea di interpretare il deep learning osservando il funzionamento interno della rete neurale. Spiega che proprio come gli scienziati hanno studiato la corteccia visiva nei gatti e nelle scimmie per capire come i singoli neuroni si attivano con orientamenti diversi, possiamo osservare i neuroni che si attivano in una rete neurale per comprendere le primitive o le caratteristiche che la rete ha imparato a riconoscere. Tuttavia, con milioni di parametri e migliaia di nodi interni, non è possibile visualizzarli tutti. Pertanto, il docente introduce l'idea di modelli surrogati o modelli di approssimazione più semplici e interpretabili. La lezione copre anche la massimizzazione dell'attivazione, in cui l'obiettivo è generare dati che massimizzino l'attivazione di un particolare neurone.

  • 00:25:00 In questa sezione, l'oratore discute un problema di ottimizzazione che comporta la massimizzazione della probabilità a posteriori della classe per un dato input, utilizzando anche un termine di regolarizzazione per garantire che l'output sia interpretabile dall'uomo. Spiegano che la semplice massimizzazione basata sulla probabilità della classe può portare a immagini che non hanno molto senso, quindi il termine di regolarizzazione aggiuntivo è necessario per vincolare l'output a essere interpretabile. Toccano anche il concetto di variabili e parametri latenti che possono aiutare a parametrizzare i vettori rumorosi e migliorare la qualità delle interpretazioni. L'obiettivo è generare dati che corrispondano maggiormente ai dati di addestramento in modo che l'output assomigli ai modelli relativi alla classe e sia più facile da interpretare per gli esseri umani.

  • 00:30:00 L'obiettivo è massimizzare o ridurre al minimo determinate funzionalità e quindi utilizzare tali istanze per capire come il modello sta prendendo le sue decisioni. Questo può essere fatto attraverso la massimizzazione dell'attivazione all'interno dello spazio dei possibili input, dove l'input è vincolato a provenire da una distribuzione di dati simile a quella umana. In alternativa, è possibile utilizzare un modello generativo per campionare dalla funzione di densità di probabilità di quella distribuzione. Forzando la presentazione all'interno dello spazio del codice, le immagini risultanti sono più interpretabili e possono essere utilizzate per costruire modelli più interpretabili. Altre tecniche per la creazione di modelli interpretabili includono la visualizzazione del peso, la creazione di modelli surrogati che approssimano l'output e l'interpretazione basata su esempi in cui le istanze che massimizzano o riducono al minimo determinate funzionalità vengono utilizzate per comprendere il processo decisionale del modello.

  • 00:35:00 In questa sezione, il relatore discute quattro diversi modi di interpretare le decisioni prese dal modello, in particolare in termini di applicazioni pratiche. Il primo metodo è basato sugli esempi, che prevede la selezione di esempi classificati in modo errato e vicini al particolare input, per insegnare al modello come migliorare. Il secondo metodo è l'attribuzione attiva, che consiste nell'esaminare perché un particolare gradiente è rumoroso. Il terzo metodo è l'attribuzione basata sul gradiente con pendenza uniforme o gradienti interni, e l'ultimo metodo è l'attribuzione basata sul back prop con convoluzione e propagazione nera guidata. Si notano anche i limiti dell'interpretazione a livello di modello, in particolare quando si tratta di determinare l'immagine migliore per interpretare la classificazione.

  • 00:40:00 In questa sezione, il relatore discute la sfida di interpretare i modelli di deep learning in termini di ricerca di un prototipo o di un'immagine tipica che rappresenti un concetto complesso, come una motocicletta o un girasole. Il metodo basato sugli esempi viene introdotto come un modo per identificare quale istanza di addestramento influenza maggiormente una decisione, senza evidenziare in modo specifico le caratteristiche importanti di quelle immagini. Il metodo mira a determinare le immagini di addestramento più vicine in base alla loro influenza sulla classificazione di una particolare immagine, piuttosto che sulla prossimità dei pixel. Il relatore parla anche della fragilità delle interpretazioni del modello di rete neurale e dell'uso delle funzioni di influenza nella comprensione del processo di apprendimento sottostante.

  • 00:45:00 In questa sezione, il relatore introduce due metodi per interpretare i modelli di deep learning. Il primo è l'interpretazione basata su esempi, che esamina i singoli esempi nel set di addestramento per comprendere il processo decisionale della rete neurale. Il secondo sono i metodi di attribuzione, che assegnano un valore di attribuzione a ciascun pixel in un'immagine per determinare quanto contribuisce alla decisione di classificazione. L'obiettivo di entrambi i metodi è rendere l'apprendimento automatico interpretabile e comprensibile dagli esseri umani e identificare le caratteristiche più salienti in un'immagine. Visualizzando i valori di attribuzione come mappe di calore, i ricercatori possono sviluppare una migliore comprensione di come le reti neurali profonde prendono decisioni e quali pixel in un'immagine sono maggiormente responsabili di tale decisione.

  • 00:50:00 In questa sezione, il relatore spiega come calcolare la salienza di un'immagine utilizzando la stessa metodologia della propagazione all'indietro durante l'addestramento. Invece di guardare alle derivate relative ai pesi, guardano alle derivate relative ai pixel. La mappa di salienza viene quindi calcolata attribuendo visivamente questi pixel all'immagine. Tuttavia, queste mappe di salienza tendono ad essere rumorose e non precise. Il relatore descrive in dettaglio due ipotesi per spiegare perché questo è il caso: o i pixel sparsi sono importanti per il processo decisionale della rete neurale o che i gradienti potrebbero essere discontinui. Il relatore spiega poi come queste ipotesi abbiano guidato lo sviluppo di metodi per affrontare le mappe di salienza rumorose.

  • 00:55:00 In questa sezione della conferenza, il relatore discute tre ipotesi relative alla discontinuità dei gradienti nelle reti neurali di deep learning. La prima ipotesi è che la funzione che viene appresa non sia uniforme e, man mano che vengono aggiunti più strati, l'attivazione diventa estremamente discontinua, portando a classificazioni errate. Il secondo è che i gradienti sono discontinui a causa del numero di strati e delle funzioni non derivate, causando rumore e consentendo inganni nelle funzioni di classificazione. La terza ipotesi suggerisce che la funzione si satura, impedendo la capacità di apprendere qualcosa di più agevole. Per migliorare queste derivate parziali rispetto all'input, una possibilità discussa è quella di aggiungere rumore per perturbare l'input e utilizzare il gradiente sull'input perturbato o prendere la media su più perturbazioni per appianare il gradiente rumoroso.

  • 01:00:00 In questa sezione, il relatore ha discusso le soluzioni per le sfide del deep learning causate da gradienti discontinui o funzioni saturate. Questi includevano metodi per modificare i gradienti o la retropropagazione e l'utilizzo di più immagini con rumore aggiunto. Il relatore ha anche discusso vari metodi di attribuzione, come la propagazione della pertinenza a livello di livello e il deep lift, per interpretare i modelli di regolazione genica. Per affrontare la discontinuità dei gradienti, hanno suggerito di definire una funzione di gradiente uniforme calcolando la media di piccole perturbazioni dell'input su molti campioni, rendendo effettivamente più uniforme la funzione di gradiente in modo che funzioni come una rete poco profonda piuttosto che come una rete profonda. Inoltre, il relatore ha spiegato come l'aggiunta di rumore casuale alle immagini potrebbe aiutare a dimostrare la robustezza del modello ed evidenziare le caratteristiche salienti utilizzate frequentemente nella classificazione delle immagini.

  • 01:05:00 In questa sezione, il docente discute tre ipotesi per interpretare i modelli di deep learning nel campo delle scienze della vita. La seconda ipotesi suggerisce che i gradienti siano discontinui con una particolare immagine, ma prendendo un campione di più immagini che circondano quella, si può ottenere un gradiente più uniforme. La terza ipotesi suggerisce che la funzione si satura, portando ad attivazioni estreme. Per risolvere questo problema, il docente propone di ridimensionare le immagini per avvicinarle alle funzioni distribuibili. Questo viene fatto attraverso gradienti interni che vengono utilizzati per ridimensionare i pixel dell'immagine. Vengono inoltre esplorati metodi basati sullo sfondo, come le reti neurali deconvolutive e la propagazione all'indietro guidata a causa della sfida dei valori azzerati nell'unità lineare rettificata.

  • 01:10:00 In questa sezione, il relatore discute le sfide della backpropagation nell'apprendimento profondo e come possono essere affrontate utilizzando le reti neurali deconvoluzionali. Mappando i pattern delle caratteristiche nello spazio di input e ricostruendo l'immagine, le reti neurali deconvoluzionali possono ottenere una valida ricostruzione delle caratteristiche e rimuovere il rumore rimuovendo i gradienti negativi. Il relatore spiega anche come è possibile utilizzare la retropropagazione guidata per combinare le informazioni dai passaggi avanti e indietro per generare immagini rappresentative dell'immagine originale. Inoltre, il relatore discute i metodi per valutare questi metodi di attribuzione, inclusi approcci qualitativi e quantitativi basati sulla coerenza e sulla sensibilità di classe. Infine, il relatore esplora diversi metodi di attribuzione, come deep lift, mappe di salienza e smooth grad, e la loro efficacia nel catturare pixel specifici responsabili di una particolare classificazione.

  • 01:15:00 In questa sezione, il relatore discute la valutazione quantitativa dei metodi di attribuzione nel deep learning. L'obiettivo è valutare se questi metodi catturano correttamente l'oggetto di interesse previsto e distinguono diverse classi di oggetti. Il relatore introduce la procedura di pixel flipping per rimuovere singole caratteristiche con alti valori di attribuzione e valuta la funzione di classificazione per misurare la sensibilità del metodo. L'accuratezza delle attribuzioni di salienza e delle attribuzioni di classificazione può essere misurata utilizzando una curva e l'oratore suggerisce di rimuovere e riqualificare per ottenere una migliore precisione. Nel complesso, la sezione discute i modi quantitativi per valutare l'efficacia dei metodi di attribuzione del deep learning.

  • 01:20:00 In questa sezione, il relatore spiega come misurare le prestazioni di un classificatore rimuovendo caratteristiche specifiche in base al metodo di attribuzione. L'approccio "rimuovi e sostituisci punteggio" prevede la sostituzione di una certa percentuale dei pixel più o meno importanti e il riaddestramento della rete neurale profonda per misurare il cambiamento di precisione. Ciò fornisce una metrica quantitativa per valutare l'accuratezza delle decisioni di interpretazione. Il relatore riassume anche l'importanza dell'interpretabilità e delle diverse tecniche per interpretare i modelli di deep learning utilizzando metodi di attribuzione e massimizzazione dell'attivazione, nonché le sfide dei metodi post hoc.

  • 01:25:00 In questa sezione, il docente discute come i modelli di deep learning possono essere vincolati e le caratteristiche più salienti trovate utilizzando backpropagation, deconvolution e backpropagation guidata. Sono stati inoltre evidenziati vari metodi per assegnare un punteggio a questi metodi di divisione, tra cui coerenza, sensibilità di classe e metriche quantitative per rimuovere le caratteristiche con un'attribuzione elevata. Il docente ha quindi introdotto i metodi di rimozione e riqualificazione in cui i singoli pixel possono essere rimossi, riqualificati e misurato il calo di precisione. La conferenza si è conclusa con una revisione degli argomenti trattati e sono state annunciate le prossime conferenze.
Interpretable Deep Learning - Deep Learning in Life Sciences - Lecture 05 (Spring 2021)
Interpretable Deep Learning - Deep Learning in Life Sciences - Lecture 05 (Spring 2021)
  • 2021.03.03
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 05 - Interpretable Deep Learning (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep...
 

Modelli generativi, reti avversarie GAN, codificatori automatici variazionali VAE, apprendimento della rappresentazione - Lezione 06 (primavera 2021)



Modelli generativi, reti avversarie GAN, codificatori automatici variazionali VAE, apprendimento della rappresentazione - Lezione 06 (primavera 2021)

Questo video discute il concetto di apprendimento della rappresentazione nell'apprendimento automatico, sottolineandone l'importanza nelle attività di classificazione e il potenziale di innovazione nello sviluppo di nuove architetture. Le attività auto-supervisionate e pretestuose vengono introdotte come modi per apprendere rappresentazioni senza richiedere dati etichettati, attraverso tecniche come codificatori automatici e codificatori automatici variazionali (VAE). Il relatore discute anche di modelli generativi, come VAE e reti generative avversarie (GAN), che possono generare nuovi dati manipolando la rappresentazione dello spazio latente. Vengono discussi i pro ei contro di ciascun metodo, evidenziandone l'efficacia ma anche i limiti. Nel complesso, il video fornisce una panoramica completa dei diversi approcci all'apprendimento della rappresentazione e ai modelli generativi nell'apprendimento automatico.

Il video esplora i concetti di Generative Adversarial Networks (GAN), Variational Autoencoders (VAEs) e apprendimento della rappresentazione nei modelli generativi. I GAN coinvolgono il generatore e il discriminatore con obiettivi opposti e il processo di addestramento è lento per i campioni falsi, ma i miglioramenti nella risoluzione e nella funzione dell'obiettivo possono portare a immagini dall'aspetto realistico. Il relatore dimostra come i GAN possono generare stanze architettonicamente plausibili e trasferire una stanza all'altra. I VAE modellano esplicitamente le funzioni di densità e catturano la diversità delle immagini del mondo reale attraverso significativi parametri dello spazio latente. Il relatore incoraggia la creatività e la sperimentazione con architetture e modelli aperti e l'applicazione di modelli generativi e apprendimento della rappresentazione in vari domini è un campo in rapida crescita con possibilità illimitate.

  • 00:00:00 In questa sezione, il relatore discute il concetto di apprendimento della rappresentazione nell'apprendimento automatico e come è stato utilizzato nelle reti neurali convoluzionali (CNN) per conoscere il mondo. Sottolineano che il vero progresso del deep learning è venuto dalla capacità della CNN di apprendere non linearità e rappresentazioni del mondo attraverso l'estrazione di caratteristiche. L'oratore sostiene che le attività di classificazione stanno guidando l'estrazione delle caratteristiche e che è da qui che proviene tutta la rappresentazione della conoscenza del mondo. Suggeriscono inoltre che esiste un potenziale di innovazione nello sviluppo di nuove architetture per l'apprendimento della rappresentazione in vari domini che vanno oltre le architetture esistenti. Infine, affermano che la parte più eccitante dei modelli generativi è la rappresentazione dello spazio latente piuttosto che le etichette e che tali modelli possono essere utilizzati per apprendere un modello del mondo senza fare affidamento sulle etichette.

  • 00:05:00 In questa sezione, il relatore discute l'apprendimento della rappresentazione e l'uso dell'apprendimento auto-supervisionato per questo scopo. L'apprendimento autosupervisionato implica l'utilizzo di una parte dei dati per addestrare un'altra parte dei dati e ingannare i dati affinché diventino il proprio supervisore. Ciò consente l'apprendimento di fantastiche rappresentazioni che possono essere utilizzate per generare visioni del mondo. I modelli generativi funzionano eseguendo il modello all'indietro e passando dalla rappresentazione compressa del mondo a più esempi di esso. Un altro approccio all'apprendimento della rappresentazione sono i compiti pre-testo, in cui il compito a portata di mano è solo una scusa per apprendere le rappresentazioni. L'esempio fornito è la previsione di sé, che è ciò di cui si occupano gli auto-codificatori. Il concetto di passare attraverso una rappresentazione compressa e di ri-espanderlo nell'immagine stessa attraverso un morsetto è abbastanza significativo da poter apprendere una rappresentazione sottostante il mondo. I codificatori automatici variazionali modellano esplicitamente la varianza e le distribuzioni.

  • 00:10:00 In questa sezione, il relatore discute il concetto di attività pretestuose, che si riferisce all'elaborazione di segnali di input attraverso una rete per apprendere rappresentazioni della rete e all'utilizzo del segnale di input per creare un segnale di addestramento che è un'attività che non si può non mi interessa davvero. Esempi di attività pretesto includono la previsione delle immagini prima e dopo, la previsione dei pixel rimanenti di un'immagine dopo aver rimosso una patch e la colorazione delle immagini in bianco e nero. L'obiettivo dei compiti pretesto è costringersi ad apprendere rappresentazioni del mondo, portando a compiti di apprendimento supervisionato efficaci. L'importanza di comprendere questo concetto è cruciale in quanto porta ai successivi argomenti di discussione, come gli autocodificatori, gli autocodificatori variazionali e le reti generative avversarie.

  • 00:15:00 In questa sezione, viene introdotto il concetto di apprendimento autosupervisionato come un modo per apprendere buone rappresentazioni costruendo compiti pretesto che consentono l'apprendimento senza richiedere dati etichettati. Le attività di pretesto includono, tra le altre, l'inferenza della struttura di un'immagine, la trasformazione di immagini o l'utilizzo di più immagini. Un esempio di attività pretesto è dedurre l'orientamento relativo delle patch dell'immagine, mentre un altro è un compito di puzzle in cui l'immagine originale deve essere ricostruita. Vengono discussi i pro e i contro di ciascun metodo di auto-supervisione, evidenziandone l'efficacia ma anche i limiti, come l'assunzione di orientamenti canonici fotografici nelle immagini di addestramento o lo spazio esterno limitato.

  • 00:20:00 In questa sezione, il relatore spiega il concetto di compiti pretesto, costruendo lo stesso tipo di concetto di compiti pretesto e applicandoli a diversi esempi per apprendere una rappresentazione del mondo che ci farà risolvere compiti apparentemente complessi in realtà imparare qualcosa di interessante sul mondo. Uno degli esempi include la creazione di una rappresentazione codificatore e decodificatore per apprendere rappresentazioni di caratteristiche di dimensioni inferiori da dati non etichettati che sta addestrando un'attività di apprendimento non supervisionata in un'attività di apprendimento supervisionata. L'obiettivo è forzare rappresentazioni significative delle variazioni dei dati e utilizzare le funzionalità per costruire la versione decodificata dell'immagine originale codificata e la funzione di perdita è la differenza tra l'originale e il previsto.

  • 00:25:00 In questa sezione, il relatore spiega come gli autoencoder possono essere utilizzati per costruire rappresentazioni del mondo e generare immagini attraverso una funzione di generatore. Il vettore z negli autoencoder può fornire informazioni significative sulle caratteristiche relative e sulla presenza di diverse caratteristiche nel mondo, che possono essere utilizzate per generare immagini aggiuntive. Il codificatore e il decodificatore possono essere utilizzati separatamente per compiti diversi, ad esempio utilizzando il decodificatore come modello generativo e il codificatore come vettore spaziale delle caratteristiche per l'apprendimento della rappresentazione. Il relatore introduce quindi il concetto di autocodificatori variazionali (VAE), che è una rotazione probabilistica sugli autocodificatori che ci consente di campionare dal modello per generare dati aggiuntivi. I VAE apprendono da una rappresentazione multidimensionale di un insieme di scalari e varianze associate per ogni scalare. Campionando dal vero precedente del vettore spaziale latente, possiamo generare immagini basate su vari attributi dell'immagine.

  • 00:30:00 In questa sezione, il relatore discute i modelli generativi e il loro obiettivo di catturare il mondo attraverso la messa a punto di vari vettori nell'autoencoder. Questi vettori finiscono per essere rappresentazioni significative del mondo, consentendo il campionamento di immagini diverse variando i parametri. La strategia per l'addestramento dei modelli generativi consiste nel massimizzare la verosimiglianza dei dati di addestramento mediante l'apprendimento dei parametri del modello. Il relatore introduce quindi gli autocodificatori variazionali, che generano probabilisticamente modelli modellando esplicitamente la media e la varianza dei dati. Avendo il codificatore che fornisce sia una singola z che una varianza della z, l'oratore è in grado di campionare da entrambe le distribuzioni normali e riconoscere diverse variazioni di oggetti, come le barche.

  • 00:35:00 In questa sezione, il relatore spiega il concetto di codificatori automatici variazionali (VAE) e come funzionano. I VAE sono costituiti da una rete di codificatori che mappa i dati di input in uno spazio latente, una rete di decodificatori che genera dati di uscita dallo spazio latente e una rete di generazione che genera immagini dalla rappresentazione appresa dalla rete di codificatori. Il relatore spiega che la funzione di perdita VAE è un limite inferiore variazionale che massimizza la ricostruzione dei dati di input e l'approssimazione della distribuzione precedente delle immagini utilizzando la rete di decodifica. L'oratore menziona anche che il termine di divergenza KL è intrattabile ma può essere trattato come un limite inferiore per l'ottimizzazione attraverso la discesa del gradiente.

  • 00:40:00 In questa sezione, il relatore spiega come i modelli generativi, come gli autocodificatori variazionali (VAE), possono essere utilizzati per costruire una rappresentazione del mondo con caratteristiche significative. Codificando le immagini utilizzando solo due dimensioni, il VAE può catturare lo spazio di tutti i caratteri possibili e generare qualsiasi tipo di carattere che può essere rappresentato utilizzando solo una coordinata bidimensionale. Diagonalizzando il precedente su z, la rete apprende variabili latenti indipendenti e le diverse dimensioni di z codificano fattori di variazione interpretabili in una buona rappresentazione delle caratteristiche. Questa rete di codificatori consente agli utenti di generare dati e decodificare lo spazio latente attraverso la precedente distribuzione di z, rendendo i VAE uno strumento utile per l'apprendimento della rappresentazione.

  • 00:45:00 In questa sezione, il video discute l'uso degli autocodificatori variazionali (VAE) come approccio di principio ai modelli generativi che consente l'inferenza dello spazio latente dato x, che può essere una rappresentazione utile per altre attività. Tuttavia, i VAE hanno alcuni svantaggi come massimizzare il limite inferiore della probabilità, che non è buono come valutare esplicitamente la probabilità. I campioni generati dai VAE sono anche più sfocati e di qualità inferiore rispetto a quelli delle reti generative avversarie (GAN). Sono in corso ricerche per migliorare la qualità dei campioni da VAE, ad esempio utilizzando approssimazioni più flessibili per distribuzioni posteriori più ricche e incorporando la struttura nelle variabili latenti. Il video riassume anche i punti salienti delle sezioni precedenti sulla generazione, l'apprendimento non supervisionato e i parametri dello spazio latente.

  • 00:50:00 In questa sezione viene discusso il concetto di generative adversarial network (GAN). I GAN sono progettati per generare immagini complesse ad alta dimensione campionando da una distribuzione semplice, come il rumore casuale, e imparando le trasformazioni per creare immagini da un set di addestramento. Il sistema è costituito da una rete di generatori per creare immagini false e da una rete di discriminatori per distinguere tra immagini vere e false. Lo scopo è addestrare il generatore a creare immagini più realistiche ingannando il discriminatore, che diventa un avversario nel processo. Il sistema è auto-supervisionato, il che significa che non è necessaria alcuna etichettatura manuale e sostituisce la necessità di valutatori umani.

  • 00:55:00 In questa sezione, il relatore spiega il concetto di reti generative avversarie (GAN) che utilizzano un approccio di gioco mini-max per addestrare un generatore e una rete discriminatrice. Il discriminatore è addestrato a determinare se le immagini generate sono reali o false, mentre il generatore è addestrato a creare immagini che possono ingannare il discriminatore facendogli credere che siano reali. Attraverso questa funzione di verosimiglianza congiunta, i pesi e i parametri di entrambe le reti vengono addestrati simultaneamente, con l'obiettivo di fare in modo che il discriminatore emetta un punteggio di 1 per le immagini reali e 0 per le immagini false. Il generatore, d'altra parte, mira a minimizzare quel punteggio generando immagini che sono indistinguibili da quelle reali.

  • 01:00:00 In questa sezione viene spiegato il concetto di Generative Adversarial Network (GAN), in cui un generatore e un discriminatore hanno obiettivi opposti in uno scenario simile a un gioco. Il generatore cerca di produrre dati falsi che inganneranno il discriminatore, che ha imparato a classificare correttamente i dati reali. Tuttavia, l'addestramento è lento quando il campione è falso, quindi viene utilizzato un trucco in cui l'obiettivo del generatore viene modificato per massimizzare la probabilità che il discriminatore si sbagli per i dati falsi. L'addestramento congiunto delle due reti può essere impegnativo, ma aumentare progressivamente la risoluzione delle immagini può migliorare la stabilità. L'algoritmo di addestramento GAN prevede l'alternanza tra l'aggiornamento del discriminatore aumentando il gradiente stocastico e l'aggiornamento del generatore utilizzando la funzione obiettivo migliorata.

  • 01:05:00 In questa sezione, il video discute il concetto di Generative Adversarial Networks (GAN) e il processo di formazione coinvolto nella costruzione di una rete di generatori per creare immagini realistiche. Il video spiega come la rete del discriminatore viene addestrata per distinguere tra le immagini generate e le immagini reali e come la rete del generatore viene addestrata per migliorare la qualità delle immagini generate nella misura in cui superano le prestazioni umane. Il video spiega inoltre come costruire architetture convoluzionali profonde con convoluzioni a striature frazionarie e utilizzare le funzioni di attivazione ReLU e leaky ReLU per ottenere immagini dall'aspetto realistico. Il video dimostra il potenziale dell'utilizzo dei GAN per generare stanze architettonicamente plausibili e mostra come trasferire una stanza all'altra interpolando tra coordinate spaziali latenti.

  • 01:10:00 In questa sezione, il relatore discute di modelli generativi come GAN, Variational Autoencoders (VAE) e apprendimento della rappresentazione. Lo scopo di questi modelli è generare campioni diversi e realistici imparando i modelli e gli stili sottostanti del mondo reale. Il relatore presenta esempi di come questi modelli sono in grado di eseguire varie attività di manipolazione delle immagini, come l'upscaling, il trasferimento della conoscenza del dominio e la sintesi delle texture. Il relatore evidenzia anche i progressi compiuti in questi modelli, come i GAN progressivi, che consentono di generare immagini ad alta risoluzione, e il sito Web "Questa persona non esiste" di Nvidia, che utilizza un gran numero di spazi dei parametri per apprendere i parametri ortogonali che consentono la scomposizione di diverse componenti dell'immagine.

  • 01:15:00 In questa sezione, il relatore spiega una tassonomia dei modelli generativi, che può comportare la modellazione di funzioni di densità esplicite o implicite. La densità del modello delle reti generative avversarie (GAN) funziona implicitamente attraverso il generatore di accoppiamento e le reti del discriminatore, mentre la densità del modello degli autocodificatori variazionali (VAE) funziona in modo esplicito. Il potere dell'apprendimento profondo risiede nell'apprendimento della rappresentazione e l'oratore incoraggia la creatività e la sperimentazione con le numerose architetture e modelli aperti del giovane campo. L'uso di compiti pretesto, come prevedere se stessi o riempire le patch mancanti, può aiutare ad apprendere rappresentazioni latenti significative del mondo e muoversi verso modelli veramente generativi che possono campionare da una vera distribuzione di parametri dello spazio latente.

  • 01:20:00 In questa sezione, il relatore discute il concetto di catturare la diversità delle immagini del mondo reale attraverso parametri dello spazio latente significativi negli autocodificatori variazionali (VAE). Vincolando i parametri dello spazio latente ad essere ortogonali e distinti l'uno dall'altro, le immagini risultanti possono essere indistinguibili dalle persone reali. Inoltre, il relatore osserva che l'applicazione di modelli generativi e l'apprendimento della rappresentazione è un campo in rapida crescita con possibilità illimitate in vari domini.
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
  • 2021.03.04
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 06 - Generative Models, GANs VAEs, Representation Learning6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manol...
 

Genomica normativa - Apprendimento approfondito nelle scienze della vita - Lezione 07 (primavera 2021)



Genomica normativa - Apprendimento approfondito nelle scienze della vita - Lezione 07 (primavera 2021)

La conferenza copre il campo della genomica regolatoria, comprese le basi biologiche della regolazione genica, i metodi classici per la genomica regolatoria, la scoperta di motivi mediante reti neurali convoluzionali e l'uso di modelli di apprendimento automatico per comprendere come la sequenza codifica le proprietà di regolazione genica. Il relatore spiega l'importanza dei motivi regolatori nella regolazione genica e come le interruzioni di questi motivi possono portare alla malattia. Introducono un nuovo modello utilizzando una rete neurale convoluzionale che mappa le letture di sequenziamento al genoma e conta quante estremità di cinque primi ha ciascuna coppia di basi sui due filamenti. Il modello può essere utilizzato per letture multiple di diverse proteine e può essere adattato separatamente o simultaneamente utilizzando un modello multitask. Il relatore mostra anche come il modello può analizzare qualsiasi tipo di analisi, compresi i dati genomici, utilizzando quadri di interpretazione che svelano storie biologiche su come la sintassi influisce sulla cooperatività TF. I modelli possono fare previsioni che vengono convalidate attraverso esperimenti CRISPR ad alta risoluzione.

Il video illustra come il deep learning può migliorare la qualità dei dati ATAC-seq a bassa copertura migliorando e riducendo i picchi di segnale. AttackWorks è un modello di deep learning che raccoglie i dati di copertura e utilizza un'architettura di rete neurale residua per migliorare l'accuratezza del segnale e identificare i siti di cromatina accessibili. Il relatore dimostra come AttackWorks può essere utilizzato per gestire dati di bassa qualità e aumentare la risoluzione dello studio dell'accessibilità della cromatina a singola cellula. Descrivono anche un esperimento specifico sulle cellule staminali ematopoietiche che ha utilizzato ATAC-seq per identificare specifici elementi regolatori coinvolti nel priming del lignaggio. Il relatore invita gli studenti a mettersi in contatto per stage o collaborazioni.

  • 00:00:00 In questa sezione, il docente introduce il campo della genomica normativa e invita i relatori ospiti a discutere documenti influenti e fornire opportunità di collaborazione e stage per gli studenti. La conferenza è l'inizio del Modulo 2 sulla regolazione genica e copre le basi biologiche della regolazione genica, i metodi classici per la genomica regolatoria e la scoperta di motivi utilizzando reti neurali convoluzionali. La conferenza sottolinea la complessità del codice genetico, che consente la costruzione e lo sviluppo di un organismo autoguaritore con intricate interconnessioni attraverso ogni aspetto del corpo, dalla testa ai piedi.

  • 00:05:00 In questa sezione viene discussa la complessità delle cellule e il modo in cui ricordano la loro identità pur non avendo informazioni contestuali. Viene inoltre evidenziato il circuito regolatore delle cellule, che si basa su un insieme di primitive e costrutti che consentono alle cellule di ricordare lo stato di ogni pezzo del genoma. Il confezionamento del DNA in costrutti sia strutturali che funzionali è parte integrante di questo processo, consentendo alle cellule di compattare così tanto DNA al loro interno. Questo impaccamento avviene attraverso i nucleosomi, piccole perle in una vista a stringa di DNA, composta da quattro proteine istoniche, ciascuna con una lunga coda di amminoacidi che può essere modificata post-traduzionalmente con diverse modifiche dell'istone. Queste modifiche funzionano con segni epigenomici aggiuntivi, come i dinucleotidi CPG, direttamente sul DNA per consentire alle cellule di ricordare la loro identità.

  • 00:10:00 In questa sezione, il relatore discute i tre tipi di modifiche nell'epigenomica: accessibilità del DNA, modifiche dell'istone e metilazione del DNA. Spiega come queste modifiche possono influenzare la regolazione genica e il legame dei fattori di trascrizione. Usando il linguaggio dell'epigenomica, è possibile programmare ogni tipo di cellula del corpo regolando la compattazione del DNA su firme specifiche delle regioni del promotore. I promotori, le regioni trascritte, le regioni represse e le regioni potenziatrici sono tutte contrassegnate da diverse serie di segni che possono essere identificati e studiati. I potenziatori, in particolare, sono estremamente dinamici e caratterizzati dalla monometilazione H3K4, dall'acetilazione H3K27 e dall'accessibilità del DNA.

  • 00:15:00 n questa sezione, il relatore spiega il concetto di "stati della cromatina", che sono diversi stati della cromatina corrispondenti a esaltatori, promotori, regioni trascritte e represse, tra gli altri. Un modello di Markov nascosto multivariato viene utilizzato per scoprire questi stati della cromatina e questo viene utilizzato per individuare regioni potenziatrici, regioni promotrici e regioni trascritte in diversi tipi di cellule del corpo. Viene spiegato anche il modo in cui le proteine riconoscono il DNA, con fattori di trascrizione che utilizzano domini di legame al DNA per riconoscere specifiche sequenze di DNA nel genoma. Il relatore parla anche dei motivi del DNA e delle matrici dei pesi di posizione, che consentono il riconoscimento della specificità di una sequenza del DNA, e delle misure teoriche dell'informazione che distinguono i siti di legame per i regolatori.

  • 00:20:00 In questa sezione della conferenza, il relatore discute l'importanza dei motivi regolatori nella regolazione genica e come le interruzioni di questi motivi possono portare alla malattia. Il relatore spiega quindi tre tecnologie per sondare la regolazione genica: immunoprecipitazione della cromatina, accessibilità del DNA e ATAC-seq. Queste tecnologie possono essere utilizzate per mappare le posizioni dei potenziatori e scoprire il linguaggio del DNA utilizzando motivi e costruendo modelli di apprendimento profondo.

  • 00:25:00 In questa sezione del video, il relatore discute l'uso di modelli di apprendimento automatico per capire come la sequenza codifica le proprietà di regolazione genica. Introduce diversi esperimenti che profilano il DNA normativo e sottolinea la necessità di comprendere la complessa sintassi degli elementi normativi per guidare risposte specifiche. Il problema è modellato come un'attività di apprendimento automatico in cui ogni genoma è suddiviso in piccoli blocchi di migliaia di coppie di basi e ciascuna di queste coppie di basi è associata a un segnale dell'esperimento.

  • 00:30:00 In questa sezione, il relatore discute l'approccio tradizionale di riepilogo delle informazioni genetiche mappando le sequenze agli scalari utilizzando vari modelli di apprendimento automatico. Tuttavia, questo approccio si traduce in una perdita di informazioni, poiché i profili di copertura di lettura alla risoluzione di un singolo nucleotide contengono geometrie che riflettono l'interazione del DNA proteico, risultando in impronte ad alta risoluzione. Questi intricati dettagli vengono persi quando si riassumono le informazioni in uno scalare. Per risolvere questo problema, il relatore sottolinea la necessità di costruire un nuovo modello in grado di modellare i dati alla sua risoluzione più elementare, che si ottiene con una rete neurale convoluzionale che mappa le letture di sequenziamento al genoma e conta quante estremità di cinque primi ciascuna coppia di basi sui due filamenti ha. Quindi usano una rete neurale che esegue questa traduzione, a partire dalla sequenza, in letture a valori reali, che si spostano verso il profilo, risultando in una sequenza diretta al modello del profilo.

  • 00:35:00 In questa sezione, il relatore spiega l'uso delle funzioni di perdita per modellare i conteggi delle letture che cadono su una sequenza e come queste letture sono distribuite tra le coppie di basi. Usano una combinazione di errore quadratico medio per i conteggi totali e probabilità logaritmica negativa multinomiale per la distribuzione precisa delle letture a ciascuna coppia di basi. Il modello può essere utilizzato per letture multiple di diverse proteine e può essere adattato separatamente o simultaneamente utilizzando un modello multitask. Il relatore applica questo modello a quattro famosi fattori di trascrizione di pluripotenza nelle cellule staminali embrionali di topo utilizzando esperimenti di chip nexus con impronte ad alta risoluzione.

  • 00:40:00 In questa sezione, il relatore si concentra sull'accuratezza dei modelli nel fare previsioni sui potenziatori nel genoma, che sono estremamente accurati nonostante qualche rumore o differenze rispetto ai dati osservati a causa di denoising, imputazione e altri fattori. Per valutare le prestazioni dell'intero genoma dei modelli, usano due parametri: la divergenza Jensen-Shannon e la somiglianza tra esperimenti replicati, con il primo che mostra prestazioni migliori rispetto al secondo, che viene calcolato per fornire limiti superiori e inferiori. Il relatore spiega quindi il loro approccio interpretativo, utilizzando l'algoritmo DeepLift per scomporre in modo ricorsivo i contributi dei neuroni attraverso strati e nucleotidi, fornendo interpretazioni ad alta risoluzione di quali parti della sequenza guidano il legame di ciascuno dei quattro fattori di trascrizione, rivelando una sintassi combinatoria.

  • 00:45:00 In questa sezione, il relatore discute due metodi utilizzati per riassumere i modelli appresi dal modello attraverso l'intero genoma. Il primo metodo, Modisco, prende tutte le sequenze legate da una proteina di interesse e deduce i punteggi deep lift per ogni nucleotide in ogni sequenza. Le sequenze vengono quindi raggruppate in base alla somiglianza e collassate in motivi non ridondanti. Il secondo metodo si concentra sulla sintassi, o sulle disposizioni di ordine superiore dei motivi che guidano il legame cooperativo. Utilizzando l'esempio del nano motivo, la rete neurale è in grado di rilevare importanti nucleotidi che fiancheggiano il sito centrale e identificare schemi periodici precisamente a dieci paia di basi e mezzo, indicando che il nano lega il DNA in un modo che coinvolge qualcosa che accade sullo stesso lato dell'elica del DNA.

  • 00:50:00 In questa sezione, l'oratore discute una preferenza di sintassi morbida nel DNA che è dimostrata attraverso una spaziatura preferita di multipli di dieci paia di basi e mezzo. Il relatore mostra come il modello sia in grado di apprendere questa sintassi attraverso la presenza di sottili picchi nel segnale visti nel genoma, permettendogli di co-localizzarsi con siti specifici e apprendere la sintassi che guida il legame. Il relatore descrive anche esperimenti condotti in silico per ottenere informazioni su come la sintassi guida il legame di diverse proteine, incluso un esperimento sintetico in cui due motivi sono incorporati in una sequenza casuale e la spaziatura tra di loro viene modificata per prevedere il legame di proteine, così come un esperimento CRISPR in silico in cui i potenziatori effettivi sono mutati e gli effetti del legame di quattro proteine sono previsti dal modello. Il relatore osserva che la sintassi viene appresa nei livelli superiori del modello e mostra che la sua rimozione fa scomparire completamente la sintassi.

  • 00:55:00 In questa sezione, l'oratore spiega un esperimento sintetico utilizzando un potenziatore legato da OP4 e nano per mostrare gli effetti dell'eliminazione di motivi specifici. Il modello prevede gli effetti dell'eliminazione dei motivi e gli esperimenti mostrano lo stesso effetto, convalidando così le previsioni del modello. Il relatore introduce BPNet, un modello in grado di analizzare qualsiasi tipo di analisi, compresi i dati genomici, utilizzando quadri di interpretazione che svelano storie biologiche su come la sintassi influisce sulla cooperatività TF. I modelli possono fare previsioni che vengono convalidate attraverso esperimenti CRISPR ad alta risoluzione. Il discorso si conclude con una discussione di un recente documento sul miglioramento basato sull'apprendimento profondo dei dati epigenomici con ATAC-seq, che è una collaborazione tra il team del relatore e il laboratorio di Bowing Rosenthal.

  • 01:00:00 In questa sezione viene spiegato il concetto di accessibilità della cromatina tramite sequenziamento. I picchi nella traccia di copertura rappresentano le regioni regolatrici attive del genoma, consentendo l'identificazione di elementi regolatori attivi in diversi tipi di cellule o tessuti. Ataxi può anche essere eseguito a livello di singola cellula, fornendo una maggiore risoluzione in biologia. Tuttavia, la qualità dei dati può essere un problema, poiché la profondità di sequenziamento, la preparazione del campione e il numero di cellule in un esperimento Ataxi a cellula singola possono tutti influire sui risultati. L'attacco funziona come un modello di deep learning sviluppato per affrontare alcuni di questi problemi.

  • 01:05:00 In questa sezione, il relatore discute lo strumento AttackWorks, che prende la traccia di copertura da un esperimento rumoroso e utilizza un'architettura di rete neurale residua per eliminare il rumore e migliorare il segnale atassico, nonché identificare le posizioni dei picchi o accessibili siti di cromatina. Il modello utilizza strati convoluzionali unidimensionali e convoluzioni dilatate e include una funzione di perdita in più parti che misura l'accuratezza della traccia di copertura denoised e l'accuratezza della classificazione delle posizioni dei picchi. A differenza di altri modelli, AttackWorks prende solo i dati di copertura piuttosto che la sequenza del genoma per essere più trasferibile tra diversi tipi di cellule. Il relatore spiega la semplice strategia di addestramento utilizzata per addestrare il modello e mostra risultati esemplificativi del suo utilizzo su diversi tipi di cellule umane.

  • 01:10:00 In questa sezione, il relatore spiega come utilizzare il deep learning per migliorare la qualità dei dati ATAC-seq a bassa copertura eliminando il rumore del segnale e migliorando i picchi precedentemente difficili da identificare. Mostrano esempi di come funziona l'attacco, un modello di deep learning, è in grado di distinguere i picchi dal rumore vicino e identificare con precisione la posizione della cromatina accessibile in diversi tipi di cellule, anche in nuovi dati che non erano presenti nei dati di addestramento. Discutono anche di come l'attacco funzioni può ridurre il costo degli esperimenti producendo gli stessi risultati di qualità per un minore sequenziamento. Inoltre, dimostrano come l'attacco funziona in grado di gestire dati ATAC-seq di bassa qualità eliminando il rumore di fondo e identificando picchi che corrispondono strettamente a dati di alta qualità. Infine, misurano le prestazioni dei lavori di attacco osservando l'arricchimento della copertura intorno ai siti di inizio della trascrizione.

  • 01:15:00 In questa sezione, il relatore discute su come applicare il deep learning per affrontare il problema della limitata capacità di studiare piccole popolazioni di cellule in dati atassici a singola cellula. Possono selezionare casualmente un sottoinsieme di cellule da un tipo di cellula abbondante e usarle per ottenere un segnale rumoroso. Possono quindi addestrare un modello di attacco funzionante per prendere il segnale da poche celle e denoiserlo per prevedere quale sarebbe il segnale da molte celle
    assomigliare. Una volta che hanno questo modello addestrato, possono applicarlo a piccole popolazioni di pochissime cellule per prevedere come sarebbero stati i dati se avessero avuto più cellule da sequenziare. Questo approccio aumenta significativamente la risoluzione alla quale possono studiare l'accessibilità della cromatina a singola cellula e mostrano che i modelli sono trasferibili tra esperimenti, tipi di cellule e persino specie.

  • 01:20:00 In questa sezione, il relatore discute un esperimento di sequenziamento di cellule singole su cellule staminali ematopoietiche, che possono differenziarsi nella linea cellulare linfoide o eritroide. L'esperimento ha rivelato l'eterogeneità nella popolazione di singole cellule e ha identificato sottopopolazioni di cellule che sono predisposte a differenziarsi in uno dei due lignaggi. Il team ha utilizzato ATAC-seq per eliminare il rumore dal segnale e identificare elementi normativi specifici che controllano il processo di priming del lignaggio. Riconoscono il team coinvolto nel progetto e invitano gli studenti a raggiungere stage o collaborazioni.
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 07 - Regulatory Genomics (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learnin...
Motivazione: