Apprendimento automatico e Reti Neurali - pagina 41

 

Numerics of Machine Learning presso l'Università di Tubinga nel semestre invernale 2022/23. Lezione 1 - Introduzione -- Philipp Hennig



Numeri di ML 1 -- Introduzione -- Philipp Hennig

In questo video, Philipp Hennig discute l'importanza di comprendere gli algoritmi numerici nell'apprendimento automatico e introduce il contenuto del corso per il termine. Il primo algoritmo numerico trattato è l'algebra lineare, con un'applicazione nella regressione del processo gaussiano. Hennig discute anche il ruolo della simulazione, delle equazioni differenziali, dell'integrazione e dell'ottimizzazione nell'apprendimento automatico. Introduce nuovi sviluppi negli algoritmi numerici, come spine algoritmiche, osservabili e algoritmi numerici probabilistici. In tutto il video, Hennig sottolinea l'importanza di aggiornare gli algoritmi classici utilizzati nell'apprendimento automatico per risolvere problemi complessi e sottolinea il ruolo della scrittura del codice in questa lezione di informatica.

Philipp Hennig sta introducendo il suo corso su Numerics of Machine Learning, che mira a esplorare come funzionano gli algoritmi di machine learning all'interno della scatola e come possono essere adattati o modificati per migliorare le macchine di apprendimento. La conoscenza altamente tecnica degli algoritmi numerici e degli algoritmi di apprendimento automatico è molto ricercata da ricercatori e professionisti del settore. Il corso consisterà in teoria e lavoro di codifica, con incarichi graduati su un sistema binario. Hennig sottolinea l'importanza degli algoritmi numerici nell'apprendimento automatico e invita gli studenti a partecipare a questo esperimento didattico unico con nove diversi istruttori.

  • 00:00:00 In questa sezione, Philipp Hennig introduce l'importanza della comprensione degli algoritmi numerici nell'apprendimento automatico. Mentre gli algoritmi di apprendimento automatico prendono i dati come input e producono modelli che prevedono o agiscono nel mondo, l'effettivo processo di apprendimento implica il calcolo numerico. A differenza dei classici algoritmi di intelligenza artificiale, gli algoritmi di machine learning contemporanei utilizzano algoritmi numerici come l'algebra lineare, la simulazione, l'integrazione e i metodi di ottimizzazione come primitive per questi calcoli. Philipp definisce gli algoritmi numerici come metodi che stimano una quantità matematica che non ha una soluzione in forma chiusa e può andare storta a differenza delle operazioni atomiche che funzionano sempre. Poiché gli algoritmi numerici sono fondamentali per l'apprendimento automatico, è importante comprenderli per assicurarsi che funzionino correttamente.

  • 00:05:00 In questa sezione, il relatore discute la differenza tra funzioni regolari e algoritmi numerici, osservando che questi ultimi tendono ad avere le proprie librerie e diverse subroutine tra cui scegliere. Fornisce quindi un esempio di un algoritmo numerico prototipo scritto nel 1993 nel linguaggio Forth, implementando un algoritmo inventato da due matematici nel 1975. Ciò evidenzia il fatto che gli algoritmi numerici sono vecchi e hanno interfacce precise, rendendoli difficili da modificare. Gli ingegneri dell'apprendimento automatico incontrano spesso compiti numerici e sono stati in grado di utilizzare questi vecchi algoritmi sviluppati da altri campi, ma questo può essere problematico se l'attività a portata di mano non corrisponde esattamente alle capacità del metodo. Il relatore suggerisce che questo potrebbe diventare un problema nell'apprendimento automatico quando si tenta di risolvere problemi per i quali i metodi numerici esistenti non sono sufficienti.

  • 00:10:00 In questa sezione, Philipp Hennig introduce l'argomento degli algoritmi numerici e il contenuto del corso per il termine. L'algebra lineare, lo strato base dell'apprendimento automatico, è il primo algoritmo numerico che coprono. Un esempio della sua applicazione è nella regressione del processo gaussiano, in cui vengono utilizzate due funzioni per l'inferenza: media posteriore e funzione di covarianza posteriore. Queste funzioni sono definite utilizzando metodi del kernel e la loro implementazione implica il metodo di decomposizione di Cholesky piuttosto che il calcolo dell'inverso di una matrice. Hennig introduce anche un frammento di codice Python e spiega perché si dovrebbe usare la decomposizione di Cholesky invece di calcolare l'inverso di una matrice.

  • 00:15:00 In questa sezione del video, il relatore Philipp Hennig discute il problema con le macchine kernel, in particolare per quanto riguarda la loro incapacità di scalare bene a grandi quantità di dati. Spiega che i costosi calcoli richiesti per le macchine kernel li rendono difficili da usare nell'apprendimento automatico contemporaneo. Tuttavia, Hennig suggerisce anche che esistono altri algoritmi di algebra lineare che possono essere utilizzati per accelerare i calcoli sfruttando la struttura e le approssimazioni del set di dati, portando infine a soluzioni con regressione del processo gaussiano che si adattano a set di dati di grandi dimensioni.

  • 00:20:00 In questa sezione, Philipp Hennig introduce gli algoritmi di simulazione e il loro ruolo nell'apprendimento automatico. I metodi di simulazione simulano la traiettoria di un sistema dinamico nel tempo e possono stimare X. Si presentano nell'apprendimento automatico durante la costruzione di agenti come un'auto a guida autonoma o durante la creazione di un algoritmo di apprendimento automatico che fa uso di Insight fisico come scientifico apprendimento automatico. Le equazioni differenziali, come l'equazione di Schrödinger, sono tipicamente utilizzate per codificare la conoscenza della natura. Inoltre, Hennig fornisce un esempio di un semplice problema di previsione dei casi di COVID-19 in Germania nell'arco di un anno e mezzo per spiegare perché le reti neurali profonde e i processi gaussiani non funzionano per risolvere questo problema.

  • 00:25:00 In questa sezione, Philipp Hennig discute l'uso delle equazioni differenziali nei sistemi di modellazione, in particolare i modelli SIR che sono comunemente usati nelle simulazioni, e la sfida di incorporare le dinamiche del mondo reale, come i blocchi, in questi modelli. Suggerisce di utilizzare una rete neurale per rendere il coefficiente beta dipendente dal tempo, ma rileva la difficoltà nel farlo a causa della mancanza di derivati nel codice. Tuttavia, sottolinea il recente sviluppo di un algoritmo in Jax che risolve questo problema.

  • 00:30:00 In questa sezione, Philipp Hennig discute un algoritmo chiamato inferenza basata sulla simulazione, che è un modo attuale per risolvere problemi complessi. Questo algoritmo prevede un ciclo for nidificato che valuta la funzione f più volte e restituisce il gradiente ed esegue una fase di discesa del gradiente. Hennig spiega che per creare un algoritmo più flessibile e veloce di questo codice primitivo, possiamo costruire il nostro metodo che costruisce un elenco di numeri all'interno del codice del fotone in modo procedurale e li adatta. Questo metodo prevede una spina dorsale di una catena di Markov che può appendere operatori su di essa, come la distribuzione di probabilità e gli operatori di informazione, per informare l'algoritmo sui fattori sconosciuti. In questo modo, possiamo risolvere questi problemi senza chiamare ripetutamente un ciclo for in un ciclo esterno, il che richiederebbe molto tempo.

  • 00:35:00 In questa sezione, Philipp Hennig discute l'importanza di aggiornare gli algoritmi classici utilizzati nell'apprendimento automatico, che hanno più di 100 anni. Introduce l'idea di spine algoritmiche che possono operare su diversi operatori di informazioni e possono creare nuove funzionalità. Hennig passa poi a discutere il ruolo dell'integrazione nell'apprendimento automatico, che è un'operazione elementare di inferenza del paziente. L'operazione elementare per l'apprendimento automatico probabilistico consiste nel calcolare una distribuzione a posteriori prendendo una distribuzione congiunta e dividendola per un marginale, che implica l'integrazione. Infine, Hennig discute l'importanza dell'ottimizzazione, che è l'operazione fondamentale nell'apprendimento automatico, che coinvolge valori di calcolo che riducono al minimo le funzioni di perdita. Questi algoritmi costituiscono la base per programmi differenziabili, per i quali il gradiente della funzione può essere calcolato automaticamente.

  • 00:40:00 In questa sezione, Philipp Hennig discute gli algoritmi di ottimizzazione e la loro importanza nell'apprendimento automatico. Mentre metodi classici come BFGS e minimizza sono archiviati in scipy.optimize, nuovi metodi come SGD e Adam sono ora la norma nell'apprendimento automatico. Tuttavia, questi metodi richiedono spesso un tasso di apprendimento e molta supervisione, a differenza dei metodi precedenti, che possono convergere al minimo e lavorare su qualsiasi problema differenziabile. Per affrontare i limiti di questi nuovi metodi su grandi insiemi di dati con milioni di punti dati, viene utilizzata una discesa del gradiente batch per calcolare una somma molto più piccola, che è uno stimatore imparziale della cosa che ci interessa. Sebbene questi nuovi metodi siano più efficienti ed efficaci, sono ancora basati sugli stessi principi dei vecchi algoritmi, che possono causare problemi per alcune applicazioni.

  • 00:45:00 In questa sezione del video, il relatore discute la possibilità di calcolare la varianza oltre al gradiente negli algoritmi di deep learning. Sostiene che l'omissione del calcolo della varianza dal processo di ottimizzazione è dovuta al fatto che l'ottimizzazione è ancora vista come un problema di calcolo del gradiente piuttosto che un problema di utilizzo di variabili casuali per trovare punti che si generalizzano bene. Tuttavia, sottolinea l'importanza di includere l'incertezza derivante dalla casualità nei calcoli, osservando che è essenziale per costruire migliori configurazioni di addestramento per le reti neurali profonde. Conclude menzionando le prossime conferenze che approfondiranno questo argomento.

  • 00:50:00 In questa sezione, Philipp Hennig discute l'uso di osservabili per aggiungere nuove funzionalità alle reti neurali profonde, come l'incertezza o trasformarle in una rete neurale profonda bayesiana senza utilizzare i costosi algoritmi della catena di Markov Monte Carlo. Spiega anche come gli algoritmi numerici utilizzati per addestrare algoritmi di apprendimento automatico siano in realtà algoritmi di apprendimento automatico stessi, poiché stimano una quantità sconosciuta o una variabile latente mentre osservano dati trattabili e osservabili. Questo è simile al processo di inferenza, in cui una quantità latente viene stimata in base ai risultati osservati da un calcolo.

  • 00:55:00 In questa sezione, Philipp Hennig introduce il concetto di algoritmi numerici come macchine per l'apprendimento e discute l'idea alla base della creazione di algoritmi numerici da zero come algoritmi numerici probabilistici. Si tratta di algoritmi che prendono una distribuzione di probabilità che descrive il loro compito e usano la CPU o la GPU come fonte di dati per affinare la loro stima di quale sia la soluzione al compito numerico. Hennig sottolinea che la classe non è una tipica classe di analisi numerica, poiché l'obiettivo è comprendere le macchine all'interno come macchine che apprendono e costruire nuovi algoritmi nel linguaggio dell'apprendimento automatico. Gli studenti possono aspettarsi di scrivere molto codice in questa lezione di informatica.

  • 01:00:00 In questa sezione, Philipp Hennig presenta il suo corso di Numerics of Machine Learning, che secondo lui è il primo corso dedicato nel suo genere al mondo. Il corso mira ad approfondire il funzionamento degli algoritmi di apprendimento automatico, in particolare come funzionano all'interno della scatola e come possono essere modificati o adattati per migliorare le macchine di apprendimento. La natura altamente tecnica degli algoritmi numerici e degli algoritmi di apprendimento automatico significa che la conoscenza in questo settore è molto ricercata sia dai ricercatori che dai professionisti del settore. Le lezioni saranno tenute dal suo team di studenti di dottorato di grande esperienza, che hanno passato anni a ricercare e pensare al funzionamento interno di questi algoritmi, e sono quindi più attrezzati per discutere i dettagli tecnici più fini di un professore.

  • 01:05:00 In questa sezione, Philipp Hennig discute la struttura del corso ei requisiti del corso. Il corso includerà sia lavori teorici che di programmazione, poiché gli studenti dovranno risolvere problemi numerici utilizzando il codice Python o Julia. Gli esercizi saranno inviati in formato PDF, con soluzioni classificate su base binaria: verrà dato un segno di spunta per una buona soluzione e una crocetta per una insoddisfacente. Gli studenti otterranno un punto bonus per ogni segno di graduazione, che conterà ai fini del risultato finale dell'esame. L'esame si svolgerà il 13 febbraio o il 31 marzo del prossimo anno e il superamento del primo esame è incoraggiato in quanto potrebbe non essere disponibile un ripristino. Infine, gli studenti interessati a conseguire un grado più elevato in algoritmi numerici nell'apprendimento automatico o nel calcolo incentrato sui dati sono incoraggiati a seguire questo corso in quanto offre ampie opportunità per la ricerca applicata in vari campi.

  • 01:10:00 In questa sezione, Philipp Hennig sottolinea l'importanza degli algoritmi numerici nell'apprendimento automatico, affermando che sono i motori che guidano la macchina per l'apprendimento. Descrive come la comprensione di questi algoritmi e del loro linguaggio di inferenza bayesiana può portare a soluzioni di apprendimento automatico più veloci, più affidabili e più facili da usare. Hennig sottolinea che mentre gli algoritmi numerici classici sono importanti, dovrebbero essere visti attraverso la lente dell'apprendimento automatico, adottando la prospettiva delle macchine che apprendono come mezzo per integrare la simulazione e l'apprendimento profondo in un modo più olistico. Invita gli studenti a partecipare a questo entusiasmante esperimento nell'insegnamento dell'apprendimento automatico con una configurazione unica di nove diversi istruttori.
 

Lezione 2 -- Algebra Lineare Numerica -- Marvin Pförtner



Numerics of ML 2 -- Algebra lineare numerica -- Marvin Pförtner

L'algebra lineare numerica è fondamentale per l'apprendimento automatico, i processi gaussiani e altri metodi di regressione non parametrici. La lezione copre vari aspetti dell'algebra lineare numerica, inclusa l'importanza di comprendere la struttura di una matrice per una moltiplicazione più efficiente, l'ottimizzazione degli algoritmi di apprendimento automatico attraverso la risoluzione di problemi di selezione degli iperparametri e il calcolo delle matrici del kernel e la soluzione di un sistema lineare utilizzando il Decomposizione LU, tra gli altri. La conferenza sottolinea inoltre l'importanza di implementare correttamente gli algoritmi, poiché l'algoritmo utilizzato per le operazioni matematiche ha un impatto significativo su prestazioni, stabilità e consumo di memoria.

Nella seconda parte del video, Marvin Pförtner discute l'importanza dell'algebra lineare numerica negli algoritmi di machine learning. Copre vari argomenti tra cui la decomposizione LU, la decomposizione di Cholesky, il lemma di inversione di matrice e la regressione del processo gaussiano. Pförtner sottolinea l'importanza di utilizzare la struttura per rendere gli algoritmi più efficienti e sottolinea l'importanza della stabilità numerica nella risoluzione di grandi sistemi di equazioni nella regressione del processo gaussiano. Discute anche tecniche come l'apprendimento attivo e le approssimazioni di basso rango per gestire grandi set di dati e le potenziali limitazioni di memoria delle matrici del kernel. Nel complesso, il video mostra il ruolo cruciale che l'algebra lineare numerica svolge in molti aspetti dell'apprendimento automatico.

  • 00:00:00 In questa sezione, uno studente di dottorato discute l'importanza dell'algebra lineare numerica nell'apprendimento automatico e nei processi gaussiani. L'algebra lineare numerica è fondamentale per l'apprendimento automatico ed è un insieme di strumenti necessari per implementare algoritmi. La lezione copre compiti fondamentali nell'algebra lineare numerica importante per l'apprendimento automatico, esplorando la struttura per rendere gli algoritmi di algebra lineare numerica veloci e affidabili e implementando correttamente la regressione del processo gaussiano. La conferenza cita anche esempi di applicazioni dell'algebra lineare numerica come la teoria della probabilità di base, i modelli lineari generali, l'analisi delle componenti principali e i prodotti matrice-vettore che eseguono la riduzione della dimensionalità.

  • 00:05:00 In questa sezione, il relatore discute l'algebra lineare numerica nel contesto dell'apprendimento automatico. Spiega come i processi gaussiani, un metodo di regressione non parametrico nell'apprendimento automatico, si basino su una misura di probabilità a priori, che è un processo gaussiano che genera una matrice Gram del kernel definita simmetrica e positiva. Le informazioni generative in questa matrice consentono algoritmi efficienti e affidabili. Il relatore menziona anche come equazioni simili si applicano a una classe più ampia di modelli, inclusi i metodi del kernel e la regressione di Ridge. Discute anche brevemente come l'algebra lineare numerica viene utilizzata per risolvere equazioni alle derivate parziali lineari e nei metodi di ottimizzazione per l'ottimizzazione locale delle funzioni di perdita.

  • 00:10:00 In questa sezione, il relatore discute l'importanza dell'algebra lineare nell'apprendimento automatico e fornisce esempi per illustrare questa importanza. Operazioni di algebra lineare come Matrix Vector Multiplication, soluzioni di sistemi lineari e decomposizioni di matrici sono fondamentali per molti modelli di machine learning. Inoltre, osserva che molti modelli di apprendimento automatico sono in realtà rumorosi poiché utilizzano una stima rumorosa della matrice con cui mirano a risolvere i sistemi lineari. Infine, sottolinea che i determinanti logaritmici sono essenziali nel caso della densità gaussiana e nella regressione GP per ottenere stime a posteriori massime.

  • 00:15:00 In questa sezione, il relatore sottolinea l'importanza di un'efficiente moltiplicazione Matrix Vector nell'algebra lineare numerica e nell'apprendimento automatico. Forniscono un esempio di come anche compiti semplici possano diventare irrealizzabili dal punto di vista computazionale se l'espressione matematica non viene trasformata correttamente in un algoritmo. Il relatore sottolinea anche l'importanza di identificare la struttura in Matrix per una moltiplicazione più efficiente. Concludono affermando che l'algoritmo che implementa un'operazione matematica ha un impatto significativo su prestazioni, stabilità e consumo di memoria.

  • 00:20:00 In questa sezione, il relatore sottolinea l'importanza di comprendere la struttura di una matrice per l'ottimizzazione degli algoritmi di machine learning. Spiega che se sai che esiste una struttura di rango inferiore all'interno di una matrice, allora dovresti usare metodi specializzati per matrici inferiori per fattorizzarla, piuttosto che moltiplicare la matrice completa. Spiega che l'abbassamento è solo un tipo di struttura e ci sono varie strutture di matrici come matrici sparse e matrici kernel che dipendono anche da voci diverse da zero e dimensioni di input del regressore. Il relatore tocca anche come archiviare le matrici del kernel per ottenere risparmi di memoria.

  • 00:25:00 In questa sezione, il relatore discute come archiviare e valutare in modo efficiente le matrici del kernel per i processi gaussiani. Se i punti dati superano un certo limite, l'approccio ingenuo di memorizzarli non è più fattibile a causa di problemi di memoria. Sono disponibili librerie che scrivono kernel CUDA molto efficienti e utilizzano GPU per calcolare processi gaussiani su un laptop utilizzando centinaia di migliaia di punti dati. Il relatore parla anche di matrici con una forma funzionale generale, come i grafici auto-diff, che richiedono gli stessi requisiti di tempo e spazio. Infine, il relatore approfondisce un algoritmo concreto di applicazione della regressione bayesiana ai processi gaussiani, dove il nocciolo della misura gaussiana è la covarianza della funzione sconosciuta. Il relatore presenta un grafico della misura posteriore sulla funzione in combinazione con i dati osservati e come funziona bene la quantificazione dell'incertezza. Tuttavia, il problema sorge quando si calcola l'inverso, che si ridimensiona in modo abbastanza proibitivo, rendendo l'approccio ingenuo di calcolare una matrice di grammo del kernel da n punti dati non fattibile per n grandi.

  • 00:30:00 In questa sezione, il relatore discute la complessità numerica del calcolo delle matrici del kernel nei processi gaussiani, che possono diventare proibitivi. Inoltre, ci sono iperparametri che devono essere ottimizzati per il kernel, come la scala di output e la scala di lunghezza, al fine di ottimizzare il prima per spiegare il set di dati osservato. Il relatore descrive un approccio bayesiano per risolvere questo problema di selezione del modello calcolando la verosimiglianza marginale logaritmica e minimizzando una funzione di perdita consistente in un compromesso tra adattamento del modello e complessità rappresentata dal fattore di normalizzazione della distribuzione gaussiana. Il relatore mostra esempi di grave underfitting e overfitting e spiega come trovare il compromesso tra questi due termini per ottenere le migliori prestazioni del modello.

  • 00:35:00 In questa sezione, Marvin Pförtner discute la soluzione di un sistema lineare. La soluzione richiede M più uno risolve dove M è il numero di punti dati in cui vogliamo valutare il nostro regressore. Il sistema è simmetrico e definito positivamente nel caso più generale, ma potrebbero esserci strutture aggiuntive da sfruttare poiché il sistema è tipicamente enorme e di solito non possiamo risolverlo per set di dati molto grandi. Una decomposizione della matrice molto importante è la decomposizione Lu. L'algoritmo utilizzato per risolvere un sistema triangolare inferiore è la sostituzione in avanti, che scompone la matrice in quattro parti: scalare nell'angolo in basso a destra, la colonna sopra che è zero, un vettore riga a sinistra e un'altra parte triangolare chiamata L meno li meno uno sopra di esso, che è anche triangolare inferiore.

  • 00:40:00 In questa sezione, Marvin Pförtner discute come risolvere i sistemi in cui la matrice del sistema è triangolare inferiore, con dimensione n meno uno. Dividendo l'ultima riga, il sistema può essere risolto utilizzando un semplice algoritmo. I metodi ricorsivi vengono quindi utilizzati per risolvere un sistema per una data dimensione. Pförtner spiega anche come dividere la matrice in parti triangolari inferiore e superiore usando quella che chiama la decomposizione Lu, che è una definizione ricorsiva che utilizza tecniche di divisione e conquista. Questa tecnica è utile per invertire matrici e rendere meno costosa la risoluzione di sistemi lineari, essendo il processo O(N^2) invece di O(N^3).

  • 00:45:00 In questa sezione viene spiegato il metodo di decomposizione Lu per la risoluzione di sistemi lineari di equazioni. Questo metodo scompone una matrice in una matrice triangolare inferiore e una matrice triangolare superiore, consentendo un calcolo più rapido delle soluzioni dei sistemi lineari. Il processo prevede l'impostazione a uno degli ingressi diagonali della parte sinistra della matrice triangolare inferiore e l'utilizzo di una rotazione parziale per garantire stabilità e robustezza. Nonostante l'efficienza del metodo, bisogna considerare il costo del calcolo, che è O(n^3).

  • 00:50:00 In questa sezione, Marvin Pförtner discute il tempo di calcolo della decomposizione UD e dimostra come implementarlo sul posto. Spiega che la maggior parte di ogni passo di ricorsione è il calcolo del prodotto esterno e della sottrazione, che si traduce in una sommatoria su due volte (n-1) al quadrato. Utilizzando una strategia nota come eliminazione gaussiana, l'algoritmo calcola in modo efficiente la matrice triangolare superiore. Pförtner mostra come eseguire un calcolo di esempio con una piccola matrice, dimostrando che la parte non banale di L è contenuta nelle tre voci sotto la diagonale, e la parte triangolare superiore conterrà le parti diverse da zero di U. Mantenendo tutto in memoria, Pförtner presenta un'implementazione che memorizza abilmente L e U nella stessa matrice.

  • 00:55:00 In questa sezione, il relatore spiega il processo di decomposizione LU in algebra lineare numerica. Mostra come calcolare l'algoritmo passo dopo passo e come usarlo per risolvere sistemi lineari. Una volta che abbiamo la decomposizione LU di una matrice, possiamo applicarla per risolvere in modo efficiente più sistemi lineari con più lati destri, costando solo 2N al quadrato per una sostituzione in avanti e all'indietro. L'inverso di una matrice di permutazione è solo la sua trasposta, che è economica da calcolare, rendendo possibile eseguire K risolve con la stessa matrice di sistema nella regressione del processo gaussiano.

  • 01:00:00 In questa sezione, il relatore discute come risolvere in modo efficiente più sistemi lineari con la stessa matrice utilizzando una decomposizione LU, che è computazionalmente efficiente. Inoltre, viene presentato un metodo per calcolare il determinante logaritmico con una decomposizione LU, che consente una rappresentazione efficiente di un sistema lineare e l'esecuzione di vari compiti di algebra lineare con esso. Il relatore sottolinea l'importanza di utilizzare la struttura per rendere gli algoritmi più efficienti e osserva che la decomposizione di Cholesky è una versione specializzata della decomposizione LU che sfrutta la natura simmetrica e definita positiva della matrice del grammo del kernel.

  • 01:05:00 In questa sezione, il relatore discute il calcolo della media a posteriori e della covarianza nei processi gaussiani. Per ottenere la media a posteriori, è necessario risolvere un sistema per sostituzione in avanti e un altro per sostituzione all'indietro. Il relatore osserva che con la struttura dei fattori colesky della matrice di covarianza, si può ottenere una buona approssimazione decrescente della matrice. Inoltre, parla del problema della potenziale incapacità di adattare la grande matrice del kernel alla memoria e presenta due approcci per risolvere questo problema; utilizzando la struttura nei kernel impiegati o utilizzando approssimazioni sparse.

  • 01:10:00 In questa sezione, il relatore discute come invertire in modo efficiente le matrici negli algoritmi di apprendimento automatico. Usa un set di dati generato da una funzione sinusoidale come esempio e mostra che conoscendo la struttura generativa del set di dati, si possono scegliere kernel che riflettono quella conoscenza e sono computazionalmente efficienti. Il Matrix Inversion Lemma è uno strumento che può essere utilizzato per invertire le matrici in modo efficiente perturbandole con un piccolo numero di sottospazi. Usando questo lemma, si possono calcolare espressioni in modo molto efficiente e non è nemmeno necessario formare l'intera matrice in memoria. Il relatore sottolinea che esistono molti approcci diversi all'utilizzo della struttura negli algoritmi di apprendimento automatico.

  • 01:15:00 In questa sezione, il docente discute i metodi di algebra lineare numerica utilizzati nelle inferenze gaussiane e l'ottimizzazione degli iperparametri nell'apprendimento automatico. Un metodo per ridimensionare la regressione GP (processo gaussiano) a set di dati di grandi dimensioni è l'inversione approssimata, che implica la costruzione iterativa di approssimazioni di basso rango alla matrice del sistema rappresentata nella matrice del kernel. Il docente dimostra questo metodo utilizzando l'algoritmo di Cholesky come esempio e mostra come l'approssimatore di basso rango della matrice può essere ottenuto al volo senza calcolare l'intera fattorizzazione di Cholesky. La qualità dell'approssimazione dipende dalla matrice del kernel e dall'ordine in cui i punti dati vengono elaborati. Nel complesso, questa sezione evidenzia l'importanza dell'algebra lineare numerica in vari aspetti dell'apprendimento automatico.

  • 01:20:00 In questa sezione, Marvin Pförtner discute come scegliere l'ordine dei punti dati in cui Cholesky li tratta per approssimare la matrice del kernel. Spiega che la pre-moltiplicazione della matrice del grammo con la matrice di permutazione, nota anche come rotazione completa o decomposizione di Cholesky imperniata, può portare a un'approssimazione inferiore con meno iterazioni. L'idea è di osservare il predittore per i punti dati dopo un'iterazione di Todeschini e quindi utilizzare le informazioni raccolte per selezionare il punto dati da osservare nella successiva iterazione. Questa tecnica è considerata un problema di apprendimento attivo e può fornire un modo intelligente per elaborare simultaneamente righe e colonne e quindi esplorare la struttura generativa di Matrix in modo online.

  • 01:25:00 In questa sezione, il relatore discute la decomposizione del valore singolare (SVD) e come risolve un problema di ottimizzazione per ottenere i migliori fattori per un'approssimazione di matrice. Tuttavia, il troncamento di un SVD potrebbe essere arbitrariamente negativo, quindi viene utilizzato un approccio euristico per approssimare l'SVD e calcolare una decomposizione dell'auto. C'è anche la necessità di una radice quadrata della matrice, che può essere ottenuta attraverso la decomposizione di Cholesky. È importante tenere conto della struttura quando si implementano algoritmi di algebra lineare numerica nella pratica, in quanto ciò può accelerare notevolmente il processo.

  • 01:30:00 In questa sezione, Marvin Pförtner discute come la struttura dell'algebra lineare numerica influisce sulla regressione del processo gaussiano. La regressione del processo gaussiano è computazionalmente intensiva e richiede la risoluzione di grandi sistemi di equazioni, che possono essere eseguiti utilizzando tecniche di algebra lineare numerica. Il relatore sottolinea l'importanza della stabilità numerica nella risoluzione di questi sistemi di equazioni per evitare di perdere precisione nei risultati finali.
 

Lezione 3 -- Ridimensionamento dei processi gaussiani -- Jonathan Wenger



Numerics of ML 3 -- Ridimensionamento dei processi gaussiani -- Jonathan Wenger

Jonathan Wenger illustra le tecniche per ridimensionare i processi gaussiani per set di dati di grandi dimensioni nel video "Numerics of ML 3". Esplora metodi iterativi per risolvere sistemi lineari e apprendere la matrice inversa, con l'obiettivo principale di ottenere generalizzazione, semplicità/interpretabilità, stime dell'incertezza e velocità. Wenger introduce approssimazioni di basso rango alla matrice del kernel come la decomposizione iterativa di Cholesky, Cholesky parziale e metodi del gradiente coniugato. Discute anche del precondizionamento per accelerare la convergenza e migliorare la stabilità quando si ha a che fare con set di dati di grandi dimensioni. Infine, propone di utilizzare una matrice ortogonale Z per riscrivere la traccia di una matrice, che potrebbe potenzialmente portare a un tempo quadratico per il ridimensionamento dei processi gaussiani.

Nella seconda parte della conferenza Jonathan Wenger discute il ridimensionamento dei processi gaussiani (GP) per set di dati di grandi dimensioni in questo video. Presenta varie strategie per migliorare il tasso di convergenza delle stime Monte Carlo per la regressione GP, incluso l'utilizzo di precondizionatori esistenti per il sistema lineare solve per stimare la matrice del kernel e la sua inversa. Introduce anche l'idea del tempo lineare GP attraverso l'approssimazione variazionale e affrontando la quantificazione dell'incertezza utilizzando il metodo del punto di induzione. Utilizzando queste strategie, è possibile eseguire lo scale-up a set di dati con un massimo di un milione di punti dati con la GPU, semplificando l'ottimizzazione rapida degli iperparametri.

  • 00:00:00 In questa sezione del video, Jonathan Wenger illustra come ridimensionare i processi gaussiani per set di dati di grandi dimensioni utilizzando metodi iterativi per risolvere i sistemi lineari. Spiega che questi metodi possono essere visti come algoritmi di apprendimento per la matrice inversa, che è l'oggetto principale necessario per calcolare il GP posteriore. Wenger delinea anche gli obiettivi principali della regressione, tra cui generalizzazione, semplicità/interpretabilità, stime dell'incertezza e velocità. Osserva che i medici generici sono ottimi esempi di modelli che possono raggiungere tutti questi obiettivi, ma sono costosi da addestrare e fare inferenza. Tuttavia, sviluppando metodi moderni per risolvere sistemi lineari con matrici kernel, l'inferenza del tempo quadratico per il GPS può essere eseguita più velocemente del tempo cubico. Wenger suggerisce anche che esiste un modo per farlo ancora più velocemente nel tempo lineare, ma riconosce che potrebbero esserci alcuni inconvenienti di cui parlerà ulteriormente nella prossima lezione.

  • 00:05:00 In questa sezione, il relatore discute i limiti della decomposizione di Scholesky per i processi gaussiani quando si tratta di grandi set di dati, poiché diventa proibitiva in termini di complessità temporale e spaziale. Propone metodi iterativi per ridurre la complessità al quadrato del numero di punti dati, mostrando come Cholesky iterativo viene utilizzato per l'approssimazione di basso rango della matrice del kernel. Tuttavia, il problema non è l'approssimazione della matrice del kernel stessa, poiché la regressione GP richiede un'approssimazione dell'inverso della matrice del kernel o della matrice di precisione, quindi la domanda è se la formulazione iterativa di Cholesky possa essere interpretata come un'approssimazione della matrice di precisione Matrice per soluzioni lineari.

  • 00:10:00 In questa sezione, il relatore esplora una forma iterativa della decomposizione di Cholesky, che può essere utilizzata per approssimazioni di basso rango alle matrici del kernel. Tracciando quantità aggiuntive, è possibile ottenere un'approssimazione inversa alla matrice, anch'essa di basso rango, simile al Cholesky. Il relatore mostra come calcolare ricorsivamente questa approssimazione inversa, in termini di fattori di Cholesky e del residuo. Questo metodo iterativo può essere utilizzato come algoritmo di inversione di matrice approssimata per matrici a definizione positiva, come le matrici kernel, ed è uno strumento utile per ridimensionare i processi gaussiani.

  • 00:15:00 In questa sezione, il relatore discute l'uso del metodo Cholesky parziale per il ridimensionamento dei processi gaussiani. Il metodo prevede la modifica della decomposizione di Cholesky con un fattore e la sua moltiplicazione con un vettore. Ciò si traduce in un processo iterativo che produce un'approssimazione inversa aggiungendo prodotti esterni di vettori. L'analisi della complessità mostra che è altrettanto costoso quanto l'approssimazione della matrice stessa. Il relatore confronta anche il metodo parziale di Cholesky con la regressione GP e sottolinea l'importanza di selezionare i giusti punti dati o vettori unitari per migliorare il processo di apprendimento.

  • 00:20:00 In questa sezione, Jonathan Wenger discute l'importanza di selezionare i punti dati corretti quando si approssima la matrice del kernel per i processi gaussiani (GP). Illustra come una selezione casuale di punti dati su cui condizionare può portare a un processo di apprendimento più lento. Introduce il "metodo dei gradienti coniugati", originariamente progettato per risolvere i sistemi lineari nella regressione GP. Questo metodo riformula il problema di ax=B, dove a è una matrice kernel e B è un vettore di dimensione n, come un problema di ottimizzazione quadratica, che equivale a risolvere il sistema lineare ax=B. Prendendo il gradiente della funzione quadratica e impostandolo a zero, la colonna su ax è uguale a B e un residuo può essere definito come B meno ax, che può essere utilizzato per trovare un modo migliore e più efficiente per selezionare i punti dati per velocizzare il processo di apprendimento.

  • 00:25:00 In questa sezione, Jonathan Wenger discute l'uso delle direzioni coniugate per l'ottimizzazione nei processi gaussiani. Spiega che modificando la direzione in cui camminiamo, possiamo convergere al massimo in n passi quando usiamo direzioni coniugate. Per iniziare, utilizza il gradiente negativo come primo gradino nella direzione della discesa più ripida e modifica i gradini per soddisfare la condizione di coniugio. Presenta l'algoritmo e ne spiega le parti di alto livello, incluso il criterio di arresto basato sulla norma del gradiente.

  • 00:30:00 In questa sezione, Jonathan Wenger discute il metodo dei gradienti coniugati, che è un metodo per approssimare l'inverso quando si risolvono più sistemi lineari per la covarianza a posteriori. Il metodo dei gradienti coniugati costruisce un'approssimazione per l'inverso, che è di basso rango allo stesso modo dello Swarovski parziale. L'aggiornamento per la stima della soluzione implica una direzione coniugata di, e la matrice CI approssima l'inverso con la forma di tutte le precedenti direzioni di ricerca impilate in colonne. Questo metodo consente di risolvere rapidamente il sistema di scenari e la sua struttura di basso rango lo rende un metodo efficiente per ridimensionare i processi gaussiani.

  • 00:35:00 In questa sezione, il relatore confronta il metodo Scholastic parziale con il metodo del gradiente coniugato per l'inferenza del processo gaussiano. Il metodo del gradiente coniugato converge molto più velocemente e l'oratore spiega che le "azioni" utilizzate nel metodo del gradiente coniugato sondano la matrice in un modo diverso, il che consente una migliore convergenza. Tuttavia, il relatore osserva che è importante analizzare la velocità di convergenza del metodo, che richiede una comprensione dei numeri, in particolare la precisione della macchina e il numero di condizione. Il numero di condizione è l'autovalore massimo diviso per l'autovalore minimo in termini assoluti e misura l'inevitabile amplificazione dell'errore quando si implementano algoritmi di inversione.

  • 00:40:00 In questa sezione, Jonathan Wenger discute il comportamento di stabilità e convergenza dei metodi per risolvere sistemi lineari con matrici kernel, come il metodo del gradiente coniugato o la decomposizione di Cholesky. La stabilità è determinata dal numero di condizione della matrice, che dipende dai suoi autovalori, e maggiore è il numero di condizione, più instabile è il metodo. Il comportamento di convergenza è determinato dal numero di condizione della matrice e dal più grande diviso per il più piccolo autovalore. Più il numero di condizione è vicino a uno, più lenta è la convergenza. Nonostante il numero di condizione moderatamente elevato della matrice del kernel con un migliaio di punti dati, Wenger mostra che il metodo del gradiente coniugato converge ancora rapidamente in poche centinaia di iterazioni rispetto alla dimensione del problema.

  • 00:45:00 In questa sezione, Jonathan Wenger discute il ridimensionamento dei processi gaussiani e l'impatto del rumore di osservazione sulla convergenza. Man mano che il rumore dell'osservazione diminuisce, la convergenza di CG rallenta a causa dell'esplosione del numero di condizione della matrice del kernel. Il numero della condizione è l'autovalore più grande diviso per l'autovalore più piccolo e, man mano che i punti dati si avvicinano l'uno all'altro, il numero della condizione aumenta. Per risolvere questo problema, è possibile utilizzare il precondizionamento per approssimare la matrice del kernel, assumendo che la memorizzazione della matrice sia piuttosto economica rispetto alla memorizzazione della matrice effettiva. Valutando in modo efficiente l'inverso dell'approssimazione, il precondizionatore può sostituire il problema originale con uno più facile da risolvere, con conseguente convergenza più rapida di CG.

  • 00:50:00 In questa sezione, Jonathan Wenger discute il concetto di precondizionamento nella scalatura dei processi gaussiani per una soluzione di sistemi lineari più efficiente. Usa l'esempio dei metodi di apprendimento probabilistici per spiegare come la conoscenza preliminare di un problema possa renderlo più facile da risolvere e, analogamente, il precondizionamento trasforma un problema in modo che sia più vicino alla matrice identità e quindi più facile da risolvere. Utilizzando un precondizionatore, il numero di condizione del sistema viene abbassato, il che accelera il CG e lo rende più stabile. Wenger dimostra l'efficienza del precondizionamento utilizzando un precondizionatore diagonale di basso rango e SVD parziale per risolvere un sistema lineare su larga scala con 100.000 punti dati in sette minuti.

  • 00:55:00 In questa sezione, il relatore discute l'uso del gradiente coniugato precondizionato (CG) per la risoluzione di sistemi lineari durante l'ottimizzazione dell'iperparametro per Cholesky. Per valutare la perdita e calcolarne il gradiente, dobbiamo risolvere sistemi lineari e calcolare le tracce. Tuttavia, il calcolo della traccia comporta n moltiplicazioni matrice-vettore, il che è troppo costoso per set di dati di grandi dimensioni. Per risolvere questo, il relatore propone di utilizzare una matrice ortogonale Z tale che cx Z(transpose) = matrice identità, permettendoci di riscrivere la traccia di a come traccia di Z(transpose) xax Z. Questo metodo di approssimazione potrebbe potenzialmente portare a quadratica tempo per scalare i processi gaussiani.

  • 01:00:00 In questa sezione, il relatore discute la sfida di aumentare il calcolo della traccia della matrice del kernel, che comporta l'esecuzione di diverse moltiplicazioni matrice-vettore. Una potenziale soluzione è randomizzare il calcolo disegnando vettori casuali, scalati con la radice quadrata della dimensione, quindi calcolando la covarianza dell'identità. Con la covarianza del vettore casuale approssimata, è possibile calcolare la traccia, che equivale a risolvere il problema originale senza vettori casuali. Tuttavia, l'utilizzo di stimatori Monte Carlo in questo metodo non è sufficiente per set di dati di grandi dimensioni poiché richiede decine di migliaia di vettori casuali, rallentando l'ottimizzazione dell'iperparametro.

  • 01:05:00 In questa sezione, Jonathan Wenger discute il ridimensionamento dei processi gaussiani (GP) per set di dati di grandi dimensioni. Spiega che i precondizionatori esistenti per la soluzione del sistema lineare possono essere utilizzati per stimare la matrice del kernel e il suo inverso per affrontare il problema del ridimensionamento dei dati. L'uso del precondizionatore con Cholesky parziale o la stima della traccia stocastica aiuta a stimare la traccia indietro. Usando le stesse informazioni, si può stimare anche il gradiente del determinante logaritmico. Utilizzando queste strategie, con la GPU è possibile eseguire lo scale-up a set di dati con un massimo di un milione di punti dati. Wenger osserva che la pre-formazione comporta l'utilizzo di un piccolo set di dati come trampolino di lancio per ottimizzare i parametri ibridi.

  • 01:10:00 In questa sezione, il relatore discute diverse strategie per migliorare il tasso di convergenza delle stime Monte Carlo per la regressione del processo gaussiano. Ereditando il tasso di precondizionamento delle convergenze, è possibile convergere più velocemente al valore vero in modo esponenziale o polinomiale. La scelta delle azioni per osservare la matrice del kernel attraverso la moltiplicazione del vettore della matrice può anche influenzare la velocità con cui è possibile ottenere la convergenza. Pertanto, al fine di sviluppare algoritmi numerici veloci per il processo gaussiano, è necessaria esperienza nel dominio, che può essere fornita attraverso precondizioni o la scelta di azioni per convergere rapidamente. Inoltre, viene introdotta l'idea del tempo lineare GP attraverso l'approssimazione variazionale, che comporta la compressione di dati ad alta dimensione in un set di dati di addestramento più piccolo per riassumerli in modo più efficace.

  • 01:15:00 In questa sezione, Wenger discute l'uso dei processi gaussiani e come possono essere ridimensionati in modo efficace. L'idea è di riassumere i dati di addestramento per fornire un'approssimazione diretta al posteriore, che richiede solo I al quadrato n, dove I è il numero di input inducenti e n è la dimensione dei dati di addestramento. Tuttavia, i metodi iterativi richiedono l'ottimizzazione degli iperparametri, che deve essere considerata. In questo caso è possibile utilizzare metodi stocastici come l'ottimizzazione in batch o sdd, che possono essere ottimizzati rapidamente utilizzando un ottimizzatore preferito. Tutte le operazioni essenziali sono I al cubo o I al quadrato per n, ad eccezione della valutazione della matrice del kernel, che è l'operazione più costosa.

  • 01:20:00 In questa sezione, il relatore discute la questione della quantificazione dell'incertezza con il ridimensionamento dei processi gaussiani utilizzando il metodo del punto di induzione, che richiede l'impostazione a priori del numero di punti di induzione per il set di dati. Man mano che l'ottimizzatore cerca punti dati di riepilogo migliori, la quantificazione dell'incertezza risultante diventa significativamente diversa dal vero processo gaussiano. Mentre i metodi iterativi possono controllare l'accuratezza dell'approssimazione fino allo scadere del tempo, il metodo del punto di induzione richiede il controllo della fedeltà dell'approssimazione prima dell'ottimizzazione. Il relatore pone la questione se sia possibile progettare un metodo in cui la quantificazione dell'incertezza possa essere attendibile in qualsiasi punto dell'approssimazione, indipendentemente dal tempo di calcolo.
 

Lezione 4 -- Processi Gaussiani Computation-Aware -- Jonathan Wenger



Numerics of ML 4 -- Processi gaussiani compatibili con il calcolo -- Jonathan Wenger

In questo video su Numerics of ML, Jonathan Wenger discute i processi gaussiani sensibili al calcolo e la loro capacità di quantificare l'errore di approssimazione e l'incertezza nelle previsioni. Esplora l'importanza di scegliere le azioni giuste e come i gradienti coniugati possono ridurre significativamente l'incertezza e accelerare l'apprendimento. Wenger parla anche dell'utilizzo di approssimazioni GP in tempo lineare basate su punti di induzione, ma evidenzia i problemi che sorgono da tali approssimazioni. Infine, discute l'aggiornamento delle convinzioni sui pesi rappresentativi e l'utilizzo di algoritmi di apprendimento probabilistico per risolvere l'errore nei pesi rappresentativi. Nel complesso, il video dimostra l'efficacia dei processi gaussiani compatibili con il calcolo nel migliorare l'accuratezza delle previsioni tenendo conto delle incertezze computazionali.

Jonathan Wenger discute anche il processo gaussiano consapevole del calcolo e la sua complessità in questo video. Spiega che è necessario solo calcolare e memorizzare il quadrante superiore della matrice del kernel e il costo computazionale dell'algoritmo è proporzionale alla dimensione di questo quadrante. Il processo gaussiano può essere utilizzato su set di dati di dimensioni arbitrarie, a condizione che i calcoli abbiano come obiettivo solo determinati punti dati, offuscando il confine tra dati e calcolo. Wenger sostiene che il GP può essere modellato per tenere conto di questa situazione condizionando i dati proiettati. Introduce un nuovo teorema che consente l'esatta quantificazione dell'incertezza con un modello approssimato. Infine, anticipa la conferenza della prossima settimana sull'estensione del modello GP ai casi in cui una legge fisica governa parzialmente la funzione che si sta imparando.

  • 00:00:00 In questa sezione, Jonathan Wenger parla del culmine finale delle loro lezioni sui processi gaussiani, dove dimostra come condurre una quantificazione esatta dell'incertezza in un tempo arbitrario. Spiega che questo approccio consente agli utenti di quantificare sempre quanto sono lontani dalla funzione che stanno cercando di apprendere, indipendentemente dalla quantità di calcolo che inseriscono o qualunque sia il loro budget. Reinterpretando gli algoritmi delle lezioni precedenti come agenti di apprendimento, sono in grado di quantificare l'errore di approssimazione, che viene introdotto nella previsione a posteriori. Inoltre, discutono di cosa significhi osservare i dati attraverso un computer e del dibattito filosofico che lo circonda.

  • 00:05:00 In questa sezione, Jonathan Wenger discute l'importanza di scegliere le azioni giuste quando si ha a che fare con i processi gaussiani compatibili con il calcolo. Mostra che la scelta delle azioni può ridurre significativamente l'incertezza e accelerare il processo di apprendimento dei fenomeni previsti. Inoltre, esplora il metodo dei gradienti coniugati come un modo per trovare azioni migliori quando si risolvono sistemi lineari o si minimizzano funzioni quadratiche. Tenendo conto della geometria del problema, i gradienti coniugati possono convergere a una soluzione in un piccolo numero di passaggi.

  • 00:10:00 In questa sezione del video, Jonathan Wenger discute i processi gaussiani consapevoli del calcolo e come differiscono da altri metodi di approssimazione. Parla dell'operazione più costosa nei metodi di approssimazione inversa del gradiente parzialmente coniugato e del cielo parziale essendo la moltiplicazione matrice-vettore. Quindi prende in giro l'idea di approssimazioni GP in tempo lineare che si basano sull'induzione di punti come punti dati di riepilogo e discute i problemi che sorgono da un'approssimazione in tempo lineare. Wenger introduce quindi l'inferenza GP consapevole del calcolo, che affronta i problemi dell'esatta quantificazione dell'incertezza e afferma che si tratta di una ricerca all'avanguardia che sarà presentata al NURBS entro la fine dell'anno.

  • 00:15:00 In questa sezione, Jonathan Wenger discute il processo gaussiano consapevole del calcolo e come quantificare l'errore di approssimazione che deriva dall'uso di metodi iterativi per risolvere un sistema lineare di pesi rappresentativi. Spiega che le funzioni del kernel nel modello GP codificano ipotesi sull'aspetto della vera funzione e che i risolutori iterativi approssimano questi pesi per costruire una previsione media a posteriori. Quantificando probabilisticamente questo errore di approssimazione, è possibile aggiungere l'incertezza aggiuntiva alla previsione, che può migliorare l'accuratezza del modello. Wenger fornisce anche un breve riepilogo dell'algebra lineare delle distribuzioni gaussiane e di come rendono più facili i calcoli nella teoria della probabilità, in particolare quando si tratta di condizionamento e osservazioni.

  • 00:20:00 In questa sezione, Jonathan Wenger discute le proprietà delle distribuzioni gaussiane e come possono essere utilizzate per determinare la distribuzione a posteriori su una variabile X date le osservazioni Y. Combinando le proprietà di ridimensionamento e marginalizzazione, è possibile utilizzare i processi gaussiani quantificare l'errore di approssimazione nelle stime dei pesi rappresentativi. Wenger spiega come una precedente distribuzione gaussiana può essere aggiornata e utilizzata per apprendere i veri pesi rappresentativi, che non possono essere osservati direttamente. La diffusione e l'orientamento di una curva a campana gaussiana possono essere utilizzati per determinare la direzione in cui cercare i veri pesi rappresentativi.

  • 00:25:00 In questa sezione, Jonathan Wenger spiega come osservare indirettamente un punto nero in un processo gaussiano consapevole del calcolo utilizzando una trasformazione residua e vettoriale. Mostra come applicare il teorema di inferenza gaussiana affine per calcolare la distanza tra le rappresentazioni ei pesi stimati. Il processo prevede il collasso della credenza su una linea ortogonale e lo sviluppo di una credenza di probabilità unidimensionale, che viene utilizzata per trovare i pesi rappresentati. Wenger discute anche su come selezionare una linea rossa più informativa che si allinei con la convinzione precedente per raggiungere una soluzione più accurata.

  • 00:30:00 In questa sezione, Jonathan Wenger discute un algoritmo per aggiornare una convinzione sui pesi rappresentativi nei processi gaussiani consapevoli del calcolo attraverso un'osservazione fatta da un'azione moltiplicata per un residuo. Spiega che l'aggiornamento comporta un'inferenza gaussiana affine e sottolinea gli elementi chiave nel processo di aggiornamento. Sebbene l'algoritmo sia simile a CG e Cholesky parziale, osserva che la scelta del precedente è ancora un problema che deve essere affrontato, poiché deve essere correlato a dove si trovano i veri pesi rappresentativi per ottenere una buona stima dell'errore. Wenger propone che il GP prior e le ipotesi fatte siano correlate ai pesi rappresentativi in quanto sono coinvolti nell'inverso della matrice del kernel, rendendoli significativi nel GP prior.

  • 00:35:00 In questa sezione, Jonathan Wenger spiega come capire da quali dati di distribuzione sono stati generati prima di effettuare qualsiasi osservazione con un processo gaussiano (GP). Supponendo una distribuzione su f, Wenger spiega che le etichette sono distribuite secondo la media zero quando si utilizza un precedente gaussiano a media zero e variano in base alla matrice del kernel più il rumore indipendente, che fa parte del modello di osservazione. Wenger discute quindi di trovare i rappresentanti utilizzando un algoritmo di apprendimento probabilistico che aggiorna il precedente proiettandolo sulle azioni. Infine, Wenger spiega come risolvere il problema di aver bisogno di K hat inverso calibrato calcolando una distribuzione di mu star valutata in un punto dati, che è una funzione lineare di V star.

  • 00:40:00 In questa sezione, Jonathan Wenger spiega i processi gaussiani consapevoli del calcolo e come tenere conto delle incertezze computazionali. Discute l'idea di emarginazione, in cui vengono considerate più opzioni per una variabile casuale e viene calcolata una previsione media a posteriori che tiene conto di tutte le possibili stime dei pesi rappresentativi. Spiega come funziona l'emarginazione lineare e come aggiunge ulteriore incertezza alla covarianza. Wenger passa poi a discutere l'interpretazione dell'incertezza di un GP come stima dell'errore medio e come anche l'incertezza computazionale possa essere considerata una stima dell'errore. Nel complesso, la sezione spiega il calcolo dell'incertezza combinata che include l'errore sulla funzione vera e l'errore nei pesi rappresentativi in un'unica stima.

  • 00:45:00 In questa sezione, il relatore discute i processi gaussiani consapevoli del calcolo, che combinano l'errore derivante dal non disporre di dati osservati sufficienti con l'errore derivante dal non aver eseguito calcoli sufficienti per apprendere la previsione. L'oratore mostra due esempi di questo processo in azione con le azioni di Ed Cholesky e CG. Il metodo proposto chiamato GP calcola il posteriore e combina una credenza rappresentativa con l'inizializzazione per ottenere previsioni più accurate attraverso l'incertezza di tracciamento. Il metodo è semplice ed efficace, come si vede nella ridotta incertezza computazionale e nell'approssimazione più stretta alla vera media posteriore nei grafici tracciati.

  • 00:50:00 In questa sezione, il relatore discute i processi gaussiani consapevoli del calcolo e l'uso della credenza senza la necessità di invertire la matrice del kernel. Scelgono un'azione in una direzione specifica e osservano quanto sono vicini ai due pesi rappresentati nel sottospazio scelto, il che influisce sulla velocità con cui convergono ai pesi rappresentati. Per aggiornare la stima dei pesi rappresentativi, osservano il residuo proiettato e calcolano la direzione da percorrere. Calcolano anche un'approssimazione di basso rango e aggiornano la loro stima dei rappresentanti e della matrice di precisione. Applicano le stesse quantità utilizzando Alaska e CG parziali, scelgono le azioni del vettore unitario per recuperare determinate azioni e progettano un metodo come il metodo del tempo lineare che pesa i punti dati in base alla funzione del kernel centrata in un punto inducente.

  • 00:55:00 In questa sezione, Jonathan Wenger discute i processi gaussiani (GP) consapevoli del calcolo e li confronta con il GP condizionale di addestramento completamente indipendente (FITC-GP). Introduce le Kernel Vector Actions, che risolvono alcuni dei problemi con FITC-GP, ma sono dense, risultando in una complessità di N al quadrato, e quindi non sono convenienti. Wenger mostra che intraprendendo azioni specifiche che prendono di mira solo una parte dei punti dati, possono ridurre la complessità necessaria per il calcolo della matrice del kernel. Alla fine, il GP computazionale ha prestazioni migliori e tali azioni si dimostrano un approccio utile per il calcolo scalabile con elevata precisione.

  • 01:00:00 In questa sezione, Jonathan Wenger discute il processo gaussiano computazionalmente consapevole e la sua complessità. Mostra che è necessario solo calcolare e memorizzare il quadrante superiore della matrice del kernel e, di conseguenza, il costo computazionale dell'algoritmo è proporzionale solo alla dimensione di questo quadrante. Inoltre, sottolinea che l'algoritmo può essere utilizzato su set di dati di dimensioni arbitrarie, purché le azioni che hanno zeri nel quadrante inferiore vengano scelte per indirizzare solo determinati punti dati con il calcolo. Wenger sostiene che questo offusca la distinzione tra dati e calcolo perché solo le osservazioni destinate al calcolo sono considerate dati. Infine, osserva che il processo gaussiano può essere modellato per tenere conto di questa situazione condizionando i dati proiettati.

  • 01:05:00 In questa sezione, Jonathan Wenger spiega che i processi gaussiani (GP) possono essere pensati in due modi: come un modello più accurato di ciò che sta accadendo o come uno strumento numerico probabilistico che quantifica l'errore introdotto attraverso l'approssimazione e prende ne tiene conto nelle previsioni. Quindi passa a discutere l'interpretazione degli errori al quadrato come misure probabilistiche e come il posteriore combinato può essere utilizzato come strumento di previsione. Wenger introduce anche un nuovo teorema che consente l'esatta quantificazione dell'incertezza con un modello approssimato, consentendo agli utenti di fidarsi della quantificazione dell'incertezza nello stesso modo in cui si fidano dei processi gaussiani.

  • 01:10:00 In questa sezione, Jonathan Wenger spiega che i processi gaussiani (GP) possono essere approssimati ideando un algoritmo di apprendimento, che può quantificare probabilisticamente l'errore dell'algoritmo e spingere l'errore sul GP posteriore utilizzato per fare previsioni, consentendo per l'esatta quantificazione dell'incertezza indipendentemente dalla potenza di calcolo utilizzata. Wenger osserva inoltre che sebbene esistano diverse varianti del metodo, esse forniscono un'esatta quantificazione dell'incertezza fintanto che le azioni sono linearmente indipendenti. Infine, Wenger anticipa la lezione della prossima settimana, in cui Jonathan discuterà dell'estensione del modello GP ai casi in cui una legge fisica governa parzialmente la funzione che viene appresa.
 

Lezione 5 -- Modelli Stato-Spazio -- Jonathan Schmidt



Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt

In questa sezione, Jonathan Schmidt introduce i modelli dello spazio degli stati e la loro applicazione all'apprendimento automatico. Spiega che i modelli dello spazio degli stati vengono utilizzati per modellare sistemi dinamici complessi, che sono solo parzialmente osservabili e comportano interazioni altamente non lineari. La lezione copre la rappresentazione grafica dei modelli stato-spazio e le proprietà importanti della proprietà di Markov e delle misure condizionatamente indipendenti. Schmidt presenta diversi algoritmi per il calcolo di varie distribuzioni come distribuzioni di previsione, filtraggio e livellamento, che vengono utilizzate per stimare lo stato di un sistema, utilizzando misurazioni ottenute in diversi momenti. La lezione copre anche l'implementazione degli algoritmi di filtro di Kalman in Julia e il calcolo delle stime di livellamento nei modelli gaussiani lineari dello spazio degli stati. Infine, Schmidt discute il filtro di Kalman esteso, che consente la stima di dinamiche e misurazioni non lineari nei modelli stato-spazio.

Jonathan Schmidt discute anche i modelli dello spazio degli stati e la loro implementazione utilizzando il codice, concentrandosi in particolare sulle dinamiche non lineari e sul filtro di Kalman esteso. Dimostra anche algoritmi di livellamento e metodi alternativi di filtraggio bayesiano, evidenziandone i pro e i contro. La lezione si conclude con una raccomandazione per un ulteriore apprendimento e un'anticipazione per la prossima lezione, in cui Nathaniel introdurrà i numeri probabilistici per la simulazione dei sistemi dinamici.

  • 00:00:00 In questa sezione, Jonathan Schmidt introduce i modelli dello spazio degli stati e i sistemi dinamici come nuovo punto focale per il corso di lezione di numerica sull'apprendimento automatico. Spiega che i sistemi dinamici si evolvono nel tempo e possono essere osservati solo parzialmente, rendendoli difficili da modellare. Schmidt fornisce esempi come il conteggio dei casi COVID-19 e la stima dell'orientamento dello smartphone per illustrare la struttura temporale e le componenti nascoste dei sistemi dinamici. L'obiettivo finale è utilizzare metodi probabilistici per simulare questi sistemi, ma prima è necessario stabilire un linguaggio e un framework algoritmico per scoprire componenti latenti da dati osservabili.

  • 00:05:00 In questa sezione, il relatore discute i modelli dello spazio degli stati, che implicano un'attività di stima online in cui l'obiettivo è aggiornare rapidamente la stima di un sistema dinamico complesso man mano che arrivano nuovi dati. Questi modelli sono spesso osservabili solo parzialmente e coinvolgono funzioni e interazioni altamente non lineari. Per raggiungere questo obiettivo, è necessario un framework algoritmico per aggiornare la credenza di conseguenza. Il relatore discute la rappresentazione grafica del linguaggio di modellazione utilizzato nei modelli dello spazio degli stati, dove la sequenza dei nodi bianchi rappresenta le variabili casuali che modellano lo stato del sistema e il riquadro rosso rappresenta i dati osservati. Lo stato di un sistema dinamico è un insieme di grandezze fisiche che determinano l'evoluzione del sistema, che vengono tracciate e interagiscono tra loro. I dati osservati, y, dipendono dallo stato attuale e spesso sono disponibili solo per alcuni stati della traiettoria, ma non per altri.

  • 00:10:00 In questa sezione, Jonathan Schmidt introduce i modelli dello spazio degli stati come framework probabilistico per la modellazione di sistemi dinamici. Sottolinea due importanti proprietà dei modelli stato-spazio: la proprietà di Markov e le misurazioni condizionatamente indipendenti. Utilizzando queste proprietà, definisce un modello stato-spazio come un modello bayesiano che include una distribuzione iniziale per il primo stato, un modello dinamico per gli stati successivi e un modello di misurazione per le osservazioni. Schmidt osserva che questi componenti distillati costituiranno la base per il resto della serie di conferenze.

  • 00:15:00 In questa sezione, il relatore spiega come analizzare i sistemi utilizzando modelli dello spazio degli stati e calcola quattro diverse distribuzioni di probabilità condizionate. Questi includono la distribuzione della previsione, la distribuzione del filtro, la probabilità dei dati e la distribuzione del livellamento, che vengono calcolate per ogni passaggio in una sequenza in corso. La derivazione comporta l'introduzione della quantità da calcolare e la costruzione di una distribuzione congiunta basata su ciò che è già noto. L'equazione di Chapman Kolmogorov viene utilizzata per prevedere nel futuro date le misurazioni passate e la fase di correzione che utilizza il teorema di Bayes viene utilizzata per integrare nuovi dati nella stima.

  • 00:20:00 In questa sezione, il relatore spiega il concetto di modello dello spazio degli stati e lo schema di previsione e aggiornamento utilizzato in esso. Calcolando la distribuzione prevista tramite l'equazione di Chapman-Homograph, il modello aggiorna la previsione tramite il teorema di Bayes. L'oratore presenta quindi lo pseudocodice per l'algoritmo, che opera in un ciclo temporale lineare senza tornare indietro. Il relatore sottolinea l'importanza di produrre una sequenza di distribuzioni per gli stati correnti date tutte le misurazioni precedenti. Infine, il relatore introduce un modello di spazio di stato gaussiano lineare e come produce distribuzioni.

  • 00:25:00 In questa sezione, il relatore introduce i modelli nello spazio degli stati per un sistema gaussiano lineare con una matrice di covarianza del rumore di processo Q e un modello di misura con una matrice di misura H e una matrice di covarianza di misura R. La lezione spiega come la previsione e i momenti di filtraggio del modello possono essere calcolati utilizzando l'inferenza gaussiana, con la distribuzione a posteriori che è una complicata raccolta di termini. Il relatore introduce quindi il filtro di Kalman, dal nome dello scienziato ungherese Rudolph Kalman, che consente il calcolo della previsione e dei momenti di filtraggio in forma chiusa. Vengono presentate le equazioni di predizione e correzione del filtro di Kalman, dove il guadagno di Kalman è una quantità importante che traduce le informazioni ottenute nello spazio di misurazione nello spazio degli stati per l'aggiornamento della media del filtro.

  • 00:30:00 In questa sezione del video, Jonathan Schmidt introduce i modelli dello spazio degli stati e spiega come utilizzarli per filtrare le traiettorie in base a misurazioni rumorose. Fornisce un esempio di tracciamento di un'auto su un piano 2D utilizzando misurazioni GPS e scrive il codice in Julia. Schmidt spiega che il modello dinamico è un modello gaussiano lineare e la covarianza del rumore di processo coinvolge termini polinomiali del passo temporale. Sottolinea inoltre che la traiettoria di filtraggio utilizza solo punti dati precedenti e presenti e non è informata dal futuro.

  • 00:35:00 In questa sezione, il relatore spiega l'implementazione del filtro di Kalman per i modelli dello spazio degli stati utilizzando il codice Julia. Spiega come impostare i modelli di transizione e misurazione, prevedere la media e la covarianza e correggere la stima utilizzando il modello di misurazione. Il relatore mostra quindi come eseguire il filtro di Kalman e fornisce una visualizzazione della stima risultante e dell'incertezza corrispondente.

  • 00:40:00 In questa sezione, Jonathan Schmidt spiega come vengono utilizzati i modelli dello spazio degli stati per descrivere i sistemi dinamici e come possono essere costruiti utilizzando modelli gaussiani lineari che consentono il calcolo di quantità interessanti utilizzando l'algebra lineare. Introduce anche il concetto di livellamento dei posteriori, che fornisce la migliore stima di una traiettoria dati tutti i punti dati disponibili, e si basa su distribuzioni filtranti per calcolarle in un algoritmo ricorsivo all'indietro. Sebbene la derivazione delle equazioni di livellamento coinvolga la teoria della probabilità e la proprietà di Markov, la risultante raccolta di variabili casuali gaussiane semplifica il calcolo della distribuzione di livellamento in ogni fase temporale.

  • 00:45:00 In questa sezione, il relatore spiega il processo di calcolo delle stime di livellamento nei modelli spaziali lineari dello stato gaussiano. Ciò comporta l'utilizzo di operazioni di prodotto vettoriale di matrice e l'emarginazione nel passaggio temporale successivo durante l'emarginazione per calcolare il posteriore dal posteriore filtrante. L'algoritmo per il livellamento delle stime viene calcolato tramite cicli for poiché funziona solo se è presente un set di dati o una porzione fissa di passaggi temporali da considerare. Il processo prevede di iniziare dalla fine della serie temporale e tornare indietro fino all'inizio calcolando il guadagno di livellamento e utilizzandolo per calcolare i momenti di livellamento. Il relatore menziona anche che la stima del filtraggio coincide con la stima del livellamento alla fine della serie temporale. L'algoritmo di livellamento alla fine fornisce un processo gaussiano posteriore come il livellamento posteriore.

  • 00:50:00 In questa sezione, il relatore spiega come calcolare i posteriori del processo gaussiano in tempo lineare formulando ipotesi che includono transizione lineare, misurazioni lineari, rumore gaussiano additivo sia per la dinamica che per le misurazioni e la proprietà di Markov. Tuttavia, non tutti i posteriori del processo gaussiano possono essere calcolati utilizzando il filtraggio e il livellamento gaussiano. L'oratore discute anche la possibilità di eliminare l'ipotesi gaussiana, ma ciò richiederebbe una classe di algoritmi completamente nuova. Il passaggio successivo prevede l'osservazione di modelli non lineari utilizzando un'approssimazione di Taylor in primo ordine per linearizzare le funzioni e quindi utilizzare filtri comuni.

  • 00:55:00 In questa sezione, Jonathan Schmidt discute i modelli dello spazio degli stati e il filtro di Kalman esteso, che è un'estensione del filtro di Kalman per le dinamiche e le misurazioni non lineari. La linearizzazione della dinamica non lineare e dei modelli di misura è ottenuta attraverso l'uso di matrici Jacobiane, consentendo l'uso delle equazioni del filtro di Kalman standard con alcune modifiche. La media prevista viene valutata alla media del filtro precedente, consentendo un facile calcolo della matrice di covarianza prevista. Il modello di misurazione è analogamente linearizzato e vengono derivate le equazioni estese del filtro di Kalman. Schmidt osserva che il filtro di Kalman esteso è utile quando non è possibile o desiderabile differenziare le funzioni non lineari.

  • 01:00:00 In questa sezione, Jonathan Schmidt discute cosa succede se non riusciamo a differenziare la nostra funzione e come aggirarla. Una possibile soluzione è usare una differenza finita nello schema, in cui costruiamo una differenza come le differenze finite standard e poi facciamo la stessa cosa. Schmidt costruisce anche lo smoother a radice estesa osservando le equazioni smoothed e inserendo, come matrice di transizione trasposta, la matrice Jacobiana della funzione non lineare valutata alla media filtrante. Schmidt fornisce un esempio di codice utilizzando un modello di spazio di stato non lineare di un pendolo, in cui la dimensione dello stato è 2 e le misurazioni sono scalari. Imposta il modello dinamico utilizzando una trasformazione non lineare e discute la covarianza del rumore di processo.

  • 01:05:00 In questa sezione, Jonathan Schmidt discute i modelli dello spazio degli stati e come implementarli utilizzando il codice. Spiega la dinamica non lineare del sistema e il semplice modello di misurazione lineare utilizzato per le misurazioni. Dimostra anche come implementare un filtro di Kalman esteso per stimare la traiettoria di un pendolo. Il filtro utilizza la differenziazione automatica per calcolare la matrice Jacobiana per la funzione di dinamica non lineare e il gradiente per la funzione di misurazione. L'animazione risultante mostra la traiettoria prevista e le misurazioni rumorose.

  • 01:10:00 In questa sezione, Jonathan Schmidt discute la stima del filtro e il livellamento esteso nei modelli dello spazio degli stati. La stima del filtro mostra la stima dell'incertezza nell'area ombreggiata, mentre l'algoritmo di livellamento riordina la stima del filtro utilizzando la differenziazione automatica, calcolando il guadagno di livellamento, la media uniforme e la covarianza uniforme. Il più fluido restituisce un processo gaussiano marginale posteriore, che copre bene la traiettoria verità fondamentale nella sua incertezza. Schmidt menziona anche metodi alternativi per il filtraggio bayesiano, come il filtro di Kalman non profumato per l'approssimazione delle distribuzioni e il filtro antiparticolato, che approssima l'effettivo vero posteriore. Sebbene questi metodi abbiano i loro pro e contro e possano essere più difficili da implementare, possono essere efficaci per i modelli non lineari o non gaussiani. Schmidt consiglia il libro "Bayesian Filtering and Smoothing" di Simo Särkkä per coloro che sono interessati a conoscere questi metodi.

  • 01:15:00 In questa sezione, il relatore riassume ciò che è stato appreso sui modelli dello spazio degli stati, il loro modello gaussiano lineare e i filtri di Kalman e di Kalman estesi utilizzati per gestire le dinamiche e le misurazioni non lineari. Si consiglia la prossima lezione, in cui Nathaniel introdurrà un potente linguaggio per catturare le leggi della natura e combinarlo con la lezione in una settimana per imparare a simulare questi sistemi dinamici usando numeri probabilistici attraverso il filtraggio e il livellamento bayesiano. L'oratore conclude chiedendo feedback e ringraziando gli ascoltatori per il loro tempo.
 

Lezione 6 -- Risoluzione di equazioni differenziali ordinarie -- Nathanael Bosch



Numerics of ML 6 -- Risoluzione di equazioni differenziali ordinarie -- Nathanael Bosch

Nathanael Bosch copre il concetto di ODE nell'apprendimento automatico, che descrivono la derivata di una funzione dato il suo input e i sistemi modello che si evolvono nel tempo. Discute le sfide della risoluzione delle ODE e introduce metodi numerici, come Eulero in avanti e Eulero all'indietro, e le loro proprietà di stabilità. Bosch esplora diversi metodi numerici e i loro compromessi in termini di accuratezza e complessità, come il punto medio esplicito e i classici metodi del quarto ordine. Sottolinea l'importanza dell'errore locale, dell'ordine e della comprensione della stabilità per evitare problemi nell'utilizzo delle librerie per risolvere le ODE.

Questa seconda parte del video discute il problema della stima del campo vettoriale e del valore iniziale di un'equazione differenziale ordinaria (ODE) utilizzando tecniche di machine learning. Il relatore spiega l'importanza di scrivere il modello generativo e il modello di osservazione per gli stati dell'ODE per risolvere il problema dell'inferenza. La funzione di verosimiglianza viene massimizzata minimizzando la verosimiglianza logaritmica negativa, che produce una stima del parametro. Il relatore dimostra questo approccio utilizzando un modello SIR-D e discute l'utilizzo di reti neurali per migliorare la stima della velocità di contatto. Viene inoltre evidenziata l'importanza delle ODE nella ricerca sull'apprendimento automatico e il loro ruolo nella risoluzione dei problemi del mondo reale.

  • 00:00:00 In questa sezione della conferenza, Nathanael Bosch introduce il concetto di equazioni differenziali ordinarie (ODE) e il modo in cui vengono utilizzate nell'apprendimento automatico. Definisce un'ODE come un modo per descrivere la derivata di una funzione dato il suo input e spiega che spesso nell'apprendimento automatico le ODE vengono utilizzate per modellare sistemi che si evolvono nel tempo. Fornisce esempi di dove compaiono le ODE nell'apprendimento automatico, inclusi i modelli di diffusione e i problemi di ottimizzazione. Bosch discute anche le sfide della risoluzione di ODE, che richiedono risolutori numerici complessi a causa dell'impraticabilità di risolverli perfettamente.

  • 00:05:00 In questa sezione, il relatore discute di come le ODE vengono utilizzate per trasformare il rumore in dati per la modellazione di distribuzioni complesse, che viene eseguita attraverso la normalizzazione dei flussi. Spiega anche il concetto di ODE neurali, che ha dato il via a molte ricerche e reinterpreta le reti neurali residue come discretizzazioni di una cosa più continua. Inoltre, l'oratore mette in relazione le ODE con l'ottimizzazione, in particolare, il flusso del gradiente, su cui è più facile scrivere un teorema rispetto alla discesa del gradiente discreto. Infine, il relatore discute di come l'inferenza dei parametri sia un esempio dell'utilizzo di ODE per apprendere qualcosa di sconosciuto e, nella prossima lezione, interpreterà le soluzioni ODE numeriche come algoritmi di apprendimento automatico. L'oratore conclude che mentre possiamo scrivere una soluzione per un'ODE, non è utile a causa del problema di integrazione e delle variabili sconosciute.

  • 00:10:00 In questa sezione, il narratore introduce le equazioni differenziali ordinarie (ODE) e i problemi di valore iniziale, che sono cruciali per comprendere molti algoritmi nell'apprendimento automatico. Le ODE rappresentano il tasso di cambiamento di un sistema nel tempo e il valore iniziale è necessario per risolvere il problema. La soluzione di un'ODE è data da una funzione che dipende dal valore iniziale e le soluzioni numeriche alle ODE richiedono un'estrapolazione passo dopo passo. Il narratore presenta un problema ODE logistico per la crescita della popolazione e viene fornita la soluzione. Il narratore sottolinea che l'obiettivo di risolvere un problema di valore iniziale è trovare la soluzione per un punto di partenza specifico dato il campo vettoriale delle ODE. La difficoltà nel risolvere le ODE è sia risolvere l'integrale che gestire il termine differenziale. Il narratore suggerisce piccole dimensioni dei passi per le soluzioni numeriche delle ODE per approssimare accuratamente la vera soluzione.

  • 00:15:00 In questa sezione, Nathanael Bosch spiega diversi metodi numerici per risolvere equazioni differenziali ordinarie. Il primo metodo che presenta è l'approssimazione in serie di Taylor di ordine zero, in cui per l'approssimazione viene considerato solo il valore della funzione al passo temporale corrente. Questo porta al metodo Forward Euler, che è una formula semplice ed esplicita per calcolare il punto successivo nel tempo. Bosch osserva che sebbene questo metodo sia una cattiva approssimazione, è ancora ampiamente utilizzato nel software e nelle simulazioni dinamiche.

  • 00:20:00 In questa sezione, il video discute due metodi per risolvere le equazioni differenziali ordinarie (ODE): il metodo di Eulero in avanti e il metodo di Eulero all'indietro. Il metodo di Eulero in avanti utilizza la pendenza nel punto corrente per approssimare il valore nel punto successivo, mentre il metodo di Eulero all'indietro utilizza un'approssimazione in serie di Taylor attorno a Tau uguale a t più h. Il video fornisce esempi di codice per entrambi i metodi utilizzando l'ODE logistico, che produce soluzioni ragionevoli. Tuttavia, il video avverte che equazioni differenziali più complesse potrebbero richiedere ulteriori considerazioni nella scelta di un risolutore numerico. Inoltre, il video tocca la complessità dei metodi numerici e l'importanza di essere consapevoli degli algoritmi sottostanti quando si utilizzano pacchetti numerici.

  • 00:25:00 In questa sezione, il relatore discute la differenza tra metodi espliciti e impliciti nella risoluzione di equazioni differenziali ordinarie (ODE) e l'importanza della stabilità nella scelta dell'algoritmo appropriato. L'oratore confronta i metodi di Eulero in avanti e di Eulero all'indietro per una semplice ODE scalare, x' = λx, dove λ è minore di zero. Il metodo di Eulero in avanti è stabile solo per le dimensioni del passo dove 1 + hλ è minore di uno, mentre il metodo di Eulero all'indietro è stabile per tutte le dimensioni del passo. Il relatore dimostra che la scelta di una dimensione del passo inappropriata può portare a un comportamento divergente, sottolineando l'importanza della stabilità nella selezione di un metodo appropriato per risolvere le ODE.

  • 00:30:00 In questa sezione, Nathanael Bosch discute le differenze tra i metodi di Eulero in avanti e quelli di Eulero all'indietro per la risoluzione di equazioni differenziali ordinarie (ODE). Sebbene entrambi i metodi utilizzino una matematica simile, Eulero all'indietro richiede piccoli requisiti per la convergenza e può gestire aree rigide nelle ODE che Eulero in avanti non può. La quadratura numerica è necessaria e ci sono molti modi per farlo. Inoltre, la costruzione di X hat, l'approssimazione della funzione in un dato momento, è un altro problema per il quale metodi diversi danno risposte diverse. Nel complesso, la scelta del metodo dipende da fattori quali il tempo di calcolo e la pendenza prevista dell'ODE.

  • 00:35:00 In questa sezione, Nathanael Bosch spiega la formulazione generale dei metodi numerici per la risoluzione di equazioni differenziali ordinarie (ODE), che coinvolge tre variabili: bi, Qi e X hats. Introduce anche i tableau del macellaio come un modo per rendere più compatto e leggibile il discorso sui diversi metodi e sottolinea che i diversi modi per calcolare bi e Qi, nonché come costruire i cappelli X, sono ciò che rende ogni metodo unico. . Bosch fornisce esempi di diversi metodi numerici, incluso il più semplice, Eulero in avanti, che soddisfa l'equazione generale e ha un tableau macellaio che contiene zeri ma è ancora un metodo sufficientemente utile. Introduce anche Eulero all'indietro come metodo implicito che manca di uno zero ed è calcolato in modo leggermente diverso rispetto a Eulero in avanti.

  • 00:40:00 In questa sezione, il video esplora le diverse strategie che possono essere utilizzate per risolvere le equazioni differenziali ordinarie (ODE). Un suggerimento di un ascoltatore è stato quello di suddividere l'integrale in termini diversi e fare passi tra ogni termine, ma il presentatore spiega che ciò si tradurrebbe in un algoritmo diverso con proprietà diverse. Il video prosegue dimostrando l'esplicita regola del punto medio, che è vicina a fare due passi di Eulero, ma non proprio la stessa cosa. Il presentatore spiega che la regola del punto medio estrapola dal punto e riduce la cosa che Eulero in avanti ha fatto per ottenere una migliore estrapolazione. Inoltre, il video esplora il classico metodo del quarto ordine, chiamato così perché era il metodo originale sviluppato da Byron e Kota. Infine, il video fa notare che mentre c'è una certa libertà nella scelta dei coefficienti per risolvere le ODE, ci sono già centinaia di metodi conosciuti su Wikipedia.

  • 00:45:00 porta a due soluzioni. Nel metodo Dobre-Fermi, ci sono due righe alla fine perché fornisce due soluzioni ad ogni passaggio. Questo metodo è complicato perché soddisfa più proprietà e diventa più complesso quando il Tableau diventa più grande. L'obiettivo non dovrebbe essere capire come funziona il gradiente, ma piuttosto concentrarsi sulle proprietà che i coefficienti devono soddisfare. Il metodo è stato motivato dalle regole di quadratura e, sebbene possa non esserci una mappatura diretta alle ODE, sono ancora molto motivate dalle regole di quadratura.

  • 00:50:00 In questa sezione, il video illustra come la risoluzione di equazioni differenziali può essere complicata a causa dei metodi che mirano all'efficienza fornendo due metodi contemporaneamente con diversi gradi di precisione. Uno è più accurato dell'altro e l'utilizzo di quello più accurato può aiutare a stimare l'errore di quello meno accurato, il che può essere utile per regolare la dimensione del passo durante la risoluzione dell'ODE soddisfacendo alcuni errori locali. Il video menziona anche che esistono diversi tipi di metodi con proprietà diverse e anche la stabilità è un fattore da considerare quando si sceglie un metodo per risolvere un problema. Infine, il video tocca brevemente l'importanza dell'ordine nella risoluzione di equazioni differenziali.

  • 00:55:00 In questa sezione, Nathanael Bosch discute i diversi metodi per risolvere le equazioni differenziali ordinarie (ODE) e il compromesso tra accuratezza e complessità. Sottolinea l'importanza dell'errore locale, che misura l'errore in un singolo passo della stima, e come può essere ridotto riducendo la dimensione del passo. Vengono quindi discussi diversi metodi come i metodi Hard Euler e Explicit Midpoint, ciascuno con il proprio ordine e tasso di convergenza degli errori. Bosch tocca anche i vari campanelli e fischietti che derivano dall'utilizzo delle librerie per risolvere le ODE, come la selezione della dimensione del passo e la selezione automatica del server, ma avverte che è comunque importante comprendere la stabilità e l'ordine per evitare potenziali problemi quando le cose si rompono.

  • 01:00:00 In questa sezione del video, il relatore discute il problema della stima del campo vettoriale e del valore iniziale di un'equazione differenziale ordinaria (ODE) dai dati utilizzando tecniche di apprendimento automatico. Fornisce un esempio di un modello epidemiologico in cui l'obiettivo è stimare i parametri beta, gamma e lambda che adattano l'ODE ai dati osservati. Il relatore spiega che scrivere il modello generativo e il modello di osservazione per gli stati dell'ODE è essenziale per risolvere il problema dell'inferenza. Osserva che la stima dei parametri consente una migliore comprensione del processo che ha generato i dati e il controllo incrociato dei parametri dedotti con la letteratura può fornire ulteriori informazioni.

  • 01:05:00 In questa sezione, il relatore discute il problema dell'inferenza dei parametri e come calcolare la stima di massima verosimiglianza per risolvere equazioni differenziali ordinarie (ODE). La funzione di verosimiglianza è un prodotto di gaussiane che non può essere valutato a causa del presupposto che il vero X non può essere ottenuto, quindi è necessaria un'approssimazione. Supponendo che il risolutore sia abbastanza buono, l'oratore dimostra che inserire una soluzione stimata per la vera soluzione produce un termine valutabile. La funzione di verosimiglianza viene quindi massimizzata minimizzando la verosimiglianza logaritmica negativa e la funzione di perdita risultante fornisce una stima del parametro. Il relatore conclude con un esempio che utilizza un modello SIR-D in cui il numero di individui infetti all'inizio è sconosciuto e deve essere stimato.

  • 01:10:00 In questa sezione, il relatore discute come eseguire l'inferenza dei parametri su un modello di equazioni differenziali ordinarie (ODE). La simulazione del modello ODE viene eseguita prelevando campioni rumorosi da esso e vengono utilizzati due parametri per formare una funzione di perdita che viene calcolata confrontando le linee nel grafico a dispersione con i dati effettivi. L'ottimizzatore viene utilizzato per iterare sull'ipotesi iniziale e sui parametri e l'ottimizzatore L-BFGS viene utilizzato per generare dati di output. I dati risultanti possono essere utilizzati per interpretare il modello ei suoi parametri, che possono essere confrontati con la letteratura. Il modello viene quindi migliorato facendo variare la velocità di contatto nel tempo, il che lo rende leggermente più complesso, e l'intero processo di inferenza dei parametri viene ripetuto.

  • 01:15:00 In questa sezione, Nathanael Bosch discute le sfide della stima del beta di t, che descrive una stima variabile nel tempo di una frequenza di contatto nelle ODE, e sottolinea la necessità di strumenti migliori per risolvere il problema della stima. Per risolvere questo problema, propone di utilizzare una rete neurale per modellare beta di t e ridurre al minimo una funzione di perdita L2 nell'inferenza dei parametri. Sebbene l'approccio della rete neurale sia meno interpretabile e non fornisca buone stime dell'incertezza, fornisce una stima puntuale per la frequenza di contatto. Inoltre, i risultati suggeriscono che l'approccio della rete neurale necessita ancora di miglioramenti significativi per adattarsi all'adattamento del modello GP e le incertezze nei risultati dovrebbero essere prese in considerazione.

  • 01:20:00 In questa sezione, il relatore discute l'approccio dell'utilizzo delle reti neurali per risolvere le ODE e afferma che sebbene la quantificazione dell'incertezza non sia prontamente disponibile utilizzando questo metodo, è ancora un approccio concettuale valido. Vengono discusse le stime di massima verosimiglianza e viene menzionata la possibilità di aggiungere priori e campionamento per fornire una quantificazione dell'incertezza. Il relatore discute anche l'imminente argomento dei solutori di ODE numerici probabilistici e sottolinea l'importanza delle ODE nella ricerca sull'apprendimento automatico e il suo ruolo nella risoluzione dei problemi del mondo reale. Le ODE neurali sono anche brevemente menzionate come un approccio più generale e privo di struttura, ma con somiglianze nella funzione di perdita e nelle procedure di addestramento.
 

Lezione 7 -- Risolutori di ODE numeriche probabilistiche -- Nathanael Bosch



Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch

In questo video, Nathanael Bosch presenta il concetto di risolutori ODE numerici probabilistici, che combinano la stima dello stato e i risolutori ODE numerici per fornire distribuzioni sugli stati o soluzioni ODE. Bosch spiega come utilizzare un processo Wiener integrato Q volte per modellare la vera soluzione e come questo processo consenta di quantificare e propagare le incertezze nel sistema. Quindi dimostra come utilizzare i filtri di Kalman estesi per risolvere le ODE e come le dimensioni dei passi influiscono sulle stime degli errori. Il video si conclude con una discussione sulla calibrazione dell'incertezza e sull'utilizzo del filtro di Kalman esteso per stimare i parametri nei modelli di spazio degli stati non lineari.

Nella seconda parte della conferenza Nathanael Bosch parla dei vantaggi dell'utilizzo di metodi probabilistici per risolvere le ODE, incluso l'ottenimento di stime significative dell'incertezza e la flessibilità di includere funzionalità aggiuntive del modello come i valori iniziali. Dimostra questo approccio con esempi come l'oscillatore armonico e le equazioni algebriche differenziali. Bosch mostra anche come l'inclusione di informazioni aggiuntive e l'utilizzo di tecniche probabilistiche può portare a risultati più significativi, utilizzando un esempio di un modello epidemico che non è riuscito a rappresentare accuratamente i dati utilizzando metodi scalari tradizionali. Utilizza filtri e smoother di Kalman estesi per risolvere le ODE attraverso la stima dello stato, trattando la stima come un problema probabilistico e sottolinea l'importanza di essere bayesiani nel processo decisionale.

  • 00:00:00 In questa sezione, Nathanael Bosch introduce il concetto di risolutori di ODE numerici probabilistici. Inizia riassumendo le lezioni precedenti, inclusi i modelli dello spazio degli stati e filtri/livellatori comuni per la stima dello stato e risolutori numerici di ODE. Spiega che la sfida è stimare lo stato di una soluzione ODE data un'equazione differenziale e che i solutori numerici ODE forniscono solo un'approssimazione. Bosch propone quindi un modo per combinare i due concetti interpretando le ODE come problemi di stima dello stato e risolvendoli come problemi di stima dei dati. Gli algoritmi risultanti forniscono distribuzioni sugli stati o soluzioni ODE, creando server numerici probabilistici che offrono un output più ricco rispetto ai server classici.

  • 00:05:00 In questa sezione viene discusso il concetto di solutori di ODE numerici probabilistici. Questi risolutori stimano la vera soluzione fornendo una singola stima X hat attraverso la valutazione del campo vettoriale per aggiornare o estendere la stima a un punto temporale futuro con un errore che dipende dalla dimensione del passo. La discussione si sposta quindi sull'uso della stima di stati speciali come strumento per risolvere problemi di stima di EOD numeriche. Vengono quindi spiegati la distribuzione del filtraggio, il livellamento posteriore e il passo di previsione che stima gli stati futuri date le informazioni correnti, con algoritmi come il filtro di Kalman esteso e il livellatore di Kalman esteso menzionati come semplici metodi per calcolare queste quantità. La sezione si conclude con l'idea che le soluzioni numeriche di EDO possono essere formulate come un problema di inferenza piuttosto che cercare di calcolare l'effettiva soluzione vera, e che l'obiettivo è trovare il posteriore di x di t che soddisfi la condizione iniziale e ODE su un discreto insieme di punti.

  • 00:10:00 In questa sezione, ci addentriamo nella costruzione di un modello dello spazio degli stati per solutori numerici probabilistici di ODE. Lo stato che consideriamo è il processo di Wiener integrato Q volte. Questo stato è un processo stocastico che descrive il sistema dinamico e traccia le derivate fino a Q. Tracciando un numero limitato di derivate, possiamo ottenere un modello di stato probabilistico che ci permette di quantificare e propagare l'incertezza nel sistema. L'obiettivo principale è definire un modello a priori, una verosimiglianza e un modello di dati che, una volta risolti, ci forniranno una stima dell'output. Ciò è necessario per eseguire il filtraggio e il livellamento gaussiano, che è un algoritmo veloce per l'inferenza.

  • 00:15:00 In questa sezione, Nathanael Bosch spiega il processo stocastico che modella la vera soluzione di un processo Winner Q volte integrato. Il processo ha transizioni sotto forma di un modello gaussiano che utilizza una matrice a di H e una matrice di covarianza Q di H che hanno formule in forma chiusa. L'accesso a una voce nel processo è un'operazione lineare, che rende conveniente l'accesso alla prima e alla seconda derivata. Il processo è markoviano e soddisfa le proprietà di un processo gaussiano. Bosch mostra anche grafici di diversi campioni del processo, il che illustra perché viene chiamato processo lineare integrato due volte.

  • 00:20:00 In questa sezione, il relatore discute il Q times Integrated Ornstein-Uhlenbeck prima e come è conveniente perché possono annotare le densità di transizione necessarie per il filtraggio gaussiano e lo smoothing in seguito. Anche la parte relativa alla probabilità e alla combinazione dei dati è importante perché informa il precedente di fare la cosa desiderata in alto. Il relatore mostra come utilizzare il linguaggio dell'ODE e definisce una funzione di misurazione o un operatore di informazioni che dovrebbe essere zero in un mondo perfetto in cui esiste un calcolo infinito. Introducono anche un modello di osservazione e spiegano perché aiuta a soddisfare la cosa desiderata per l'inferenza. Infine, il modello di verosimiglianza senza rumore è un verosimile diretto, il che è conveniente perché tiene conto degli aggiornamenti del filtro di Kalman.

  • 00:25:00 In questa sezione, Nathanael Bosch discute il modello generativo per una Z, che è un esempio concreto dell'ODE logistica, e come si collega al processo di inferenza. Il modello generativo consente la simulazione delle soluzioni, il calcolo delle derivate e la generazione di un posteriore, che collassa attorno alla Z. Questo modello generativo, oltre al modello di verosimiglianza che codifica l'equazione differenziale, consente di risolvere e fornisce stime per la X, che si riferiscono alla soluzione. L'inferenza consente di stabilire una relazione tra il risultato finale precedente e quello desiderato e consente di risolvere il modello dello spazio degli stati.

  • 00:30:00 In questa sezione, Nathanael Bosch discute l'importanza di includere il valore iniziale quando si risolve un'equazione differenziale ordinaria attraverso metodi numerici probabilistici. Spiega che l'aggiunta di un'altra misurazione che dipende solo dal valore iniziale al modello di osservazione è un modo più generale per includere il valore iniziale. Fornisce quindi lo pseudocodice per il filtro di Kalman esteso e gli elementi costitutivi del filtro ODE necessari per implementare l'algoritmo e descrive il ciclo di filtraggio standard coinvolto nelle fasi di previsione e aggiornamento. L'algoritmo esteso soddisfa prima il valore iniziale e utilizza il modello di transizione A e Q per calcolare la dimensione del passo.

  • 00:35:00 In questa sezione, Nathanael Bosch dimostra il codice necessario per risolvere un'equazione differenziale ordinaria (ODE) utilizzando metodi numerici probabilistici in Julia. Osserva che mentre le formule possono sembrare complicate, le 10 righe di codice necessarie per impostare correttamente il modello sono semplici. Bosch mostra come il filtro di Kalman esteso sia implementato con solo due righe di codice e la notazione standard per la moltiplicazione con l'inverso sia sostituita con una soluzione numericamente stabile che risolve un sistema lineare. Definisce il campo vettoriale, l'intervallo di tempo iniziale e la vera soluzione per l'ODE logistica e dimostra come definire il precedente utilizzando il processo di Wiener integrato due volte. L'implementazione di Bosch dell'algoritmo del filtro di Kalman esteso corrisponde strettamente allo pseudocodice delle diapositive e la distribuzione iniziale che utilizza è arbitrariamente impostata su media zero e covarianza standard.

  • 00:40:00 In questa sezione, Nathanael Bosch mostra come utilizzare i filtri di Kalman estesi per risolvere le ODE e traccia le stime del filtro. Quindi gioca con le dimensioni dei passi, mostrando come le dimensioni dei passi più piccole riducono le incertezze e come quelle più grandi le aumentano. Spiega che l'incertezza non cresce solo nel tempo e le stime dell'errore sono un modello dell'errore che si sta verificando. Infine, dimostra che il livellamento generalmente migliora i risultati delle traiettorie, il che corrisponde alla motivazione di due lezioni fa. Tuttavia, le stime degli errori potrebbero essere migliorate ulteriormente, ma chiede al pubblico un contributo su come farlo.

  • 00:45:00 In questa sezione apprendiamo che la stima dell'errore per il risolutore ODE numerico probabilistico è troppo grande e deve essere corretta mediante la calibrazione dell'incertezza. L'iperparametro sigma al quadrato influenza direttamente le incertezze e deve essere impostato correttamente per ottenere stime di incertezza effettive che siano significative. La motivazione per l'impostazione degli iperparametri è simile a quella dei processi gaussiani, in cui gli iperparametri vengono stimati massimizzando la verosimiglianza dei dati dato il parametro. La probabilità dei dati può essere scomposta, rendendola comoda da esprimere e ottimizzare.

  • 00:50:00 In questa sezione, Nathanael Bosch discute l'uso del filtro di Kalman esteso per stimare i parametri in un modello di spazio degli stati non lineare. La P di z K dato Z1 fino a K meno 1 viene stimata utilizzando stime gaussiane e il cappello Sigma viene calcolato come argmax della stima di quasi massima verosimiglianza. Nei filtri ODE, è possibile calcolare la stima di massima verosimiglianza in forma chiusa utilizzando un modo ridimensionato di ricalibrare le stime dei parametri. Questo metodo produce stime migliori e corrisponde alla stima di massima verosimiglianza Sigma. Bosch spiega come ciò può essere implementato utilizzando una funzione di aggiornamento con un suffisso di calibrazione.

  • 00:55:00 In questa sezione, Nathanael Bosch discute il filtro di Kalman esteso (EKF) per i risolutori numerici probabilistici di equazioni differenziali ordinarie (ODE). Afferma che è stato modificato per aumentare il tratteggio sigma, il che comporta che la somma venga calcolata in modo continuo e divisa per n, che è la quantità che vogliono calcolare. L'EKF in precedenza stava cercando di approssimare qualcosa come gaussiano che potrebbe non essere, e l'obiettivo è ottenere stime di incertezza che siano il più informative possibile. In questo modo, hanno ottenuto un algoritmo che fornisce utili stime di errore che descrivono in modo significativo l'errore numerico del risolutore ODE. L'algoritmo ottenuto è veloce e fornisce stime di incertezza non perfette ma comunque utili.

  • 01:00:00 In questa sezione, Nathanael Bosch spiega la motivazione per l'utilizzo di metodi probabilistici per risolvere le ODE. Oltre alla semplice quantificazione dell'incertezza e all'ottenimento di stime e grafici significativi dell'incertezza, Bosch ritiene che formulare risolutori ODE in modo probabilistico sia flessibile e conveniente, consentendo l'inclusione di caratteristiche aggiuntive del modello come i valori iniziali. Definendo un modello dello spazio degli stati ed eseguendo un filtro di Kalman esteso, è possibile risolvere non solo problemi numerici con valore iniziale ma anche ODE di ordine superiore con informazioni aggiuntive.

  • 01:05:00 In questa sezione, Nathanael Bosch spiega un approccio diverso ai valori iniziali per i solutori ODE. Definisce una nuova quantità per assicurarsi che X1 sia uguale alla derivata iniziale fornita e questa può essere utilizzata per eseguire un filtro di comando esteso con alcuni passaggi di previsione e aggiornamento. Mostra l'esempio dell'oscillatore armonico e di come fosse necessario modificare solo due righe rispetto a prima per includere un aggiornamento sulla derivata prima. La calibrazione viene applicata di nuovo per risultati significativi e l'errore in questo caso non tende a zero in quanto non vi è alcun attrattore verso cui tendere, ma si regola invece in base all'impostazione del problema. Bosch discute anche di equazioni algebriche differenziali, che sono equazioni differenziali che non possono essere spostate da sinistra a destra a causa di una matrice singolare.

  • 01:10:00 In questa sezione, il relatore discute il concetto di equazioni algebriche differenziali (DAE), che sono equazioni che non descrivono una derivata e hanno un valore costante a un certo punto. Il relatore suggerisce una modifica all'algoritmo di verosimiglianza ODE per creare un algoritmo di verosimiglianza DAE in grado di risolvere DAE in modo probabilistico. Il relatore fornisce quindi un esempio di un problema in cui un'ODE ha informazioni aggiuntive e suggerisce una modifica al modello dello spazio degli stati per introdurre un modello di osservazione aggiuntivo in modo che l'algoritmo possa applicare entrambi i modelli di osservazione per soddisfare g sulla griglia discreta. Il relatore fornisce un esempio video che illustra l'importanza delle quantità di conservazione nella risoluzione dei problemi con le ODE e ulteriori informazioni.

  • 01:15:00 In questa sezione del video, Nathanael Bosch discute l'uso di solutori ODE numerici probabilistici e i vantaggi dell'inclusione di informazioni aggiuntive per migliorare i risultati dei modelli ODE. Presenta un esempio di modello epidemico, in cui il modello scalare tradizionale non è riuscito a rappresentare accuratamente i dati, e mostra come un processo gaussiano può essere utilizzato per migliorare il modello. L'aggiunta di ulteriori informazioni e l'utilizzo di tecniche probabilistiche può in definitiva portare a un risultato più significativo.

  • 01:20:00 In questa sezione, Bosch illustra i risolutori di ODE numerici probabilistici, che comportano l'utilizzo di un operatore di misurazione lineare per misurare determinate dimensioni di una soluzione di un'ODE, rappresentata come un oggetto quadridimensionale (sirnd). Dopo aver creato un modello dello spazio degli stati, la soluzione ODE viene risolta, con l'aggiunta di uno stato beta, e vengono considerati i modelli di verosimiglianza della soluzione ODE, il valore iniziale ei dati. L'attività di inferenza prevede l'utilizzo di un filtro di Kalman esteso per determinare quali sono i punti bianchi, dati i punti neri dei dati osservati. Si suggerisce inoltre di unire X e beta per una riformulazione più semplice.

  • 01:25:00 In questa sezione, il relatore spiega come funzionano i risolutori di ODE numeriche probabilistiche, che è essenzialmente un modo per risolvere le ODE attraverso la stima dello stato, trattando la stima come un problema probabilistico. Definisce un metodo per risolvere le ODE utilizzando filtri e smoother di Kalman estesi che portano a una gamma di risolutori a volte indicati come "filtri ODE". Il relatore sottolinea l'importanza di essere bayesiani nel processo decisionale e l'utilità delle stime dell'incertezza, nonché la comodità di utilizzare algoritmi pazienti che possono essere applicati a una serie di problemi, inclusa la risoluzione di ODE.

  • 01:30:00 In questa sezione, il relatore parla dell'utilizzo di filtri di comando esterni in modo non standard per risolvere problemi numerici ed eseguire inferenze dai dati in un modo che combini fisica e osservazioni esterne generali. Secondo il relatore, il filtraggio bayesiano e il livellamento sono il modo migliore per modellare o formulare sistemi dinamici, in quanto consentono l'aggiunta flessibile di informazioni e la fattorizzazione dell'algoritmo di inferenza. Il pubblico è incoraggiato a scansionare i codici QR per il feedback e le domande per il relatore sono benvenute.
 

Lezione 8 -- Equazioni alle derivate parziali -- Marvin Pförtner



Numerics of ML 8 -- Equazioni alle derivate parziali -- Marvin Pförtner

Marvin Pförtner discute le equazioni alle derivate parziali (PDE) e il loro significato nella modellazione di vari sistemi del mondo reale. Spiega come le PDE rappresentano il meccanismo di un sistema con una funzione sconosciuta e un operatore differenziale lineare, ma richiedono la risoluzione di parametri che sono spesso sconosciuti. L'inferenza del processo gaussiano può essere utilizzata per analizzare i modelli PDE e iniettare conoscenza meccanicistica nei modelli statistici. Pförtner esamina la distribuzione del calore in un'unità di elaborazione centrale in un computer limitando il modello a una distribuzione del calore bidimensionale e presentando le ipotesi fatte per il modello. La lezione copre anche l'uso dei processi gaussiani per risolvere le PDE e l'aggiunta di condizioni al contorno realistiche per modellare l'incertezza. Nel complesso, l'approccio GP combinato con la nozione di operatore informativo ci consente di incorporare conoscenze precedenti sul comportamento del sistema, iniettare conoscenza meccanicistica sotto forma di una PDE lineare e gestire condizioni al contorno e lati destri.

Nella seconda parte di questo video, Marvin Pförtner illustra l'utilizzo dei processi gaussiani per risolvere equazioni alle derivate parziali (PDE) stimando una misura di probabilità su funzioni piuttosto che una stima puntuale. Spiega i vantaggi della quantificazione dell'incertezza e osserva che questo approccio è più onesto perché riconosce l'incertezza nella stima della funzione del lato destro della PDE. Pförtner spiega anche il kernel Matern, che è utile nella pratica e può controllare la differenziabilità del GP, e fornisce una formula per calcolare il parametro P per il kernel Matern. Spiega inoltre come costruire un kernel d-dimensionale per PDE prendendo i prodotti di kernel Matern unidimensionali sulle dimensioni e l'importanza di essere matematicamente attenti nella costruzione del modello.

  • 00:00:00 In questa sezione della conferenza, Marvin Pförtner introduce le equazioni alle derivate parziali (PDE) e la loro importanza nella descrizione dei modelli meccanicistici che generano dati nel mondo reale, compresi i mercati finanziari, i fluidi come il clima e il tempo e la meccanica delle onde . Nonostante siano difficili da risolvere, le PDE lineari continuano a essere un potente linguaggio di modellazione, poiché descrivono accuratamente molti processi fisici come la conduzione termica, l'elettromagnetismo e le velocità delle particelle nel moto browniano. La lezione si concentra in particolare sull'integrazione di modelli basati su PDE in modelli probabilistici di machine learning attraverso un esempio pratico di modellazione.

  • 00:05:00 In questa sezione, Marvin Pförtner discute l'uso di equazioni alle derivate parziali (PDE) per modellare vari sistemi, inclusi modelli fisici e finanziari. Sottolinea l'importanza di comprendere il comportamento del meccanismo di un sistema e dedurne il comportamento con l'uso di modelli PDE. Tuttavia, le PDE spesso richiedono parametri di sistema sconosciuti e l'obiettivo è utilizzare la stima statistica bayesiana per fondere la conoscenza meccanicistica del sistema con i dati di misurazione per trovare questi parametri sconosciuti e acquisire fiducia nelle previsioni. Marvin spiega anche le PDE lineari e come si relazionano ai sistemi fisici con estensione spaziale.

  • 00:10:00 In questa sezione, Marvin Pförtner discute le equazioni alle derivate parziali (PDE), che sono comunemente utilizzate per descrivere sistemi fisici come le distribuzioni di temperatura o la forza generata da un insieme di cariche elettriche. La funzione sconosciuta in una PDE rappresenta il sistema che viene simulato e la conoscenza meccanicistica è data da un operatore differenziale lineare. Tuttavia, una sfida con le PDE è che di solito non hanno una soluzione analitica e richiedono solutori numerici che introducono errori di discretizzazione. I parametri del materiale e la funzione del lato destro sono due dei parametri che non possono essere conosciuti esattamente, causando difficoltà nella propagazione delle incertezze attraverso i risolutori classici. Inoltre, le PDE di solito non identificano in modo univoco la loro soluzione, richiedendo l'imposizione di condizioni aggiuntive.

  • 00:15:00 In questa sezione, il relatore discute le equazioni alle derivate parziali (PDE) e la loro relazione con le funzioni, che sono oggetti a dimensione infinita. L'operatore differenziale è lineare, il che significa che le funzioni lineari si trovano nel nocciolo dell'operatore differenziale, consentendo l'aggiunta di un termine lineare a qualsiasi soluzione dell'equazione di Poisson e ottenendo comunque una soluzione. Le condizioni al contorno sono necessarie per modellare le interazioni al di fuori del dominio della simulazione, che vengono poi riassunte nel modo in cui l'esterno interagisce con la simulazione al confine. Le PDE sono affermazioni su funzioni che appartengono a spazi funzionali, che sono insiemi di funzioni che hanno una struttura di spazio vettoriale simile a quella di Rn, consentendo la rappresentazione di operatori lineari mediante matrici. Gli operatori lineari sono mappe tra spazi funzionali che hanno una proprietà di linearità perché un operatore differenziale mappa una funzione sulla sua derivata.

  • 00:20:00 In questa sezione, Pförtner spiega che le PDE lineari sono essenzialmente sistemi lineari in uno spazio vettoriale a dimensione infinita e trasmette l'importanza di definire norme sugli spazi vettoriali e comprendere la convergenza. Quindi introduce un modello matematico della distribuzione del calore in un'unità di elaborazione centrale in un computer e limita il modello a una distribuzione del calore bidimensionale su una linea che taglia il chip. La conferenza discute le ipotesi fatte per questo modello e come sia un buon modello per questo caso particolare.

  • 00:25:00 In questa sezione, il relatore discute la modellazione delle sorgenti di calore e dei dissipatori di calore in un chip e come può essere rappresentata utilizzando equazioni alle derivate parziali (PDE). Spiegano l'equazione del calore, che è una PDE lineare del secondo ordine e come può essere applicata per modellare la distribuzione della temperatura nel chip. Il relatore spiega anche come la conoscenza meccanicistica dall'equazione differenziale può essere iniettata in modelli statistici interpretando le PDE come un'osservazione della funzione sconosciuta e l'immagine sotto l'operatore differenziale. Le PDE sono paragonate a leggi fondamentali della fisica che descrivono la conservazione di grandezze fondamentali come l'energia e la massa.

  • 00:30:00 In questa sezione, Marvin Pförtner discute la relazione tra temperatura ed energia termica e come sono proporzionali l'una all'altra attraverso i parametri del materiale. Spiega che ogni cambiamento nell'energia termica può essere spiegato da un valore noto di calore che entra nel sistema o dal calore che fluisce in un certo punto dall'ambiente circostante attraverso la conduzione del calore. Quindi introduce l'operatore di informazione come un concetto matematico che può essere utilizzato per esprimere qualsiasi informazione, inclusa quella di un'equazione differenziale. Spiega inoltre come un processo gaussiano precedente può essere utilizzato per modellare una funzione sconosciuta U e come il posteriore può essere calcolato utilizzando chiusure di processi gaussiani sotto osservazioni lineari. Tuttavia, poiché la risoluzione delle PDE richiede un insieme infinito di osservazioni, è computazionalmente impossibile per la maggior parte dei casi, a meno che non si conoscano informazioni analitiche sul problema da risolvere.

  • 00:35:00 In questa sezione, il relatore discute l'utilizzo dei processi gaussiani (GP) per risolvere equazioni alle derivate parziali (PDE), che è simile all'approccio utilizzato nelle equazioni differenziali ordinarie (ODE). Il GP è visto come una misura di probabilità su spazi funzionali e un operatore lineare mappa i percorsi del campione di quel GP su RN. Il predittivo a priori di questo processo risulta essere una distribuzione normale, con la media data dall'immagine della funzione media GP attraverso l'operatore lineare, e la matrice di covarianza è molto simile alla matrice di covarianza trovata nel caso di dimensione finita. Il retro di questo evento risulta avere effettivamente una struttura simile ad esso. L'oratore osserva che sono coinvolti molti dettagli teorici ed è necessaria cautela a causa delle infinite implicazioni nella risoluzione delle PDE utilizzando i GP.

  • 00:40:00 In questa sezione, Marvin Pförtner spiega come calcolare una scelta specifica di un operatore lineare e le difficoltà nell'esprimerlo nella notazione dell'operatore lineare standard. Discute anche come differenziare un argomento, differenziare l'altro argomento e costruire una matrice di tutte le derivate a coppie tra due punti. Poi parla di come utilizzare lo stesso teorema per applicarlo al problema e calcolare il processo gaussiano posteriore, e come definire l'insieme dei punti di collocazione.

  • 00:45:00 In questa sezione, il relatore spiega come una forma generalizzata di inferenza del processo gaussiano può risolvere un problema di valore limite. Descrivono come le osservazioni possono essere rappresentate utilizzando una funzione nera che corrisponde al lato destro dell'equazione differenziale parziale (PDE) e come le informazioni apprese da questo possono essere propagate al processo gaussiano originale. Il grado di libertà nella PDE che le condizioni al contorno non fissano può causare incertezza, ma imponendo le condizioni al contorno di Dirichlet, il posteriore diventa un normale problema di regressione del processo gaussiano, che funziona se si osservano i due valori al contorno. Il relatore sottolinea l'importanza di notare che i valori limite nella distribuzione di solito non sono noti e sarebbe utile aggiungere incertezza sia ai valori limite che alla distribuzione della fonte di calore.

  • 00:50:00 In questa sezione, il relatore discute condizioni al contorno più realistiche per equazioni alle derivate parziali. Afferma che il calore viene estratto uniformemente su tutta la superficie della CPU e questa informazione può essere modellata come condizioni al contorno di Neumann in cui viene impostata la derivata prima di un punto al contorno invece del valore del punto al contorno. In questo modo, possiamo aggiungere incertezza al modello e utilizzare una distribuzione gaussiana per modellare la derivata. Un operatore di informazioni aggiuntive viene utilizzato per descrivere questa condizione al contorno. L'oratore spiega inoltre come la scala assoluta del sistema sia determinata utilizzando termometri all'interno della CPU, e anche come si possano ottenere stime incerte della funzione modellando una credenza precedente utilizzando un altro processo gaussiano.

  • 00:55:00 In questa sezione, Marvin Pförtner discute come integrare le conoscenze pregresse sul comportamento di un sistema nel modello, con l'aiuto dei processi gaussiani e degli operatori informativi. Afferma che è essenziale scegliere la funzione di destra per il modello integrabile a zero per evitare che il sistema si riscaldi continuamente. Pförtner procede quindi a discutere le sfide per garantire che il GP abbia l'area uno in tutti i suoi campioni e come possono essere risolti aggiungendo ulteriori vincoli, inclusi gli effetti di confine, che tengono conto del calore che esce attraverso il confine. Infine, Pförtner conclude che questo approccio GP combinato con la nozione di un operatore di informazioni ci consente di incorporare conoscenze precedenti sul comportamento del sistema, iniettare conoscenza meccanicistica sotto forma di una PDE lineare e gestire condizioni al contorno e lati destri.

  • 01:00:00 In questa sezione, Marvin Pförtner discute l'uso dei processi gaussiani per risolvere equazioni alle derivate parziali (PDE) stimando una misura di probabilità su funzioni invece di una stima puntuale, che può fornire intervalli di confidenza e campioni che soddisfano le condizioni della PDE . Spiega che questo approccio è più onesto perché riconosce l'incertezza nella stima della funzione del lato destro della PDE e che può essere applicato alle simulazioni 2D, così come alle simulazioni con il tempo come un'altra dimensione spaziale. Pförtner osserva che la media a posteriori di questo metodo, assumendo l'assenza di incertezza, è equivalente a un metodo classico chiamato collocazione simmetrica. Infine, spiega che altri metodi per risolvere le PDE, come il residuo pesato, il volume finito e i metodi spettrali, possono anche essere realizzati come mezzi posteriori di un processo gaussiano, solo senza la quantificazione dell'incertezza.

  • 01:05:00 In questa sezione, il relatore spiega come i processi gaussiani (GP) possono essere utilizzati per risolvere equazioni alle derivate parziali lineari (PDE) e possono anche realizzare regressioni per la stima di funzioni. Sottolineano l'importanza di scegliere le funzioni giuste e prima di lavorare con, così come i vantaggi della quantificazione dell'incertezza. Il relatore rileva anche i casi di fallimento, come quando i percorsi campionari dei MMG non sono differenziabili, e la necessità di verificare condizioni importanti per rendere tutto rigoroso. La sezione si conclude con un teaser di una prossima pubblicazione del gruppo del relatore che approfondirà i dettagli formali di questi teoremi.

  • 01:10:00 In questa sezione, il relatore discute come vengono definiti e utilizzati i processi gaussiani (GP) per modellare funzioni sconosciute. I GP sono raccolte di variabili casuali a valori reali, una per ogni punto nel loro dominio. Sono usati per rappresentare funzioni, ma conosciamo solo la combinazione finita di valutazioni del GP. Per ottenere un percorso campione di un GP, abbiamo bisogno di campionare continuamente una funzione fissando un Omega e trasformandolo attraverso tutte le funzioni. Ci assicuriamo che i percorsi dei campioni siano sufficientemente differenziabili per assicurarci che siano definiti. Inoltre, per calcolare LF, l'immagine di un GP sotto un operatore lineare L, fissiamo un Omega e applichiamo L alla funzione corrispondente.

  • 01:15:00 In questa sezione, il relatore spiega come un percorso campione può essere mappato attraverso un operatore lineare per creare un oggetto a dimensione infinita chiamato GP, che viene successivamente trasformato in una variabile casuale che deve essere misurabile. Notano che i percorsi dei campioni del GPS vengono trasformati in uno spazio di Hilbert del kernel in riproduzione scegliendo un kernel appropriato, tuttavia, lo spazio di Hibbert del kernel in riproduzione del kernel effettivo del GP non è lo spazio da cui provengono i campioni e uno spazio più ampio deve essere scelto in cui questi campioni sono contenuti. Il relatore prosegue discutendo il kernel Matern, che è utile nella pratica e può controllare la differenziabilità del GP, e fornisce una formula per calcolare il parametro P per il kernel Matern, che può aiutare a generalizzare il processo.

  • 01:20:00 In questa sezione, il relatore spiega come costruire un kernel d-dimensionale per equazioni alle derivate parziali (PDE) prendendo prodotti di kernel Matern unidimensionali sulle dimensioni, specialmente se ci sono ordini misti delle derivate. Questo aiuta ad adattarsi all'equazione concreta che gli utenti stanno cercando di risolvere. Inoltre, il GPS fornisce un framework per combinare varie fonti di informazioni in un unico modello di regressione utilizzando operatori di informazioni affini. Il relatore sottolinea l'importanza di essere matematicamente attenti nella costruzione del modello, in particolare quando si costruisce il precedente per una specifica equazione.
 

Lezione 9 -- Montecarlo -- Philipp Hennig



Numeri di ML 9 -- Monte Carlo -- Philipp Hennig

In questo video sull'argomento Monte Carlo, Philipp Hennig spiega come l'integrazione sia un problema fondamentale nell'apprendimento automatico quando si tratta di inferenza bayesiana utilizzando il teorema di Bayes. Introduce l'algoritmo Monte Carlo come un modo specifico di fare integrazione e fornisce una breve storia del metodo. Discute anche le proprietà degli algoritmi Monte Carlo, come la stima imparziale e la riduzione della varianza con un aumento del numero di campioni. Inoltre, Hennig approfondisce l'algoritmo Metropolis-Hastings, Markov Chain Monte Carlo e Hamiltonian Monte Carlo, fornendo una panoramica delle proprietà di ciascun algoritmo e di come funzionano durante il campionamento da una distribuzione di probabilità. In definitiva, Hennig sottolinea l'importanza di capire perché vengono utilizzati gli algoritmi, piuttosto che applicarli ciecamente, per ottenere risultati ottimali ed efficienti.

Nella seconda parte del video, Philipp Hennig discute i metodi Monte Carlo per distribuzioni ad alta dimensione, in particolare l'algoritmo No U-turn Sampler (NUTS) che risolve il problema con l'idea dell'inversione a U di rompere l'equilibrio dettagliato. Hennig sottolinea che sebbene questi algoritmi siano complessi e difficili da implementare, comprenderli è fondamentale per utilizzarli in modo efficace. Mette anche in dubbio l'approccio istintivo al calcolo dei valori attesi utilizzando i metodi Monte Carlo e suggerisce che potrebbero esserci altri modi per approssimare senza casualità. Hennig discute il concetto e le limitazioni della casualità, la mancanza di tassi di convergenza per i metodi Monte Carlo e propone la necessità di considerare altri metodi per l'apprendimento automatico piuttosto che fare affidamento sulla casualità deterministica.

  • 00:00:00 In questa sezione, l'istruttore introduce l'argomento dell'integrazione, che è un problema fondamentale nell'apprendimento automatico quando si esegue l'inferenza bayesiana per calcolare le distribuzioni condizionali posteriori utilizzando il teorema di Bayes. Spiega che questo processo contiene un integrale, che rappresenta il marginale calcolato come valore atteso di una distribuzione condizionale. L'istruttore sottolinea l'importanza di sapere come eseguire correttamente l'integrazione e introduce l'algoritmo Monte Carlo come un modo specifico di fare l'integrazione. Fornisce una breve storia di Monte Carlo e riflette sul motivo per cui è importante capire perché vengono utilizzati gli algoritmi, piuttosto che applicarli alla cieca.

  • 00:05:00 In questa sezione, Philipp Hennig racconta la storia di come furono sviluppate le simulazioni Monte Carlo per aiutare a progettare una bomba nucleare negli anni '40. Il problema era ottimizzare la geometria per ottenere un'esplosione e la soluzione era usare simulazioni Monte Carlo per approssimare integrali con somme. A tale scopo è stato inventato il computer analogico Fermi, che consiste in due ruote e una penna per simulare il percorso di un neutrone utilizzando numeri casuali estratti da un dado. Sebbene questo processo sembri semplice, questo metodo è stato il primo passo per sviluppare simulazioni Monte Carlo per vari campi.

  • 00:10:00 In questa sezione, il concetto di simulazioni Monte Carlo viene spiegato come un modo per stimare un valore atteso sostituendo l'integrale con una somma sulle valutazioni di una funzione nei punti tratti da una distribuzione. Questo è uno stimatore imparziale con una varianza che diminuisce all'aumentare del numero di campioni, risultando in un errore che scende come uno sopra la radice quadrata del numero di campioni. Mentre gli statistici sostengono che questo è il tasso ottimale per stimatori imparziali, i matematici numerici considerano questo tasso piuttosto lento, con i tassi polinomiali preferiti. Tuttavia, questo metodo ha i suoi vantaggi, come l'assenza di dimensionalità, in quanto la varianza non dipende dalla dimensionalità della distribuzione sottostante.

  • 00:15:00 In questa sezione, Philipp Hennig affronta il dibattito sulla dimensionalità del problema Monte Carlo. Sebbene esista una varianza di f sotto p, che potrebbe essere correlata alla dimensionalità del problema, l'argomento è che non dipende dalla dimensionalità. Tuttavia, in alcuni problemi strutturati, la varianza può esplodere esponenzialmente velocemente in funzione della dimensionalità. Tuttavia, le applicazioni più interessanti del campionamento Monte Carlo sono insensibili alla dimensionalità del problema, consentendo il calcolo di problemi ad alta dimensione. Hennig discute anche il classico esempio di calcolo di Pi usando il campionamento Monte Carlo, dove converge verso la verità con un tasso dato dall'inverso della radice quadrata del numero di campioni.

  • 00:20:00 In questa sezione, Philipp Hennig discute i metodi Monte Carlo per l'approssimazione degli integrali. Spiega come funziona questo metodo estraendo un gran numero di campioni da una distribuzione e calcolando il valore atteso in quelle simulazioni. Questa può essere una buona soluzione quando è necessaria una stima approssimativa, ma non è pratica per risposte molto precise. Hennig parla anche dei modi per costruire campioni da distribuzioni con cui è difficile lavorare, come il campionamento del rifiuto e il campionamento importante, ma osserva che questi metodi non si adattano bene alle dimensioni elevate.

  • 00:25:00 In questa sezione viene discussa l'idea di generare variabili casuali basate su una distribuzione ad alta dimensione. Il metodo standard per questo è chiamato catena di Markov Monte Carlo, che si basa su una struttura che si muove iterativamente in avanti con una memoria finita. Un metodo di questo tipo è l'algoritmo di Metropolis Hastings che prevede la costruzione di una catena di Markov e l'andare in una nuova posizione utilizzando una distribuzione proposta e un rapporto tra la distribuzione da cui si estrae e la distribuzione proposta. Questo algoritmo è stato inventato da un gruppo di fisici nucleari negli anni '50, che stavano lavorando all'ottimizzazione delle geometrie delle armi nucleari, ed è ancora ampiamente utilizzato oggi.

  • 00:30:00 In questa sezione, Philipp Hennig discute l'algoritmo Metropolis-Hastings, che è un tipo di algoritmo Monte Carlo a catena di Markov usato per campionare da una distribuzione di probabilità. Dimostra come l'algoritmo genera punti attingendo da una distribuzione di proposte e accettandoli o rifiutandoli in base alla loro densità di probabilità. Hennig sottolinea inoltre l'importanza di utilizzare una distribuzione della proposta adeguatamente adattata al fine di esplorare efficacemente la distribuzione campionata. L'algoritmo Metropolis-Hastings ha due proprietà importanti, l'equilibrio dettagliato e l'ergodicità, che assicurano che il processo di esecuzione dell'algoritmo per lungo tempo produca una distribuzione stazionaria data dalla distribuzione campionata.

  • 00:35:00 In questa sezione, Philipp Hennig discute le proprietà degli algoritmi che hanno almeno una distribuzione stazionaria, che è una sequenza che è aperiodica e ha ricorrenza positiva, il che significa che c'è una probabilità diversa da zero di tornare a quel punto in un punto futuro. L'algoritmo non deve avere alcuna struttura che possa bloccarlo in un'altra distribuzione stazionaria. Metropolis Hastings, ad esempio, è un algoritmo che soddisfa queste due proprietà. Tuttavia, ha un tasso peggiore rispetto al semplice Monte Carlo e può avere comportamenti di lavoro casuali locali. Il numero di campioni effettivi estratti dall'algoritmo ha qualcosa a che fare con la lunghezza del passo libero dell'autostrada o la lunghezza del tempo libero tra due campioni alle estremità completamente opposte della distribuzione.

  • 00:40:00 In questa sezione, il relatore discute i metodi Monte Carlo e come valutarli. Spiega che per viaggiare da un'estremità all'altra della distribuzione, è necessario utilizzare un gran numero di passi proporzionali al quadrato del rapporto tra scale di lunghezza lunghe e piccole, risultando in tassi di convergenza che sono ancora o della radice quadrata di t ma con un enorme multiplo davanti. Afferma che una sfida con Monte Carlo è che se guardi solo le statistiche di questi punti blu, senza sapere quale sia la forma della distribuzione e senza avere i punti rossi come riferimenti, non è del tutto ovvio come noterai che questo è il caso. Infine, parla dell'Hamiltoniano Monte Carlo, che sostiene sia l'"atomo" della catena di Markov Monte Carlo, ed è l'algoritmo comune utilizzato per ricavare dalla distribuzione di probabilità P di x.

  • 00:45:00 In questa sezione, Philipp Hennig spiega il concetto di Hamiltonian Monte Carlo (HMC), un metodo utilizzato per estrarre campioni da una distribuzione di probabilità. In HMC, la quantità di variabili è raddoppiata, con una nuova variabile che rappresenta la quantità di moto della variabile esistente. La variabile quantità di moto viene quindi evoluta secondo una funzione che definisce un'equazione differenziale ordinaria, con H che rappresenta l'energia e K che rappresenta l'energia cinetica. La derivata temporale di X è data dalla derivata parziale di H rispetto a P, e la derivata temporale di P è data da meno la derivata parziale di H rispetto a X. Se l'algoritmo riesce a prelevare campioni dalla distribuzione congiunta su X e P, attinge marginalmente dalla distribuzione su X.

  • 00:50:00 In questa sezione, Philipp Hennig discute l'implementazione di un risolutore di equazioni differenziali ordinarie (ODE) per la derivata della probabilità di un dato stato utilizzando il metodo di Hoyn, che ha tassi di convergenza di ordine due. Quindi confronta questo con l'utilizzo di una libreria software e mostra come il risolutore simula la dinamica di un sistema hamiltoniano, che è una particella di massa 1 che si muove in un potenziale dato dal logaritmo di una forma, producendo infine bei campioni. Sebbene richieda un numero piuttosto costante di passi per simulare, Hennig osserva che lo schema Metropolis-Hastings accetta sempre e l'algoritmo esegue passi che non si muovono a una distanza data da scale lunghe su scale corte quadrate, ma senza una radice quadrata, rendendolo infine un algoritmo più efficiente.

  • 00:55:00 In questa sezione, Philipp Hennig spiega come funziona l'algoritmo hamiltoniano Monte Carlo. Questo algoritmo attinge da una distribuzione congiunta su X e P su una linea di potenziale costante. La linea potenziale viene scelta dalla quantità di moto iniziale e, ad ogni passo, la quantità di moto viene modificata per spostarsi su una diversa linea potenziale. Hennig confronta l'algoritmo con un problema di ottimizzazione e osserva che ha due parametri chiamati passi LeapFrog e delta T che devono essere scelti correttamente affinché l'algoritmo funzioni in modo efficace. Se i parametri sono impostati in modo errato, la simulazione potrebbe sprecare risorse computazionali spostandosi avanti e indietro senza spostarsi effettivamente da nessuna parte.

  • 01:00:00 In questa sezione, Philipp Hennig discute l'idea di un'inversione a U e l'algoritmo No U-turn Sampler (NUTS) nei metodi Monte Carlo per distribuzioni ad alta dimensione. Il problema con l'idea dell'inversione a U è che rompe l'equilibrio dettagliato e fa allontanare l'algoritmo e non tornare indietro. L'algoritmo NUTS supera questo problema avviando due catene di Markov in direzioni opposte e aspettando che una inizi a girare, quindi scegliendone una a caso. Ciò soddisfa un equilibrio dettagliato ed è un componente chiave di molti algoritmi Monte Carlo della catena di Markov. Hennig sottolinea che sebbene questi algoritmi siano complessi e difficili da implementare, comprenderli è fondamentale per utilizzarli in modo efficace.

  • 01:05:00 In questa sezione, il relatore discute l'approccio istintivo al calcolo dei valori attesi nell'inferenza bayesiana utilizzando i metodi Monte Carlo, e sottolinea il basso tasso di convergenza e la necessità di stimatori imparziali. Tuttavia, il relatore mette in primo luogo in dubbio la necessità di stimatori imparziali e casualità e suggerisce che potrebbero esserci altri modi per approssimare la quantità di interesse senza casualità. Il relatore tocca anche il concetto di casualità e la sua relazione con sequenze e sequenze finite calcolate su una macchina di Turing.

  • 01:10:00 In questa sezione, Philipp Hennig discute il concetto di casualità attraverso diverse sequenze di numeri. Sostiene che alcune sequenze, come quelle prodotte dai dadi, sono state culturalmente accettate come casuali anche se non sono veramente casuali. D'altra parte, i numeri irrazionali come pi greco non sono casuali, ma mancano anche di struttura. Inoltre, Hennig spiega come un seme può alterare la casualità di una sequenza prodotta da un generatore di numeri casuali. Infine, discute di come le macchine fisiche che hanno prodotto numeri casuali sono state testate per la casualità, ma alla fine hanno fallito i test Die Hard of Randomness.

  • 01:15:00 In questa sezione, Philipp Hennig discute la casualità e come si collega all'apprendimento automatico, in particolare ai metodi Monte Carlo. Spiega che la casualità ha a che fare con la mancanza di informazioni, motivo per cui è applicabile in aree come la crittografia in cui qualcuno che sa qualcosa è importante. Per i tipi di numeri casuali utilizzati nell'apprendimento automatico contemporaneo, è fuorviante parlare di questa mancanza di informazioni. Quando si utilizza un metodo Monte Carlo, gli autori di articoli scientifici che si affidano a metodi Monte Carlo spesso nascondono informazioni ai loro spettatori. Lo usano perché è facile da usare e implementare, non perché è di parte.

  • 01:20:00 In questa sezione, Philipp Hennig spiega come funziona la catena di Markov Monte Carlo (MCMC) e che funziona relativamente bene per problemi di alta dimensionalità, anche se non ne conosciamo i tassi di convergenza. MCMC è l'unico algoritmo per il quale disponiamo di garanzie teoriche che si basano sull'utilizzo di numeri casuali, ma è accettato che i campioni prodotti da questo approccio siano utili in assenza di altri metodi con cui confrontare. Hennig discute anche che MCMC è fondamentalmente molto lento e laborioso e che potrebbero esserci modi migliori per approssimare gli integrali. Avverte che gli algoritmi che esamineranno la prossima settimana funzioneranno in genere solo per problemi a bassa dimensione e propone la necessità di prendere in considerazione altri metodi per l'apprendimento automatico piuttosto che fare affidamento sulla casualità deterministica.
 

Lezione 10 -- Quadratura Bayesiana -- Philipp Hennig



Numeri di ML 10 -- Quadratura bayesiana -- Philipp Hennig

In questo video, Philipp Hennig discute la quadratura bayesiana come metodo efficiente per il problema computazionale dell'integrazione nell'apprendimento automatico. Spiega come una funzione a valori reali può essere identificata in modo univoco ma è difficile rispondere direttamente alle domande. La quadratura bayesiana è un metodo di inferenza che tratta il problema di trovare un integrale come un problema di inferenza ponendo un precedente sull'oggetto sconosciuto e le quantità che possono essere calcolate, quindi esegue l'inferenza bayesiana. Hennig confronta anche questo approccio con il rifiuto Monte Carlo e il campionamento per importanza, mostrando come la quadratura bayesiana può superare le regole di quadratura classiche. La lezione copre l'algoritmo del filtro di Kalman per la quadratura bayesiana e la sua connessione agli algoritmi di integrazione classici, con una discussione sull'uso delle stime dell'incertezza nei metodi numerici. Infine, Hennig esplora il modo in cui la struttura sociale del calcolo numerico influisce sulla progettazione dell'algoritmo, discute un metodo per progettare metodi computazionali per problemi specifici e come l'apprendimento automatico probabilistico può stimare l'errore in tempo reale.

Nella seconda parte del video, Philipp Hennig discute la quadratura bayesiana, che comporta l'inserimento di distribuzioni precedenti sulle quantità che ci interessano, come integrali e valori di algoritmi, per calcolare qualcosa in modo bayesiano. Il metodo assegna sia una stima a posteriori che una stima dell'incertezza attorno alle stime, identificabili con metodi classici. Hennig spiega come l'algoritmo si adatta alla funzione osservata e utilizza una procedura di apprendimento attivo per determinare dove valutare successivamente. Questo algoritmo può funzionare in dimensioni superiori e ha alcuni tassi di convergenza intelligenti non banali. Discute anche i limiti degli algoritmi classici e delle regole di quadratura e propone una soluzione alternativa attraverso il ragionamento adattivo.

  • 00:00:00 In questa sezione, Philipp Hennig discute il problema computazionale dell'integrazione nell'apprendimento automatico con particolare attenzione alla Quadratura bayesiana come metodo efficiente. Descrive una funzione a valori reali, f di x, che è un prodotto di due funzioni, X meno seno al quadrato 3x e X meno x al quadrato, e può essere identificata in modo univoco scrivendo una serie di caratteri. Hennig spiega che mentre sappiamo tutto su questa funzione, è difficile rispondere direttamente a tutte le domande su di essa, come il valore dell'integrale definito da meno tre a più 3 su questa funzione, che non può essere trovata in libri pieni di integrali o la nuova libreria C.

  • 00:05:00 In questa sezione, Philipp Hennig discute la quadratura bayesiana, un metodo di inferenza che tratta il problema di trovare un integrale come un problema di inferenza ponendo una priorità sull'oggetto sconosciuto e sulle quantità che possono essere calcolate, quindi esegue l'operazione bayesiana inferenza. Mettendo un precedente, iniziamo con un'incertezza finita, che porta a un intervallo ristretto di possibili risultati del calcolo, rendendolo tipico per i calcoli. L'approccio è in contrasto con il rifiuto Monte Carlo e il campionamento per importanza, che sono meno efficienti. La funzione stimata può essere tracciata come funzione del numero, suggerendo che la quadratura bayesiana è un'opzione praticabile per risolvere gli integrali.

  • 00:10:00 In questa sezione del discorso di Philipp Hennig, discute la quadratura bayesiana come un modo per stimare l'integrale di una funzione utilizzando l'apprendimento automatico probabilistico. Paragona questo approccio al metodo Monte Carlo e spiega che un processo gaussiano viene utilizzato come precedente rispetto alla funzione. Valutando la funzione a valori x specifici, possiamo stimare la variabile latente, che è l'integrale della funzione. Hennig mostra anche come questo approccio può superare le regole di quadratura classiche.

  • 00:15:00 In questa sezione, Philipp Hennig spiega come calcolare gli integrali sul kernel per approssimare gli integrali su qualsiasi funzione che stiamo cercando di imparare. Scegliendo una funzione di media a priori e una funzione di covarianza a priori, possiamo incorporare il problema del calcolo di un integrale nello spazio di Hilbert del kernel in riproduzione. Attraverso calcoli che coinvolgono valutazioni della funzione in vari punti, finiamo con l'incorporamento della media del kernel che implica il calcolo di integrali sul kernel. Pertanto, dobbiamo scegliere i kernel per i quali possiamo calcolare gli integrali in forma chiusa, e Hennig sceglie il kernel del processo di Weiner come esempio.

  • 00:20:00 In questa sezione, Philipp Hennig discute il processo di Quadratura bayesiana. Il processo prevede l'utilizzo di un processo Vino precedente, un processo gaussiano asimmetrico e non stazionario, e il condizionamento su un insieme di valori di funzione per ottenere un processo gaussiano positivo. Utilizzando questo processo, è possibile ottenere un risultato molto migliore rispetto all'integrazione Monte Carlo. Ad esempio, per ottenere un errore relativo di 10^-7, la Quadratura bayesiana richiederebbe meno di 200 valutazioni, mentre l'integrazione Monte Carlo richiederebbe più di 10^11 valutazioni.

  • 00:25:00 In questa sezione, il relatore discute la velocità della Quadratura bayesiana rispetto alle simulazioni Monte Carlo. Mentre le simulazioni Monte Carlo sono economiche e facili da implementare, la Quadratura bayesiana è anche relativamente veloce e può essere implementata come filtro di Kalman, rendendone fattibile l'uso nei modelli di apprendimento automatico. Il relatore spiega la mappa lineare tra i due stati del processo e come può codificare l'integrazione, rendendo possibile la discretizzazione dell'equazione differenziale stocastica e il calcolo degli aggiornamenti dell'integrale. La conferenza passa quindi a discutere più dettagliatamente le proprietà della Quadratura Bayesiana.

  • 00:30:00 In questa sezione, il relatore introduce un algoritmo di filtro di Kalman per la quadratura bayesiana per valutare gli integrali di una funzione. L'algoritmo prevede la definizione delle matrici A e Q per rappresentare le parti deterministiche e stocastiche del sistema lineare tempo-invariante, e H e R per rappresentare il modello di osservazione. La media a posteriori è una somma ponderata delle funzioni del kernel e il filtro di Kalman aggiorna la stima dell'integrale, con l'incertezza dell'integrale che aumenta con la lunghezza del passo al cubo. L'algoritmo viene eseguito in tempo lineare e la media a posteriori è una funzione lineare a tratti che interpola i valori della funzione. La stima per l'integrale è la somma dei valori medi in ciascun blocco.

  • 00:35:00 In questa sezione, Hennig spiega il concetto di quadratura bayesiana e la sua connessione con la regola del trapezio, che è un classico algoritmo di integrazione. Nota che la regola del trapezio può essere vista come la media a posteriori di un complesso schema di inferenza del processo gaussiano e che questa particolare intuizione è un risultato essenziale e comune. Hennig discute ulteriormente di come vari algoritmi classici, sia per il calcolo numerico, l'ottimizzazione, l'algebra lineare o la risoluzione di equazioni differenziali, abbiano tutti collegamenti con le stime posteriori bayesiane. Inoltre, sottolinea che il calcolo numerico dovrebbe essere considerato come un'inferenza gaussiana poiché comporta stime dei minimi quadrati per quantità numeriche con incertezza e suggerisce che l'utilizzo di stime dell'incertezza può essere vantaggioso quando si ha a che fare con metodi numerici.

  • 00:40:00 In questa sezione, Philipp Hennig discute l'aspetto decisionale degli algoritmi numerici e come è come un algoritmo AI perché decide quali calcoli eseguire. Una domanda che si pone è dove mettere i punti di valutazione e la risposta può essere trovata nei problemi di inferenza bayesiana. Definendo una distribuzione di probabilità per convergere verso la certezza, possiamo trovare una quantità che descrive la certezza o l'incertezza e manipolarla. Per la varianza della possibile distribuzione sull'integrale, l'obiettivo è minimizzarla, il che può essere fatto impostando tutti i Delta J uguali al Delta n meno uno, indicando una griglia regolare di nodi di integrazione. Inoltre, viene discussa la necessità di avere nodi di integrazione su entrambe le estremità del dominio di integrazione.

  • 00:45:00 In questa sezione, il relatore spiega come l'algoritmo di quadratura bayesiana può essere utilizzato per ottenere un progetto per dove mettere prima i nodi di valutazione basati su un processo gaussiano. L'algoritmo può fornire disegni diversi a seconda del precedente utilizzato, ei nodi di valutazione possono essere scelti secondo una semplice politica di Maximum Information Gain. La regola del trapezio può essere considerata come una stima bayesiana, in cui la media a posteriori è una stima paziente che deriva da uno specifico processo gaussiano prima dell'integrando. L'algoritmo fornisce una stima dell'errore, ma la stima non è accurata e c'è un divario significativo tra l'errore effettivo e quello stimato. Tuttavia, la regola del trapezio esiste da centinaia di anni e l'algoritmo non è necessariamente imperfetto. La regola del trapezio potrebbe avere alcune proprietà che devono essere messe in discussione.

  • 00:50:00 In questa sezione, Philipp Hennig discute le stime della varianza e la loro relazione con la quadratura bayesiana. Spiega che la stima dell'errore è la deviazione standard, che è la radice quadrata dell'errore quadrato previsto. L'utilizzo di una dimensione del passo costante semplifica il calcolo della somma, poiché non vi è alcuna "i" all'interno della somma. Il teorema afferma che il tasso di convergenza per questa regola del trapezio è O di 1 su N al quadrato. Tuttavia, ci sono presupposti nascosti nella matematica. I percorsi campione tratti da un processo di Wiener hanno comportamenti estremamente approssimativi in quanto non sono differenziabili quasi ovunque, rendendo invalida l'assunzione del precedente.

  • 00:55:00 In questa sezione, Philipp Hennig discute il problema dell'integrazione di funzioni approssimative e non differenziabili mediante algoritmi numerici. Spiega che gli algoritmi progettati per operare su funzioni super approssimative, come la regola del trapezio, potrebbero non essere così efficienti come potrebbero essere se la funzione che stanno integrando è molto più fluida. Hennig suggerisce che la struttura sociale del calcolo numerico, in cui gli algoritmi sono progettati per funzionare su un'ampia classe di problemi, può portare a metodi eccessivamente generali che non funzionano particolarmente bene su nessuno di essi. Tuttavia, osserva che è possibile progettare un metodo computazionale per un particolare problema se è sufficientemente importante, una volta compreso come funzionano questi algoritmi. Discute anche di come è possibile stimare la scala dell'errore nell'algoritmo mentre è in esecuzione, utilizzando le idee dell'apprendimento automatico probabilistico.

  • 01:00:00 In questa sezione, Philipp Hennig spiega come stimare la scala di una costante sconosciuta nella matrice di covarianza dati alcuni dati, e introduce il concetto di priori coniugati. Spiega che per le distribuzioni esponenziali di probabilità familiare esiste sempre un precedente coniugato, come il gamma precedente, che può essere utilizzato per stimare la varianza di una distribuzione gaussiana. Hennig racconta la storia di William C Lee Gossett, che ha ideato questo metodo mentre lavorava come birraio per Guinness, e ha dovuto stimare la distribuzione dei campioni da un barile di birra. Questo metodo comporta la moltiplicazione del precedente e della verosimiglianza insieme e la normalizzazione dei risultati per ottenere la stessa forma algebrica della distribuzione gamma, con nuovi parametri basati sulle osservazioni o sui valori della funzione.

  • 01:05:00 In questa sezione, Philipp Hennig spiega come stimare la concentrazione a posteriori di un parametro e la distribuzione T di Student. Il metodo è chiamato Quadratura bayesiana, in cui la scala inizia ampia e diventa più concentrata man mano che vengono raccolte più osservazioni. I risultati sono mostrati in un grafico, dove inizialmente la distribuzione si contrae a seguito di un aumento delle osservazioni. Hennig sottolinea che le ipotesi precedenti su questa funzione liscia sono troppo prudenti per questo problema, e ci sono algoritmi molto più intelligenti per l'integrazione, come la quadratura gaussiana con insiemi di caratteristiche che si espandono con i polinomi di Legendre, che funzionano molto bene.

  • 01:10:00 In questa sezione, Hennig discute la quadratura bayesiana, che è un modo classico di fare integrali su domini limitati, come il nostro dominio da -1 a 1. Spiega che ci sono regole di quadratura corrispondenti che convergono molto velocemente, con un peso di convergenza super polinomiale, ma funziona solo per funzioni che sono effettivamente fluide. La linea verde vista sul grafico a destra può anche corrispondere a qualche stima della media a posteriori sotto certi tipi di ipotesi precedenti gaussiane. Mentre il risultato di questo articolo è principalmente di interesse teorico nel chiarire la relazione tra i due diversi approcci all'integrazione numerica, ci sono algoritmi classici che sono molto buoni per questo tipo di problema e sono dotati di molte strutture con basi diverse per diversi tipi di problemi di integrazione. Queste regole di quadratura approssimano l'integrale assumendo che possa essere scritto in una forma particolare utilizzando polinomi ortogonali e una funzione di ponderazione, e ci sono scelte specifiche per Phi a seconda di W e del dominio di integrazione.

  • 01:15:00 In questa sezione, il relatore discute i diversi tipi di polinomi di Chebyshev e il loro uso nel calcolo di integrali numerici per funzioni univariate. Il relatore spiega anche perché è importante considerare il dominio di integrazione, la forma della funzione e il precedente quando si specifica un precedente per una regola di inferenza del paziente. Il relatore osserva che gli algoritmi di integrazione classici e le regole di quadratura possono essere considerati come una qualche forma di stima della media a posteriori gaussiana, e le scelte fatte da questi algoritmi possono essere motivate da argomenti di teoria dell'informazione. Il relatore conclude affermando che mentre le classiche regole di quadratura funzionano bene per gli integrali unidimensionali, i problemi di dimensione superiore richiedono approcci più complicati, come gli algoritmi Monte Carlo.

  • 01:20:00 In questa sezione, il relatore discute i limiti dei metodi mostrati nella sezione precedente quando si tratta di scalare in dimensionalità. Questi metodi tendono ad avere un decadimento delle prestazioni che è esponenziale nella dimensionalità perché deve essere prodotta una maglia di valutazioni, nel senso che devono coprire il dominio di punti. Ciò è problematico perché i processi gaussiani vengono utilizzati come priori e la loro incertezza a posteriori non dipende dai numeri visti, ma solo da dove sono state fatte le valutazioni. Di conseguenza, questi metodi di integrazione non sono adattivi, limitando la loro scalabilità in dimensioni superiori. Per superare questo problema, sono necessari nuovi algoritmi in grado di ragionare sul fatto che alcuni punti sono più informativi di altri attraverso il ragionamento adattivo.

  • 01:25:00 In questa sezione, Philipp Hennig discute i limiti dei processi gaussiani per la codifica di valori non negativi e propone una soluzione alternativa definendo una nuova funzione che eleva al quadrato la funzione effettiva. La distribuzione risultante non è gaussiana ed è approssimata da un processo stocastico che può essere approssimato da un processo gaussiano. L'algoritmo risultante è chiamato Wasabi, che sta per warp sequential active bayesian integration. È una formulazione probabilistica che aggiunge in modo adattivo incertezza dove sono previsti valori di funzione grandi, consentendo la costruzione di algoritmi numerici approssimati. La funzione di utilità in blu rappresenta l'incertezza a posteriori sui valori delle funzioni.

  • 01:30:00 In questa sezione, Philipp Hennig discute il concetto di Quadratura bayesiana, un algoritmo per l'integrazione numerica. Hennig spiega come l'algoritmo si adatta alla funzione osservata e utilizza una procedura di apprendimento attivo per determinare dove valutare successivamente. Questo algoritmo può funzionare in dimensioni superiori e ha alcuni tassi di convergenza intelligenti non banali. Hennig confronta anche questo algoritmo con gli algoritmi Monte Carlo e sostiene che la conoscenza precedente può migliorare le prestazioni dell'algoritmo. Inoltre, accenna alla possibilità di un algoritmo ancora migliore oltre Monte Carlo, di cui si parlerà dopo Natale.

  • 01:35:00 In questa sezione, Philipp Hennig discute la quadratura bayesiana, che comporta l'inserimento di una distribuzione a priori sulle quantità che ci interessano, come integrali e valori di algoritmi, per calcolare qualcosa in modo bayesiano. Il metodo assegna sia una stima a posteriori che una stima dell'incertezza attorno alle stime, identificabili con metodi classici. Se le stime dell'errore sono sbagliate, non significa necessariamente che la visione probabilistica del calcolo sia sbagliata, ma piuttosto che l'insieme delle ipotesi precedenti sia sbagliato. Utilizzando più conoscenze precedenti e trattando gli algoritmi numerici come agenti autonomi, possiamo estrarre più informazioni e rendere gli algoritmi più veloci e funzionare meglio.
Motivazione: