Apprendimento automatico e Reti Neurali - pagina 27

 

Lezione 14. Cambiamenti di basso rango in A e il suo inverso



14. Variazioni di basso rango in A e suo inverso

Il video discute il concetto di matrici di basso rango e la loro importanza nelle matrici di funzioni, in particolare la formula di inversione di matrice che trova l'inverso di una matrice N per n in termini di una matrice 1 per 1 più semplice. La formula è utile per trovare l'inverso di matrici che hanno perturbazioni di basso rango e può semplificare il processo di ricerca degli inversi. Il relatore mostra come funziona la formula presentando la formula per la seconda matrice e mostra come è stata applicata la stessa logica per arrivare alla risposta. Il video discute anche le applicazioni pratiche di questa formula, in particolare nei problemi dei minimi quadrati e nel filtro di Kalman.

  • 00:00:00 In questa sezione, il professore discute il concetto di matrici di basso rango e la loro importanza nelle matrici di funzioni. L'argomento centrale è su una famosa formula chiamata formula di inversione di matrice, nota anche come i cambiamenti di basso rango in A e il suo inverso. La formula trova l'inverso di una matrice N per n in termini di una matrice 1 per 1 più semplice utilizzando una trasposizione UV e dividendola per 1 meno la trasposizione di V per U. La formula è utile per trovare l'inverso delle matrici che hanno basso classificare le perturbazioni e può essere utilizzato per semplificare il processo di ricerca degli inversi. Il professore spiega come funziona questa formula e le sue applicazioni pratiche.

  • 00:05:00 In questa sezione, l'oratore discute di come cambiare una matrice di rango 1 risulterà in una modifica della sua inversa di rango uno. La formula che presenta calcola un inverso N per n in termini di un inverso 1 per 1, il che è molto utile. L'oratore mostra quindi come verificare la formula moltiplicando l'inverso dichiarato per la matrice originale e sperando di ottenere una matrice identità. Il relatore mostra come funziona la formula presentando la formula per la seconda matrice e mostra come è stata applicata la stessa logica per arrivare alla risposta.

  • 00:10:00 una formula per una variazione di rango basso nella matrice A e la sua inversa. La formula prevede di prendere l'inverso di una matrice N per n ma può essere commutata in una matrice K per K, che è una perturbazione minore della matrice identità. La formula viene dimostrata vera attraverso un controllo e può essere utile per perturbare una matrice A. Vengono elencati anche i nomi delle persone che hanno scoperto questa formula.

  • 00:15:00 In questa sezione, l'oratore discute i cambiamenti che si verificano quando si prende l'inverso di una matrice di basso rango A. Usano manipolazioni algebriche per mostrare che quando si prende l'inverso di A, ci sono alcuni termini che possono essere eliminato, portando a un'espressione semplificata. Il relatore osserva che mentre sono in grado di dimostrare la formula controllando che produca la matrice identità, è importante considerare in primo luogo come la formula può essere derivata. Suggeriscono di utilizzare la formula per risolvere un sistema lineare con una nuova misurazione o osservazione nel metodo dei minimi quadrati.

  • 00:20:00 In questa sezione, il relatore spiega come gestire le nuove misurazioni quando si risolvono i problemi dei minimi quadrati. Con una matrice rettangolare A, aggiungendo un'altra misurazione o punto dati alla soluzione si ottiene una nuova matrice e il lato destro da risolvere. Tuttavia, invece di ricalcolare la moltiplicazione della matrice A^TA, il relatore descrive come espandere la matrice con la nuova misura, trasporla e utilizzarla per calcolare la soluzione aggiornata. Utilizzando ciò che è già stato calcolato, ciò consente una risoluzione più efficiente dal punto di vista computazionale dei problemi dei minimi quadrati.

  • 00:25:00 In questa sezione, l'oratore discute la perturbazione di A e il suo inverso con nuovi dati, che fornisce un cambiamento di rango 1 nella trasposizione di A. Questo concetto è applicabile ai problemi dei minimi quadrati e il filtro di Kalman è un esempio di a metodo ricorsivo dei minimi quadrati che utilizza questo approccio. Il filtro Kalman viene utilizzato per guidare missili e satelliti tracciando nuovi dati e aggiornando la soluzione, che è un'importante applicazione pratica di questo concetto.

  • 00:30:00 In questa sezione del video, il relatore spiega come applicare la formula di Sherman-Morrison-Woodbury per calcolare le variazioni di basso rango in A e la sua inversa. Dicono che il filtro di Kalman, utilizzato per i minimi quadrati dinamici, ha due fattori aggiuntivi che vengono presi in considerazione: la matrice di covarianza e l'equazione di stato. La matrice di covarianza si occupa di come gli errori sono correlati e l'equazione di stato indica quanto dovrebbe muoversi il satellite (nell'esempio). Il filtro di Kalman è una versione migliorata dei quadrati ricorsivi che si occupa di cambiare le misure lasciando invariata gran parte.

  • 00:35:00 In questa sezione, il relatore discute l'uso della formula di aggiornamento di basso rango nella risoluzione di sistemi lineari. La formula implica perturbare la matrice di un problema risolto di rango uno e utilizzare l'inverso della matrice originale per risolvere rapidamente il nuovo problema. Questo approccio può ridurre notevolmente il tempo necessario per risolvere un nuovo problema ed è particolarmente utile per matrici di grandi dimensioni in cui i metodi di eliminazione tradizionali richiederebbero molto tempo.

  • 00:40:00 In questa sezione, il relatore spiega come trovare l'inverso di una matrice combinando soluzioni a diversi problemi. Fattorizzando la matrice A in Lu, tutto il lavoro duro viene fatto sul lato sinistro, e trovare le soluzioni a diversi membri di destra richiede solo la sostituzione all'indietro. Usando la formula di Sherman-Morrison-Woodbury, la risposta X può essere ottenuta combinando le soluzioni W e Z. La formula cambia la soluzione W con un termine che deriva da Sherman-Morrison Woodbury, e il termine al numeratore è un multiplo di Z per X.

  • 00:45:00 In questa sezione, l'oratore discute di come i cambiamenti di rango basso in una matrice A possono influenzare la sua inversa e fornisce una formula per invertire una matrice N per N scambiando e invertendo una matrice K per K. La formula prevede la sottrazione di una copia dell'inverso e l'aggiunta di alcuni altri pezzi, e alla fine si traduce in una modifica di rango K all'inverso originale. Il relatore osserva che questa formula ha applicazioni pratiche e incoraggia gli spettatori a scriverla per riferimento futuro.

  • 00:50:00 In questa sezione, il relatore discute l'inverso di una matrice K per K e riconosce l'abbondanza di formule trattate nell'ora e nei 50 minuti precedenti. La sezione si conclude affermando che le note riguardano alcune applicazioni e passerà ad affrontare altri aspetti di basso rango.
14. Low Rank Changes in A and Its Inverse
14. Low Rank Changes in A and Its Inverse
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 15. Matrici A(t) Dipendenti da t, Derivata = dA/dt



15. Matrici A(t) Dipendente da t, Derivata = dA/dt

Questo video copre vari argomenti relativi alle matrici, inclusi i cambiamenti nelle matrici e il loro inverso, nonché i cambiamenti negli autovalori e nei valori singolari nel tempo. Il relatore spiega le formule chiave per calcolare questi cambiamenti e sottolinea l'importanza della comprensione del calcolo nell'algebra lineare. Inoltre, la conferenza discute l'importanza della normalizzazione ed esplora i teoremi di interlacciamento per gli autovalori sia in matrici simmetriche che di rango 1. Infine, il video si conclude con una rassegna degli argomenti trattati e la promessa di approfondirli nelle lezioni future.

  • 00:00:00 In questa sezione, il relatore discute i cambiamenti nelle matrici, negli autovalori e nei valori singolari quando una matrice cambia. L'obiettivo è comprendere le formule per la variazione della matrice inversa, la derivata dell'inversa e le variazioni degli autovalori e dei valori singolari quando una matrice cambia. L'oratore spiega che mentre una formula esatta per la variazione degli autovalori e dei valori singolari potrebbe non esserlo
    possibile, possono ancora ricavare disuguaglianze per capire quanto potrebbe essere grande il cambiamento. La lezione copre anche l'impostazione della matrice A, che dipende dal tempo (T) e dall'inversa A inversa.

  • 00:05:00 In questa sezione, il relatore discute un'identità nel calcolo che integra la discussione della sezione precedente sull'inverso delle matrici. La formula afferma che la derivata della matrice inversa è uguale a negativo una volta l'inverso della matrice, moltiplicato per la derivata della matrice e l'inverso della matrice. Il relatore spiega come trovare la derivata della matrice inversa chiamandola "cambiamento nell'inverso" e dividendo entrambi i lati della formula per delta T. comprensione della formula L'oratore esprime anche la sua opinione sull'enfasi del calcolo nella matematica universitaria, affermando che mette in ombra l'algebra lineare.

  • 00:10:00 In questa sezione, il relatore spiega la formula per la derivata di una matrice A come dA/dt rispetto al tempo t, quando delta T va a zero. Il rapporto Delta a diviso Delta T ha un significato e quando Delta T si avvicina allo zero, l'equazione diventa un'inversa. La derivata di uno su X nel caso uno a uno è solo 1 su X al quadrato, e questo è parallelo alle formule quando Delta a è a grandezza naturale ma di rango basso. L'attenzione della lezione si sposta quindi sugli autovalori di lambda e su come cambiano quando una matrice cambia, con due possibilità, una piccola modifica e un ordine completo di una modifica. La conferenza si conclude con fatti riguardanti autovalori e autovettori.

  • 00:15:00 In questa sezione viene spiegato il concetto di autovettori e autovalori per matrici che dipendono da un parametro. La matrice A viene esplorata in dettaglio, con l'autovettore X a sinistra che ha lo stesso autovalore di AX. Al contrario, l'autovettore Y, per una matrice simmetrica A, viene utilizzato allo stesso modo con la trasposizione di A o AT. Viene sottolineata l'importanza della normalizzazione, in particolare la trasposizione Y moltiplicata per X uguale a uno. L'autore procede quindi a prendere la derivata di una formula e discute come contorcere l'equazione per adattarla a questo nuovo contesto.

  • 00:20:00 In questa sezione, il relatore spiega come la derivata di una matrice può essere utilizzata per trovare la derivata dei suoi autovalori e autovettori al variare del tempo. Usando la regola del prodotto, derivano una formula per la derivata del prodotto di tre termini che dipendono dal tempo. Riorganizzando i termini e applicando la formula di diagonalizzazione, arrivano a una semplice formula per la derivata dell'autovalore. Il relatore osserva che sebbene questa sia una tecnica classica, potrebbe non essere sempre ampiamente conosciuta o insegnata nei corsi.

  • 00:25:00 In questa sezione, l'oratore discute una formula per trovare la derivata di un autovalore utilizzando la velocità con cui la matrice sta cambiando e gli autovettori a sinistra ea destra. Semplificano la formula per mostrare che due termini si annullano a vicenda e il termine rimanente è la risposta corretta per la derivata. Usano il fatto che la derivata di uno è zero per dimostrare questa cancellazione. L'oratore menziona anche che questa formula non coinvolge la derivata dell'autovettore e può essere utilizzata anche per trovare derivate di livello superiore.

  • 00:30:00 In questa sezione, il relatore discute la variazione degli autovalori dopo una modifica di rango uno in una matrice simmetrica. Osserva che il cambiamento è un vero vettore e non un differenziale, quindi non esiste una formula esatta per i nuovi autovalori. Tuttavia, condivide alcuni fatti noti, come gli autovalori sono in ordine decrescente e il cambiamento di rango uno è semidefinito positivo. Chiede inoltre al pubblico di considerare l'autovettore della matrice di trasposizione uu e spiega che si tratta di una colonna di matrice n per n completa moltiplicata per riga. Conclude affermando che il numero risultante da questo calcolo è maggiore di zero.

  • 00:35:00 In questa sezione, l'oratore discute una matrice simmetrica e cosa succede quando vi viene aggiunta una matrice di rango uno. Concludono che ciò si traduce in matrici semidefinite positive e che i nuovi autovalori (lambda) sono maggiori degli autovalori originali (gamma). Tuttavia, la differenza di dimensioni non è significativa ed esiste un teorema chiamato "interlacciamento" che garantisce che gli autovalori non si superino. Nello specifico, lambda 1 è maggiore di gamma 1, ma lambda 2 è minore di gamma 1. Questo è un utile teorema che garantisce l'ordine degli autovalori quando una matrice di rango uno positiva viene aggiunta a una matrice simmetrica.

  • 00:40:00 In questa sezione, il professore discute gli autovalori di una matrice di rango 2 risultante da una matrice simmetrica e una variazione di rango 1. Spiega che il rango della matrice di cambiamento è 2, che indica due autovalori diversi da zero, e la sua natura semidefinita positiva significa che gli autovalori aumenterebbero aggiungendolo alla matrice originale. Tuttavia, rivela un teorema che afferma che gli autovalori non possono andare più in alto degli autovalori originali quando si aggiunge una matrice semidefinita positiva. Lo applica ai valori alfa e li confronta con i lambda, concludendo infine che il valore alfa 2 non può superare lambda 1 e il valore alfa 3 rimane sconosciuto.

  • 00:45:00 In questa sezione, il docente spiega l'interlacciamento di autovalori con un esempio di matrice simmetrica. Anche la versione ridotta di questa matrice ha autovalori, che si intrecciano con gli autovalori della matrice originale. Tuttavia, il docente solleva una preoccupazione per l'interlacciamento degli autovalori quando il rango viene modificato. Se il nuovo autovettore viene moltiplicato per un numero elevato, può potenzialmente spostare l'autovalore verso l'alto, il che sembra contraddire il teorema dell'interlacciamento. Il docente lascia questo come una domanda a cui rispondere nella lezione successiva.

  • 00:50:00 In questa sezione, il docente discute autovalori e autovettori e perché un particolare autovettore con un autovalore lambda 2 più 20 non invalida le precedenti affermazioni fatte. La lezione si conclude con un ripasso degli argomenti trattati e una nota per continuare la discussione nella lezione successiva.
15. Matrices A(t) Depending on t, Derivative = dA/dt
15. Matrices A(t) Depending on t, Derivative = dA/dt
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 16. Derivate di valori inversi e singolari


16. Derivate di valori inversi e singolari

Questo video copre una varietà di argomenti tra cui la derivata dei valori inverso e singolare di una matrice, l'interlacciamento e la norma nucleare di una matrice. Il relatore presenta una formula per la derivata di valori singolari, utilizzando l'SVD, per comprendere come una matrice cambia nel tempo, stabilendo limiti per le variazioni di autovalori in matrici simmetriche. La disuguaglianza di Vial viene introdotta come un modo per stimare i valori lambda di una matrice e l'inseguimento della base viene utilizzato nei problemi di completamento della matrice. Il relatore discute anche l'idea che la norma nucleare di una matrice derivi da una norma che non è proprio una norma e introduce il concetto di lazo e di sensing compresso che sarà discusso nella prossima lezione.

  • 00:00:00 In questa sezione, l'istruttore discute vari argomenti tra cui trovare la derivata dell'inverso di una matrice, la derivata di un autovalore e la derivata del valore singolare. L'istruttore condivide una formula per la derivata del valore singolare, che ha scoperto di recente, e afferma che la formula per la derivata dell'inverso non è semplicemente la derivata della matrice originale. Parla anche dei compiti di laboratorio, chiede consigli su un progetto e menziona l'imminente conferenza del professor Townsend sull'algebra lineare applicata. L'istruttore prosegue spiegando come trovare sistematicamente la derivata di una matrice quadrata e perché la formula comunemente assunta non è corretta.

  • 00:05:00 In questa sezione, il relatore discute la derivata dei valori singolari, che è simile alla derivata degli autovalori. La formula per la derivata dei valori singolari è data dalla trasposizione di da/dt per il vettore singolare di a. Questa formula si basa sull'SVD, che dice che a per V è uguale a Sigma U. Usando questi fatti e manipolando l'equazione, è possibile derivare la formula per la derivata di valori singolari. Questa formula è utile per capire come cambia una matrice nel tempo e può essere applicata in vari campi come la fisica e l'ingegneria.

  • 00:10:00 In questa sezione, il relatore discute le derivate dei valori inversi e singolari. Iniziano spiegando la formula per i valori singolari in termini di SVD di una matrice, quindi prendono la derivata dell'equazione. L'oratore utilizza la regola del prodotto e semplifica l'equazione risultante per trovare il termine che darà loro la risposta che stanno cercando. Quindi dimostrano che gli altri due termini saranno zero, il che dimostra che il termine scelto è quello corretto. Infine, usano prodotti scalari e un numero per dimostrare che la derivata di U con trasposizione di U è uguale a zero.

  • 00:15:00 In questa sezione, il relatore discute le derivate di valori singolari e autovalori di una matrice simmetrica. Sebbene non sia possibile calcolare una formula esatta per la variazione di singolari o autovalori, i limiti possono essere stabiliti riconoscendo che i cambiamenti positivi negli autovalori non li faranno diminuire. L'intreccio dei vecchi e nuovi valori è illustrato dal fatto che il secondo autovalore non supererà il primo vecchio autovalore e il primo nuovo autovalore non sarà inferiore al primo vecchio autovalore, rendendo questi concetti utili per comprendere la SVD.

  • 00:20:00 In questa sezione del video, l'oratore pone una domanda rompicapo riguardante l'effetto dell'aumento del secondo autovettore sugli autovalori di una matrice. Sottolinea che se il secondo autovalore viene aumentato di una certa quantità, indicata come Theta, può eventualmente superare il primo autovalore, il che pone un potenziale problema. Tuttavia, spiega poi il suo processo di pensiero e mostra che questo non è in realtà un problema perché il primo autovalore rimane invariato, mentre il secondo autovalore viene spinto verso l'alto ma alla fine converge alla somma di lambda 1 e Theta.

  • 00:25:00 In questa sezione, l'oratore discute l'interlacciamento e la disuguaglianza di Vial. La disuguaglianza di Vial è un modo per stimare i valori lambda di una matrice, che sono gli autovalori ordinati dal più grande al più piccolo. La disuguaglianza è vera per qualsiasi matrice simmetrica e afferma che il più grande autovalore della somma di due matrici simmetriche è minore o uguale alla somma dei più grandi autovalori di ciascuna matrice individualmente. Questa proprietà di interlacciamento vale non solo per le perturbazioni di primo rango, ma anche per le perturbazioni di altri ranghi. L'oratore usa l'esempio dell'aggiunta di una matrice positiva, T, su S e spiega come questo si collega alla disuguaglianza di Vial.

  • 00:30:00 In questa sezione, l'oratore discute la disuguaglianza di Vile e come si collega all'interlacciamento. La disuguaglianza di Vile dà un limite a quanto può aumentare un autovalore, e questo fatto è cruciale per comprendere il fenomeno dell'interlacciamento. L'oratore afferma che ci sono due modi per dimostrare l'interlacciamento, inclusa la disuguaglianza di Vile e un altro metodo che coinvolge un grafico. La sezione introduce anche il rilevamento compresso, che verrà discusso nella parte successiva del video.

  • 00:35:00 In questa sezione viene introdotto il concetto di norma nucleare di una matrice, che è la somma dei valori singolari della matrice. Questa può essere considerata come la norma L1 per un vettore. Ha una proprietà speciale, simile alla norma L1, dove la minimizzazione della norma nucleare con un vincolo risulta in una soluzione sparsa. Questa proprietà è utile nei problemi di completamento della matrice, in cui i dati mancanti in una matrice devono essere riempiti. I numeri che minimizzano la norma nucleare sono una buona scelta per riempire i dati mancanti. La norma zero di un vettore, che rappresenta il numero di non-zero, non è una norma, ma può essere spostata alla norma più vicina, che è la norma L1. Questa norma è la somma dei valori assoluti delle componenti del vettore. La minimizzazione di questa norma soggetta ad alcune condizioni è chiamata ricerca della base e viene utilizzata nei problemi di completamento della matrice.

  • 00:40:00 In questa sezione, l'oratore discute l'idea che la norma nucleare di una matrice derivi da una norma che non è proprio una norma. Spiega che il rango della matrice è equivalente a questa norma ma non è una norma perché non è scalabile se la dimensione della matrice viene raddoppiata. Il relatore prosegue descrivendo la congettura che l'algoritmo di deep learning della discesa del gradiente trovi la soluzione al problema minimo nella norma nucleare, e introduce il concetto di Lasso e di sensing compresso che sarà ulteriormente discusso nella prossima lezione.
16. Derivatives of Inverse and Singular Values
16. Derivatives of Inverse and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 17: Valori singolari rapidamente decrescenti



Lezione 17: Valori singolari rapidamente decrescenti

La lezione si concentra sulle matrici e sui loro ranghi e sulla rapidità con cui i valori singolari decrescenti sono prevalenti nella matematica computazionale. Il docente esamina le matrici di basso rango e dimostra come abbiano molti zeri nella loro sequenza di valori singolari, rendendo più efficiente l'invio della matrice a un amico in forma di basso rango piuttosto che in forma di rango completo. Introducono anche il rango numerico di una matrice, che viene definito consentendo un certo margine di manovra per definire la tolleranza dei valori singolari di una matrice. Campionando funzioni regolari, che possono essere ben approssimate dai polinomi, il rango numerico può essere basso, risultando in un'approssimazione di basso rango della matrice X. La lezione include anche esempi di matrici gaussiane e di Vandermonde per spiegare come possono portare a matrici di basso rango e discute l'utilità dei numeri di Zolotarev nel delimitare valori singolari.

  • 00:00:00 In questa sezione un professore spiega perché le matrici di basso rango sono così diffuse nel mondo della matematica computazionale. Discute l'importanza dei valori singolari, che ci parlano del rango di una matrice e di quanto bene possa essere approssimato da una matrice di basso rango. Continua spiegando che una matrice X può essere scomposta in una somma di K matrici di rango uno se ha K valori singolari diversi da zero. Inoltre, lo spazio colonna e lo spazio riga di X hanno entrambi dimensione K. La sequenza di valori singolari è unica per una matrice e l'obiettivo è identificare le proprietà di X che fanno apparire matrici di basso rango in vari problemi matematici.

  • 00:05:00 In questa sezione, il docente discute le matrici di basso rango e come hanno molti zeri nella loro sequenza di valori singolari. Una matrice di rango basso è quella in cui è più efficiente inviare la matrice a un amico in forma di rango basso piuttosto che in forma di rango completo. La conferenza utilizza diversi flag per dimostrare il concetto di matrici di basso rango, con ranghi estremamente bassi altamente allineati con le coordinate delle righe e delle colonne. All'aumentare del rango, l'allineamento diventa sfocato e diventa più difficile vedere se la matrice è di rango basso. Le matrici di alto rango sono inefficienti da inviare in forma di basso rango.

  • 00:10:00 In questa sezione, il docente esamina la matrice delle bandiere triangolari per capire perché i modelli diagonali non sono adatti per la compressione di basso rango. La matrice di tutti ha una proprietà che è simile alla matrice preferita di Gil quando viene presa la sua inversa. Esaminando i valori singolari di questa matrice, il docente mostra che i modelli triangolari non sono suscettibili di compressione di basso rango. Tuttavia, il caso del cerchio e il modello della bandiera giapponese sono convenienti per la compressione di basso rango.

  • 00:15:00 In questa sezione, il docente discute il rango di un cerchio, in particolare la bandiera giapponese. Scomponendo la bandiera in un cerchio, un rango (un pezzo al centro) e un quadrato, il rango può essere determinato sommando i ranghi di ciascun pezzo. Il docente mostra che il pezzo di rango uno è delimitato da uno, quindi utilizza la simmetria per determinare il rango del pezzo quadrato, che dipende dal raggio del cerchio. Facendo alcuni calcoli con la trigonometria, il docente conclude che il rango è approssimativamente 1/2, rendendo efficiente la rappresentazione della bandiera giapponese in forma di rango basso. Tuttavia, la maggior parte delle matrici in matematica computazionale non sono di rango finito ma di rango numerico, che è simile al rango ma consente una certa approssimazione.

  • 00:20:00 In questa sezione, apprendiamo il rango numerico di una matrice, che viene definito consentendo un certo margine di manovra per definire la tolleranza dei valori singolari di una matrice. Il rango numerico è K se K è il primo valore singolare sopra epsilon, che denota la tolleranza, e il rango è lo stesso dell'ultimo valore singolare sopra epsilon ed è il primo valore singolare sotto epsilon. Le matrici numericamente di basso rango non sono solo matrici di basso rango, ma anche matrici di rango pieno con valori singolari in rapida diminuzione. Ciò ci consente di comprimere le matrici utilizzando l'approssimazione di basso rango, pur consentendo un livello di tolleranza ragionevole nella pratica. La matrice di Hilbert è un esempio di matrice a rango pieno con rango numerico basso.

  • 00:25:00 In questa sezione, il docente discute come le matrici possono essere di rango numerico basso ma non necessariamente di rango basso in generale. La matrice Vandermonde è usata come un classico esempio di questo. Questa matrice si presenta nell'interpolazione polinomiale in punti reali ed è spesso di rango numericamente basso, il che rende difficile l'inversione. Tuttavia, il rango numerico basso non è sempre desiderabile, in particolare quando si cerca di trovare l'inverso. Il docente spiega che il motivo per cui ci sono così tante matrici di basso rango è che il mondo è liscio, il che significa che le matrici sono numericamente di basso rango. Viene fornito un esempio in cui viene campionato un polinomio in due variabili e viene mostrato che la matrice risultante è matematicamente di rango basso con epsilon uguale a zero.

  • 00:30:00 In questa sezione, il relatore discute come ottenere un'approssimazione di basso rango per una matrice X campionando una funzione e approssimando tale funzione con un polinomio. Se un polinomio di due variabili può essere scritto, con grado M sia in x che in y, e quindi campionato, la x risultante avrà rango basso con epsilon uguale a zero, avendo al massimo rango M2. Campionando funzioni regolari, che possono essere ben approssimate dai polinomi, il rango numerico può essere basso, risultando in un'approssimazione di basso rango della matrice X. Tuttavia, il ragionamento alla base di questo metodo non funziona bene per la matrice di Hilbert, che è a rango pieno.

  • 00:35:00 In questa sezione, il docente discute come trovare una ragione appropriata per delimitare il rango di una matrice. Molte persone hanno cercato di trovare un polinomio in grado di prevedere con precisione il rango di una matrice, ma i metodi sono stati insoddisfacenti. Il docente introduce l'idea delle matrici di Sylvester, che sono matrici che soddisfano una certa equazione chiamata equazione di Sylvester. Trovando A, B e C che soddisfano l'equazione, si può dimostrare che una matrice è di rango numerico basso. Il docente fornisce un esempio utilizzando la matrice di Hilbert e un modo specifico di moltiplicare per metà a sinistra ea destra per soddisfare l'equazione di Sylvester.

  • 00:40:00 In questa sezione, la lezione ha fornito esempi di matrici gaussiane e di Vandermonde per spiegare come permutazioni e moltiplicazioni possono portare a matrici di basso rango. La lezione spiega che se X soddisfa un'equazione del semestre, allora si può trovare un limite sui valori singolari di qualsiasi matrice che soddisfi un'espressione simile a quella delle matrici gaussiane e di Vandermonde, chiamata norma di Frobenius. Il Fuller and bound viene utilizzato per dimostrare questo basso rango numerico nelle matrici, con esempi forniti per dimostrare una connessione tra il soddisfacimento di determinate equazioni e l'aspetto di queste matrici di basso rango nella pratica.

  • 00:45:00 In questa sezione, il docente discute di come il problema astratto dei valori singolari delimitati dai numeri di Zolotarev sia utile perché molte persone hanno già studiato questi numeri. Il motivo principale per cui questo è utile è che gli insiemi E ed F sono separati, e questo è ciò che fa sì che il numero di Zolotarev diventi piccolo molto rapidamente con k. Il docente usa la matrice di Hilbert come esempio per mostrare come il numero di Zolotarev può dare un limite al rango numerico, indicando perché ci sono così tante matrici di basso rango nella matematica computazionale. Il docente menziona anche la maledizione non ufficiale che circonda le due persone chiave che hanno lavorato al problema Zolotarev; entrambi sono morti all'età di 31 anni, motivo per cui c'è un punto interrogativo accanto al nome di Pencil.
Lecture 17: Rapidly Decreasing Singular Values
Lecture 17: Rapidly Decreasing Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alex TownsendView the complete course: https://oc...
 

Lezione 18: Conteggio dei parametri in SVD, LU, QR, Saddle Points



Lezione 18: Conteggio dei parametri in SVD, LU, QR, Saddle Points

In questa lezione, il relatore esamina varie fattorizzazioni di matrici come L&U, Q&R e matrici di autovettori e conta il numero di parametri liberi in ciascuna di queste matrici. Discutono anche del calcolo di Qs rispetto a SVD e contano il numero di parametri nell'SVD per una matrice di rango-R. Il docente spiega inoltre il concetto di punti di sella nelle matrici e come trovarli utilizzando tecniche di ottimizzazione e moltiplicatori di Lagrange. Infine, il docente discute il segno degli autovalori di una matrice simmetrica e come il quoziente di Rayleigh può aiutare a determinare il valore massimo e il corrispondente autovettore della matrice.

  • 00:00:00 In questa sezione, il relatore esamina le grandi fattorizzazioni di una matrice, come le matrici L&U, Q&R e autovettore, e conta il numero di parametri liberi in ciascuna di queste matrici. Il relatore osserva che il numero di parametri liberi in L&U o Q&R dovrebbe concordare con il numero di parametri nella matrice originale e che i parametri liberi delle matrici degli autovalori e degli autovettori si sommano a N al quadrato. Il relatore osserva che questo esercizio non si trova spesso nei libri di testo, ma è un'importante revisione per comprendere l'algebra lineare.

  • 00:05:00 In questa sezione, il relatore discute il numero di parametri liberi in diverse fattorizzazioni matriciali, tra cui SVD, LU, QR e decomposizione polare. Il relatore osserva che il numero di parametri liberi in una matrice Q ortogonale N per n è N-1 per la prima colonna e N-2 per le colonne successive a causa delle condizioni di normalizzazione e ortogonalità. Discutono anche del numero di parametri liberi in una matrice simmetrica S, che è 1/2 N volte N meno 1 più il numero di elementi diagonali. Proseguono poi mostrando come questi conteggi si sommano per diverse fattorizzazioni, tra cui L per U, Q per R e Q per S. Infine, menzionano la decomposizione polare come un'altra fattorizzazione che risulta in una matrice ortogonale per una simmetrica.

  • 00:10:00 In questa sezione, il docente discute il calcolo di Qs rispetto all'SVD e quindi conta i parametri nell'SVD. Il rango più grande che può avere la matrice rettangolare è M, che risulterà in una matrice M per N per l'SVD. Il docente si aspetta che si aggiunga al totale della matrice originale, che ha parametri MN. Il conteggio per S è uguale a M e il conteggio per V è uguale a N. Il conteggio per U è uguale a 1/2 (M^2 + M) se si tratta di una matrice M per M ortogonale.

  • 00:15:00 In questa sezione, il relatore spiega come contare i parametri importanti nella decomposizione del valore singolare (SVD) di una matrice per una matrice di rango-R. Le M colonne di V che corrispondono a valori singolari diversi da zero sono le uniche parti importanti della matrice. Per contare il numero di parametri, il relatore utilizza una formula che tiene conto del diverso numero di parametri necessari in ciascuna colonna ortogonale di V, fino alla M-esima colonna. La formula prevede la somma di 1 a NM per ogni colonna e la sottrazione di tale numero dalla metà di M al quadrato più M più 1. Il risultato della formula è il conteggio finale dei parametri nell'SVD di una matrice di rango-R.

  • 00:20:00 In questa sezione, il relatore discute le matrici di rango R e il numero di parametri che hanno. Le matrici di rango R non sono un sottospazio perché matrici diverse possono avere lo stesso rango, rendendolo più simile a una superficie, con pezzi diversi. Il relatore ritiene che una matrice di rango R abbia parametri R. Quindi vanno avanti per trovare il numero di parametri in una matrice di rango R. Il numero di parametri è R per Sigma, (R + 1) / 2 per V e (M - 1) + (M - 2) + ... + (M - R) per U.

  • 00:25:00 In questa sezione della lezione, l'istruttore discute il concetto di punti di sella nelle matrici, che sono diversi da massimi e minimi. I punti di sella sorgono quando si ottimizza una funzione di costo quadratica soggetta a vincoli lineari utilizzando i moltiplicatori di Lagrange. L'istruttore introduce lambda e mostra come viene utilizzato nella lagrangiana per formare una funzione che dipende sia da X che da lambda. Questa funzione può quindi essere ottimizzata per trovare eventuali punti di sella che possono sorgere. L'istruttore menziona anche un'altra fonte di punti di sella, che sorgono in matrici che non sono definite positive o definite negative.

  • 00:30:00 In questa sezione, il relatore discute come trovare i punti di sella di una funzione e mostra come sorgono in un'importante classe di problemi rappresentati da una matrice a blocchi. La funzione ha punti di sella, non un massimo. Il contributo di Lagron a questo problema sta prendendo le derivate rispetto a X e lambda, producendo rispettivamente n e m equazioni. In definitiva, la matrice rappresentata dalla matrice a blocchi indica che non è definita positiva e questa informazione può essere utilizzata per determinare i punti di sella.

  • 00:35:00 In questa sezione, il docente discute come il determinante di una matrice può aiutare a determinare i segni dei suoi autovalori. Usando un semplice esempio, mostra che se il determinante è negativo, devono esserci autovalori di entrambi i segni. Quindi mette in relazione questo con le matrici KKT utilizzate nell'ottimizzazione e sostiene che sono generalmente indefinite, ma hanno un blocco definito positivo ad esse associato. Dimostra che, quando si utilizza l'eliminazione del blocco su questo blocco definito positivo, tutti gli n pivot saranno positivi, il che porta alla conclusione che le matrici KKT hanno autovalori sia positivi che negativi.

  • 00:40:00 In questa sezione, il docente discute i punti di sella e come si relazionano ai vincoli. Spiega come determinare il segno degli autovalori di una matrice simmetrica, in base ai segni dei suoi perni. Il docente definisce anche il quoziente di Rayleigh e rivede come può aiutarci a determinare il valore massimo e il corrispondente autovettore di una matrice simmetrica. La lezione si conclude con una spiegazione di come qualsiasi valore inseriamo nel quoziente di Rayleigh sarà inferiore al valore massimo.

  • 00:45:00 In questa sezione, il relatore discute il concetto di punti di sella nel quoziente di Rayleigh. Ci sono lambda intermedie difficili da gestire tra il minimo e il massimo. Tuttavia, al massimo e al minimo, i valori del quoziente sono facili da misurare. Se viene selezionato un vettore in qualsiasi dimensione, possiamo calcolare R di X, che è compreso tra il massimo e il minimo. Il relatore afferma che la discussione sui dettagli dei punti di sella verrà salvata per la prossima lezione, ma prima verrà tenuto il terzo laboratorio, che insegna l'overfitting, il deep learning ed è previsto dopo la pausa.
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 19. Punti di sella continuati, Principio di Maxmin



19. Punti di sella continuati, principio di Maxmin

In questo video, l'oratore continua a discutere dei punti di sella e di come trovare i valori minimo e massimo utilizzando il quoziente di Rayleigh nello spazio bidimensionale. Viene spiegato il teorema dell'interlacciamento, che prevede la scrittura dei punti di sella come massimo di un minimo per trovare rapidamente massimi e minimi. Il relatore mette anche in guardia contro l'overfitting quando si adattano i dati con un polinomio di alto grado e discute due laboratori a tempo indeterminato per la classe, che coinvolgono i punti di sella e una semplice rete neurale. Vengono spiegati i concetti di media e varianza nelle statistiche e di varianza e covarianza campionaria, con il relatore che osserva che la matrice di covarianza per output totalmente dipendenti non sarebbe invertibile e per scenari di polling con più persone che vivono in una casa, è prevista una certa covarianza ma non del tutto indipendente.

  • 00:00:00 In questa sezione, il relatore discute l'importanza di comprendere i punti di sella in relazione alla ricerca del minimo della funzione di costo totale nel deep learning. Forniscono un esempio di quoziente di Rayleigh e una semplice matrice S per illustrare i fatti principali dei punti di sella, i valori massimo e minimo della funzione e la presenza di un punto di sella. L'oratore menziona anche i loro piani per discutere il laboratorio tre, i progetti e le statistiche di base, in particolare la matrice di covarianza.

  • 00:05:00 In questa sezione, il relatore discute i punti di sella e come trovare i valori minimo e massimo caricando tutto su una variabile e calcolando le derivate per trovare dove sono uguali a zero. Dimostrano come trovare il valore minimo e mostrano che gli autovettori e gli autovalori della matrice aiutano a trovare la posizione e il valore del punto di sella. Il relatore parla anche di come calcolare le derivate seconde e la matrice simmetrica. Sottolineano l'importanza di calcolare i valori del punto di sella e suggeriscono di lavorare con i codici e di essere consapevoli del processo.

  • 00:10:00 In questa sezione, il relatore discute l'idea dei punti di sella e come scriverli come massimo di un minimo per tornare rapidamente ai massimi e ai minimi. Spiega che questo porta al teorema dell'interlacciamento e fornisce un esempio di prendere il minimo su un sottospazio bidimensionale per trovare il minimo del quoziente di Rayleigh. Prendendo il massimo di quel minimo su tutti i sottospazi, è in grado di ottenere lambda, il valore del punto di sella.

  • 00:15:00 In questa sezione, il relatore spiega come trovare i valori massimo e minimo in uno spazio bidimensionale utilizzando il quoziente di Rayleigh. Dimostra che il valore massimo è tre prendendo il massimo su tutti i possibili spazi 2D e mostrando che questa particolare scelta di V ha dato la risposta di tre. L'oratore spiega quindi come il valore minimo sarà inferiore a tre per qualsiasi altro sottospazio, il che significa che anche il valore massimo per i minimi è tre. Viene discusso anche il concetto di punti di sella, con l'oratore che osserva che questi punti si verificano spesso nei punti più alti di alcune regioni e possono essere Massimi di Minimi o Minimi di Massimi. Il video si conclude con una discussione sui progetti e un invito per gli spettatori a porre domande su di essi.

  • 00:20:00 In questa sezione, il relatore spiega un modello di overfitting in cui viene utilizzato un polinomio di grado 5 per adattare 6 punti. L'oratore sottolinea che il polinomio di 5° grado sarebbe un adattamento esatto ai punti dati, ma sarebbe anche un modello imperfetto perché non sarebbe liscio o piacevole. Questo esempio funge da avvertimento contro l'overfitting, che si verifica quando un modello è troppo complesso e si adatta troppo strettamente ai dati di addestramento.

  • 00:25:00 In questa sezione, il relatore discute il problema dell'adattamento dei dati con un polinomio di alto grado. Mentre l'adattamento di una linea retta può comportare un adattamento insufficiente, l'adattamento di un polinomio di alto grado può portare a un adattamento eccessivo in quanto crea un adattamento perfetto per tutti i punti dati, senza considerare il rumore nei dati. L'idea di un adattamento perfetto è correlata alla matrice di Vandermonde, che ha un grande inverso dovuto al gigante vettore dei coefficienti risultante dall'adattamento perfetto. La matrice ha un'ampia gamma di valori singolari, con valori minuscoli che si verificano accanto a valori di dimensioni ordinarie. Pertanto, può essere difficile trovare il giusto grado di polinomio da adattare ai dati per trovare un equilibrio tra underfitting e overfitting.

  • 00:30:00 In questa sezione, il relatore descrive due esempi di laboratori a tempo indeterminato per la sua classe, uno che coinvolge i punti di sella e l'altro che coinvolge una semplice rete neurale. Per l'esempio del punto di sella, il relatore suggerisce di inviare grafici e tabelle di dati all'ambito del grado e di trarre conclusioni sulla sicurezza e sul rischio di aumentare K. Per quanto riguarda l'esempio della rete neurale, il relatore delinea un problema di classificazione di base e incoraggia gli studenti a modificare il modello come meglio credono, pur utilizzando l'algebra lineare. L'oratore menziona anche un prossimo incontro di facoltà sui piani del MIT per i corsi sul pensiero computazionale, di cui questo corso è un esempio. Infine, il relatore invita gli studenti a inviargli un'e-mail con idee di progetto approssimative e preferenze di gruppo.

  • 00:35:00 In questa sezione, il professore discute l'idea di un progetto per la classe e ne chiarisce la portata. Dice che il progetto non sarebbe troppo grande, forse equivalente a tre compiti a casa, ma nemmeno banale. Chiede agli studenti le loro domande e input sul progetto, suggerendo la possibilità di includere argomenti come le reti neurali convoluzionali. Il professore ricorda anche che alcuni studenti avevano avviato un incontro presso il Media Lab, che si è svolto con successo. Chiede se le persone sarebbero di nuovo interessate a tali incontri dopo le vacanze di primavera.

  • 00:40:00 In questa sezione, il relatore introduce i concetti di media e varianza nelle statistiche, come si relazionano con l'output effettivo e l'output atteso e la differenza tra media campionaria e media attesa. La media del campione viene calcolata dall'output effettivo di un esperimento, mentre la media prevista viene calcolata dalle probabilità di tali risultati. Viene discussa anche la varianza, distinguendo la varianza campionaria e la varianza attesa. Il relatore spiega che i valori attesi di media e varianza si avvicineranno ai valori effettivi all'aumentare del numero di campioni o possibilità.

  • 00:45:00 In questa sezione viene discusso il concetto di varianza campionaria, che misura la distanza media al quadrato dalla media di un insieme di n campioni. In statistica, la divisione di n meno uno significa che questa distanza è calcolata dalla media campionaria, non da zero, e quando n è grande, la differenza tra n e n meno uno non è significativa. La covarianza, d'altra parte, è un'idea più profonda che implica la manipolazione della matrice quando vengono eseguiti più esperimenti e viene calcolata la probabilità congiunta di due eventi separati.

  • 00:50:00 In questa sezione, l'oratore discute i due estremi dell'output di covarianza: output indipendenti e output totalmente dipendenti. Mentre gli output indipendenti hanno una covarianza pari a 0, gli output totalmente dipendenti hanno una covarianza massima, in cui un output è interamente determinato dall'altro. L'oratore utilizza l'esempio del lancio di monete incollate insieme per spiegare questo concetto. La matrice di covarianza per gli output dipendenti non sarebbe invertibile e definita positiva simmetrica, o semidefinita per il caso incollato insieme. L'oratore afferma che negli scenari di sondaggio in cui più persone vivono in una casa, ci si aspetterebbe una certa covarianza, ma non sarebbe del tutto indipendente.
19. Saddle Points Continued, Maxmin Principle
19. Saddle Points Continued, Maxmin Principle
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 20. Definizioni e Disuguaglianze



20. Definizioni e disuguaglianze

In questa sezione del video, il relatore discute vari concetti della teoria della probabilità, tra cui il valore atteso, la varianza e le matrici di covarianza. Anche la disuguaglianza di Markov e la disuguaglianza di Chebyshev furono introdotte come strumenti fondamentali per la stima delle probabilità. L'oratore procede quindi a spiegare la relazione tra la disuguaglianza di Markov e la disuguaglianza di Chebychev, illustrando come esse conducano allo stesso risultato. È stato inoltre introdotto il concetto di covarianza e matrice di covarianza, uno strumento fondamentale nella teoria della probabilità. Il video esplora anche l'idea di probabilità e tensori congiunti, spiegando come l'incollaggio di monete insieme aggiunga dipendenza e alteri le probabilità. Infine, il relatore discute le proprietà della matrice di covarianza, sottolineando che è sempre semidefinita positiva ed è una combinazione di matrici semidefinite positive di rango 1.

  • 00:00:00 In questa sezione, il docente discute il valore atteso, la varianza e la matrice di covarianza. Il valore atteso, simboleggiato da 'e', è definito come la media ponderata di tutti i possibili risultati in base alle loro probabilità. La varianza, d'altra parte, è il valore atteso del quadrato della distanza tra la media e ciascun punto dati. Anche la matrice di covarianza può essere espressa in modo simile. Il docente esplora quindi una seconda espressione per la varianza scrivendo i quadrati e combinandoli in modo diverso, risultando in un modo più efficiente per calcolare la varianza.

  • 00:05:00 In questa sezione, l'oratore discute un processo algebrico di semplificazione di un'equazione per trovare il valore atteso di x al quadrato. Mostra che il valore atteso di x al quadrato meno il valore atteso di x meno M al quadrato è equivalente alla somma delle probabilità di x al quadrato. L'oratore passa quindi a introdurre la disuguaglianza di Markov, che è una disuguaglianza statistica che coinvolge probabilità e aspettative. Nota che Markov era un grande matematico russo e che vedranno catene e processi di Markov più avanti nel libro.

  • 00:10:00 In questa sezione, l'oratore spiega la disuguaglianza di Markov, che può aiutare a stimare la probabilità che X sia maggiore o uguale a un certo numero. La disuguaglianza afferma che la probabilità che X sia maggiore o uguale ad a è minore o uguale alla media di X divisa per a. Il relatore fornisce un esempio utilizzando una media di uno e un valore di a di tre, mostrando che la probabilità che X sia maggiore o uguale a tre è minore o uguale a 1/3. Tuttavia, il relatore osserva che questa disuguaglianza si applica solo a eventi non negativi e non può essere utilizzata con eventi che hanno output che vanno dall'infinito negativo a positivo.

  • 00:15:00 In questa sezione del video, l'oratore parla dell'utilizzo di un caso speciale per dimostrare la probabilità di essere maggiore o uguale a 3. Usano la definizione della media per scrivere un'equazione specifica e quindi formulare ipotesi sui valori da X1 a X5 per soddisfare la disuguaglianza di Markov. Affermano il fatto che la somma delle probabilità dà 1 e sono tutte maggiori o uguali a 0. L'oratore procede quindi a manipolare l'equazione per mostrare che la probabilità di essere maggiore o uguale a 3 è minore o uguale a 1/ 3 sottraendo determinati valori dall'equazione. Concludono mostrando che l'equazione soddisfa la disuguaglianza di Markov.

  • 00:20:00 In questa sezione, il relatore discute le disuguaglianze di probabilità di Markov e Chebyshev. La disuguaglianza di Markov comporta la stima della probabilità che una variabile sia maggiore o uguale a un certo valore e si applica solo quando le variabili sono tutte maggiori o uguali a zero. La disuguaglianza di Chebyshev, d'altra parte, si occupa della probabilità che una variabile si trovi a una certa distanza dalla media e non fa alcuna ipotesi sugli input. Queste due disuguaglianze sono strumenti fondamentali per stimare le probabilità nella teoria della probabilità.

  • 00:25:00 In questa sezione, l'oratore spiega la relazione tra la disuguaglianza di Markov e la disuguaglianza di Chebychev. Introduce una nuova variabile Y, che è X meno M al quadrato, e spiega come calcolarne la media. L'oratore applica quindi la disuguaglianza di Markov a Y e la disuguaglianza di Chebychev a X, dimostrando come conducano allo stesso risultato. Infine, introduce il concetto di covarianza e matrici di covarianza.

  • 00:30:00 In questa sezione, il relatore introduce il concetto di covarianza e matrice di covarianza, che è una matrice M per M dove M è il numero di esperimenti eseguiti contemporaneamente. Per illustrare questo concetto, l'oratore utilizza l'esempio del lancio di due monete con un'uscita (X) per moneta. Se le due monete vengono lanciate indipendentemente, allora non c'è correlazione tra le uscite, ma se sono incollate insieme, le uscite sono correlate e le probabilità congiunte vengono inserite in una matrice 2x2.

  • 00:35:00 In questa sezione, il relatore discute il concetto di probabilità congiunte e matrici per configurazioni sperimentali che coinvolgono monete indipendenti. Esplorano l'idea di una struttura a tre vie, o tensore, nei casi in cui ci sono tre esperimenti con monete indipendenti o quando le monete sono incollate insieme. Le voci risultanti nel tensore sarebbero le probabilità congiunte, che possono essere utilizzate per calcolare la probabilità di risultati diversi. L'oratore osserva che mentre le voci in un caso semplice di un esperimento non incollato sono un ottavo, incollare insieme le monete aggiunge dipendenza e altera le probabilità.

  • 00:40:00 In questa sezione del video, il relatore discute la probabilità congiunta di lanciare tre monete e come può essere rappresentata in una matrice a 3 vie. Accenna al concetto di tensori e di matrici di covarianza, definendo quest'ultima come la varianza dell'esito congiunto di due esperimenti, X e Y, espressa come sommatoria di tutti gli esiti possibili. L'oratore spiega anche il simbolo P IJ e come si collega all'incollaggio e allo scollamento di monete insieme in diverse configurazioni.

  • 00:45:00 In questa sezione del video, l'oratore discute la probabilità congiunta di due eventi - X e Y - e come calcolare questa probabilità per diverse coppie di valori. Il relatore fornisce esempi su come utilizzare la probabilità congiunta, incluso il calcolo della probabilità di una certa età e altezza. Il relatore definisce anche le probabilità marginali, che sono le probabilità individuali di ciascun evento, e spiega come sommare le probabilità lungo righe o colonne in una matrice. Il relatore passa poi a definire la matrice di covarianza e spiega come calcolarne le voci.

  • 00:50:00 In questa sezione, il relatore parla della matrice di covarianza e delle sue proprietà. Spiega che la varianza dell'esperimento X deriva dalla somma di tutti i P IJ, mentre la varianza dell'esperimento Y è data dal valore Sigma Y al quadrato. La covarianza tra X e Y è la somma dei P IJ per la distanza di X dalla sua media e la distanza di Y dalla sua media. Nel caso di monete indipendenti la covarianza sarebbe zero, mentre nel caso di monete incollate sarebbe uguale a Sigma X al quadrato Sigma Y al quadrato. Il determinante della matrice è zero nel caso delle monete incollate, che mostra che la covarianza al quadrato è la stessa di Sigma X al quadrato Sigma Y al quadrato. La matrice di covarianza è sempre semidefinita positiva ed è una combinazione di semidefinita positiva di rango 1 quindi è semidefinita positiva o definita positiva.
20. Definitions and Inequalities
20. Definitions and Inequalities
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 21: Minimizzare una funzione passo dopo passo



Lezione 21: Minimizzare una funzione passo dopo passo

Questa lezione video discute gli algoritmi di base utilizzati per minimizzare una funzione e i loro tassi di convergenza, in particolare il metodo di Newton e la discesa più ripida. Sottolinea inoltre l'importanza della convessità, che assicura che la funzione abbia un minimo, e introduce il concetto di insiemi convessi e funzioni convesse. Il docente spiega come testare la convessità in una funzione, che determina se ha punti di sella o minimi locali, invece di un minimo globale. Il video si conclude con una discussione su Levenberg Marquardt, una versione più economica del metodo di Newton che non è del tutto di secondo ordine.

  • 00:00:00 In questa sezione, il docente discute le basi dell'ottimizzazione, che è l'algoritmo fondamentale che entra nel deep learning. La lezione inizia spiegando la serie di Taylor e passa a mostrare come estendere la serie di Taylor quando la funzione è di più di una variabile. Il docente introduce quindi il gradiente di F, ovvero le derivate parziali di F rispetto a ciascuna variabile X. Infine, viene spiegato il termine quadratico e la lezione termina discutendo le derivate seconde e come cambiano con più variabili.

  • 00:05:00 In questa sezione della lezione viene introdotto il concetto di matrice hessiana, che è la matrice delle derivate seconde di una funzione. La matrice hessiana è simmetrica e il suo calcolo è fattibile per valori di n da piccoli a moderatamente grandi. C'è un'immagine parallela per la funzione vettoriale, che è la matrice Jacobiana, con le voci che sono le derivate della funzione rispetto a diverse variabili. Questi sono fatti di calcolo multivariabile, che vengono utilizzati per risolvere equazioni in problemi di ottimizzazione.

  • 00:10:00 In questa sezione, il docente discute il metodo di Newton per risolvere sistemi di equazioni in n incognite, che comporta la minimizzazione di una data funzione. Il metodo di Newton è il modo migliore per risolvere n equazioni in n incognite, che possono essere espresse come F uguale a 0, dove F di uno è uguale a zero, e ci sono n equazioni in totale. Il docente mostra come utilizzare il metodo di Newton per risolvere l'equazione x^2 meno 9 uguale a 0, che può essere scritta come funzione, e mostra come applicare il metodo passo dopo passo.

  • 00:15:00 In questa sezione, il docente discute come viene utilizzato il metodo di Newton per minimizzare una funzione e come determinare quanto velocemente converge. Iniziano semplificando la formula che determina X subK + 1 e mostrano che se X subK è esattamente 3, allora anche X subK + 1 sarà 3. Quindi si concentrano sulla velocità con cui l'errore si avvicina allo zero e sottraggono 3 da entrambi lati per scomporre 1 su X sotto K. La semplificazione dell'equazione mostra che l'errore al passo K + 1 è elevato al quadrato ad ogni passo, il che dimostra perché il metodo di Newton è fantastico se eseguito abbastanza vicino.

  • 00:20:00 In questa sezione, il docente discute l'utilizzo del metodo di Newton per l'ottimizzazione e come sia applicabile a funzioni di perdita molto complicate con migliaia o addirittura centinaia di migliaia di variabili. La lezione copre due metodi -- la discesa più ripida e il metodo di Newton -- in cui la discesa più ripida comporta lo spostamento nella direzione del gradiente di F, ma con la libertà di decidere la dimensione del gradino. D'altra parte, il metodo di Newton tiene conto della derivata seconda di F e consente una convergenza più rapida, ma potrebbe anche convergere verso soluzioni indesiderabili o esplodere per determinati punti di partenza. Questo porta al concetto di regioni di attrazione, dove alcuni punti di partenza portano alla soluzione desiderata, mentre altri portano a quelli indesiderabili o all'infinito.

  • 00:25:00 In questa sezione, il docente discute due metodi per minimizzare una funzione passo dopo passo: la discesa più ripida e il metodo di Newton. Entrambi implicano la scelta iterativa di una direzione nello spazio n-dimensionale e lo spostamento di una certa distanza lungo quella direzione, ma la discesa più ripida utilizza il gradiente della funzione per scegliere la direzione, mentre il metodo di Newton utilizza l'Assia, o derivata seconda. La lezione spiega anche il concetto di ricerca per riga esatta e l'importanza di scegliere un tasso di apprendimento appropriato in questi metodi.

  • 00:30:00 In questa sezione, il docente discute gli algoritmi di base utilizzati per minimizzare una funzione ei loro tassi di convergenza. Il docente spiega che il metodo di Newton ha un tasso di convergenza quadratico, che lo rende super veloce se avviato abbastanza vicino. Al contrario, l'algoritmo di discesa più ripido ha un tasso di convergenza lineare, che lo rende meno efficiente. Il docente sottolinea che il punto di partenza per risolvere questi problemi dovrebbe essere la convessità, che assicura che la funzione abbia un minimo. Il docente definisce insiemi e funzioni convessi e spiega il loro significato nella minimizzazione di una funzione per punti in un insieme convesso. La conferenza si conclude con una discussione su Levenberg Marquardt, una versione più economica del metodo di Newton che non è del tutto di secondo ordine.

  • 00:35:00 In questa sezione del video, l'oratore discute su come minimizzare una funzione. I vincoli per la funzione sono definiti da un insieme convesso, il che significa che qualsiasi linea tracciata tra due punti all'interno dell'insieme deve rimanere all'interno dell'insieme. L'oratore fornisce l'esempio di due triangoli sovrapposti, che non formano un insieme convesso quando combinati.

  • 00:40:00 In questa sezione viene introdotto il concetto di insiemi convessi e funzioni convesse. Si noti che l'intersezione di due insiemi convessi è sempre convessa e l'insieme vuoto è considerato un insieme convesso. Le note nel video sottolineano l'importanza di comprendere questi concetti quando si minimizzano le funzioni, poiché il problema del prototipo comporta la ricerca di funzioni con un'immagine convessa. Il video collega anche la definizione di una funzione convessa alla definizione di un insieme convesso, osservando che il grafico di una funzione convessa assomiglia a una ciotola, mentre i punti su quella superficie non sono insiemi convessi. Tuttavia, l'insieme dei punti sul grafico è un insieme convesso.

  • 00:45:00 In questa sezione della conferenza, il relatore discute un test per la funzione convessa. Spiega che due funzioni convesse possono essere utilizzate per creare una funzione minima e massima, e una di esse sarà convessa mentre l'altra no. La funzione minima avrà un nodo in essa, e quindi non sarà convessa, mentre quella massima sarà convessa. Il relatore afferma inoltre che questo test può essere esteso a un massimo di 1500 funzioni, e se tutte le 1500 funzioni sono convesse, anche il loro massimo sarà convesso.

  • 00:50:00 In questa sezione, l'oratore spiega come testare la convessità in una funzione. Per una funzione con una sola variabile nel calcolo, una funzione convessa può essere dimostrata controllando se la derivata seconda è positiva o zero. Quando si ha a che fare con una funzione vettoriale con più variabili, una matrice simmetrica F verrebbe aggiunta alla funzione. Il test per la convessità qui sarebbe semi-definito positivo per l'Assia, poiché le derivate seconde risultano in una matrice. I problemi convessi non hanno punti di sella o minimi locali, solo il minimo globale, il che li rende desiderabili.
Lecture 21: Minimizing a Function Step by Step
Lecture 21: Minimizing a Function Step by Step
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 22. Discesa in pendenza: in discesa al minimo



22. Discesa in pendenza: in discesa al minimo

Nel video "Gradient Descent: Downhill to a Minimum", il relatore discute l'importanza della discesa del gradiente nell'ottimizzazione e nel deep learning, dove l'obiettivo è minimizzare una funzione. L'oratore introduce il gradiente e l'Assia e illustra i gradini di discesa più ripidi utilizzando una funzione quadratica. Il relatore discute anche su come interpretare il gradiente e l'Assia, così come il loro ruolo nella misurazione della convessità. Il relatore approfondisce la scelta del tasso di apprendimento appropriato, sottolineando l'importanza del numero di condizione nel controllare la velocità di convergenza. Il video fornisce anche esempi pratici e formule per aiutare a comprendere il concetto di discesa del gradiente, incluso il metodo della palla pesante.

  • 00:00:00 In questa sezione, il relatore discute la discesa del gradiente come algoritmo centrale nelle reti neurali, nell'apprendimento profondo, nell'apprendimento automatico e nell'ottimizzazione in generale. L'obiettivo è minimizzare una funzione e, se ci sono troppe variabili per prendere le derivate seconde, l'attenzione si concentra sulle derivate prime della funzione. Il relatore introduce l'idea di gradiente e Hessian e il ruolo della convessità prima di immergersi in un esempio cruciale di una funzione quadratica pura con due incognite. Attraverso l'esempio, l'oratore dimostra i gradini della discesa più ripida e la velocità con cui convergono alla risposta, che è il punto minimo. Il relatore spiega anche l'importanza del numero di condizione nella velocità di convergenza e come interpretare e calcolare il gradiente di una funzione.

  • 00:05:00 In questa sezione, il relatore spiega come interpretare il gradiente e l'Assia di una superficie. Utilizzando l'esempio di una superficie in cui il gradiente è costante e l'Assia contiene solo derivate seconde pari a zero, il relatore illustra come visualizzare la superficie e interpretare il gradiente e l'Assia in termini di salita o discesa più ripida e set di livello. L'oratore sottolinea che la matrice hessiana delle derivate seconde ci parla della forma di una superficie e della rapidità con cui cambia nelle diverse direzioni.

  • 00:10:00 In questa sezione viene introdotto il concetto di Hessian come strumento per misurare la convessità di una funzione. L'Assia di una funzione ci dice se una superficie è convessa o meno, con Hessiane semidefinite positive o definite positive che indicano la convessità. Una funzione lineare è convessa ma non strettamente convessa, mentre una funzione strettamente convessa si piegherebbe verso l'alto. Viene fornito un esempio di funzione strettamente convessa, vale a dire 1/2 x x trasposto, che ha un valore minimo quando il gradiente è la metà di sx al quadrato.

  • 00:15:00 In questa sezione, il relatore discute il concetto di trovare il valore minimo di una funzione quadratica usando la discesa del gradiente. Il minimo è raggiunto in un punto in cui il gradiente è zero, e questo punto è indicato come argh men. L'oratore sottolinea che questo è diverso dal valore minimo effettivo della funzione e che l'obiettivo è spesso trovare il punto in cui viene raggiunto il minimo piuttosto che il valore minimo stesso. In questo particolare esempio, il valore minimo è zero a causa della mancanza di un termine lineare.

  • 00:20:00 In questa sezione, il relatore discute la fondamentale questione di minimizzazione di trovare il minimo di una funzione quadratica. La funzione passa per lo zero e tocca il fondo a un certo punto, e collegando quel punto, possiamo determinare il suo livello più basso. L'oratore menziona una notevole funzione convessa e osserva che la convessità è ciò che fa funzionare davvero le cose. Questa funzione è una funzione di una matrice e contiene N variabili al quadrato.

  • 00:25:00 In questa sezione, il relatore discute una funzione convessa ottenuta prendendo il determinante di una matrice, seguito dal suo logaritmo con segno negativo. La funzione risultante è convessa e, per una data matrice, le derivate parziali funzionano come voci dell'inversa di quella matrice. Il relatore approfondisce poi la derivata del determinante di una matrice rispetto ai suoi elementi, sottolineando l'importanza del calcolo di tali derivate negli algoritmi di discesa del gradiente.

  • 00:30:00 In questa sezione, l'oratore spiega il determinante e la sua proprietà fondamentale, che afferma che è lineare nella riga 1. Entra anche nella formula per l'espansione del cofattore di un determinante e la collega al fatto che il gradiente è le voci di X inverse. L'oratore introduce quindi la discesa del gradiente e fornisce la sua formula, che coinvolge la dimensione del passo e il gradiente di s in X. L'unico input rimasto per il processo decisionale è la dimensione del passo.

  • 00:35:00 In questa sezione, l'istruttore discute l'importanza di scegliere il tasso di apprendimento appropriato nella discesa del gradiente. Se il tasso di apprendimento è troppo elevato, la funzione oscillerà e sarà difficile da ottimizzare. D'altra parte, se il tasso di apprendimento è troppo basso, l'algoritmo impiegherà troppo tempo a convergere. Un modo per scegliere il tasso di apprendimento ottimale è attraverso una ricerca per riga esatta, ma questo può richiedere molto tempo per problemi di grandi dimensioni. Invece, le persone in genere stimano un tasso di apprendimento adeguato e lo adattano secondo necessità attraverso la ricerca a ritroso. L'istruttore sottolinea l'importanza del numero di condizione nel controllo della velocità di convergenza e pone la questione di quanto una ricerca di linea esatta ridurrebbe la funzione.

  • 00:40:00 In questa sezione, il relatore discute un esempio per comprendere meglio la discesa del gradiente. Viene introdotta una funzione particolare dove si conoscono le risposte esatte, permettendo di fare confronti. Partendo da un punto sulla superficie di questa funzione, l'oratore applica la formula di discesa del gradiente e calcola le iterazioni per questa particolare funzione. Il relatore presenta quindi una bellissima formula che verrà presa come il miglior esempio possibile per aiutare a comprendere la discesa del gradiente.

  • 00:45:00 In questa sezione, il relatore discute di come il rapporto (1-B)/(1+B) sia cruciale nel determinare la velocità di convergenza durante la discesa del gradiente. Se B è vicino a zero, il rapporto è vicino a uno, il che porta a una convergenza lenta, e se B è vicino a uno, il rapporto è vicino a zero, il che porta a una convergenza rapida. Il relatore utilizza l'esempio dei set di livelli e delle ellissi per spiegare come la stretta valle possa causare una lenta convergenza quando ci si avvicina al minimo. Il relatore sottolinea l'importanza di un buon numero di condizione per l'ottimizzazione.

  • 00:50:00 In questa sezione, il relatore discute di come la discesa del gradiente si avvicini a una curva con una traiettoria a zigzag per raggiungere infine un punto specifico. Sottolinea che il moltiplicatore 1 - B/ (1 + B) gioca un ruolo critico e, per una funzione convessa, questa quantità è cruciale per determinare la convergenza della discesa più ripida. La prossima lezione parlerà della quantità di moto o della palla pesante, che implica l'aggiunta di un termine extra che consente al movimento di accelerare invece di dirigerlo semplicemente con la discesa più ripida in ogni punto. L'idea è di lasciare che lo slancio di una palla pesante prenda il sopravvento e rotoli verso il basso, in modo simile a come farebbe nella vita reale.
22. Gradient Descent: Downhill to a Minimum
22. Gradient Descent: Downhill to a Minimum
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 23. Accelerare la discesa del gradiente (usare lo slancio)



23. Accelerazione della discesa del gradiente (usa lo slancio)

Questo video discute il concetto di quantità di moto nell'accelerazione della discesa del gradiente. Il presentatore spiega la formula di base per la discesa del gradiente e mostra come l'aggiunta di quantità di moto può comportare una discesa più rapida rispetto al metodo ordinario, ottenendo in definitiva miglioramenti significativi. Discutono anche di un modello continuo di discesa più ripida e spiegano come può essere analizzato come un'equazione differenziale di secondo ordine con un termine di quantità di moto. Il relatore sottolinea l'importanza di minimizzare entrambi gli autovalori quando si utilizza la quantità di moto per minimizzare l'autovalore più grande scegliendo i valori per s e beta per rendere gli autovalori della matrice il più piccoli possibile. Discutono anche del metodo di Nesterov e suggeriscono che potrebbe essere possibile ottenere ulteriori miglioramenti tornando indietro di due o tre passaggi o più.

  • 00:00:00 In questa sezione, l'oratore discute la formula base della discesa del gradiente, dove il nuovo punto è il vecchio punto meno la dimensione del gradino per il gradiente negativo in XK, che è la direzione della discesa. L'aggiunta di slancio per evitare gli zigzag nella discesa del gradiente si traduce in una discesa più rapida rispetto al metodo ordinario. Esiste anche un'alternativa alla quantità di moto che accelera la discesa, sviluppata da un matematico russo di nome Nestoroff. Per i problemi di apprendimento automatico con centinaia di migliaia di variabili, viene utilizzata la discesa del gradiente stocastico, in cui un mini-batch di dati di addestramento viene scelto in modo casuale o sistematico per eseguire un batch di campioni di addestramento per ogni passaggio.

  • 00:05:00 In questa sezione, il relatore discute la discesa della direzione più ripida e gli insiemi di livello per un problema modello con una funzione di X e Y al quadrato uguale a una costante, che forma ellissi. Spiegano che il punto di arresto ottimale è dove sei tangente all'ellisse di livello più lontana e inizi a salire di nuovo. Il relatore introduce il termine momentum per migliorare la formula di discesa più ripida e traccia la sua discesa con uno schema a zig-zag, mostrando un miglioramento del valore degli autovettori. L'oratore conclude che l'espressione con slancio è un miracolo e produce miglioramenti significativi.

  • 00:10:00 In questa sezione del video, l'oratore discute l'uso della quantità di moto per accelerare la discesa del gradiente. Il termine di decadimento nella quantità di moto indica la velocità con cui il decadimento è minore e, con la quantità di moto, questo termine di 1 meno B su 1 più B cambia in una meno radice quadrata di B su 1 più radice quadrata di B. L'oratore prende l'esempio di B è 1 su 100, e la nuova X è la vecchia X meno il gradiente con un termine in più che ci dà un po' di memoria. Questo termine implica prendere una nuova quantità Z con una dimensione del passo, e invece di prendere Z solo come il gradiente, che sarebbe la discesa più ripida, l'oratore aggiunge una beta multipla della Z precedente, che è la direzione di ricerca.

  • 00:15:00 In questa sezione, il relatore discute il concetto di quantità di moto nell'accelerazione della discesa del gradiente. Piuttosto che usare un punto per rappresentare la funzione, l'oratore suggerisce di usare una palla pesante che si muove più velocemente lungo la valle della funzione di costo. Ciò si ottiene coinvolgendo il passaggio precedente nei calcoli, risultando in un metodo a tre livelli invece di un metodo a due livelli. L'oratore poi mette in relazione questo con un modello continuo di discesa più ripida e spiega come può essere analizzato come un'equazione differenziale di secondo ordine con un termine di quantità di moto. Quindi mostrano come scriverlo come un sistema di due equazioni del primo ordine, che possono essere utilizzate per creare un algoritmo di discesa del gradiente più efficiente e veloce.

  • 00:20:00 In questa sezione, il relatore spiega come analizzare ciò che accade quando k avanza nell'algoritmo di discesa del gradiente accelerato. Spiegano che ad ogni passo c'è un problema di coefficiente costante poiché la variabile XZ viene moltiplicata per una matrice. L'oratore menziona anche che per tracciare ogni autovettore di s, seguono ogni autovalore che consente loro di riscrivere la formula in termini di scalari anziché di vettori.

  • 00:25:00 In questa sezione, il relatore discute come tracciare un autovettore e usarlo per rendere l'intero problema scalare. Scegliendo la dimensione del passo e il coefficiente di quantità di moto, possono creare una matrice che può moltiplicare i coefficienti dell'autovettore ad ogni passo per aggiornarlo. Rendendo s e beta il più piccoli possibile, possono garantire che l'algoritmo riduca al minimo la funzione di perdita sull'intera gamma di possibili lambda. L'obiettivo è scegliere questi valori per rendere il processo il più efficiente possibile.

  • 00:30:00 In questa sezione, l'oratore spiega il concetto di numero di condizione, che è il rapporto tra l'autovalore più grande e l'autovalore più piccolo di una matrice definita positiva simmetrica. Un numero di condizione più alto significa un problema più difficile, uno più basso significa un problema più facile. Il relatore spiega come utilizzare la quantità di moto per accelerare la discesa del gradiente e minimizzare l'autovalore più grande scegliendo i valori per s e beta per rendere gli autovalori della matrice il più piccoli possibile. L'oratore sottolinea che è essenziale minimizzare entrambi gli autovalori, poiché avere un piccolo autovalore ma uno grande può rivelarsi mortale.

  • 00:35:00 In questa sezione del video, il relatore discute un problema di ricerca dei parametri ottimali s e beta per una matrice due per due, basata sugli autovalori dipendenti da lambda, m e capia. L'obiettivo è scegliere parametri che risultino nell'autovalore maggiore più piccolo possibile, che porterà a una convergenza più rapida. Il relatore presenta la formula per gli ottimi s e beta, che dipendono dal rapporto tra m piccolo e M grande, e spiega come calcolare l'autovalore minimo risultante in base a questa formula. In definitiva, l'oratore conclude che questa scelta ottimale di s e beta si traduce in autovalori inferiori a un certo numero, portando a una convergenza più rapida.

  • 00:40:00 In questa sezione, il relatore parla dell'utilizzo dello slancio per migliorare il tasso di convergenza nell'apprendimento automatico. Citano il metodo di Nesterov per utilizzare un'idea leggermente diversa che coinvolge il valore temporale precedente e valutare il gradiente in un punto diverso. Il relatore osserva che ora sono in uso metodi molto popolari per l'apprendimento automatico che prevedono una semplice formula per sommare i valori precedenti, come ADA grad. Suggeriscono anche che potrebbe essere possibile ottenere ulteriori miglioramenti tornando indietro di due o tre passaggi o più, come si fa nelle formule di differenza all'indietro utilizzate nel software MATLAB e nei calcoli planetari.

  • 00:45:00 In questa sezione, il presentatore parla del termine del momento e di Nesterov, che comporta la valutazione del gradiente in un punto compreso tra XK e XK meno 1. Il punto di valutazione per il gradiente di F è in un punto non intero, che è inaspettato e strano perché non è un punto di maglia. Ciò comporta XK più 1, XK e XK meno 1, quindi è un metodo di secondo ordine. Per analizzarlo, viene seguito il processo di scrittura come due passaggi del primo ordine per ottimizzare i coefficienti in Nesterov. Questo processo implica scriverlo come un sistema accoppiato di questo è un passaggio unico che ha una matrice, trovare la matrice, trovare gli autovalori della matrice e rendere quegli autovalori il più piccoli possibile.
23. Accelerating Gradient Descent (Use Momentum)
23. Accelerating Gradient Descent (Use Momentum)
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
Motivazione: