Aprendizado de máquina e redes neurais - página 26

 

Aula 2: Multiplicando e Fatorando Matrizes



Aula 2: Multiplicando e Fatorando Matrizes

Esta aula cobre os fundamentos da multiplicação e fatoração de matrizes. O autor explica como as matrizes têm dimensões nos espaços de linha e coluna, e como o espaço de linha tem dimensão R enquanto o espaço nulo tem dimensão M menos R. A palestra também discute a relação entre linhas e soluções para uma equação, bem como a ortogonalidade de vetores no espaço bidimensional. Por fim, o autor explica o teorema fundamental da álgebra linear, segundo o qual as dimensões de um espaço surgem logo que a geometria é trabalhada.

  • 00:00:00 Nesta palestra, Gilbert Strang explica como multiplicar matrizes usando coluna vezes linha como método. Ela também explica as cinco principais fatorações de matrizes e como elas são importantes em matemática. Finalmente, ela mostra como fazer matrizes e discutir sua importância na álgebra linear.

  • 00:05:00 Nesta palestra, o autor discute o conceito de matrizes ortogonais e seu significado. Ele passa a explicar a regra para a multiplicação de matrizes e mostra como ela pode ser aplicada a dois exemplos simples. Ele então passa a discutir a classificação de uma matriz e como ela está relacionada às colunas e linhas da matriz. Finalmente, o autor demonstra como multiplicar uma matriz por sua matriz diagonal.

  • 00:10:00 Nesta palestra, o professor Gilbert Strang fornece uma breve visão geral do problema de autovalor simétrico e suas várias aplicações. Ele então demonstra como a divisão de uma matriz em partes de nível 1 pode fornecer os autovetores e autovalores corretos.

  • 00:15:00 Nesta palestra, o professor Gilbert Strang aborda as fatorações fundamentais de matrizes, incluindo a Decomposição de Valor Singular (SVD). Ele também discute a eliminação e explica como ela é expressa por L vezes U. Finalmente, ele demonstra como isso pode ser aplicado a uma matriz invertível e mostra como fatora em triangular inferior vezes triangular superior.

  • 00:20:00 Nesta palestra, o professor Gilbert Strang explica o conceito de eliminação e como ele é usado na resolução de equações. Ele continua mostrando como a eliminação pode ser aplicada a uma matriz dois por dois e fornece um exemplo que ilustra o processo.

  • 00:25:00 O teorema fundamental da álgebra linear afirma que existem quatro subespaços de uma matriz, cada um com uma dimensão diferente. Os subespaços são o espaço linha, o espaço coluna, o espaço vetorial de todas as transformações lineares na matriz e o espaço de todas as matrizes.

  • 00:30:00 O espaço nulo de uma matriz é o conjunto de soluções para a palavra "nulo" (um vetor com todas as suas componentes iguais a zero). Este espaço é fechado, o que significa que não contém soluções para "ax igual a zero" que não sejam também soluções para "e". Além disso, o espaço nulo de uma transposição é o conjunto de soluções para a palavra "nulo" que também são soluções para "x transpõe y".

  • 00:35:00 O teorema fundamental da álgebra linear afirma que normalmente existem soluções independentes para equações em um sistema se as dimensões dos dois espaços envolvidos forem iguais. Este teorema é freqüentemente usado para determinar as dimensões de um sistema de equações.

  • 00:40:00 A palestra Multiplicando e Fatorando Matrizes aborda os fundamentos da multiplicação e fatoração de matrizes. A palestra explica que as matrizes têm dimensões nos espaços de linha e coluna, e que o espaço de linha tem dimensão R enquanto o espaço nulo tem dimensão M menos R. A seção final da palestra discute a geometria dos espaços de matriz e demonstra como encontrar vetores que resolvem uma equação particular em uma matriz.

  • 00:45:00 Nesta palestra, o autor explica a relação entre linhas e soluções de uma equação, bem como a ortogonalidade de vetores no espaço bidimensional. Ele também discute o teorema fundamental da álgebra linear, que afirma que as dimensões de um espaço aparecem exatamente quando a geometria é trabalhada.
 

Aula 3. Colunas Ortonormais em Q Dê Q'Q = I



3. Colunas ortonormais em Q Dê Q'Q = I

Esta seção do vídeo explica o conceito de matrizes ortogonais e seu significado na álgebra linear numérica. O falante prova que o comprimento ao quadrado de QX deve ser o mesmo que X transposto QX usando o fato de que Q transposto Q é igual à identidade. O vídeo também discute a construção de matrizes ortogonais usando vários métodos, como matrizes Gordan e matrizes Householder. A importância e a construção de wavelets também são explicadas, juntamente com o conceito de uso de autovetores ortogonais no processamento de sinais. Por fim, o palestrante fala sobre como testar vetores ortogonais com números complexos e menciona que matrizes ortogonais possuem autovetores ortogonais com autovalores diferentes.

  • 00:00:00 Nesta seção, o tópico é sobre matrizes Q, que recebem o nome de suas colunas ortonormais. O fato chave nas matrizes Q é que as colunas ortonormais traduzem-se no simples fato de que Q transpõe Q é igual à matriz identidade. A explicação para isso é que o comprimento ao quadrado de cada vetor na parte normal da matriz é 1, resultando em um na matriz identidade. A parte ortogonal da matriz tem zeros, produzindo uma identidade simples. Para matrizes quadradas Q, Q transposta é igual à matriz identidade, tornando Q uma matriz ortogonal. Se Q for retangular, um exemplo de obtenção de uma matriz ortogonal 2 por 2 é por meio de cos e seno teta. A matriz representa uma rotação.

  • 00:05:00 Nesta seção do vídeo, o palestrante discute a importante propriedade das matrizes ortogonais, que é que elas não alteram o comprimento de nenhum vetor. Essa propriedade os torna populares para algoritmos numéricos, pois nunca há estouro ou estouro ao multiplicar por matrizes ortogonais. O falante prova que o comprimento ao quadrado de QX deve ser o mesmo que X transposto QX usando o fato de que Q transposto Q é igual à identidade. O palestrante também menciona que as matrizes ortogonais também são chamadas de matrizes ortonormais e apresenta alguns exemplos de matrizes ortogonais dois por dois.

  • 00:10:00 Nesta seção, o palestrante discute o conceito de uma matriz de reflexão, que é obtida após uma pequena alteração em uma matriz de rotação. A matriz resultante é simétrica e tem um determinante de -1. Quando aplicada aos vetores unitários (1,0) e (0,1), a matriz os reflete através de uma linha e perpendicular à primeira coluna, respectivamente. O palestrante também menciona que matrizes maiores como essas são chamadas de reflexões de Householder.

  • 00:15:00 Nesta seção, a transcrição discute o conceito de matrizes ortogonais e seu significado na álgebra linear numérica. A matriz de Householder é apresentada como uma importante matriz ortogonal. Uma matriz de Householder é criada começando com um vetor unitário e subtraindo duas vezes o produto do vetor unitário e sua transposta, resultando em uma matriz simétrica e ortogonal. A transcrição explica que essas matrizes são úteis para tornar as coisas ortogonais e observa que elas são melhores do que o método de Gram-Schmidt. Também é demonstrado o processo de verificação se a matriz de Householder é ortogonal, concluindo que se trata de uma família confiável de matrizes ortogonais simétricas.

  • 00:20:00 Nesta seção, o palestrante discute a construção de matrizes ortogonais usando o conceito de matrizes Gordan, que são matrizes compostas por apenas uns e negativos. Ele constrói exemplos desafiadores de matrizes Gordan com cada coluna ortogonal entre si. O palestrante observa que esse conceito pode ser útil na codificação da teoria e sugere que existe uma matriz ortogonal 12x12 composta de uns e negativos, levando a uma conjectura de que todo tamanho de matriz (além de 1x1 e 3x3) pode ser construído dessa maneira.

  • 00:25:00 Nesta seção, o palestrante discute a conjectura sobre se existe uma possível matriz ortogonal de uns e menos uns com colunas ortogonais de todos os tamanhos n. Embora nenhuma maneira sistemática tenha sido encontrada para provar isso, sugere-se que todo múltiplo de quatro possa ser uma possibilidade. O palestrante também discute a importância e a construção de wavelets, que são construções simples, mas significativas, que ajudam a produzir vetores ortogonais, principalmente para matrizes simétricas. O palestrante ilustra esse conceito desenhando uma matriz de caso de quatro por quatro de quatro quadrantes, cada um composto de vetores ortogonais que seguem um padrão de uns e menos uns.

  • 00:30:00 Nesta seção, o palestrante discute wavelets e a construção da matriz wavelet de Haar, que foi desenvolvida muitos anos antes do termo "wavelets" ser inventado. A matriz de Haar tem funções muito simples que a tornam utilizável, e consiste em uns e menos uns seguidos de zeros. A matriz tem a vantagem de ser esparsa e está envolvida na obtenção da média e diferenças entre valores em diferentes escalas. Wavelets foram desenvolvidas por Ingrid Dobashi, que encontrou famílias de matrizes ortogonais que tinham boas propriedades. Essa discussão leva à próxima aula sobre autovalores, autovetores e matrizes definidas positivas.

  • 00:35:00 Nesta seção, o palestrante fala sobre a importância dos autovetores ortogonais. Autovetores de matrizes simétricas e ortogonais são automaticamente ortogonais, simplificando a busca por vetores ortogonais. O autovetor mais importante é a transformada discreta de Fourier, que entra na transformada rápida de Fourier. O palestrante demonstra como os autovetores de Q são ortogonais e reitera que a transformada discreta de Fourier é imensamente útil no processamento de sinais porque ajuda a dividir os vetores em suas frequências. As matrizes de permutação são um reordenamento da matriz identidade, e suas colunas são ortogonais, tornando-as vencedoras. O palestrante conclui falando sobre como a discussão de quarta-feira se concentrará em autovetores e autovalores de uma fila.

  • 00:40:00 Nesta seção, o palestrante discute matrizes ortogonais, rotações, reflexões e autovetores. O vídeo explica como funcionam os autovetores das matrizes de permutação e que a primeira coluna é ortogonal à segunda (ou em termos de frequência, a coluna zero é ortogonal à primeira coluna). O vídeo mostra como cada uma das quatro colunas é um autovetor da permutação e como elas são ortogonais entre si. Por fim, o vídeo menciona que isso é semelhante ao material discreto de Fourier, mas em vez de e elevado a I, II elevado a IX, existem vetores.

  • 00:45:00 Nesta seção do vídeo, o palestrante fala sobre como testar vetores ortogonais com números complexos. Ele menciona que tirar o produto escalar sem o conjugado complexo pode não ser preciso, mas usar o conjugado complexo pode mostrar ortogonalidade. O palestrante também menciona que os autovetores de uma matriz ortogonal com diferentes autovalores devem ser ortogonais.
 

Aula 4. Autovalores e Autovetores



4. Autovalores e Autovetores

Este vídeo explica o conceito de autovalores e autovetores e como eles podem ser usados para calcular transformações lineares. Ele também mostra como autovetores podem ser usados para encontrar equações lineares em um sistema.

  • 00:00:00 Neste vídeo, o autor explica o conceito de autovetores e autovalores para matrizes quadradas. Eles também discutem a utilidade de autovetores e autovalores para certos problemas. Finalmente, o autor discute matrizes simétricas definidas positivas e sua importância.

  • 00:05:00 O vídeo discute o conceito de autovalores e autovetores e como eles podem ser usados para calcular transformações lineares. Ele também mostra como autovetores podem ser usados para encontrar equações lineares em um sistema.

  • 00:10:00 Este vídeo explica como autovalores e autovetores podem ser usados para resolver equações de diferenças rapidamente. O primeiro uso para autovetores é ser capaz de resolver o uso principal para o qual eles foram inventados, que é ser capaz de resolver diferenças em equações vetoriais. Além disso, o vídeo explica como matrizes semelhantes têm os mesmos autovalores.

  • 00:15:00 O vídeo explica como os autovalores são calculados e como eles estão relacionados aos autovetores. Ele também discute como os autovalores são preservados quando as matrizes são multiplicadas.

  • 00:20:00 Neste vídeo, o apresentador discute o conceito de autovalores e autovetores e explica por que eles podem não ser idênticos. Ele então discute como duas matrizes com os mesmos autovalores ainda podem ser diferentes em termos de seus autovetores.

  • 00:25:00 Neste vídeo, o autor se especializou em matrizes simétricas para discutir o que há de especial nos autovalores e autovetores. Ele afirma que uma matriz anti-simétrica tem autovalores imaginários.

  • 00:30:00 Neste vídeo são explicados os autovalores e autovetores de uma matriz. Duas verificações rápidas são realizadas para verificar se o cálculo foi feito corretamente e, em seguida, o traço de uma matriz é mostrado. Finalmente, são explicadas as matrizes simétricas e positivas definidas.

  • 00:35:00 O vídeo discute os autovalores e autovetores de uma matriz simétrica. Os autovalores e autovetores são importantes para o entendimento da estrutura da matriz, sendo possível verificar que os autovalores permanecem os mesmos. Além disso, o vídeo discute como obter uma matriz diagonal.

  • 00:40:00 Neste vídeo, o autor diagonaliza uma matriz, encontra os autovalores e encontra um M para que os autovetores sejam semelhantes. Ele então escreve essas informações em forma de matriz e confirma que estão corretas.

  • 00:45:00 Este vídeo discute os conceitos de autovalores e autovetores e como eles estão relacionados. Continua explicando como uma matriz simétrica pode ter diferentes representações de autovetores e autovalores e como calcular essas representações usando o teorema espectral.
 

Aula 5. Matrizes Positivas Definidas e Semidefinidas



5. Matrizes Positivas Definidas e Semidefinidas

Neste vídeo, o palestrante resume os destaques das aulas anteriores sobre álgebra linear, incluindo autovalores, determinantes e pivôs, todos os quais fornecem testes para matrizes definidas positivas. O palestrante então explica a relação entre matrizes positivas definidas e indefinidas, sua conexão com autovalores e determinantes e como calcular a energia no vetor X para uma matriz. O palestrante também discute os conceitos de aprendizado profundo, redes neurais, aprendizado de máquina e minimização de energia. Eles abordam o conceito de função convexa e explicam como ela pode ser usada em aprendizado profundo. Por fim, o palestrante apresenta exercícios para matrizes positivas definidas e semidefinidas e menciona brevemente o próximo tópico de decomposição de valor singular.

  • 00:00:00 Nesta seção, o palestrante resume os destaques das cinco palestras anteriores sobre álgebra linear, incluindo autovalores, determinantes de transposição a e pivôs, todos os quais fornecem testes para matrizes definidas positivas. Ele explica que as matrizes definidas positivas são as melhores das matrizes simétricas e têm autovalores positivos, mas existem testes adicionais além dos autovalores. O palestrante demonstra como determinar se uma matriz dois por dois é positiva definida perguntando se ela tem autovalores positivos, um determinante positivo, pivôs positivos ou se pode ser fatorada de uma certa maneira.

  • 00:05:00 Nesta seção, o palestrante discute matrizes positivas definidas e indefinidas e sua conexão com autovalores e determinantes. O determinante de uma matriz está ligado aos seus autovalores, pois eles são o produto dos autovalores, e se o determinante for negativo, então existe pelo menos um autovalor negativo. Matrizes indefinidas podem se tornar definidas positivas ajustando as entradas diagonais, e os determinantes principais (determinantes de submatrizes no canto superior esquerdo) devem passar por testes para garantir a definitividade positiva. O orador também conecta pivôs a determinantes e eliminação. Por fim, o palestrante define matrizes definidas positivas como aquelas que passam no teste de energia.

  • 00:10:00 Nesta seção, o palestrante demonstra como calcular a energia no vetor X para uma matriz e mostra que a energia de uma matriz positiva definida é maior que zero. A energia, neste caso, é uma função quadrática pura que poderia ser uma função de perda usada em deep learning para minimizar a diferença entre os dados de treinamento e o número obtido. Os números diagonais da matriz 3 e 6 fornecem as peças diagonais e os termos cruzados, que podem ser negativos, fornecem 8 X Y.

  • 00:15:00 Nesta seção, o palestrante explica a relação entre aprendizado profundo, redes neurais, aprendizado de máquina e minimização de energia. O palestrante usa a analogia de uma tigela para demonstrar visualmente como as redes neurais funcionam para encontrar a quadrática mínima para um problema e como ter termos não lineares pode tornar o problema mais complicado. Eles então explicam como o aprendizado de máquina em grandes problemas pode levar mais de uma semana para ser computado porque envolve a minimização de funções complicadas que podem incluir mais de 100.000 variáveis. O palestrante também aborda a ideia de uma função convexa e explica como ela pode ser usada no aprendizado profundo.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de gradiente descendente, que é o principal algoritmo usado em aprendizado profundo, redes neurais e aprendizado de máquina. Partindo de um ponto inicial em uma superfície, o algoritmo calcula as derivadas da função para determinar a direção do declive ou gradiente mais acentuado e, em seguida, segue esse caminho até atingir um mínimo ou virar para cima. O algoritmo envolve o recálculo do gradiente em cada etapa até que o nível desejado de precisão seja alcançado.

  • 00:25:00 Nesta seção, é explicado o conceito de gradiente descendente, que é comumente usado em aprendizado de máquina para otimização. É mencionado que geralmente apenas as primeiras derivadas são calculadas para otimização, uma vez que calcular as segundas derivadas para um grande número de variáveis pode ser complicado. No entanto, a descida do gradiente tem limitações, como ao descer um vale estreito. Matrizes definidas positivas são importantes, pois fornecem uma forma de tigela para otimização, mas se os autovalores estiverem distantes, isso pode causar problemas. Finalmente, a conversa muda para o dever de casa.

  • 00:30:00 Nesta seção, o palestrante apresenta exercícios para matrizes definidas e semidefinidas positivas. O locutor fornece um exemplo de uma matriz positiva definida S e uma matriz positiva definida T e pergunta se sua adição, S + T, é positiva definida. O palestrante usa o teste de energia para responder a essa pergunta, separando a equação em duas partes para mostrar que ela é de fato positiva definida. O palestrante também discute a positividade do inverso do pecado, usando o primeiro teste. O palestrante observa que uma matriz deve ser simétrica antes de ter autovalores reais e poder sofrer mais questionamentos.

  • 00:35:00 Nesta seção, o palestrante discute o conceito de matrizes definidas positivas e introduz a ideia de matrizes semidefinidas. Uma matriz definida positiva é uma matriz simétrica onde todos os autovalores são positivos. O palestrante mostra como uma matriz ortogonal multiplicada por sua transposição em uma matriz definida positiva fornece uma matriz simétrica. Eles então explicam como matrizes semelhantes têm os mesmos autovalores e que essa nova matriz simétrica é de fato positiva definida. O palestrante então introduz o conceito de matrizes semidefinidas, que possuem autovalores maiores ou iguais a zero. Eles explicam como as matrizes semidefinidas têm um determinante de zero e podem ter um autovalor zero, mas seu valor de traço dará um número positivo.

  • 00:40:00 Nesta seção, o conceito de matrizes definidas positivas é expandido para incluir as semidefinidas positivas que estão na borda das matrizes definidas positivas. Os autovalores de uma matriz de todos os uns são calculados como sendo 3, 0 e 0, tornando-a uma matriz semi-definida positiva. Os testes para autovalores e energias maiores ou iguais a 0 permanecem os mesmos, mas colunas dependentes agora são permitidas. A matriz deve ser simétrica, e se seu posto for apenas 1, então ela não pode ser definida positiva, mas é semidefinida positiva se os autovalores forem positivos.

  • 00:45:00 Nesta seção, o palestrante menciona brevemente que o tópico da próxima seção será a decomposição de valor singular (SVD). Eles também observam que agora cobriram matrizes definidas e semidefinidas positivas, indicando que estão avançando para tópicos mais avançados em álgebra linear.
 

Aula 6. Decomposição de Valor Singular (SVD)



6. Decomposição de Valor Singular (SVD)

Este vídeo explica o conceito de Decomposição de Valor Singular (SVD), que é usado para fatorar uma matriz em três matrizes, onde a do meio é diagonal e contém os valores singulares. O SVD ajuda a entender a relação entre A, Sigma e V, ajudando a resolver equações. O vídeo discute a importância de vetores ortogonais, autovetores e autovalores em SVD e enfatiza a ortogonalidade das matrizes A e V. O vídeo também explica a representação gráfica do processo SVD e a decomposição polar de uma matriz. Finalmente, o vídeo discute o processo de extração da parte mais importante de uma grande matriz de dados usando SVD.

  • 00:00:00 Nesta seção, o instrutor discute o conceito de Decomposição de Valor Singular (SVD), que é semelhante a autovalores, mas aplicável a matrizes retangulares. Autovalores não são viáveis para matrizes retangulares porque os autovetores são complexos ou não ortogonais. SVD introduz dois conjuntos de vetores singulares e valores singulares no lugar de autovetores e autovalores, respectivamente. A chave para SVD é que a transposta a é uma grande matriz, que é quadrada e representa o produto de matrizes retangulares. O primeiro passo para realizar SVD é mostrar que qualquer matriz pode ser fatorada em u vezes sigma vezes V transposição.

  • 00:05:00 Nesta seção, o palestrante discute a fatoração da matriz A transposta A e introduz o conceito de autovetores e autovalores. A matriz tem autovalores positivos definidos, que são usados para calcular suas raízes quadradas. Os autovetores dessa matriz são quadrados, simétricos e positivos definidos. A matriz resultante tem os mesmos autovalores, mas diferentes autovetores. O palestrante então fala sobre a fatoração de A, onde procuramos um conjunto de vetores ortogonais V que podem ser multiplicados por A para obter um conjunto de vetores ortogonais U. Esses vetores serão usados para calcular a decomposição de valores singulares (SVD ). O objetivo do SVD é encontrar uma fatoração de A em três matrizes, onde a do meio é diagonal e contém os valores singulares de A.

  • 00:10:00 Nesta seção, o conceito da propriedade ortogonal de V's no espaço de saída é explorado no quadro geral da álgebra linear, onde o espaço é dividido em espaço de coluna, espaço nulo e outros. É mostrado que quando os V's são multiplicados por a, os usos resultantes também são ortogonais, tornando os V's especiais. Uma forma matricial das equações é apresentada e é revelado que, ao olhar para uma transposta a, o problema de encontrar usos ortogonais e ortonormais pode ser simplificado. Conclui-se que uma transposta a é simétrica, positiva definida e tem forma diagonal, o que nos diz as propriedades dos V's.

  • 00:15:00 Nesta seção, o palestrante discute o conceito de Decomposição de Valor Singular (SVD). Os V's no SVD são os autovetores da transposta de A. O Sigma Transpose Sigma são os autovalores de A transposta A. O SVD é estabelecido tomando a etapa final de compreensão dos autovetores para autovalores duplos ou triplos. O SVD ajuda a entender a relação entre A, Sigma e V, o que acabará por ajudar a resolver equações como A vezes A transpor vezes X é igual a B.

  • 00:20:00 Nesta seção, o palestrante explica a etapa final do processo de Decomposição de Valor Singular (SVD), que prova que os vetores de base U escolhidos são ortogonais. Para fazer isso, o locutor mostra que o produto escalar de U1 e U2 é igual a zero. Como U1 é AV1/Sigma1 e U2 é AV2/Sigma2, o denominador da fração é cancelado, o que deixa V1 transposto vezes a matriz vezes V2, que é Sigma2 transposto V2. Como V2 é um autovetor de A transposto A, o produto escalar entre U1 e U2 é igual a zero, provando assim que os vetores de base U são ortogonais.

  • 00:25:00 Nesta seção, o palestrante discute a ortogonalidade das matrizes A e V na Decomposição de Valor Singular (SVD) e sua relação com autovetores. As matrizes A e V são mostradas como ortogonais entre si no espaço coluna e linha, respectivamente. O palestrante então discute a história da descoberta e a importância dessa relação nas matrizes de dados. O locutor adverte contra o uso de A transposto A para calcular o SVD, pois pode ser computacionalmente caro e vulnerável a erros de arredondamento. Por fim, o palestrante usa um diagrama para explicar como os fatores SVD podem ser pensados como uma série de rotações e alongamentos.

  • 00:30:00 Nesta seção, o conceito de Decomposição de Valor Singular (SVD) é explicado por meio de uma representação gráfica do processo. O vídeo demonstra como a matriz ortogonal gira os vetores unitários e como o Sigma os estica, resultando em uma elipse. Por fim, aplica-se a matriz ortogonal U, que gira a elipse. Se a matriz for positiva definida e simétrica, então U é o mesmo que V, e o S que foi originalmente dado como entrada é o mesmo que A saída. O vídeo também explica como os parâmetros na fatoração podem ser contados.

  • 00:35:00 Nesta seção, o palestrante explica a correspondência dos números entre os lados esquerdo e direito na decomposição de valor singular (SVD) usando um exemplo dois a dois. A rotação no SVD requer dois parâmetros, enquanto o alongamento requer dois parâmetros, o que totaliza quatro parâmetros que correspondem aos quatro números no SVD. Além disso, o palestrante fala sobre o cálculo do SVD para uma matriz três por três e sugere que uma rotação no espaço 3D requer três parâmetros, a saber, rotação, inclinação e guinada. Por fim, o palestrante menciona que o exemplo de SVD apresentado no texto é para uma matriz específica e apresenta alguns fatos sobre autovalores e valores singulares.

  • 00:40:00 Nesta seção, o palestrante explica que o determinante do produto SVD é igual ao produto dos valores singulares. O exemplo utilizado mostra que o produto dos Sigmas também é igual ao determinante. No entanto, calcular exemplos do SVD leva mais tempo, pois é preciso tirar as raízes quadradas do argumento. O palestrante enfatiza que as partes mais importantes do SVD serão usadas na próxima sessão, incluindo as formas SVD menores e maiores, que consistem em valores diferentes de zero e representam o espaço nulo, respectivamente.

  • 00:45:00 Nesta seção, o palestrante apresenta a decomposição de pólos de uma matriz, que fatora qualquer matriz em uma matriz simétrica vezes uma matriz ortogonal. Essa é uma fatoração famosa em engenharia e geometria e pode ser obtida rapidamente a partir do SVD. Colocando a identidade e mudando ligeiramente as coisas, o S e Q podem ser lidos do SVD para recuperar essa decomposição de uma matriz, que na linguagem da engenharia mecânica nos diz que qualquer tensão pode ser descrita como um alongamento simétrico e uma torção interna .

  • 00:50:00 Nesta seção, o palestrante explica o processo de extração da parte mais importante de uma grande matriz de dados, que a ciência de dados deve fazer, já que uma parte da matriz é ruído e outra parte é sinal. Para encontrar a parte mais significativa do sinal, o locutor examina o u Sigma Vtranspose, escolhendo o número mais essencial, Sigma 1. Esse número, junto com sua coluna e linha, formam a parte mais crítica da matriz, pois tem a classificação mais substancial e, portanto, é a parte da matriz com a maior variância. O próximo passo é calcular esses três elementos para compreender os dados de forma mais completa.
 

Aula 7. Eckart-Young: A matriz k mais próxima de A



7. Eckart-Young: a matriz k de classificação mais próxima de A

Neste vídeo do YouTube, o palestrante explica o conceito de análise de componentes principais (PCA), que é usado para entender uma matriz de dados e extrair dela informações significativas. A importância dos maiores k valores singulares de uma matriz, que contêm as informações mais cruciais, é destacada, e o teorema de Eckart-Young, que afirma que as primeiras k partes de uma decomposição de valor singular fornecem a melhor aproximação para uma matriz de classificação k , é introduzido. O palestrante também discute diferentes tipos de normas para vetores e matrizes, incluindo as normas l2, l1 e infinito. A importância da norma Frobenius na competição Netflix e ressonâncias magnéticas é destacada, juntamente com o conceito da matriz de classificação k mais próxima de A. O palestrante também discute o uso de matrizes ortogonais na preservação das propriedades da matriz original e introduz o conceito da Decomposição de Valor Singular (SVD) e como ela se relaciona com o PCA. Por fim, é discutida a importância de resolver um sistema linear de equações envolvendo a matriz retangular A e sua transposta, juntamente com o uso do método SVD para encontrar a melhor razão entre idade e altura para um determinado conjunto de dados.

  • 00:00:00 Nesta seção, o palestrante explica o conceito de análise de componentes principais (PCA), que é uma ferramenta usada para entender uma matriz de dados. Ele destaca a importância de extrair informações significativas dos dados, em vez de copiar tudo. Ele explica que os maiores k valores singulares da matriz contêm os fatos mais importantes, e um K é a melhor aproximação para uma matriz de classificação K. O teorema de Eckert-Young, que afirma que usar as primeiras K partes de uma decomposição de valor singular é a melhor aproximação para uma matriz de classificação K, é apresentado e o palestrante explica as diferentes medidas da norma de uma matriz.

  • 00:05:00 Nesta seção, o palestrante discute diferentes tipos de normas para vetores e matrizes. A norma l2, ou o maior valor singular, é uma norma importante para matrizes. O palestrante explica que, ao minimizar uma função usando a norma l1, o vetor vencedor é esparso ou consiste principalmente em 0 componentes, o que é útil no processamento e detecção de sinais. A norma l1 também é conhecida como busca de base e é importante porque permite a interpretação dos componentes do vetor vencedor. As normas l2 e l1 são comparadas, e o falante também introduz a norma do infinito.

  • 00:10:00 Nesta seção, o palestrante explica três importantes normas da matriz. A primeira é a norma dois, que é semelhante ao comprimento de um vetor e satisfaz a desigualdade triangular. A segunda é a norma de Frobenius, que trata as entradas de uma matriz como um vetor longo e obtém a raiz quadrada da soma de seus quadrados. A terceira é a norma nuclear, que é a soma dos valores singulares de uma matriz. Essas normas são importantes porque todas satisfazem a afirmação de Eckart-Young de que a aproximação de posto K mais próxima de uma matriz pode ser encontrada a partir de seus primeiros K valores singulares.

  • 00:15:00 Nesta seção, o palestrante discute como as normas L2 e Frobenius de uma matriz dependem apenas de seus valores singulares. A norma de Frobenius foi usada na competição da Netflix, onde os participantes tiveram que preencher uma grande matriz de classificações de filmes com entradas ausentes, e acabou sendo a norma certa para a melhor conclusão de norma nuclear da matriz. Este método de preenchimento de matriz agora está sendo usado para exames de ressonância magnética com dados ausentes, onde pode produzir uma imagem excelente mesmo com dados incompletos.

  • 00:20:00 Nesta seção, o palestrante discute o conceito da matriz de classificação k mais próxima de A. Isso envolve o preenchimento de uma matriz preenchendo o que a ressonância magnética teria visto nas posições em que não parecia longa o suficiente, usando a norma nuclear. O exemplo dado é de uma matriz de classificação quatro e, para encontrar a melhor aproximação da classificação dois, o falante escolhe 4 e 3 como os dois maiores valores. Qualquer outra matriz B estaria mais distante de A do que esta matriz escolhida, embora não seja óbvio porque depende da norma. O ponto do teorema é que não é fácil encontrar a matriz k mais próxima de A, e uma prova é necessária.

  • 00:25:00 Nesta seção, o palestrante discute como as matrizes diagonais não são tão especiais quanto parecem e apresenta o conceito de uma matriz ortogonal, que pode ser usada para multiplicar em ambos os lados de uma determinada matriz. O palestrante questiona o que acontece com os valores singulares de uma matriz quando multiplicados por uma matriz ortogonal e explica que os valores singulares não mudarão. O palestrante também explica que as normas dos vetores não são alteradas por matrizes ortogonais e conclui que matrizes ortogonais são tão boas quanto matrizes diagonais em termos de preservação das propriedades da matriz original.

  • 00:30:00 Nesta seção, o conceito de Decomposição de Valor Singular (SVD) foi explicado no contexto da matriz QA. O SVD da matriz QA é composto por uma matriz diagonal, Sigma, à direita dela; V transpor à direita da Sigma; e Q u à esquerda de Sigma, onde Q u é uma matriz ortogonal. Esta seção apresentou o conceito de Análise de Componentes Principais (PCA) e explicou como extrair insights significativos de pontos de dados. O primeiro passo no PCA foi obter média zero subtraindo os valores médios dos pontos de dados para cada componente. A seção explicou ainda como os valores resultantes podem ser usados para encontrar a relação linear entre os componentes.

  • 00:35:00 Nesta seção, o palestrante discute a Análise de Componentes Principais (PCA) e como ela difere dos mínimos quadrados. Enquanto os mínimos quadrados medem os erros entre os pontos e uma linha, o PCA mede a distância perpendicular dos pontos a uma linha e soma seus quadrados para minimizá-los. Portanto, a solução para este problema envolve os Sigmas de Decomposição de Valor Singular (SVD) em vez das equações encontradas na álgebra linear comum. O palestrante distingue o problema de encontrar a melhor relação linear no PCA de encontrar a solução de mínimos quadrados, pois o primeiro problema visa modelar dados não lineares de maneira linear.

  • 00:40:00 Nesta seção, o palestrante discute a importância de resolver um sistema linear de equações envolvendo a matriz retangular A e sua transposta. Embora esta seja uma aplicação fundamental em 1806, o palestrante observa que isso não é o mesmo que a análise de componentes principais (PCA), que os estatísticos vêm aplicando há muito tempo. Ele observa que a matriz de covariância ou a matriz de covariância de amostra, que envolve a média e a variância, desempenha um papel importante em tais aplicações estatísticas. Em particular, a matriz de covariância da amostra é calculada a partir das amostras e normalizada pelo número de pontos de dados, e é exatamente um trem aa transposto.

  • 00:45:00 Nesta seção, o palestrante apresenta um problema que envolve encontrar a melhor proporção entre idade e altura para um determinado conjunto de dados. O objetivo é minimizar a distância entre os dados fornecidos e a solução. O palestrante sugere que a resposta está em encontrar o vetor que aponta na direção certa, que poderia ser um componente principal na matriz definida positiva simétrica. O método SVD é proposto como uma solução para este problema.
 

Aula 8: Normas de Vetores e Matrizes



Aula 8: Normas de Vetores e Matrizes

Esta palestra discute o conceito de normas de vetores e matrizes, incluindo as normas L1 e max, e sua aplicação em campos como detecção de compressão e processamento de sinal. A palestra também aborda a importância da desigualdade triangular nas normas, a forma das s-normas e a conexão entre a norma L2 de vetores e matrizes. Além disso, a palestra explora a norma Frobenius e a norma nuclear, que continua sendo uma conjectura para otimizar redes neurais, e enfatiza a importância de ensinar e aprender junto com os alunos.

  • 00:00:00 Nesta seção, o palestrante discute uma observação interessante feita por um membro do corpo docente da Sloan School do MIT sobre como as pessoas adivinham o resultado do lançamento de uma moeda. Ele explica que, embora, em teoria, a estratégia ideal seja consistentemente adivinhar cara, pessoas e animais acabam adivinhando coroa cerca de um quarto das vezes, embora as chances de obter cara sejam muito maiores. A razão para isso não é explicada porque o orador não teve tempo suficiente para ouvir a explicação. O palestrante também apresenta brevemente o conceito de normas e sua importância na medição do tamanho de vetores, matrizes, tensores e funções.

  • 00:05:00 Nesta seção, o conceito de normas de vetores e matrizes é discutido. O palestrante apresenta diferentes tipos de normas, como a norma L1 e a norma máxima, que são integrais no campo de detecção de compressão e processamento de sinal. Ele explica que a norma P iguala a potência P à potência P aqui em cima P, onde tomar P potências e P raízes produzirá a norma de dois V para ter um fator de dois em comparação com a norma de V. Além disso, o zero norma é introduzida, cujo número de componentes diferentes de zero dá uma medida da esparsidade de matrizes e vetores. No entanto, não é uma norma porque viola a regra do mesmo número de componentes diferentes de zero ter a mesma norma, e os trabalhos de matemática entre um e infinito onde existem normas adequadas são discutidos.

  • 00:10:00 Nesta seção, o palestrante discute as normas de vetores e matrizes. A bola unitária para a norma é um círculo com a equação v1 ao quadrado mais v2 ao quadrado igual a um. A bola unitária para a norma l1 é um diamante com o gráfico de linha reta de v1 mais v2 igual a um no quadrante positivo. A bola unitária para a norma máxima também é plotada com os pontos zero, +/- um e +/- i iguais a máx, e o resto do limite leva um pouco de reflexão para descobrir. À medida que o número p muda, a norma começa com um losango, aumenta para ser um círculo em p igual a dois e se torna um quadrado em p igual a infinito. Finalmente, a norma 0 não é incluída e os pontos com apenas um diferente de zero estão nos eixos.

  • 00:15:00 Nesta seção, o palestrante discute diferentes tipos de normas, como L1 ou norma de Manhattan, L2 ou norma euclidiana e a norma s, que é uma norma de matrizes simétricas definidas positivas. O palestrante destaca a importância da desigualdade triangular nas normas, que é quebrada em alguns casos, como quando se usa a norma Lp com p menor que um. Além disso, a s-norm mostra ter uma forma específica que satisfaz a propriedade de convexidade, que não é possuída por certas normas que violam as regras de uma norma.

  • 00:20:00 Nesta seção, o palestrante discute os diferentes tipos de normas que podem ser aplicadas a vetores e matrizes. A norma L2 é usada quando a matriz S é a matriz identidade, mas usar uma matriz S diferente mudará a forma da norma. Um caso típico é S igual a 3, o que cria uma norma ponderada que é representada por uma elipse. Todas as normas vetoriais são variações da norma L2 com diferentes valores para P. O palestrante também menciona brevemente o problema de busca de base e a regressão de Ridge com suas respectivas normas L1 e L2.

  • 00:25:00 Nesta seção, o palestrante discute o conceito de normas em otimização, particularmente as normas L1 e L2. Usando o exemplo de encontrar o ponto em uma linha com a menor norma L2 e depois a menor norma L1, o palestrante enfatiza que o ponto com a menor norma L1 é o vencedor e tem mais zeros, tornando-o um vetor esparso. Este é um fato importante que se estende a dimensões superiores e torna a norma L1 especial. No geral, a palestra investiga as nuances e aplicações de normas na otimização de redes neurais e da vida em geral.

  • 00:30:00 Nesta seção, o palestrante discute o vencedor da norma L1 e como ir além da linha não é aconselhável, pois aumenta o não-zero sobre o segundo componente. Eles também introduzem a noção de duas normas de matrizes e como ela está conectada às duas normas de vetores por meio de um fator de expansão, que é a razão máxima das duas normas de AX sobre as duas normas de X. A norma da matriz é definido como o fator máximo de explosão sobre todos os Xs.

  • 00:35:00 Nesta seção, o palestrante discute normas de matrizes e como encontrar uma boa norma de uma matriz. Ele explica que o valor máximo da razão obtida pelas duas normas é chamado de Sigma 1. Esse valor pode ser usado para determinar qual é o vetor singular sem realmente encontrar todos eles. Além disso, outras normas de matriz podem ser obtidas maximizando esse fator de explosão nessa norma de vetor. Os vetores singulares são uma forma de encontrar as normas, portanto, os autovetores podem não funcionar ao lidar com matrizes que não são simétricas.

  • 00:40:00 Nesta seção, o palestrante discute a norma Frobenius de matrizes, que é denotada por F maiúsculo e é equivalente à raiz quadrada da soma de todos os elementos da matriz ao quadrado. Esta norma está relacionada com os Sigmas, os quadrados dos valores singulares do SVD. Além disso, a palestra explora como a matriz ortogonal e a norma de Frobenius estão ligadas e como a norma nuclear está relacionada aos algoritmos de otimização de aprendizado profundo.

  • 00:45:00 Nesta seção, o palestrante discute a conjectura de que, em uma situação de modelo, a otimização por gradiente descendente seleciona os pesos que minimizam a norma nuclear. A norma nuclear é a soma dos valores singulares de uma matriz, semelhante à norma L1 para vetores. Essa conjectura ainda não foi comprovada, mas a ideia tem aplicações potenciais em aprendizado profundo e detecção comprimida. O professor enfatiza que seu trabalho não é dar notas aos alunos, mas ensinar e aprender com eles. A palestra termina com o anúncio do dever de casa três, que usará as notas das seções oito e nove.
 

Aula 9. Quatro Maneiras de Resolver Problemas de Mínimos Quadrados



9. Quatro maneiras de resolver problemas de mínimos quadrados

Neste vídeo, o instrutor discute o conceito de mínimos quadrados e várias formas de abordá-lo. Ele enfatiza a importância dos mínimos quadrados, pois é um problema essencial na álgebra linear e serve como a cola que mantém todo o curso unido. O vídeo aborda o pseudo-inverso de matrizes, SVD de matrizes invertíveis e não invertíveis e diferentes métodos para resolver problemas de mínimos quadrados, incluindo o plano de Gauss e colunas ortogonais. O vídeo também discute a ideia de minimizar a distância entre ax + b e as medições reais usando a norma L2 ao quadrado e como ela se relaciona com regressão linear e estatística. Além disso, o vídeo fornece informações sobre um projeto que usa o material aprendido no curso, com foco em áreas como aprendizado de máquina e aprendizado profundo.

  • 00:00:00 Nesta seção, o instrutor discute a importância dos mínimos quadrados e como é um problema essencial na álgebra linear. Ele menciona que existem várias maneiras de abordar os mínimos quadrados, e esse assunto é a cola que mantém todo o curso unido. Ele também menciona que não haverá exames finais ou testes, mas sim incentivará um projeto que utilize o material aprendido no curso. O projeto incluirá diferentes áreas, como aprendizado de máquina e aprendizado profundo, e ele enviará uma mensagem sobre os detalhes do projeto quando chegar a hora.

  • 00:05:00 Nesta seção, o palestrante explica o conceito de pseudo-inversa de uma matriz. A inversa, quando existe, nos permite multiplicar por ela e depois voltar ao vetor original, mas para uma matriz sem inversa, voltamos para a pseudo-inversa. Isso é relevante nos casos em que a matriz é retangular, tem autovalores zero ou tem espaço nulo. O orador usa uma imagem do espaço de linha e coluna para explicar quais partes da imagem são inversíveis e quais são inúteis. A pseudo-inversa será utilizada para resolver problemas quando a matriz não for invertível, proporcionando uma solução adequada.

  • 00:10:00 Nesta seção, o palestrante explica como definir o pseudo-inverso de uma matriz para situações em que uma matriz não pode ser invertida. Eles discutem como lidar com o espaço nulo de uma matriz e o que o pseudo-inverso deve fazer nesse caso. O alto-falante fornece um plano para o que o pseudo-inverso deve fazer no espaço da coluna e no espaço ortogonal onde ninguém o atinge. Usando o SVD, eles fornecem uma fórmula para o pseudo-inverso que envolve projetar uma matriz na matriz identidade na metade superior e zero na metade inferior.

  • 00:15:00 Nesta seção, o vídeo discute o SVD (decomposição de valor singular) de uma matriz invertível, onde o SVD leva os V's de volta aos U's ou vice-versa. Se uma matriz não é invertível, então seu SVD requer que sua matriz Sigma retangular seja substituída por sua pseudo-inversa. O vídeo mostra um exemplo de matriz com duas colunas independentes onde Sigma tem apenas dois não zeros, e o restante são zeros, representando uma situação totalmente singular. Como resultado, a melhor opção é usar o pseudo-inverso do Sigma no lugar do inverso do Sigma.

  • 00:20:00 Nesta seção, o conceito de Sigma plus, o pseudo-inverso de Sigma, é apresentado como uma solução para matrizes retangulares que não podem ser invertidas. O pseudo-inverso é usado para resolver o problema dos mínimos quadrados onde existe uma equação ax igual a B, mas a não é invertível. Este problema surge quando há muitas medições ou ruído. A matriz Sigma plus é usada para obter os vetores no espaço coluna, enquanto os vetores no espaço ortogonal são considerados insolúveis. A primeira maneira de resolver o problema dos mínimos quadrados é usar a matriz Sigma plus para fornecer a solução.

  • 00:25:00 Nesta seção, o palestrante discute o problema dos mínimos quadrados de ajustar uma linha reta a medições ruidosas usando um sistema linear de equações. Eles explicam que, se as medições estiverem em uma linha, o sistema linear tem solução, mas, em geral, não. Eles então introduzem a ideia de minimizar a distância entre ax + b e as medições reais usando a norma L2 ao quadrado. Esta técnica foi proposta por Gauss e é utilizada para encontrar os melhores valores de C e D na equação Cx + D que representa a reta mais próxima das medições.

  • 00:30:00 Nesta seção, o palestrante explica o conceito de mínimos quadrados e como ele é usado para resolver problemas insolúveis em regressão linear e estatística. Ao minimizar a função de perda quadrática, é produzido um sistema de equações lineares que, em última análise, dá a melhor resposta, seguindo o conselho de Gauss. O melhor X é encontrado resolvendo a equação a transposta a vezes X igual a transposta B, o que leva ao mínimo. O orador então desenha um gráfico para explicar o conceito de espaço coluna de A e como B não está no espaço coluna, e como os quadrados e as equações normais levam ao melhor AX.

  • 00:35:00 Nesta seção, o palestrante discute diferentes métodos para resolver problemas de mínimos quadrados. O método 2 envolve resolver as equações normais usando matrizes no MATLAB. No entanto, esse método pode não funcionar se a matriz tiver colunas quase singulares. O método 3 envolve o uso do plano de Gauss, que funciona apenas se a matriz tiver colunas independentes, o que significa que a matriz é invertível. O método pseudo-inverso também pode ser usado quando a matriz não é invertível, mas possui colunas independentes. A importância da invertibilidade da matriz é enfatizada ao longo da seção.

  • 00:40:00 Nesta seção, o palestrante explica que quando o espaço nulo é zero, a resposta do método pseudo-inverso é a mesma que a resposta do método a transpose a inverse a transpose B. No entanto, o O orador observa que o espaço nulo de uma transposta não é invertível, mas uma transposta a é invertível. Além disso, o palestrante explica que a matriz aa transpose está fazendo o possível para ser a inversa, mas não está próxima o suficiente. O pseudo-inverso é mostrado para funcionar quando a classificação é igual.

  • 00:45:00 Nesta seção, o palestrante discute mais duas maneiras de resolver problemas de mínimos quadrados. A terceira maneira envolve obter colunas ortogonais primeiro, o que tornaria o problema mais fácil. O procedimento de Gram-Schmidt é uma maneira de obter vetores ortogonais de maneira natural. A quarta e última maneira de resolver problemas de mínimos quadrados não é discutida em detalhes, mas envolve aproveitar o fato de que os dados na vida real geralmente são escassos. O palestrante conclui observando que mínimos quadrados não é um conceito novo e continua a ser usado por um bom motivo.
 

Aula 10: Levantamento das Dificuldades com Ax = b



Aula 10: Levantamento das Dificuldades com Ax = b

Nesta palestra sobre álgebra linear numérica, são discutidas as dificuldades com a resolução de equações lineares da forma Ax=b. Essas dificuldades surgem quando a matriz A é quase singular, tornando sua inversa excessivamente grande, e quando o problema é muito grande com uma matriz gigante que é impossível de resolver em um tempo viável. O professor apresenta várias possibilidades de resolução do problema, desde o caso normal fácil até o caso extremamente difícil de equações indeterminadas. O uso de álgebra linear aleatória, métodos iterativos e o SVD são discutidos, juntamente com a importância de encontrar soluções que funcionem em dados de teste, particularmente com aprendizado profundo. Além disso, o palestrante enfatiza que o SVD ainda é a melhor ferramenta para diagnosticar qualquer problema de matriz.

  • 00:00:00 Nesta seção, o palestrante discute as dificuldades que podem surgir ao tentar resolver a equação Ax = B. Ele observa que o problema pode ocorrer em vários tamanhos e categorias, podendo ser quase singular ou não. Ele descreve várias possibilidades para resolver o problema, desde o caso normal fácil de uma matriz quadrada com um número de condição razoável, até o caso extremamente difícil de equações subdeterminadas. Neste último caso, o palestrante observa que o problema é comum no aprendizado profundo e que podem existir várias soluções.

  • 00:05:00 Nesta seção, o palestrante discute problemas difíceis com Ax = b e como abordá-los. Esses problemas geralmente surgem quando as colunas da matriz são quase dependentes, tornando problemático aceitar as colunas a1, a2, até an da matriz dada. A solução para isso é encontrar vetores de coluna ortonormais nesse espaço de coluna usando Gram-Schmidt e fixando as colunas ortogonalizando-as. O palestrante salva a discussão de Gram-Schmidt para a próxima palestra, mas visualiza a importância da articulação da coluna, que permite reordenar as colunas, um conceito que também é aplicável na eliminação.

  • 00:10:00 Nesta seção, o palestrante discute as dificuldades com a resolução de equações lineares da forma Ax=b, incluindo a possibilidade de que a matriz possa ser quase singular, tornando sua inversa excessivamente grande. O palestrante também fala sobre problemas inversos, que normalmente são problemas em que você conhece a saída do sistema, mas deve determinar a estrutura ou entrada da rede. Esses problemas geralmente fornecem matrizes quase singulares, dificultando a resolução precisa do sistema sem adicionar um termo de penalidade para minimizar o problema. Os mundos Leu e QR, trocas de linha e ortogonalização Gram-Schmidt também são mencionados.

  • 00:15:00 Nesta seção, aprendemos sobre algumas dificuldades envolvidas na resolução de equações lineares usando o método Ax=b. Uma dessas dificuldades é quando a matriz A está mal condicionada, levando a vetores que se aproximam de zero e um inverso gigante de uma transposta a. Para combater isso, precisamos penalizar A, o que o torna mais bem condicionado, mas também muda o problema para decidir quanto penalizá-lo. Outro método são os métodos iterativos, como o método de gradiente conjugado, onde damos um passo cada vez mais perto da resposta exata até que esteja perto o suficiente. Quando o problema é muito grande com uma matriz gigante que é impossível de resolver em um tempo viável, a álgebra linear aleatória é usada para amostrar as colunas e linhas da matriz para fornecer uma resposta da amostra.

  • 00:20:00 Nesta seção, o palestrante discute o uso da álgebra linear aleatória para determinar soluções para problemas difíceis nos casos em que a matriz é razoável. Embora não haja garantia de que as soluções serão corretas, usar as probabilidades de desigualdades pode render uma boa solução para o problema. Métodos iterativos e algoritmos aleatórios, juntamente com o uso do SVD, são discutidos como métodos de encontrar soluções. O palestrante enfatiza a importância de encontrar soluções que funcionem em dados de teste, principalmente com aprendizado profundo, e discute as questões matemáticas profundas que surgem com esse problema. O SVD é explicado como uma solução potencial quando a matriz é quase singular.

  • 00:25:00 Nesta seção, o professor discute um método para regularizar o problema de encontrar a soma mínima de ax menos B ao quadrado na presença de grandes inversos. Usando um problema de mínimos quadrados com um termo de penalidade adicional que inclui um delta positivo, mesmo quando esse valor vai para zero ou a faz coisas malucas, o problema ainda será solucionável e a função com certeza estará longe do singular. Conforme o delta vai para zero, o comportamento do resultado muda drasticamente, e esse fator pode depender do nível de ruído do sistema.

  • 00:30:00 Nesta seção do vídeo, o palestrante está discutindo a solução para um determinado Delta e analisando quando a solução existe. O foco está na resolução de um problema um a um, que envolve encontrar o mínimo de um problema de mínimos quadrados penalizados. A equação é resolvida definindo a derivada como zero e o valor X resultante é usado para determinar o limite quando Delta vai para zero. As duas possibilidades são que Sigma não é zero e a solução se aproxima do inverso de Sigma, ou Sigma é zero e a solução não existe.

  • 00:35:00 Nesta seção do vídeo, o palestrante discute o comportamento da abordagem dos quadrados penalizados quando o termo de penalidade chega a zero. O palestrante observa que, nesse caso, o sistema se comporta de maneira estranha, com uma bifurcação repentina entre zero e um limite diferente de zero. Esse limite é identificado como o pseudo-inverso e, à medida que Delta fica cada vez menor, a solução do sistema se aproxima do pseudo-inverso, que é a resposta sempre correta para o sistema. O palestrante observa que, em um caso prático, essa abordagem seria útil para encontrar os parâmetros desconhecidos de um sistema, como as resistências e indutâncias de um circuito elétrico.

  • 00:40:00 Nesta seção, o palestrante explica que a solução do problema Ax=b pode ser obtida adicionando um termo de penalidade para regularizar o problema. O termo de penalidade pode ser introduzido usando a norma L1, que fornece soluções esparsas sem muitos componentes pequenos na resposta. Ele também discute a importância dos métodos iterativos em álgebra linear convencional e Gram-Schmidt com ou sem giro. No entanto, ele decide cobrir esses tópicos na próxima palestra.

  • 00:45:00 Nesta seção, o palestrante discute como o SVD é uma ferramenta eficaz para provar coisas sobre matrizes; ele simplifica um problema confuso em um problema sobre uma matriz diagonal Sigma no meio, e é por isso que é útil para diagnosticar qualquer problema de matriz. Além disso, o palestrante fornece uma fórmula para um caso especial de um problema, com o Sigma como uma matriz diagonal, o que implica que entender o comportamento do Sigma, especificamente em cada entrada diagonal, é vital na busca de tais casos. O SVD, enfatiza o palestrante, ainda é a melhor ferramenta para isso. Por fim, o palestrante destaca que esta palestra é um levantamento do que trata a álgebra linear numérica e, embora nem todos os tópicos tenham sido abordados, eles serão nas próximas sessões.
 

Aula 11: Minimizando “x” Sujeito a Ax = b



Aula 11: Minimizando “x” Sujeito a Ax = b

Nesta palestra, o palestrante cobre uma variedade de tópicos relacionados à álgebra linear numérica. Eles começam discutindo os problemas que podem surgir ao resolver para Ax=b, depois passam para o processo de Gram-Schmidt para encontrar uma base ortogonal para um espaço e o método de Gram-Schmidt modificado para minimizar “x” sujeito a Ax = b . O palestrante também apresenta o conceito de troca de coluna ou pivô de coluna em um algoritmo de Gram-Schmidt mais profissional e discute uma melhoria no processo padrão de Gram-Schmidt para ortonormalizar as colunas de uma matriz A. Eles também abordam a ideia do espaço de Krylov para resolver o problema Ax=b e a importância de ter uma boa base para minimizar ‖x‖ sujeito a Ax = b. Finalmente, eles mencionam que terminaram com o problema de minimizar x sujeito a Ax=b e estão lidando com a questão de lidar com matrizes muito grandes.

  • 00:00:00 Nesta seção, o palestrante menciona três coisas. Em primeiro lugar, os problemas que podem surgir ao resolver Ax=b, incluindo onde A é muito grande para caber no núcleo, mas onde outros métodos estão disponíveis. Em segundo lugar, ele mostra o rascunho inicial de duas páginas de seu livro e explica o processo de dois anos pelo qual ele passa para aperfeiçoá-lo e melhorá-lo. Em terceiro lugar, ele discute a minimização de normas diferentes, como L1 ou L2 ou norma infinita max L, para a condição de resolver com a restrição de uma equação satisfeita, fornecendo uma representação visual da diferença entre as normas L1, L2 e L infinito.

  • 00:05:00 Nesta seção, o palestrante discute o ponto vencedor para diferentes bolas unitárias em diferentes espaços normais, incluindo L1, L2 e L infinito. Ele mostra como encontrar o ponto vencedor, ou o ponto que toca a linha primeiro, em cada caso. Ele então apresenta o tópico do dia, Gram-Schmidt, que é uma maneira de tornar ortogonal uma matriz não ortogonal, encontrando um conjunto diferente de vetores que abrangem o mesmo espaço enquanto são ortogonais. Ele descreve os fatos gerais de Gram-Schmidt e menciona que é um tópico padrão ensinado em cursos de álgebra linear.

  • 00:10:00 Nesta seção, o professor explica o processo de Gram-Schmidt, que abre a figura de uma matriz para obter uma matriz ortogonal com colunas Q1 a Qn que são ortonormais. A matriz R é usada para dizer de quais combinações os Qs são feitos ou de trás para frente para dizer como A está relacionado ao Q final. A equação para R é Q transposta vezes A, e as entradas em R são apenas o produto interno dos Qs com os As. O professor mostra que não há nada de misterioso em R por causa da matriz ortogonal Q. O comando do MATLAB seria QR de A em vez de Lu de A.

  • 00:15:00 Nesta seção, a palestra explica o processo de Gram-Schmidt para encontrar uma base ortogonal para um espaço. A aula começa com um conjunto de bases não ortogonais e o objetivo é construir um conjunto de bases ortogonais. O processo começa com o primeiro vetor de coluna sendo o primeiro vetor de base e, em seguida, pegando o segundo vetor e ortogonalizando-o com o primeiro vetor. O próximo passo é construir o terceiro vetor que é ortogonal aos dois primeiros vetores. Isso continua até que todo o conjunto de bases seja construído ortogonalmente. Finalmente, dividimos cada vetor por sua norma para tornar cada vetor de base um vetor unitário. Gram-Schmidt pega um conjunto de base não ortogonal e gera um conjunto ortogonal adequado para métodos de projeção.

  • 00:20:00 Nesta seção, o palestrante discute o método de Gram-Schmidt modificado para minimizar “x” sujeito a Ax = b. Eles explicam o processo de subtração dos componentes de Q1 e Q2 do vetor e verificam se o vetor resultante é ortogonal. Eles também abordam o perigo de ordenar as linhas durante a eliminação e sugerem o uso do método Gram-Schmidt modificado para evitar erros computacionais.

  • 00:25:00 Nesta seção da palestra, o palestrante discute a ideia de troca de coluna ou pivô de coluna em um algoritmo gram-schmidt mais profissional. Semelhante à eliminação, em gram-schmidt, se a nova parte da coluna for muito pequena, ela pode criar erros de arredondamento que não podem ser removidos. Portanto, é fundamental que o algoritmo verifique o tamanho do pivô e troque as linhas se necessário. A principal ideia por trás da troca de colunas é comparar a nova parte da coluna com todas as outras possibilidades potenciais para encontrar o maior componente antes de decidir a próxima etapa. Este processo é crucial para evitar erros de arredondamento que podem afetar a precisão do resultado.

  • 00:30:00 Nesta seção, o palestrante explica uma melhoria no processo Gram-Schmidt padrão para ortonormalizar as colunas de uma matriz A. Em vez de considerar apenas a próxima coluna em A, a melhoria envolve considerar todas as colunas restantes em A quando ortonormalizando cada nova coluna. O palestrante argumenta que isso não é mais trabalhoso do que o método padrão, pois todas as subtrações necessárias são calculadas mais cedo independentemente. A melhoria depende da seleção da maior coluna restante e é semelhante à seleção do maior pivô na eliminação gaussiana.

  • 00:35:00 Nesta seção, o palestrante apresenta a ideia do espaço de Krylov para resolver o problema da grande matriz, Ax=b. O espaço de Krylov é uma combinação de vetores que abrangem um espaço, e o professor usa combinações desses vetores para encontrar a solução de mínimos quadrados nesse espaço, XJ. O espaço Krylov é determinado pela multiplicação dos vetores A por J, até A^k-1B. O docente procura neste espaço a melhor solução para resolver o problema Ax=b. No entanto, ainda há um problema neste método.

  • 00:40:00 Nesta seção, o palestrante discute a importância de ter uma boa base para minimizar “x” sujeito a Ax = b. A base deve ser ortogonalizada para facilitar os cálculos, e é aqui que entram as contribuições de nossos programas nolde e Lan. Uma base ortogonal é perfeita para uma projeção, e o palestrante explica a equação que facilita os cálculos. Quando os Q's são ortogonais, os coeficientes C podem ser facilmente encontrados calculando o produto escalar do vetor dado X com cada Q e, em seguida, aplicando Q transposta. Isso permite uma solução eficiente para o problema.

  • 00:45:00 Nesta seção da palestra, o palestrante discute o conceito de base e como encontrar uma boa base usando vetores Gram-Schmidt ou Krylov. O palestrante observa que usar o método de Gram-Schmidt neste caso é preferível e também menciona a seção 2.1 do livro sobre álgebra linear numérica, que resume as técnicas comuns no campo, como Krylov, Arnoldi e Lanczos. Ele recomenda 'Numerical Linear Algebra' de Golub e van Loan como um excelente livro-texto para aqueles que desejam aprender mais sobre o assunto.

  • 00:50:00 Nesta seção do vídeo, o palestrante menciona que eles terminaram com o problema de minimizar x sujeito a Ax=b e estão lidando com a questão de lidar com matrizes muito grandes.
Razão: