Redes Neurais em IA e Deep Learning - página 26

 

Lección 4. Valores propios y vectores propios



4. Valores propios y vectores propios

Este video explica el concepto de valores propios y vectores propios, y cómo se pueden usar para calcular transformaciones lineales. También continúa mostrando cómo se pueden usar los vectores propios para encontrar ecuaciones lineales en un sistema.

  • 00:00:00 En este video, el autor explica el concepto de vectores propios y valores propios para matrices cuadradas. También discuten la utilidad de los vectores propios y los valores propios para ciertos problemas. Finalmente, el autor analiza las matrices simétricas definidas positivas y su importancia.

  • 00:05:00 El video analiza el concepto de valores propios y vectores propios, y cómo se pueden usar para calcular transformaciones lineales. También continúa mostrando cómo se pueden usar los vectores propios para encontrar ecuaciones lineales en un sistema.

  • 00:10:00 Este video explica cómo se pueden usar los valores propios y los vectores propios para resolver ecuaciones en diferencias rápidamente. El primer uso de los vectores propios es poder resolver el uso principal para el que fueron inventados, que es poder resolver diferencias en ecuaciones vectoriales. Además, el video explica cómo matrices similares tienen los mismos valores propios.

  • 00:15:00 El video explica cómo se calculan los valores propios y cómo se relacionan con los vectores propios. También analiza cómo se conservan los valores propios cuando se multiplican las matrices.

  • 00:20:00 En este video, el presentador analiza el concepto de valores propios y vectores propios, y explica por qué pueden no ser idénticos. Luego continúa discutiendo cómo dos matrices con los mismos valores propios pueden ser diferentes en términos de sus vectores propios.

  • 00:25:00 En este video, el autor se especializa en matrices simétricas para discutir qué tienen de especial los valores propios y los vectores propios. Afirma que una matriz antisimétrica tiene valores propios imaginarios.

  • 00:30:00 En este video, se explican los valores propios y los vectores propios de una matriz. Se realizan dos comprobaciones rápidas para verificar que el cálculo se realizó correctamente, y luego se muestra la traza de una matriz. Finalmente, se explican las matrices simétricas y definidas positivas.

  • 00:35:00 El video analiza los valores propios y los vectores propios de una matriz simétrica. Los valores propios y los vectores propios son importantes para comprender la estructura de la matriz, y es posible verificar que los valores propios siguen siendo los mismos. Además, el video explica cómo obtener una matriz diagonal.

  • 00:40:00 En este video, el autor diagonaliza una matriz, encuentra los valores propios y encuentra una M para que los vectores propios sean similares. Luego escribe esta información en forma de matriz y confirma que es correcta.

  • 00:45:00 Este video analiza los conceptos de valores propios y vectores propios, y cómo se relacionan. Continúa explicando cómo una matriz simétrica puede tener diferentes representaciones de autovectores y autovalores, y cómo calcular estas representaciones usando el teorema espectral.
 

Lección 5. Matrices Positivas Definidas y Semidefinidas



5. Matrices Positivas Definidas y Semidefinidas

En este video, el orador resume los aspectos más destacados de las conferencias anteriores sobre álgebra lineal, incluidos los valores propios, los determinantes y los pivotes, todos los cuales brindan pruebas para matrices definidas positivas. Luego, el orador explica la relación entre las matrices positivas definidas e indefinidas, su conexión con los valores propios y los determinantes, y cómo calcular la energía en el vector X para una matriz. El orador también analiza los conceptos de aprendizaje profundo, redes neuronales, aprendizaje automático y minimización de energía. Tocan el concepto de una función convexa y explican cómo se puede usar en el aprendizaje profundo. Finalmente, el disertante introduce ejercicios para matrices positivas definidas y semidefinidas y menciona brevemente el próximo tema de la descomposición en valores singulares.

  • 00:00:00 En esta sección, el orador resume los aspectos más destacados de las cinco conferencias anteriores en álgebra lineal, incluidos los valores propios, los determinantes transpuestos y los pivotes, todos los cuales brindan pruebas para matrices definidas positivas. Explica que las matrices definidas positivas son las mejores de las matrices simétricas y tienen valores propios positivos, pero existen pruebas adicionales más allá de los valores propios. El orador demuestra cómo determinar si una matriz de dos por dos es definida positiva preguntando si tiene valores propios positivos, un determinante positivo, pivotes positivos o si se puede factorizar de cierta manera.

  • 00:05:00 En esta sección, el orador analiza las matrices definidas e indefinidas positivas y su conexión con los valores propios y los determinantes. El determinante de una matriz está conectado a sus valores propios, ya que son el producto de los valores propios, y si el determinante es negativo, entonces hay al menos un valor propio negativo. Las matrices indefinidas pueden convertirse en definidas positivas ajustando las entradas diagonales, y los determinantes principales (determinantes de submatrices en la esquina superior izquierda) deben pasar pruebas para garantizar una definición positiva. El hablante también conecta los pivotes con los determinantes y la eliminación. En última instancia, el hablante define matrices definidas positivas como aquellas que pasan la prueba de energía.

  • 00:10:00 En esta sección, el orador demuestra cómo calcular la energía en el vector X para una matriz y muestra que la energía de una matriz definida positiva es mayor que cero. La energía, en este caso, es una función cuadrática pura que podría ser una función de pérdida utilizada en aprendizaje profundo para minimizar la diferencia entre los datos de entrenamiento y el número obtenido. Los números diagonales de la matriz 3 y 6 dan las piezas diagonales, y los términos cruzados, que pueden ser negativos, dan 8 X Y.

  • 00:15:00 En esta sección, el orador explica la relación entre el aprendizaje profundo, las redes neuronales, el aprendizaje automático y la minimización de energía. El orador usa la analogía de un tazón para demostrar visualmente cómo funcionan las redes neuronales para encontrar el mínimo cuadrático para un problema y cómo tener términos no lineales puede complicar el problema. Luego explican cómo el aprendizaje automático en problemas grandes puede tardar más de una semana en calcularse porque implica minimizar funciones complicadas que pueden incluir más de 100 000 variables. El orador también toca la idea de una función convexa y explica cómo se puede usar en el aprendizaje profundo.

  • 00:20:00 En esta sección, el orador analiza el concepto de descenso de gradiente, que es el algoritmo principal utilizado en el aprendizaje profundo, las redes neuronales y el aprendizaje automático. Partiendo de un punto inicial en una superficie, el algoritmo calcula las derivadas de la función para determinar la dirección de la pendiente o pendiente más pronunciada, y luego sigue este camino hasta que alcanza un mínimo o gira hacia arriba. El algoritmo implica volver a calcular el gradiente en cada paso hasta lograr el nivel deseado de precisión.

  • 00:25:00 En esta sección, se explica el concepto de descenso de gradiente, que se usa comúnmente en el aprendizaje automático para la optimización. Se menciona que, por lo general, solo se calculan las primeras derivadas para la optimización, ya que calcular las segundas derivadas para un gran número de variables puede resultar complicado. Sin embargo, el descenso de pendiente tiene limitaciones, como cuando se desciende por un valle estrecho. Las matrices definidas positivas son importantes ya que dan una forma de cuenco para la optimización, pero si los valores propios están muy separados, puede causar problemas. Finalmente, la conversación cambia hacia la tarea.

  • 00:30:00 En esta sección, el ponente presenta ejercicios para matrices positivas definidas y semidefinidas. El orador proporciona un ejemplo de una matriz definida positiva S y una matriz definida positiva T, y pregunta si su suma, S + T, es definida positiva. El orador usa la prueba de energía para responder a esta pregunta, separando la ecuación en dos partes para mostrar que, de hecho, es definida positiva. El orador también discute la positividad del inverso del pecado, usando la primera prueba. El orador señala que una matriz debe ser simétrica antes de que tenga valores propios reales y pueda someterse a más cuestionamientos.

  • 00:35:00 En esta sección, el disertante discute el concepto de matrices definidas positivas e introduce la idea de matrices semidefinidas. Una matriz definida positiva es una matriz simétrica donde todos los valores propios son positivos. El orador muestra cómo una matriz ortogonal multiplicada por su transpuesta en una matriz definida positiva da una matriz simétrica. Luego explican cómo las matrices similares tienen los mismos valores propios y que esta nueva matriz simétrica es definida positiva. Luego, el disertante introduce el concepto de matrices semidefinidas, que tienen valores propios que son mayores o iguales a cero. Explican cómo las matrices semidefinidas tienen un determinante de cero y pueden tener un valor propio cero, pero su valor de seguimiento dará un número positivo.

  • 00:40:00 En esta sección, el concepto de matrices definidas positivas se amplía para incluir las semidefinidas positivas que se encuentran en el borde de las matrices definidas positivas. Los valores propios de una matriz de todos unos se calculan como 3, 0 y 0, lo que la convierte en una matriz semidefinida positiva. Las pruebas para valores propios y energías mayores o iguales a 0 siguen siendo las mismas, pero ahora se permiten columnas dependientes. La matriz debe ser simétrica, y si su rango es solo 1, entonces no puede ser definida positiva, pero es semidefinida positiva si los valores propios son positivos.

  • 00:45:00 En esta sección, el ponente menciona brevemente que el tema de la siguiente sección será la descomposición en valores singulares (SVD). También señalan que ahora han cubierto matrices positivas definidas y semidefinidas, lo que indica que están pasando a temas más avanzados en álgebra lineal.
 

Lección 6. Descomposición en valores singulares (SVD)



6. Descomposición de valores singulares (SVD)

Este video explica el concepto de descomposición de valores singulares (SVD), que se utiliza para factorizar una matriz en tres matrices, donde la del medio es diagonal y contiene los valores singulares. El SVD ayuda a comprender la relación entre A, Sigma y V y, en última instancia, ayuda a resolver ecuaciones. El video analiza la importancia de los vectores ortogonales, los vectores propios y los valores propios en SVD y enfatiza la ortogonalidad de las matrices A y V. El video también explica la representación gráfica del proceso SVD y la descomposición de polos de una matriz. Finalmente, el video analiza el proceso de extracción de la parte más importante de una gran matriz de datos utilizando SVD.

  • 00:00:00 En esta sección, el instructor analiza el concepto de descomposición de valores singulares (SVD), que es similar a los valores propios pero aplicable a matrices rectangulares. Los valores propios no son factibles para matrices rectangulares porque los vectores propios son complejos o no ortogonales. SVD introduce dos conjuntos de vectores singulares y valores singulares en lugar de vectores propios y valores propios, respectivamente. La clave de SVD es que una transpuesta a es una gran matriz, que es cuadrada y representa el producto de matrices rectangulares. El primer paso para realizar SVD es mostrar que cualquier matriz se puede factorizar en u por sigma por V transpuesta.

  • 00:05:00 En esta sección, el disertante analiza la factorización de la matriz A transpuesta A e introduce el concepto de vectores propios y valores propios. La matriz tiene valores propios definidos positivos, que se utilizan para calcular sus raíces cuadradas. Los vectores propios de esta matriz son cuadrados, simétricos y definidos positivamente. La matriz resultante tiene los mismos valores propios pero diferentes vectores propios. Luego, el orador habla sobre la factorización de A, donde buscamos un conjunto de vectores ortogonales V que se puedan multiplicar por A para obtener un conjunto de vectores ortogonales U. Estos vectores se usarán para calcular la descomposición en valores singulares (SVD ). El objetivo de SVD es encontrar una factorización de A en tres matrices, donde la del medio es diagonal y contiene los valores singulares de A.

  • 00:10:00 En esta sección, se explora el concepto de la propiedad ortogonal de las V en el espacio de salida en el panorama general del álgebra lineal donde el espacio se divide en espacio columna, espacio nulo y otros. Se muestra que cuando las V se multiplican por a, los usos resultantes también son ortogonales, lo que hace que las V sean especiales. Se presenta una forma matricial de las ecuaciones y se revela que al observar una transpuesta a, se puede simplificar el problema de encontrar usos ortogonales y ortonormales. Se concluye que una transpuesta a es simétrica, definida positiva y tiene forma diagonal, lo que nos dice las propiedades de las V.

  • 00:15:00 En esta sección, el disertante discute el concepto de Descomposición de Valor Singular (SVD). Las V en el SVD son los vectores propios de la transpuesta de A. Los Sigma Transpose Sigma son los valores propios de A transpose A. El SVD se establece tomando el paso final de comprender los vectores propios para valores propios dobles o triples. El SVD ayuda a comprender la relación entre A, Sigma y V, lo que finalmente ayudará a resolver ecuaciones como A por A transpuesta por X igual a B.

  • 00:20:00 En esta sección, el orador explica el paso final del proceso de Descomposición en valores singulares (SVD), que consiste en demostrar que los vectores base U elegidos son ortogonales. Para hacerlo, el hablante muestra que el producto escalar de U1 y U2 es igual a cero. Dado que U1 es AV1/Sigma1 y U2 es AV2/Sigma2, el denominador de la fracción se cancela, lo que deja V1 transpuesto por la matriz por V2, que es Sigma2 transpuesto V2. Como V2 es un vector propio de A transpuesto A, el producto escalar entre U1 y U2 es igual a cero, lo que demuestra que los vectores base U son ortogonales.

  • 00:25:00 En esta sección, el disertante analiza la ortogonalidad de las matrices A y V en la Descomposición de valores singulares (SVD) y su relación con los vectores propios. Se muestra que las matrices A y V son ortogonales entre sí en el espacio de columnas y filas, respectivamente. Luego, el orador analiza la historia del descubrimiento y la importancia de esta relación en las matrices de datos. El orador advierte contra el uso de A transponer A para calcular el SVD, ya que puede ser computacionalmente costoso y vulnerable a errores de redondeo. Finalmente, el orador usa un diagrama para explicar cómo los factores SVD pueden considerarse como una serie de rotaciones y estiramientos.

  • 00:30:00 En esta sección se explica el concepto de Descomposición en Valores Singulares (SVD) a través de una representación gráfica del proceso. El video demuestra cómo la matriz ortogonal rota los vectores unitarios y cómo Sigma los estira, dando como resultado una elipse. Finalmente, se aplica la matriz ortogonal U, que rota la elipse. Si la matriz es definida positiva y simétrica, entonces U es lo mismo que V, y la S que se dio originalmente como entrada es la misma que la salida A. El video también explica cómo se pueden contar los parámetros en la factorización.

  • 00:35:00 En esta sección, el orador explica la coincidencia de los números entre los lados izquierdo y derecho en la descomposición de valores singulares (SVD) usando un ejemplo de dos por dos. La rotación en SVD requiere dos parámetros, mientras que el estiramiento requiere dos parámetros, lo que suma un total de cuatro parámetros que coinciden con los cuatro números en SVD. Además, el orador habla sobre el cálculo del SVD para una matriz de tres por tres y sugiere que una rotación en el espacio 3D requiere tres parámetros, a saber, balanceo, cabeceo y guiñada. Finalmente, el disertante menciona que el ejemplo de SVD presentado en el texto es para una matriz específica e introduce algunos datos sobre valores propios y valores singulares.

  • 00:40:00 En esta sección, el disertante explica que el determinante del producto SVD es igual al producto de los valores singulares. El ejemplo utilizado muestra que el producto de Sigma también es igual al determinante. Sin embargo, los ejemplos de cálculo del SVD toman más tiempo ya que uno tiene que sacar las raíces cuadradas del argumento. El orador enfatiza que las piezas más importantes del SVD se usarán en la próxima sesión, incluidas las formas SVD más pequeñas y más grandes, que consisten en valores distintos de cero y representan el espacio nulo, respectivamente.

  • 00:45:00 En esta sección, el orador presenta la descomposición de polos de una matriz, que factoriza cualquier matriz en una matriz simétrica multiplicada por una matriz ortogonal. Esta es una factorización famosa en ingeniería y geometría, y se puede obtener rápidamente a partir de la SVD. Al ingresar la identidad y cambiar ligeramente las cosas, S y Q se pueden leer del SVD para recuperar esta descomposición de una matriz, que en lenguaje de ingeniería mecánica nos dice que cualquier tensión se puede describir como un estiramiento simétrico y una torsión interna. .

  • 00:50:00 En esta sección, el ponente explica el proceso de extracción de la parte más importante de una gran matriz de datos, que debe hacer la ciencia de datos, ya que una parte de la matriz es ruido y otra parte es señal. Para encontrar la parte más significativa de la señal, el locutor examina la u Sigma Vtranspuesta, eligiendo el número más esencial, Sigma 1. Este número, junto con su columna y fila, forman la parte más crítica de la matriz, ya que tiene el rango uno más sustancial y, por lo tanto, es la parte de la matriz con la varianza más alta. El siguiente paso es calcular estos tres elementos para comprender los datos de manera más completa.
 

Lección 7. Eckart-Young: La matriz de rango k más cercana a A



7. Eckart-Young: La matriz de rango k más cercana a A

En este video de YouTube, el disertante explica el concepto de análisis de componentes principales (PCA), que se utiliza para comprender una matriz de datos y extraer información significativa de ella. Se destaca la importancia de los k valores singulares más grandes de una matriz, que contienen la información más crucial, y el teorema de Eckart-Young, que establece que las primeras k partes de una descomposición de valores singulares proporcionan la mejor aproximación a una matriz de rango k , es presentado. El orador también analiza diferentes tipos de normas para vectores y matrices, incluidas las normas l2, l1 e infinity. Se destaca la importancia de la norma de Frobenius en la competencia de Netflix y las resonancias magnéticas, junto con el concepto de la matriz de rango k más cercana a A. El orador también analiza el uso de matrices ortogonales para preservar las propiedades de la matriz original e introduce el concepto de Descomposición de Valor Singular (SVD) y cómo se relaciona con PCA. Por último, se analiza la importancia de resolver un sistema lineal de ecuaciones que involucre la matriz rectangular A y su transpuesta, junto con el uso del método SVD para encontrar la mejor relación entre la edad y la altura para un conjunto de datos dado.

  • 00:00:00 En esta sección, el disertante explica el concepto de análisis de componentes principales (PCA), que es una herramienta utilizada para comprender una matriz de datos. Destaca la importancia de extraer información significativa de los datos en lugar de copiarlo todo. Explica que los valores singulares k más grandes de la matriz contienen los hechos más importantes, y una K es la mejor aproximación a una matriz de rango K. Se presenta el teorema de Eckert-Young, que establece que usar las primeras K piezas de una descomposición en valor singular es la mejor aproximación a una matriz de rango K, y el disertante explica las diferentes medidas de la norma de una matriz.

  • 00:05:00 En esta sección, el disertante analiza diferentes tipos de normas para vectores y matrices. La norma l2, o el valor singular más grande, es una norma importante para las matrices. El orador explica que cuando se minimiza una función usando la norma l1, el vector ganador es escaso o consiste principalmente en 0 componentes, lo cual es útil en el procesamiento y detección de señales. La norma l1 también se conoce como búsqueda de base y es importante porque permite la interpretación de los componentes del vector ganador. Se comparan las normas l2 y l1, y el hablante también presenta la norma del infinito.

  • 00:10:00 En esta sección, el orador explica tres importantes normas de matriz. La primera es la norma de dos, que es similar a la longitud de un vector y satisface la desigualdad del triángulo. La segunda es la norma de Frobenius, que trata las entradas de una matriz como un vector largo y saca la raíz cuadrada de la suma de sus cuadrados. La tercera es la norma nuclear, que es la suma de los valores singulares de una matriz. Estas normas son importantes porque todas satisfacen la afirmación de Eckart-Young de que la aproximación de rango K más cercana a una matriz se puede encontrar a partir de sus primeros valores singulares K.

  • 00:15:00 En esta sección, el orador analiza cómo las normas L2 y Frobenius de una matriz dependen solo de sus valores singulares. La norma Frobenius se usó en la competencia de Netflix, donde los participantes tenían que completar una gran matriz de clasificaciones de películas con entradas faltantes, y resultó ser la norma correcta para completar la matriz con la mejor norma nuclear. Este método de completar la matriz ahora se usa para exploraciones de resonancia magnética con datos faltantes, donde puede producir una imagen excelente incluso con datos incompletos.

  • 00:20:00 En esta sección, el orador analiza el concepto de la matriz de rango k más cercana a A. Esto implica completar una matriz completando lo que la resonancia magnética habría visto en las posiciones en las que no miró lo suficiente, usando la norma nuclear. El ejemplo dado es de una matriz de rango cuatro, y para encontrar la mejor aproximación del rango dos, el hablante elige 4 y 3 como los dos valores más grandes. Cualquier otra matriz B estaría más alejada de A que esta matriz elegida, aunque no es obvio porque depende de la norma. El punto del teorema es que no es fácil encontrar la matriz de rango k más cercana a A, y se necesita una prueba.

  • 00:25:00 En esta sección, el orador analiza cómo las matrices diagonales no son tan especiales como parecen e introduce el concepto de una matriz ortogonal, que se puede usar para multiplicar en ambos lados de una matriz dada. El orador plantea la pregunta de qué sucede con los valores singulares de una matriz cuando se multiplican por una matriz ortogonal, y explica que los valores singulares no cambiarán. El orador también explica que las matrices ortogonales no cambian las normas de los vectores, y concluye que las matrices ortogonales son tan buenas como las diagonales en términos de preservar las propiedades de la matriz original.

  • 00:30:00 En esta sección, se explicó el concepto de descomposición de valores singulares (SVD) en el contexto del control de calidad de matriz. La matriz SVD de QA está compuesta por una matriz diagonal, Sigma, a la derecha de la misma; V transpuesta a la derecha de Sigma; y Q u a la izquierda de Sigma, donde Q u es una matriz ortogonal. Esta sección introdujo el concepto de Análisis de componentes principales (PCA) y explicó cómo extraer información significativa de los puntos de datos. El primer paso en PCA fue obtener la media cero restando los valores promedio de los puntos de datos para cada componente. La sección explicó además cómo los valores resultantes podrían usarse para encontrar la relación lineal entre los componentes.

  • 00:35:00 En esta sección, el orador analiza el análisis de componentes principales (PCA) y cómo se diferencia de los mínimos cuadrados. Mientras que los mínimos cuadrados miden los errores entre puntos y una línea, PCA mide la distancia perpendicular de los puntos desde una línea y suma sus cuadrados para minimizarlos. Por lo tanto, la solución a este problema implica la Descomposición en Valores Singulares (SVD) Sigmas en lugar de las ecuaciones que se encuentran en el álgebra lineal ordinaria. El orador distingue el problema de encontrar la mejor relación lineal en PCA de encontrar la solución de mínimos cuadrados, ya que el primer problema tiene como objetivo modelar datos no lineales de forma lineal.

  • 00:40:00 En esta sección, el disertante discute la importancia de resolver un sistema lineal de ecuaciones que involucran la matriz rectangular A y su transpuesta. Si bien esta es una aplicación fundamental en 1806, el orador señala que no es lo mismo que el análisis de componentes principales (PCA), que los estadísticos han estado aplicando durante mucho tiempo. Señala que la matriz de covarianza o la matriz de covarianza de la muestra, que involucra la media y la varianza, juega un papel muy importante en tales aplicaciones estadísticas. En particular, la matriz de covarianza de la muestra se calcula a partir de las muestras y se normaliza por el número de puntos de datos, y es exactamente una transposición de tren aa.

  • 00:45:00 En esta sección, el orador presenta un problema que consiste en encontrar la mejor relación entre la edad y la altura para un conjunto de datos determinado. El objetivo es minimizar la distancia entre los datos dados y la solución. El orador sugiere que la respuesta está en encontrar el vector que apunta en la dirección correcta, que podría ser un componente principal en la matriz definida positiva simétrica. El método SVD se propone como solución a este problema.
 

Lección 8: Normas de Vectores y Matrices



Lección 8: Normas de Vectores y Matrices

Esta lección analiza el concepto de normas de vectores y matrices, incluidas las normas L1 y max, y su aplicación en campos como la detección de compresión y el procesamiento de señales. La conferencia también cubre la importancia de la desigualdad triangular en las normas, la forma de las s-normas y la conexión entre la norma L2 de vectores y matrices. Además, la conferencia explora la norma de Frobenius y la norma nuclear, que sigue siendo una conjetura para optimizar las redes neuronales, y enfatiza la importancia de enseñar y aprender junto con los estudiantes.

  • 00:00:00 En esta sección, el orador discute una observación interesante hecha por un miembro de la facultad de la Escuela Sloan del MIT sobre cómo la gente adivina el resultado de los lanzamientos de monedas. Explica que, aunque, en teoría, la estrategia óptima sería adivinar siempre cara, las personas y los animales terminan adivinando cruz aproximadamente una cuarta parte de las veces, aunque las probabilidades de obtener cara son mucho mayores. No se explica el motivo de esto, ya que el orador no tuvo suficiente tiempo para escuchar la explicación. El disertante también introduce brevemente el concepto de normas y su importancia en la medición del tamaño de vectores, matrices, tensores y funciones.

  • 00:05:00 En esta sección, se discute el concepto de normas de vectores y matrices. El disertante presenta diferentes tipos de normas, como la norma L1 y la norma máxima, que son integrales en el campo de la detección de compresión y el procesamiento de señales. Él explica que la norma P es igual a la potencia P a la potencia P aquí arriba P, donde tomando potencias P y raíces P producirá la norma de dos V para tener un factor de dos en comparación con la norma de V. Además, el cero se introduce la norma, cuyo número de componentes distintos de cero da una medida de la escasez de matrices y vectores. Sin embargo, no es una norma porque viola la regla para que el mismo número de componentes distintos de cero tengan la misma norma, y se discuten los trabajos de matemáticas entre uno e infinito donde existen normas adecuadas.

  • 00:10:00 En esta sección, el disertante discute las normas de vectores y matrices. La bola unitaria para la norma es un círculo con la ecuación v1 al cuadrado más v2 al cuadrado es igual a uno. La bola unitaria para la norma l1 es un diamante con el gráfico de línea recta de v1 más v2 igual a uno en el cuadrante positivo. La bola unitaria para la norma máxima también se traza con los puntos cero, +/- uno y +/- i igual a máximo, y el resto del límite requiere un poco de reflexión para determinarlo. A medida que cambia el número p, la norma comienza con un diamante, se hincha hasta convertirse en un círculo en p igual a dos y se convierte en un cuadrado en p igual a infinito. Finalmente, la norma 0 no está incluida, y los puntos con solo un distinto de cero están en los ejes.

  • 00:15:00 En esta sección, el disertante analiza diferentes tipos de normas, como L1 o norma de Manhattan, L2 o norma euclidiana, y la norma s, que es una norma de matrices simétricas definidas positivas. El disertante destaca la importancia de la desigualdad triangular en las normas, que se rompe en ciertos casos, como cuando se usa la norma Lp con p menor que uno. Además, se muestra que la s-norma tiene una forma específica que satisface la propiedad de convexidad, que no poseen ciertas normas que violan las reglas de una norma.

  • 00:20:00 En esta sección, el disertante analiza los diferentes tipos de normas que se pueden aplicar a vectores y matrices. La norma L2 se usa cuando la matriz S es la matriz identidad, pero el uso de una matriz S diferente cambiará la forma de la norma. Un caso típico es S igual a 3, lo que crea una norma ponderada que se representa mediante una elipse. Todas las normas vectoriales son variaciones de la norma L2 con diferentes valores para P. El disertante también menciona brevemente el problema de búsqueda de base y la Regresión de Ridge con sus respectivas normas L1 y L2.

  • 00:25:00 En esta sección, el disertante discute el concepto de normas en optimización, particularmente las normas L1 y L2. Usando el ejemplo de encontrar el punto en una línea con la norma L2 más pequeña y luego la norma L1 más pequeña, el disertante enfatiza que el punto con la norma L1 más pequeña es el ganador y tiene la mayor cantidad de ceros, lo que lo convierte en un vector disperso. Este es un hecho importante que se extiende a dimensiones superiores y hace que la norma L1 sea especial. En general, la conferencia profundiza en los matices y las aplicaciones de las normas para optimizar las redes neuronales y la vida en general.

  • 00:30:00 En esta sección, el orador analiza el ganador de la norma L1 y cómo no es aconsejable ir más arriba en la línea, ya que aumenta el componente distinto de cero sobre el segundo. También introducen la noción de dos normas de matrices y cómo se conecta a las dos normas de vectores a través de un factor de expansión, que es la relación máxima de las dos normas de AX sobre las dos normas de X. La norma matricial se define como el factor máximo de explosión sobre todas las X.

  • 00:35:00 En esta sección, el disertante discute las normas de las matrices y cómo encontrar una buena norma de una matriz. Explica que el valor máximo de la relación obtenida por las dos normas se llama Sigma 1. Este valor se puede usar para determinar cuál es el vector singular sin tener que encontrarlos todos. Además, se pueden obtener otras normas de matriz maximizando ese factor de expansión en esa norma de vector. Los vectores singulares son una forma de encontrar las normas, por lo tanto, los vectores propios pueden no funcionar cuando se trata de matrices que no son simétricas.

  • 00:40:00 En esta sección, el disertante discute la norma de matrices de Frobenius, que se denota con F mayúscula y es equivalente a la raíz cuadrada de la suma de todos los elementos de la matriz al cuadrado. Esta norma está relacionada con las Sigma, los cuadrados de los valores singulares de la SVD. Además, la conferencia explora cómo se vinculan la matriz ortogonal y la norma de Frobenius y cómo la norma nuclear se relaciona con los algoritmos de optimización de aprendizaje profundo.

  • 00:45:00 En esta sección, el disertante discute la conjetura de que en una situación modelo, la optimización por descenso de gradiente selecciona los pesos que minimizan la norma nuclear. La norma nuclear es la suma de los valores singulares de una matriz, similar a la norma L1 para vectores. Esta conjetura sigue sin probarse, pero la idea tiene aplicaciones potenciales en el aprendizaje profundo y la detección comprimida. El disertante enfatiza que su trabajo no es calificar a sus alumnos sino enseñar y aprender con ellos. La conferencia concluye con un anuncio de la tarea tres, que utilizará las notas de las secciones ocho y nueve.
 

Lección 9. Cuatro formas de resolver problemas de mínimos cuadrados



9. Cuatro formas de resolver problemas de mínimos cuadrados

En este video, el instructor analiza el concepto de mínimos cuadrados y varias formas de abordarlo. Él enfatiza la importancia de los mínimos cuadrados, ya que es un problema esencial en álgebra lineal y sirve como el pegamento que mantiene unido todo el curso. El video cubre el pseudo-inverso de matrices, SVD de matrices invertibles y no invertibles, y diferentes métodos para resolver problemas de mínimos cuadrados, incluido el plan de Gauss y las columnas ortogonales. El video también analiza la idea de minimizar la distancia entre ax + b y las medidas reales usando la norma L2 al cuadrado y cómo se relaciona con la regresión lineal y las estadísticas. Además, el video brinda información sobre un proyecto que utiliza el material aprendido en el curso, centrándose en áreas como el aprendizaje automático y el aprendizaje profundo.

  • 00:00:00 En esta sección, el instructor analiza la importancia de los mínimos cuadrados y cómo es un problema esencial en álgebra lineal. Menciona que hay varias formas de abordar los mínimos cuadrados, y este tema es el pegamento que mantiene unido todo el curso. También menciona que no habrá exámenes o pruebas finales, sino que impulsará un proyecto que utilice el material aprendido en el curso. El proyecto incluirá diferentes áreas como el aprendizaje automático y el aprendizaje profundo, y enviará un mensaje sobre los detalles del proyecto a medida que llegue el momento.

  • 00:05:00 En esta sección, el disertante explica el concepto de la pseudo-inversa de una matriz. La inversa, cuando existe, nos permite multiplicarla y luego volver al vector original, pero para una matriz sin inversa, recurrimos a la pseudo-inversa. Esto es relevante en los casos en que la matriz es rectangular, tiene cero valores propios o tiene un espacio nulo. El orador usa una imagen del espacio de fila y columna para explicar qué partes de la imagen son invertibles y cuáles no tienen remedio. La pseudo-inversa se utilizará para resolver problemas cuando la matriz no sea invertible, proporcionando una solución adecuada.

  • 00:10:00 En esta sección, el ponente explica cómo definir la pseudo-inversa de una matriz para situaciones en las que una matriz no se puede invertir. Discuten cómo manejar el espacio nulo de una matriz y qué debería hacer la pseudo-inversa en ese caso. El orador proporciona un plan de lo que debe hacer el pseudo-inverso en el espacio de la columna y el espacio ortogonal donde nadie lo golpea. Utilizando el SVD, proporcionan una fórmula para la pseudo-inversa que implica proyectar una matriz sobre la matriz identidad en la mitad superior y cero en la mitad inferior.

  • 00:15:00 En esta sección, el video analiza la SVD (descomposición en valores singulares) de una matriz invertible, donde la SVD lleva las V a las U o viceversa. Si una matriz no es invertible, entonces su SVD requiere que su matriz Sigma rectangular sea reemplazada por su pseudo-inversa. El video muestra un ejemplo de una matriz con dos columnas independientes donde Sigma tiene solo dos distintos de cero, y el resto son ceros, lo que representa una situación singular total. Como resultado, la mejor opción es usar el pseudo-inverso de Sigma en lugar de Sigma inverso.

  • 00:20:00 En esta sección, se presenta el concepto de Sigma plus, la pseudo-inversa de Sigma, como una solución para matrices rectangulares que no se pueden invertir. La pseudo-inversa se usa para resolver el problema de mínimos cuadrados donde hay una ecuación ax igual a B, pero a no es invertible. Este problema surge cuando hay demasiadas medidas o ruido. La matriz Sigma plus se usa para obtener los vectores en el espacio columna, mientras que los vectores en el espacio ortogonal se consideran irresolubles. La primera forma de resolver el problema de mínimos cuadrados es usar la matriz Sigma plus para dar la solución.

  • 00:25:00 En esta sección, el orador discute el problema de los mínimos cuadrados de ajustar una línea recta a medidas ruidosas usando un sistema lineal de ecuaciones. Explican que si las medidas se encuentran en una línea, entonces el sistema lineal tiene una solución, pero en general no la tiene. Luego introducen la idea de minimizar la distancia entre ax + b y las medidas reales utilizando la norma L2 al cuadrado. Esta técnica fue propuesta por Gauss y se usa para encontrar los mejores valores de C y D en la ecuación Cx + D que representa la línea recta más cercana a las medidas.

  • 00:30:00 En esta sección, el disertante explica el concepto de mínimos cuadrados y cómo se utiliza para resolver problemas irresolubles en regresión lineal y estadística. Al minimizar la función de pérdida cuadrática, se produce un sistema de ecuaciones lineales que finalmente da la mejor respuesta, siguiendo el consejo de Gauss. La mejor X se encuentra resolviendo la ecuación una transpuesta a por X es igual a una transpuesta B, lo que conduce al mínimo. Luego, el orador dibuja un gráfico para explicar el concepto de espacio de columna de A y cómo B no está en el espacio de columna, y cómo los cuadrados y las ecuaciones normales conducen al mejor AX.

  • 00:35:00 En esta sección, el orador discute diferentes métodos para resolver problemas de mínimos cuadrados. El método 2 consiste en resolver las ecuaciones normales utilizando matrices en MATLAB. Sin embargo, este método puede no funcionar si la matriz tiene columnas casi singulares. El método 3 implica usar el plan de Gauss, que funciona solo si la matriz tiene columnas independientes, lo que significa que la matriz es invertible. El método pseudoinverso también se puede utilizar cuando la matriz no es invertible pero tiene columnas independientes. La importancia de la invertibilidad de la matriz se enfatiza a lo largo de la sección.

  • 00:40:00 En esta sección, el orador explica que cuando el espacio nulo es cero, la respuesta del método pseudo-inverso es la misma que la respuesta que proviene del método de transposición a inversa a transposición B. Sin embargo, el el hablante observa que el espacio nulo de una transpuesta no es invertible, pero una transpuesta a es invertible. Además, el orador explica que la matriz aa transpuesta está haciendo todo lo posible para ser la inversa, pero no está lo suficientemente cerca. Se muestra que el pseudo-inverso funciona cuando el rango es igual.

  • 00:45:00 En esta sección, el orador analiza dos formas más de resolver problemas de mínimos cuadrados. La tercera forma implica obtener columnas ortogonales primero, lo que facilitaría el problema. El procedimiento de Gram-Schmidt es una forma de obtener vectores ortogonales de forma natural. La cuarta y última forma de resolver problemas de mínimos cuadrados no se analiza en detalle, pero implica aprovechar el hecho de que los datos en la vida real suelen ser escasos. El orador concluye señalando que los mínimos cuadrados no son un concepto nuevo y continúan utilizándose por una buena razón.
 

Lección 10: Encuesta de Dificultades con Ax = b



Lección 10: Encuesta de Dificultades con Ax = b

En esta lección sobre álgebra lineal numérica, se analizan las dificultades para resolver ecuaciones lineales de la forma Ax=b. Estas dificultades surgen cuando la matriz A es casi singular, lo que hace que su inversa sea irrazonablemente grande, y cuando el problema es demasiado grande con una matriz gigante que es imposible de resolver en un tiempo factible. El disertante esboza varias posibilidades para resolver el problema, que van desde el caso normal fácil hasta el caso extremadamente difícil de ecuaciones indeterminadas. Se analiza el uso de álgebra lineal aleatoria, métodos iterativos y SVD, junto con la importancia de encontrar soluciones que funcionen con datos de prueba, particularmente con aprendizaje profundo. Además, el disertante enfatiza que el SVD sigue siendo la mejor herramienta para diagnosticar cualquier problema de matriz.

  • 00:00:00 En esta sección, el disertante analiza las dificultades que pueden surgir al intentar resolver la ecuación Ax = B. Señala que el problema puede ocurrir en varios tamaños y rangos, y puede ser casi singular o no casi singular. Describe varias posibilidades para resolver el problema, que van desde el caso normal fácil de una matriz cuadrada con un número de condición razonable, hasta el caso extremadamente difícil de ecuaciones indeterminadas. En este último caso, el disertante señala que el problema es común en el aprendizaje profundo y que pueden existir múltiples soluciones.

  • 00:05:00 En esta sección, el disertante discute problemas difíciles con Ax = b y cómo abordarlos. Estos problemas suelen surgir cuando las columnas de la matriz son casi dependientes, lo que dificulta aceptar las columnas a1, a2, hasta an de la matriz dada. La solución a esto es encontrar vectores columna ortonormales en ese espacio columna usando Gram-Schmidt y arreglando las columnas ortogonalizándolas. El disertante guarda la discusión de Gram-Schmidt para la siguiente clase, pero anticipa la importancia del pivote de columnas que permite reordenar las columnas, un concepto que también es aplicable en la eliminación.

  • 00:10:00 En esta sección, el disertante analiza las dificultades para resolver ecuaciones lineales de la forma Ax=b, incluida la posibilidad de que la matriz sea casi singular, lo que hace que su inversa sea excesivamente grande. El disertante también habla sobre problemas inversos, que son típicamente problemas en los que conoce la salida del sistema, pero debe determinar la estructura o entrada de la red. Estos problemas a menudo dan matrices casi singulares, lo que dificulta resolver con precisión el sistema sin agregar un término de penalización para minimizar el problema. También se mencionan los mundos Leu y QR, los intercambios de filas y la ortogonalización de Gram-Schmidt.

  • 00:15:00 En esta sección, aprendemos sobre algunas dificultades involucradas en la resolución de ecuaciones lineales usando el método Ax=b. Una de esas dificultades es cuando la matriz A está mal condicionada, lo que lleva a vectores que se aproximan a cero y una inversa gigante de una transpuesta a. Para contrarrestar esto, necesitamos penalizar a A, lo que lo hace mejor condicionado, pero también traslada el problema a decidir cuánto penalizarlo. Otro método son los métodos iterativos, como el método del gradiente conjugado, donde damos un paso más y más cerca de la respuesta exacta hasta que está lo suficientemente cerca. Cuando el problema es demasiado grande con una matriz gigante que es imposible de resolver en un tiempo factible, se usa álgebra lineal aleatoria para muestrear las columnas y filas de la matriz para proporcionar una respuesta de la muestra.

  • 00:20:00 En esta sección, el disertante analiza el uso del álgebra lineal aleatoria para determinar soluciones a problemas difíciles en los casos en que la matriz es razonable. Si bien no hay garantía de que las soluciones sean correctas, usar las probabilidades de las desigualdades puede brindar una buena solución al problema. Los métodos iterativos y los algoritmos aleatorios, junto con el uso de SVD, se analizan como métodos para encontrar soluciones. El disertante enfatiza la importancia de encontrar soluciones que funcionen con datos de prueba, particularmente con aprendizaje profundo, y analiza las cuestiones matemáticas profundas que surgen con este problema. La SVD se explica como una solución potencial cuando la matriz es casi singular.

  • 00:25:00 En esta sección, el profesor analiza un método para regularizar el problema de encontrar la suma mínima de ax menos B al cuadrado en presencia de inversas grandes. Al usar un problema de mínimos cuadrados con un término de penalización adicional que incluye un delta positivo, incluso cuando este valor llega a cero o hace cosas locas, el problema aún se podrá resolver y se garantiza que la función no será singular. Cuando delta llega a cero, el comportamiento del resultado cambia drásticamente y este factor puede depender del nivel de ruido en el sistema.

  • 00:30:00 En esta sección del video, el orador discute la solución para un Delta dado y analiza cuándo existe la solución. El objetivo es resolver un problema uno por uno, lo que implica encontrar el mínimo de un problema de mínimos cuadrados penalizados. La ecuación se resuelve poniendo la derivada a cero, y el valor X resultante se usa para determinar el límite cuando Delta llega a cero. Las dos posibilidades son que Sigma no sea cero y la solución se aproxime a la inversa de Sigma, o Sigma sea cero y la solución no exista.

  • 00:35:00 En esta sección del video, el orador analiza el comportamiento del enfoque de los cuadrados penalizados cuando el término de penalización llega a cero. El locutor señala que en este caso, el sistema se comporta de manera extraña, con una bifurcación repentina entre cero y un límite distinto de cero. Este límite se identifica como pseudoinverso y, a medida que Delta se hace cada vez más pequeño, la solución del sistema se acerca a la pseudoinversa, que es la respuesta siempre correcta para el sistema. El ponente señala que en un caso práctico, este enfoque sería útil para encontrar los parámetros desconocidos de un sistema, como las resistencias e inductancias en un circuito eléctrico.

  • 00:40:00 En esta sección, el disertante explica que la solución al problema Ax=b se puede lograr agregando un término de penalización para regularizar el problema. El término de penalización se puede introducir usando la norma L1, que da soluciones dispersas sin muchos componentes pequeños en la respuesta. También analiza la importancia de los métodos iterativos en álgebra lineal convencional y Gram-Schmidt con o sin pivote. Sin embargo, decide cubrir esos temas en la próxima conferencia.

  • 00:45:00 En esta sección, el disertante discute cómo el SVD es una herramienta efectiva para probar cosas sobre matrices; simplifica un problema desordenado en un problema sobre una matriz diagonal Sigma en el medio, por lo que es útil para diagnosticar cualquier problema de matriz. Además, el disertante proporciona una fórmula para un caso especial de un problema, con Sigma como una matriz diagonal, lo que implica que comprender el comportamiento de Sigma, específicamente en cada entrada diagonal, es vital en la búsqueda de tales casos. La SVD, subraya el disertante, sigue siendo la mejor herramienta para ello. Finalmente, el disertante destaca que esta lección es un repaso de lo que trata el álgebra lineal numérica, y si bien aún no se han cubierto todos los temas, lo estarán en las sesiones restantes.
 

Clase 11: Minimizando ‖x‖ Sujeto a Ax = b



Clase 11: Minimizando ‖x‖ Sujeto a Ax = b

En esta conferencia, el orador cubre una variedad de temas relacionados con el álgebra lineal numérica. Comienzan discutiendo los problemas que pueden surgir al resolver Ax=b, luego pasan al proceso de Gram-Schmidt para encontrar una base ortogonal para un espacio y al método de Gram-Schmidt modificado para minimizar ‖x‖ sujeto a Ax = b . El orador también introduce el concepto de intercambio de columnas o columna pivotante en un algoritmo de Gram-Schmidt más profesional y analiza una mejora en el proceso estándar de Gram-Schmidt para ortonormalizar las columnas de una matriz A. También tocan la idea del espacio de Krylov. para resolver el problema Ax=b y la importancia de tener una buena base para minimizar ‖x‖ sujeto a Ax = b. Finalmente, mencionan que han terminado con el problema de minimizar x sujeto a Ax=b y están pasando a abordar el tema de tratar con matrices muy grandes.

  • 00:00:00 En esta sección, el disertante menciona tres cosas. En primer lugar, los problemas que pueden surgir al resolver Ax=b, incluso cuando A es demasiado grande para caber en el núcleo pero donde hay otros métodos disponibles. En segundo lugar, muestra el primer borrador de dos páginas de su libro y explica el proceso de dos años al que se somete para perfeccionarlo y mejorarlo. En tercer lugar, analiza la minimización de diferentes normas, como L1 o L2 o la norma de infinito L máxima, para la condición de resolver con la restricción de una ecuación satisfecha, proporcionando una representación visual de la diferencia entre las normas de infinito L1, L2 y L.

  • 00:05:00 En esta sección, el orador discute el punto ganador para diferentes unidades de bolas en diferentes espacios normativos, incluidos L1, L2 y L infinito. Muestra cómo encontrar el punto ganador, o el punto que toca la línea primero, en cada caso. Luego presenta el tema del día, Gram-Schmidt, que es una forma de hacer que una matriz no ortogonal sea ortogonal al encontrar un conjunto diferente de vectores que abarquen el mismo espacio siendo ortogonales. Describe los hechos generales de Gram-Schmidt y menciona que es un tema estándar que se enseña en los cursos de álgebra lineal.

  • 00:10:00 En esta sección, el profesor explica el proceso de Gram-Schmidt, que abre la imagen de una matriz para obtener una matriz ortogonal con columnas Q1 a Qn que son ortonormales. La matriz R se usa para decir de qué combinaciones están hechas las Q o al revés para decir cómo se relaciona A con la Q final. La ecuación para R es Q transpuesta por A, y las entradas en R son solo el producto interno de las Q con el As. El profesor demuestra que no hay nada misterioso en R debido a la matriz ortogonal Q. El comando de MATLAB sería QR de A en lugar de Lu de A.

  • 00:15:00 En esta sección, la conferencia explica el proceso de Gram-Schmidt para encontrar una base ortogonal para un espacio. La lección comienza con un conjunto de bases no ortogonales y el objetivo es construir un conjunto de bases ortogonales. El proceso comienza con el primer vector de columna siendo el primer vector base y luego tomando el segundo vector y ortogonalizándolo con el primer vector. El siguiente paso es construir el tercer vector que es ortogonal a los primeros dos vectores. Esto continúa hasta que todo el conjunto base se construye ortogonalmente. Finalmente, dividimos cada vector por su norma para hacer de cada vector base un vector unitario. Gram-Schmidt toma un conjunto de bases no ortogonales y genera un conjunto ortogonal adecuado para los métodos de proyección.

  • 00:20:00 En esta sección, el orador analiza el método de Gram-Schmidt modificado para minimizar ‖x‖ sujeto a Ax = b. Explican el proceso de restar las componentes de Q1 y Q2 del vector y comprobar que el vector resultante es ortogonal. También abordan el peligro de tomar filas en orden durante la eliminación y sugieren usar el método de Gram-Schmidt modificado para evitar errores de cálculo.

  • 00:25:00 En esta sección de la conferencia, el orador analiza la idea del intercambio de columnas o el pivote de columnas en un algoritmo Gram-Schmidt más profesional. Similar a la eliminación, en Gram-Schmidt, si la nueva parte de la columna es demasiado pequeña, puede generar errores de redondeo que no se pueden eliminar. Por lo tanto, es esencial que el algoritmo verifique el tamaño del pivote e intercambie filas si es necesario. La idea principal detrás del intercambio de columnas es comparar la nueva parte de la columna con todas las demás posibilidades potenciales para encontrar el componente más grande antes de decidir el siguiente paso. Este proceso es crucial para evitar errores de redondeo que pueden afectar la precisión del resultado.

  • 00:30:00 En esta sección, el orador explica una mejora en el proceso estándar de Gram-Schmidt para ortonormalizar las columnas de una matriz A. En lugar de solo considerar la siguiente columna en A, la mejora implica considerar todas las columnas restantes en A cuando ortonormalizando cada nueva columna. El orador argumenta que esto no es más trabajo que el método estándar, ya que todas las restas necesarias se calculan antes de todos modos. La mejora se basa en seleccionar la columna restante más grande y es similar a seleccionar el pivote más grande en la eliminación gaussiana.

  • 00:35:00 En esta sección, el disertante introduce la idea del espacio de Krylov para resolver el gran problema de la matriz, Ax=b. El espacio de Krylov es una combinación de vectores que abarcan un espacio, y el disertante usa combinaciones de estos vectores para encontrar la solución de mínimos cuadrados en ese espacio, XJ. El espacio de Krylov se determina multiplicando los vectores A por J, hasta A^k-1B. El profesor busca la mejor solución en este espacio para resolver el problema Ax=b. Sin embargo, todavía hay una trampa en este método.

  • 00:40:00 En esta sección, el orador discute la importancia de tener una buena base para minimizar ‖x‖ sujeto a Ax = b. La base debe ser ortogonalizada para facilitar los cálculos, y aquí es donde entran las contribuciones de nuestros programas de nolde y Lan. Una base ortogonal es perfecta para una proyección, y el orador explica la ecuación que facilita los cálculos. Cuando las Q son ortogonales, los coeficientes C se pueden encontrar fácilmente calculando el producto escalar del vector X dado con cada Q y luego aplicando la transposición de Q. Esto permite una solución eficiente al problema.

  • 00:45:00 En esta sección de la conferencia, el orador discute el concepto de base y cómo encontrar una buena base usando vectores de Gram-Schmidt o Krylov. El orador señala que es preferible utilizar el método de Gram-Schmidt en este caso, y también menciona la sección 2.1 del libro sobre álgebra lineal numérica, que resume las técnicas comunes en el campo, como Krylov, Arnoldi y Lanczos. Recomienda 'Álgebra lineal numérica' de Golub y van Loan como un excelente libro de texto para aquellos que desean aprender más sobre el tema.

  • 00:50:00 En esta sección del video, el orador menciona que han terminado con el problema de minimizar x sujeto a Ax=b y están pasando a abordar el tema de tratar con matrices muy grandes.
 

Lección 12. Cálculo de valores propios y valores singulares



12. Cálculo de valores propios y valores singulares

En este video, se presenta el método QR para calcular valores propios y valores singulares. El proceso implica comenzar con la matriz deseada y factorizarla en QR, creando una matriz triangular superior R que conecta la base no ortogonal con la base ortogonal. El proceso se repite hasta que las entradas diagonales se vuelven pequeñas, momento en el que se pueden usar para aproximar los valores propios. El orador también analiza un método de cambio para calcular los vectores propios para acelerar el proceso. También se destacan los beneficios de usar MATLAB para matrices simétricas. El video también aborda el concepto de vectores de Krylov para resolver problemas de valores propios para matrices grandes.

  • 00:00:00 En esta sección, el profesor presenta el método QR para calcular valores propios y valores singulares de una matriz. El método QR implica comenzar con una matriz cuyos valores propios se desean y factorizarlos en QR. Las columnas de la matriz se transforman en una base ortogonal ortogonalizándolas y creando una matriz R que conecta la base no ortogonal con la base ortogonal, que es triangular superior. A continuación, el método consiste en invertir el orden y volver a hacer lo mismo para producir la siguiente matriz. El profesor afirma que los valores propios son los mismos antes y después de la transformación, y las matrices son similares, lo cual es útil para calcular los valores singulares de la matriz.

  • 00:05:00 En esta sección, el profesor explica el proceso de cálculo de valores propios mediante la factorización QR. El proceso implica iterar la factorización QR varias veces hasta que las entradas diagonales de la matriz resultante se vuelven muy pequeñas. En este punto, las entradas diagonales están cerca de los valores propios reales de la matriz original y se pueden usar para aproximarlos. El profesor también destaca la rápida convergencia del método, con las entradas fuera de la diagonal al cubo y acercándose rápidamente a cero, lo que hace que el método sea extremadamente preciso.

  • 00:10:00 En esta sección, el video analiza una mejora en el algoritmo para calcular los vectores propios, que implica la introducción de un cambio. En lugar de tomar la matriz A, toman la matriz A - siI, donde si es un múltiplo de la matriz identidad. Esto desplaza todos los valores propios de la matriz A por si. Luego trabajan con esta matriz desplazada, realizan el proceso de Gram-Schmidt e invierten el orden para obtener una matriz lo más cercana posible a A. Finalmente, deshacen el desplazamiento para obtener una nueva matriz, A1. La esperanza es que A1 siga siendo similar a A pero con un tiempo computacional más rápido.

  • 00:15:00 En esta sección, el profesor analiza el método QR para calcular los valores propios de una matriz. Demuestra un ejemplo incompleto donde usa el método QR para mostrar que la parte triangular inferior de la matriz comienza a desaparecer y los valores propios comienzan a aparecer en la diagonal. Luego, el profesor analiza cómo mejorar la eficiencia del método QR aprovechando los ceros en la matriz original. Si hay diagonales adicionales con ceros, el método puede acelerarse saltándose algunos pasos en el proceso de factorización QR.

  • 00:20:00 En esta sección, el orador analiza cómo calcular valores propios y valores singulares. No es posible obtener todos los valores propios ya que es imposible obtener una parte triangular inferior entera igual a cero, lo que nos daría los valores propios. Esto se debe a que los autovalores resuelven una ecuación de grado n y hace siglos se demostró que es imposible resolver una ecuación instantánea con pasos simples. Además, no existe una fórmula simple para encontrar lambdas o valores singulares. Sin embargo, es posible acercarse tanto como queramos si continuamos con el método QR y reducimos una matriz a la forma de Hessenberg con un triángulo más una diagonal más, pero muchos ceros. MATLAB y otros sistemas matriciales utilizan la pack y Linpack para calcular estos valores.

  • 00:25:00 En esta sección del video, el orador analiza los beneficios de usar MATLAB y brinda información sobre las características de las matrices simétricas. Explica que si una matriz es simétrica, se puede predecir con seguridad que solo tendrá una diagonal por encima de la diagonal principal, lo que la convierte en una matriz tridiagonal. Esto reduce significativamente el tiempo para hacer el cálculo QR, ya que solo requiere trabajar con 2n números en lugar de N^2. El orador también se refiere brevemente a los valores singulares, afirmando que son los valores propios de una matriz transpuesta, pero advierte contra calcularlos usando determinantes, ya que es lento, está mal condicionado y conduce a la pérdida de información.

  • 00:30:00 En esta sección, el orador analiza el concepto de usar matrices ortogonales para simplificar matrices simétricas, haciéndolas tridiagonales para que sus valores propios se puedan encontrar fácilmente. Luego, el disertante plantea la pregunta de qué se puede hacer con una matriz general para simplificarla de manera que no cambien sus valores singulares. El orador conecta esta pregunta con la SVD y analiza la invariancia de los valores singulares bajo ciertas operaciones, como multiplicar por una matriz ortogonal. La cuestión de qué otras operaciones dejan invariantes los valores singulares queda abierta para que la audiencia la considere.

  • 00:35:00 En esta sección, el disertante analiza el efecto de multiplicar una matriz ortogonal Q en una matriz diagonal con valores singulares. Se muestra que multiplicar Q sobre la matriz diagonal no cambia los valores singulares, y que esto se puede hacer en ambos lados de la ecuación usando diferentes matrices ortogonales. Esta mayor flexibilidad permite que la matriz se reduzca de tridiagonal a bidiagonal, lo que hace que el algoritmo sea más rápido a medida que avanza en cada paso. El disertante también discute la utilidad de una matriz bi-diagonal para simplificar la multiplicación de matrices.

  • 00:40:00 En esta sección, el orador analiza el cálculo de valores propios y valores singulares, específicamente para matrices de orden hasta mil. El SVD implica mirar una transpuesta de una matriz, que sería tri-diagonal. Para encontrar valores singulares, uno puede llegar a la transposición de una matriz, pero encontrar sus valores propios requeriría que fuera simétrica y tridiagonal. Este método es efectivo para matrices hasta un cierto tamaño, más allá del cual se puede usar el método de Krylov para matrices dispersas. El método de Krylov restringe la matriz a un cierto tamaño, típicamente cien por cien, y encuentra el vector propio en ese espacio.

  • 00:45:00 En esta sección, el orador explica un enfoque llamado vectores de Krylov que se puede usar para resolver problemas de valores propios para matrices grandes. Al aplicar la operación matricial a los vectores de Krylov, que tienen una dimensión más pequeña que la matriz original, se puede crear y resolver un problema de valor propio más pequeño. Si bien no proporcionan valores propios exactos, los vectores de Krylov pueden brindar buenas aproximaciones para ciertos problemas. El orador también introduce la idea del muestreo aleatorio para matrices grandes y menciona que esto se explorará en la próxima lección.
 

Lección 13: Multiplicación de matrices aleatorias



Lección 13: Multiplicación de matrices aleatorias

Esta videolección analiza el concepto de multiplicación aleatoria de matrices, que implica muestrear las columnas de la matriz A y las filas correspondientes de la matriz B con probabilidades que suman uno. El valor medio de las muestras aleatorias se puede calcular para obtener la respuesta correcta, pero aún habrá varianza. La lección continúa discutiendo los conceptos de media y varianza y cómo elegir las mejores probabilidades que minimicen la varianza. El proceso consiste en introducir una variable desconocida llamada Lambda y derivar con respecto a ella para encontrar el mejor PJ. Luego, el enfoque cambia a la cuestión de cómo ponderar las probabilidades al observar qué columnas en una matriz son más grandes o más pequeñas. El disertante sugiere dos posibilidades: ponderar probabilidades según el cuadrado normal o mezclar las columnas de la matriz y usar probabilidades iguales. En general, el video proporciona una explicación detallada de la multiplicación de matrices aleatorias y el proceso de optimización de probabilidades para obtener la varianza más pequeña.

  • 00:00:00 En esta sección del video, el orador explica el concepto de multiplicación aleatoria de matrices, que es una idea que se incluye en el álgebra lineal aleatoria. Este método se utiliza para matrices grandes muestreando las columnas de la matriz A y las filas correspondientes de la matriz B, pero no todas. En cambio, diferentes piezas se muestrean aleatoriamente con probabilidades que suman uno. Al calcular el valor medio de las muestras aleatorias, se puede obtener la respuesta correcta, pero aún habrá varianza. El objetivo entonces es elegir las mejores probabilidades que minimicen la varianza. La conferencia continúa discutiendo los conceptos de media y varianza y practicando con un ejemplo.

  • 00:05:00 En esta sección, el orador describe un proceso de muestreo aleatorio para la multiplicación de matrices. El proceso implica tomar dos columnas con probabilidades de la mitad cada una, sumarlas y luego dividirlas por el número de veces que se muestrean. Luego se calcula la media de la matriz aleatoria utilizando la fórmula para calcular el promedio de las dos muestras. La varianza se calcula utilizando cualquiera de los dos métodos, uno de los cuales consiste en sumar las probabilidades de diferentes valores de salida al cuadrado, mientras que el otro implica tomar la distancia promedio al cuadrado de la media.

  • 00:10:00 En esta sección del video, el orador analiza los conceptos de media y varianza en estadísticas y cómo se relacionan con su ejemplo actual de cálculo de la varianza para la multiplicación de matrices aleatorias. Explica que la varianza es una medida de la suma de cuadrados entre puntos a cada lado de la media y que, en su ejemplo, está sumando los cuadrados de las diferencias entre su salida y la media. Luego pasa a calcular la varianza de su ejemplo específico, que involucra dos posibles resultados y probabilidades para cada uno.

  • 00:15:00 En esta sección, el orador analiza el cálculo de la varianza e introduce una nueva fórmula para la varianza usando probabilidades y distancias del cuadrado medio. El orador también menciona el concepto de muestreo aleatorio en álgebra lineal y cómo el ajuste de probabilidades puede ayudar a disminuir la varianza cuando B es mucho más grande que A. La probabilidad óptima proviene del cuadrado del tamaño de B dividido por A, y el orador planea para discutir esto más a fondo en el futuro. Finalmente, el disertante menciona una segunda fórmula para la varianza que involucra la probabilidad y la distancia de la salida al cuadrado.

  • 00:20:00 En esta sección, el orador analiza la media y la varianza en la probabilidad y demuestra las dos formas de calcular la media al cuadrado cuando se resta la media. Luego, el enfoque cambia a la cuestión de cómo ponderar las probabilidades al observar qué columnas en una matriz son más grandes o más pequeñas. El ponente sugiere dos posibilidades: ponderar probabilidades según el cuadrado normal o mezclar las columnas de la matriz y usar probabilidades iguales. El orador favorece el primer enfoque y explica cómo usar probabilidades proporcionales a la norma al cuadrado.

  • 00:25:00 En esta sección, el disertante explica cómo reescalar las probabilidades para que sumen uno. Luego analiza su plan para elegir fila columna y columna fila J con probabilidades particulares y cómo las multiplicará. Su aproximación, la aproximada aB, será la suma de todas estas muestras sobre S muestras. El disertante también menciona que el plan es elegir los PJ para minimizar la varianza total y que la media sea correcta.

  • 00:30:00 En esta sección, el disertante explica cómo calcular la varianza de una muestra en la multiplicación de matrices aleatorias. La media de la suma de todas las muestras se calcula multiplicando la media de una muestra por el número de muestras, lo que lleva a la parte difícil de calcular la varianza. El cálculo de la varianza dependerá de la pieza, P1 a PR que se haya elegido con probabilidades dependientes del tamaño. Cada muestra ciertamente es incorrecta porque es de rango uno, por lo que al calcular la varianza, definitivamente no obtendremos cero. La varianza de una muestra resulta ser la suma de la probabilidad de transposición AJ AJ al cuadrado. El cuadrado medio se resta de este cálculo para obtener la varianza completa.

  • 00:35:00 En esta sección, el orador introduce los valores de PJ y simplifica el denominador a la suma de un JPG de un JP j bj normas. Al sumar la primera potencia y obtener C, el hablante obtiene la expresión de la varianza. Después de tomar s muestras y combinarlas, la varianza es un número fijo, que es C que les gustaría reducir. El hablante quiere mostrar que esta es la mejor opción eligiendo los pesos de probabilidades basados en la longitud de a por la longitud de B.

  • 00:40:00 En esta sección, el orador analiza el paso final de optimizar las probabilidades P1 a PR para las filas o columnas de la matriz A y las filas de la matriz B, sujeto a la restricción de que suman 1. El objetivo es minimizar la expresión de la varianza eligiendo los PJ óptimos. El orador presenta la idea de Lagrange para construir la restricción en la función mediante la introducción de un número desconocido, a menudo llamado lambda, para encontrar el mejor PJ. Esta sección concluye la discusión del muestreo aleatorio y conduce al subproblema final.

  • 00:45:00 En esta sección, el disertante discute el concepto de la idea de Lagrange en la optimización de probabilidades bajo la condición de que sumen uno. El proceso involucra construir la ecuación en la función y tomar derivadas con respecto a lambda, una variable desconocida. Después de poner las derivadas a cero y resolver, obtienes la respuesta final recomendada, que se puede validar tomando la derivada con respecto a P. El disertante también explica que el multiplicador de Lagrange es el número correcto para hacer que la ecuación sea igual a uno.

  • 00:50:00 En esta sección, el profesor explica el proceso de elección de probabilidades para obtener la varianza más pequeña en un sistema aleatorio. Menciona que las probabilidades ideales son mayores cuando la columna es más grande, por lo que encontrar las longitudes de las columnas es un requisito previo antes del muestreo aleatorio. Aunque la varianza puede ser un poco difícil de calcular, alienta a los estudiantes a leer las notas lentamente y revisar las fórmulas para una mejor comprensión, ya que usarán la probabilidad con más seriedad en el futuro.
Razón de la queja: