Redes Neurais em IA e Deep Learning - página 46

 

CS480/680 Clase 3: Regresión lineal



CS480/680 Clase 3: Regresión lineal

La lección sobre regresión lineal comienza con una introducción al problema de encontrar la mejor línea que se acerque lo más posible a un conjunto dado de puntos. El disertante explica que las funciones lineales se pueden representar mediante una combinación de entradas ponderadas. La regresión lineal se puede resolver mediante la optimización, con el objetivo de minimizar la pérdida euclidiana al variar el vector de peso, lo que se puede hacer de manera eficiente utilizando problemas de optimización convexos. El proceso de resolución de una ecuación de regresión lineal implica encontrar la variable W, o los pesos, que darán el mínimo global para la función objetivo, lo que se puede hacer usando técnicas como la inversión de matrices o métodos iterativos. También se analiza la importancia de la regularización para prevenir el sobreajuste, con un término de penalización agregado a la función objetivo para restringir la magnitud de los pesos y forzarlos a que sean lo más pequeños posible. La conferencia termina discutiendo la importancia de abordar el problema del sobreajuste en la regresión lineal.

  • 00:00:00 En esta sección, el instructor presenta la regresión lineal, que es una técnica estándar de aprendizaje automático para la regresión, y explica el problema de manera intuitiva. El problema es encontrar la mejor línea que se acerque lo más posible a un conjunto dado de puntos. Los datos consisten en características de entrada, X, y salida de destino, T. El objetivo es encontrar una hipótesis H que mapee X a T, asumiendo que H es lineal. Las funciones lineales siempre se pueden representar tomando una combinación ponderada de las entradas donde los pesos se multiplican por las entradas y luego se suman.

  • 00:05:00 En esta sección, el disertante discute el espacio de las funciones lineales y el objetivo de encontrar las mejores funciones lineales para minimizar una función de pérdida. Se utiliza la función de pérdida euclidiana, donde la distancia al cuadrado se toma restando la predicción del objetivo. El orador explica que Y es la salida del predictor, que es una función lineal, y T1 es el precio al que se vende la casa, que es la verdad fundamental. En la valoración de la casa se tienen en cuenta múltiples características, como el número de baños y dormitorios, lo que da como resultado un vector de tamaño 25-30. El orador también analiza la notación utilizada en las diapositivas y menciona que dividir por dos no es necesariamente necesario en teoría.

  • 00:10:00 En esta sección de la lección, el profesor analiza la notación que usará a lo largo del curso cuando se refiera a la regresión lineal. Introduce las variables H para la hipótesis, X para los puntos de datos, Y para el vector de resultados para todos los puntos de datos y W para el vector de peso. También menciona el uso de la barra X para representar un punto de datos concatenado con uno escalar. El profesor continúa explicando que la regresión lineal se puede resolver mediante optimización, con el objetivo de minimizar la pérdida euclidiana al variar las W. Señala que este problema de optimización es fácil porque es convexo, lo que significa que hay un mínimo y el óptimo global se puede encontrar de forma fiable.

  • 00:15:00 En esta sección de la conferencia sobre regresión lineal, el ponente explica cómo los problemas de optimización convexa se pueden resolver de manera eficiente mediante el descenso de gradiente, que consiste en seguir la curvatura de la función hasta llegar al mínimo. Sin embargo, el orador también señala que los objetivos no convexos pueden tener múltiples mínimos, lo que dificulta encontrar el óptimo global de manera confiable. El objetivo de la regresión lineal es convexo y, por lo tanto, una solución más eficiente es calcular el gradiente, establecerlo en cero y resolver el punto único que satisface esta ecuación, que es necesaria y suficiente para garantizar el mínimo.

  • 00:20:00 En esta sección de la conferencia, el profesor explica el proceso de resolución de una ecuación de regresión lineal para encontrar la variable W, o pesos, que darán el mínimo global para la función objetivo. El sistema de ecuaciones lineales se puede reescribir en la forma de W es igual a B aislando W, y luego la matriz A, que representa los datos de entrada, se puede invertir para resolver W. Sin embargo, existen otras técnicas como la eliminación gaussiana, gradiente conjugado y métodos iterativos que pueden ser más rápidos y eficientes. El profesor también hace un dibujo para demostrar el concepto de encontrar una línea que minimice la distancia euclidiana con respecto a la salida, o eje Y, al reducir las distancias verticales entre los puntos de datos y la línea.

  • 00:25:00 En esta sección, el disertante explica la intuición detrás de minimizar la distancia vertical en la regresión lineal para obtener una solución única. La función objetivo es convexa y la función en forma de bola tiene un mínimo único. Sin embargo, la solución obtenida al minimizar el objetivo de mínimos cuadrados no es estable, lo que puede conducir a un sobreajuste. El disertante ilustra esto con dos ejemplos, uno de los cuales perturba la entrada por épsilon. La conferencia también discute el importante problema de no poder invertir la matriz A debido a la singularidad o cercanía a la singularidad.

  • 00:30:00 En esta sección de la lección, el instructor da dos ejemplos numéricos de regresión lineal con la misma matriz A, pero diferentes valores objetivo, B. El primer ejemplo tiene un valor objetivo de exactamente 1 para el primer punto de datos, mientras que el segundo ejemplo tiene un valor objetivo de 1 más épsilon para el mismo punto de datos. La diferencia en los valores objetivo da como resultado un cambio significativo en la salida, a pesar de que épsilon es un valor muy pequeño. El instructor ilustra el problema con una representación gráfica, destacando la importancia de los cambios en los valores de entrada y por qué representa un desafío en la regresión lineal.

  • 00:35:00 En esta sección, el disertante explica la regresión lineal con la ayuda de dos puntos de datos. X tiene dos entradas, pero la segunda dimensión es la que varía, y la primera entrada se ignora. El disertante dibuja dos puntos de datos, uno con X como 0 y el objetivo como 1 + Epsilon, y el otro con X como Epsilon y el objetivo como 1. Una línea dibujada a través de estos puntos cambia su pendiente de 0 a -1 cuando el objetivo del primer punto de datos se incrementa de 1 a 1 + Epsilon, mostrando sobreajuste debido a datos insuficientes y ruido. La solución es inestable, incluso si hay más datos o dimensiones más altas.

  • 00:40:00 En esta sección, se introduce el concepto de regularización en regresión lineal. La regularización añade un término de penalización que restringe la magnitud de los pesos, obligándolos a ser lo más pequeños posible. Este término de penalización se suma al objetivo original de minimizar la distancia euclidiana entre la salida y el objetivo. El uso de la regularización tiene sentido tanto desde el punto de vista numérico como estadístico, que se explicará en la siguiente lección. Según el problema, el hiperparámetro lambda, que determina la importancia del término de penalización, deberá ajustarse mediante validación cruzada. La regularización en la regresión lineal cambia el sistema de ecuaciones lineales a lambda I + A por W igual a B. A través de la regularización, los valores propios del sistema lineal se ven obligados a ser al menos lambda, lo que los aleja de 0, lo que evita la inestabilidad numérica y los errores.

  • 00:45:00 En esta sección, el disertante analiza la aplicación de la regularización en la regresión lineal para evitar el sobreajuste. La idea de regularización implica agregar un término de penalización a la función objetivo e introducir un parámetro lambda para controlar la cantidad de peso asignado al término de penalización. El profesor explica cómo funciona esta técnica de regularización desde la perspectiva del álgebra lineal. Además, se proporciona un ejemplo para ilustrar cómo la regularización puede estabilizar las soluciones obtenidas en la regresión lineal y evitar el sobreajuste. El ejemplo muestra que al minimizar los pesos y agregar un término de penalización, se pueden obtener soluciones más cercanas entre sí.

  • 00:50:00 En esta sección, el disertante analiza la importancia de la regularización para mitigar el problema del sobreajuste en la regresión lineal. El sobreajuste es un problema común en el que un modelo funciona bien con los datos de entrenamiento pero mal con los datos de prueba. La regularización es una forma de abordar este problema, y el curso también cubrirá otros enfoques. En la próxima clase, se abordará el tema desde una perspectiva estadística.
 

CS480/680 Clase 4: Aprendizaje estadístico



CS480/680 Clase 4: Aprendizaje estadístico

En esta conferencia sobre aprendizaje estadístico, el profesor explica varios conceptos como la regla de marginalización, la probabilidad condicional, la probabilidad conjunta, la regla de Bayes y el aprendizaje bayesiano. Estos conceptos implican el uso de distribuciones de probabilidad y su actualización para reducir la incertidumbre en el aprendizaje. La conferencia enfatiza la importancia de comprender estos conceptos para justificar y explicar varios algoritmos. La conferencia también destaca las limitaciones de estos conceptos, particularmente al tratar con grandes espacios de hipótesis. A pesar de esta limitación, el aprendizaje bayesiano se considera óptimo siempre que el anterior sea correcto y proporcione información significativa a los usuarios.

En esta lección, el instructor explica el concepto de aprendizaje bayesiano aproximado como una solución para el problema de la manejabilidad del aprendizaje bayesiano. La máxima verosimilitud y el máximo a-posteriori son aproximaciones de uso común en el aprendizaje estadístico, pero vienen con su propio conjunto de debilidades, como sobreajuste y predicciones menos precisas que el aprendizaje bayesiano. La conferencia también cubre el problema de optimización que surge de maximizar la probabilidad, la cantidad de datos necesarios para diferentes problemas y la importancia de las próximas diapositivas para la tarea del curso. El instructor concluye enfatizando que el algoritmo convergerá hacia la mejor hipótesis dentro del espacio dado, incluso si algunas proporciones no son realizables.

  • 00:00:00 En esta sección de la conferencia, el profesor introduce el tema del aprendizaje estadístico, que implica el uso de la estadística y la teoría de la probabilidad para capturar y reducir la incertidumbre en el aprendizaje. La idea es utilizar distribuciones de probabilidad para cuantificar la incertidumbre y actualizarlas a medida que avanza el aprendizaje. La conferencia también proporciona una revisión de las distribuciones de probabilidad y el concepto de distribución de probabilidad conjunta sobre múltiples variables aleatorias. En última instancia, el aprendizaje estadístico ayuda a explicar y justificar los algoritmos, incluida la regularización, desde una perspectiva estadística.

  • 00:05:00 En esta sección, el disertante explica cómo usar la regla de marginación para extraer una distribución particular de una distribución conjunta. Proporciona un ejemplo donde se da una distribución conjunta sobre tres variables de condiciones climáticas, condiciones de dolor de cabeza y una probabilidad para cada día. Demuestra el cálculo de probabilidades usando distribuciones marginales, mostrando cómo es posible encontrar una probabilidad conjunta o las probabilidades de escenarios climáticos o de dolor de cabeza específicos. Utilizando este método, llega a la parte de dolor de cabeza o sol que llega al punto veintiocho, mostrando así cómo extraer una distribución específica de una distribución conjunta.

  • 00:10:00 En esta sección, se discute el concepto de probabilidad condicional, que se denota por la probabilidad de una variable dada otra variable. La barra vertical representa la referencia para la fracción y el numerador representa los mundos en los que ambas variables son verdaderas. Para explicar este concepto se utiliza una representación gráfica en la que se tiene en cuenta la relación entre el número de personas que tienen ambas variables. Este concepto se utiliza para determinar las ocurrencias raras de eventos como la probabilidad de tener un dolor de cabeza debido a la gripe.

  • 00:15:00 En esta sección, el orador explica cómo calcular probabilidades condicionales usando métodos de conteo y visualización. La ecuación general para la probabilidad condicional es una fracción de dos áreas que representan el número de mundos con variables específicas. Se introduce el concepto de probabilidades conjuntas y probabilidades marginales, y se explica la ecuación de la regla de la cadena, que nos permite factorizar una distribución conjunta en una probabilidad condicional y una probabilidad marginal. El orador también advierte sobre el error común de suponer que la probabilidad de tener gripe si hay dolor de cabeza es la misma que la probabilidad de tener dolor de cabeza si hay gripe, y explica por qué esto es incorrecto.

  • 00:20:00 En esta sección, el orador explora la probabilidad condicional en el contexto del diagnóstico de una enfermedad en función de los síntomas. El orden de los argumentos en una probabilidad condicional es importante porque el lado izquierdo es lo que se estima y el lado derecho es el contexto. El orador ilustra esto con el ejemplo de calcular la probabilidad de tener gripe dado un dolor de cabeza. La probabilidad conjunta de tener gripe y dolor de cabeza se calcula usando la regla de la cadena y luego la probabilidad condicional se obtiene dividiendo la probabilidad conjunta por la probabilidad marginal de tener dolor de cabeza. Se da otro ejemplo con las tres variables aleatorias de dolor de cabeza, soleado y frío. Se calculan las probabilidades condicionales de dolor de cabeza y frío dado el sol, así como la probabilidad condicional inversa de dolor de cabeza y frío dado el sol.

  • 00:25:00 En esta sección de la lección, el instructor explica el cálculo de probabilidades conjuntas para múltiples eventos en un contexto específico y explica por qué las probabilidades pueden no sumar uno en ciertas situaciones. Los ejemplos dados involucran la probabilidad de tener dolor de cabeza y un resfriado dado si el día está soleado o no. Luego, el instructor enfatiza la importancia de considerar todos los resultados en el lado izquierdo de la barra vertical para determinar si las probabilidades deben sumar uno, y advierte contra el error común de suponer que cambiar el contexto de los eventos dará como resultado en probabilidades que suman uno.

  • 00:30:00 En esta sección, el instructor explica la regla de Bayes, que se utiliza para el aprendizaje automático y la inferencia. La regla de Bayes permite calcular la relación entre dos probabilidades condicionales mediante el intercambio de argumentos. Se utiliza con una distribución previa que captura la incertidumbre inicial, seguida de la evidencia o conjunto de datos que se utiliza para revisar la distribución previa para obtener la distribución posterior. Esta regla también se puede utilizar para medir la probabilidad de obtener ciertos conjuntos de datos y puede ser una herramienta eficaz para aprender mediante la revisión de distribuciones que cuantifican la incertidumbre. La ecuación de la regla de Bayes consiste en multiplicar la anterior por la probabilidad y una constante en lugar de dividirla por la evidencia.

  • 00:35:00 En esta sección de la conferencia, el ponente explica que la propiedad de la evidencia es una constante de normalización desde una perspectiva de aprendizaje. Tiene el propósito de normalizar el numerador para que los números resultantes estén entre 0 y 1. El proceso de aprendizaje bayesiano da una distribución posterior, pero en la práctica lo que se desea es una hipótesis a utilizar para hacer predicciones. Para ello, se utiliza una combinación ponderada de hipótesis para realizar predicciones ponderándolas según su correspondiente probabilidad posterior.

  • 00:40:00 En esta sección, se analiza el concepto de usar la distribución posterior para definir pesos para diferentes hipótesis para el aprendizaje automático. Se da un ejemplo del uso del aprendizaje bayesiano para estimar la proporción de sabores en una bolsa de dulces, donde la distribución previa es una conjetura hecha al principio y la evidencia corresponde a los datos obtenidos al comer los dulces. La distribución posterior se utiliza para reducir la incertidumbre y conocer la proporción de sabores. La creencia inicial es subjetiva y puede basarse en una conjetura fundamentada.

  • 00:45:00 En esta sección de la conferencia, el orador analiza el aprendizaje bayesiano para estimar la proporción de sabores en una bolsa de dulces. La distribución de probabilidad se calcula en base a la suposición de que los dulces se distribuyen de manera idéntica e independiente. Utilizando el teorema de Bayes y multiplicando la anterior por la verosimilitud, se obtiene la distribución posterior, dando las probabilidades posteriores para cada hipótesis. El orador muestra gráficamente las distribuciones posteriores y explica cómo la probabilidad de la hipótesis con todo lo que tiene lima domina cuando todos los dulces comidos hasta ahora son lima.

  • 00:50:00 En esta sección del video sobre aprendizaje estadístico, el presentador analiza los resultados de un experimento con una bolsa de dulces en el que se extraen dulces al azar de una bolsa y se anotan sus sabores. La hipótesis sobre la relación de sabor de la bolsa se actualiza con base en la observación y se calcula la probabilidad. Se observa que la probabilidad de una hipótesis de que la bolsa contiene solo cerezas cae a cero cuando se observa una lima, mientras que la probabilidad de una hipótesis de 75% de lima y 25% de cereza aumenta con la lima pero vuelve a bajar después de cuatro caramelos. El presentador también explica que la probabilidad inicial elegida para cada hipótesis representa la creencia previa y la selección es subjetiva dependiendo de la creencia del experto. Por último, el presentador destaca la importancia de hacer predicciones utilizando la distribución posterior para brindar información significativa a los usuarios.

  • 00:55:00 En esta sección de la conferencia, el orador analiza el aprendizaje bayesiano y sus propiedades. El aprendizaje bayesiano se considera óptimo siempre que el anterior sea correcto y proporcione una forma basada en principios de hacer predicciones. Además, generalmente es inmune al sobreajuste, que es un problema importante en el aprendizaje automático. Sin embargo, el principal inconveniente del aprendizaje bayesiano es que generalmente es intratable, particularmente cuando se trata de grandes espacios de hipótesis. Esto hace que calcular la distribución posterior y la predicción sea problemático.

  • 01:00:00 En esta sección, se presenta el concepto de aprendizaje bayesiano aproximado como una solución para el problema de la manejabilidad con el aprendizaje bayesiano. El máximo a-posteriori es una aproximación común que implica seleccionar la hipótesis con la probabilidad más alta en el posterior y hacer predicciones basadas en eso. Este enfoque puede controlar pero no eliminar el sobreajuste y es menos preciso que la predicción bayesiana porque se basa en una sola hipótesis. La máxima verosimilitud es otra aproximación que implica seleccionar la hipótesis que mejor se ajuste a los datos y no utiliza probabilidades previas, lo que la hace más simple pero menos precisa que el aprendizaje bayesiano. Ambas aproximaciones resuelven el problema de intratabilidad pero lo reemplazan con problemas de optimización.

  • 01:05:00 En esta sección del video, el instructor explica el concepto de máxima verosimilitud, que es la hipótesis que mejor se ajusta a los datos. Sin embargo, esto puede incluir ajustar todo, incluido el ruido, lo que puede provocar un ajuste excesivo. Si bien maximizar la probabilidad puede simplificar los cálculos, conduce a predicciones menos precisas que las predicciones bayesianas y MAP. El problema de optimización que surge de maximizar la probabilidad aún puede ser intratable, pero muchos algoritmos en el curso maximizarán la probabilidad desde una perspectiva estadística. Finalmente, el instructor discute la cuestión de cuántos datos se necesitan para diferentes problemas, que pertenece al campo de la teoría del aprendizaje y es subjetivo al tamaño del espacio de hipótesis.

  • 01:10:00 En esta sección, el orador concluye la lección pero menciona que cubrirá algunas diapositivas más en la próxima lección que serán importantes para la tarea. También menciona que incluso si algunas de las proporciones no son realizables, el algoritmo aún convergerá hacia la hipótesis que sea mejor para hacer una predicción dentro del espacio dado.
 

CS480/680 Clase 5: Regresión lineal estadística



CS480/680 Clase 5: Regresión lineal estadística

En esta lección sobre regresión lineal estadística, el profesor cubre numerosos temas, comenzando con el concepto de máxima verosimilitud y las distribuciones de verosimilitud gaussiana para datos corruptos y ruidosos. Explican el uso de técnicas de máxima verosimilitud para encontrar los pesos que dan la máxima probabilidad para todos los puntos de datos en el conjunto de datos. Luego, la conferencia profundiza en la idea del máximo a-posteriori (MAP), el Gaussiano esférico y la matriz de covarianza. El ponente también aborda el uso de la información a priori y la regularización. Luego, el error esperado en la regresión lineal se divide en dos términos: uno que representa el ruido y otro que depende del vector de ponderación, W, que se puede dividir en sesgo y varianza. La conferencia termina con una discusión sobre el uso del aprendizaje bayesiano para calcular la distribución posterior. En general, la conferencia cubre una amplia gama de temas relacionados con la regresión lineal estadística y brinda información valiosa sobre la optimización de modelos para reducir el error de predicción.

La conferencia se centra en la regresión bayesiana, que estima una distribución posterior que converge hacia el verdadero conjunto de pesos a medida que se observan más puntos de datos. Se muestra que la distribución previa es una distribución sobre pares de W 0 y W1 y es una distribución de líneas. Después de observar un punto de datos, la distribución posterior se calcula usando distribuciones previas y de probabilidad, lo que da como resultado una creencia actualizada sobre la posición de la línea. Para hacer predicciones, se toma una combinación ponderada de las predicciones de las hipótesis en función de la distribución posterior, lo que lleva a una predicción gaussiana con una media y una varianza dadas por fórmulas específicas. El truco para obtener una predicción puntual real es tomar la media de la predicción gaussiana.

  • 00:00:00 En esta sección, se introduce el concepto de máxima verosimilitud y máximo adversario imaginan el aprendizaje en el contexto de la regresión lineal. Se supone que los datos provienen de mediciones con ruido y corruptas. La salida observada es una versión corrupta de la salida de la función subyacente con algo de ruido agregado. Se supone que Gaussian denota el ruido. Se expresa una distribución de probabilidad para determinar la probabilidad de medir una determinada salida para cada entrada en el conjunto de datos. Esta comprensión ayuda a tomar mejores decisiones para la regularización.

  • 00:05:00 En esta sección de la conferencia, el profesor analiza la distribución gaussiana en el contexto de la regresión lineal. Explican que al asumir que la función subyacente es lineal y determinista, la distribución resultante es gaussiana con una media igual a W transpuesta X y una varianza equivalente a Sigma cuadrado. Luego dibujan un gráfico de la distribución gaussiana para ilustrar que la probabilidad de medir valores alrededor de la media es mayor, con el ancho de la curva determinado por el cuadrado Sigma. El profesor señala que esta es la función de verosimilitud, y podemos usar técnicas de máxima verosimilitud para encontrar la W que da la máxima probabilidad para todos los puntos de datos en nuestro conjunto de datos.

  • 00:10:00 En esta sección, el disertante explica cómo seleccionar el mejor modelo para la regresión lineal estadística, comenzando con la optimización de la probabilidad de las Y observadas dadas las X de entrada específicas y un nivel de ruido con varianza Sigma. Luego, el disertante muestra una derivación de cómo simplificar y cambiar la escala de esta expresión a un objetivo convexo tomando el logaritmo natural y eliminando los factores irrelevantes. El resultado es el problema original de mínimos cuadrados, que demuestra el enfoque intuitivo para minimizar la distancia entre los puntos y la línea en la regresión lineal.

  • 00:15:00 En esta sección, el orador analiza la perspectiva estadística y cómo encontrar la W que daría la mayor probabilidad de observar las mediciones suponiendo un modelo con ruido gaussiano. El problema de optimización es matemáticamente equivalente, dando mayor confianza en este enfoque. Quitar Sigma de cada término de la suma es matemáticamente equivalente a sacarlo de la suma, y permite suponer que el mismo ruido está presente para cada medición individual cuando se selecciona W. El ponente también menciona que es importante tener un modelo para el ruido para encontrar la mejor solución y estimar Sigma en base a experimentos repetidos para mantenerlo fijo. La distribución posterior se calcula encontrando la W que tiene la mayor probabilidad en la posterior calculando la posterior como el producto de la anterior por la probabilidad y una constante de normalización.

  • 00:20:00 En esta sección de la conferencia, el instructor analiza el concepto de máximo a-posteriori (MAP) y cómo difiere de la máxima verosimilitud. MAP implica incluir la distribución previa en el cálculo para refinar la distribución de la hipótesis, lo que reduce la incertidumbre. El instructor explica cómo definir una distribución previa gaussiana para el vector de pesos (W) y cómo calcular la PDF de la gaussiana multivariante. El instructor también proporciona un ejemplo de dibujo de líneas de contorno para ilustrar la forma de la distribución gaussiana.

  • 00:25:00 En esta sección de la lección, el instructor explica el concepto de una Gaussiana esférica y cómo se relaciona con la matriz de covarianza. Las entradas diagonales de la matriz de covarianza representan la varianza de cada ponderación, mientras que las entradas fuera de la diagonal representan la covarianza entre las ponderaciones. Luego, el instructor muestra cómo encontrar el máximo de la posterior usando una derivación, suponiendo que la inversa de la matriz de covarianza es igual a lambda por la matriz identidad. De esta forma, la expresión es equivalente al problema de mínimos cuadrados regularizados, siendo el término de penalización lambda por la norma al cuadrado de W. El término de regularización ahora se puede interpretar de una nueva forma, dejando claro que proviene de la distribución anterior y que minimizar la norma de W equivale a acercar los pesos a la media de la distribución.

  • 00:30:00 En esta sección, el disertante analiza el uso de información a priori para elegir una matriz de covarianza en regresión lineal estadística. Si hay información que sugiera que las soluciones deben estar cerca de cero, entonces se usa un valor previo de media cero con una matriz de covarianza definida por una distribución en forma de campana con una cierta dispersión. Maximizar la verosimilitud equivale a minimizar el objetivo regularizado con el término de penalización cuando se utiliza este previo. En situaciones en las que la Gaussiana no tiene una forma esférica, sino una forma más general, el radio de cada dimensión es diferente, lo que significa que hay valores diferentes en las entradas diagonales. Es razonable suponer que una matriz de covarianza tiene una forma diagonal, con el mismo ancho en todas las direcciones, lo que tiende a funcionar bien en la práctica.

  • 00:35:00 En esta sección, el orador analiza cómo los enfoques de minimizar la pérdida al cuadrado con un término organizacional y maximizar la hipótesis a posteriori pueden conducir a resultados de pérdida potencialmente diferentes. La sección analiza la función de pérdida y descompone la pérdida esperada en dos términos diferentes. La elección de lambda afecta la solución y, por lo tanto, la pérdida esperada. Luego, el orador muestra la derivación matemática de cómo un W dado puede conducir a una pérdida esperada y cómo esta pérdida se puede descomponer en dos términos diferentes. El análisis se basa en un conjunto de datos de muestra y la distribución subyacente, y los resultados se pueden usar para comprender la pérdida esperada de un W dado y el impacto de la variación de lambda.

  • 00:40:00 En esta sección de la conferencia, el disertante explica la derivación del error esperado en un modelo de regresión lineal. El error esperado se divide en dos términos: uno que explica el ruido y otro que depende del vector de ponderación, W. Este segundo término se puede expandir aún más para mostrar que se puede descomponer en el cuadrado de sesgo y la varianza . El sesgo mide la diferencia promedio entre la salida del modelo y la verdadera función subyacente que se aproxima, mientras que la varianza mide la variabilidad de las salidas del modelo alrededor de su media. Al comprender las contribuciones del sesgo y la varianza al error esperado, los científicos de datos pueden optimizar mejor sus modelos para reducir el error de predicción.

  • 00:45:00 En esta sección de la conferencia, el profesor explica la descomposición de la pérdida esperada en tres términos: ruido, varianza y sesgo al cuadrado. Esto lleva a un gráfico donde el eje x es lambda, el peso del término de regularización en la asignación. A medida que aumenta lambda, el error disminuye inicialmente y luego aumenta nuevamente. La pérdida esperada se compone del ruido más la varianza más el sesgo al cuadrado. El gráfico muestra que la curva de varianza más sesgo al cuadrado es la suma de las curvas individuales de varianza y sesgo al cuadrado. La validación cruzada se utiliza para encontrar el mejor valor lambda, que puede controlar el error alcanzado, mientras que la diferencia entre la pérdida esperada y la pérdida real es el ruido que está presente en todos los casos.

  • 00:50:00 En esta sección, el disertante da un ejemplo de regresión no lineal para ilustrar cómo las diferentes curvas obtenidas al aplicar el máximo aprendizaje a posteriori con diferentes conjuntos de datos se relacionan con el sesgo y la varianza. El disertante explica que a medida que disminuye lambda, disminuye el sesgo y aumenta la varianza. El objetivo es encontrar una lambda que ofrezca la mejor compensación entre el sesgo y la varianza, como se muestra en la curva. El disertante también menciona que el error se mide en términos de distancia al cuadrado y que la lambda es un parámetro que se usa en la regularización.

  • 00:55:00 En esta sección, el disertante analiza la idea de minimizar las distancias al cuadrado y agregar un término de penalización, donde lambda es el peso del término de penalización. La lambda variable influye en el sesgo y la varianza, lo que conduce a diferentes valores óptimos de W, y la pérdida esperada se puede considerar como una función de lambda. El aprendizaje bayesiano implica calcular la distribución posterior comenzando con una previa y reduciendo la incertidumbre a través del aprendizaje automático. La distribución posterior se calcula multiplicando un anterior gaussiano y una probabilidad gaussiana, lo que da como resultado un posterior gaussiano.

  • 01:00:00 En esta sección, se explica el concepto de regresión bayesiana con la ayuda de una distribución previa gaussiana en el espacio de w, que puede representar una línea. Se muestra que la distribución anterior es una distribución sobre pares de w nada y w1 y es una distribución de líneas. Luego, después de observar un único punto de datos, se calcula una distribución posterior multiplicando las distribuciones anterior y de probabilidad. La distribución posterior resultante es alargada a lo largo de la cresta y algo redonda y, por lo tanto, se convierte en la creencia actualizada sobre la posición de la línea.

  • 01:05:00 En esta sección, el disertante explica cómo el aprendizaje bayesiano estima una distribución posterior que converge hacia el verdadero conjunto de pesos a medida que se observan más puntos de datos. Las líneas rojas representan muestras de la distribución posterior correspondiente, que es una distribución con respecto a los pesos que definen una línea correspondiente en el espacio de datos. Sin embargo, todavía existe la cuestión de cómo hacer predicciones basadas en la distribución posterior final.

  • 01:10:00 En esta sección, el ponente explica cómo hacer predicciones utilizando el aprendizaje bayesiano, que consiste en tomar una combinación ponderada de las predicciones hechas por cada hipótesis. La predicción se realiza para una nueva entrada y los pesos están determinados por la distribución posterior. El hablante usa un posterior gaussiano y una probabilidad para llegar a una predicción gaussiana, con una media y una varianza dadas por fórmulas específicas. Finalmente, un truco común para obtener una predicción puntual real es tomar la media de la predicción gaussiana.
 

CS480/680 Clase 6: Herramientas para encuestas (Paulo Pacheco)



CS480/680 Clase 6: Herramientas para encuestas (Paulo Pacheco)

En este video, Paulo Pacheco presenta dos herramientas académicas para encuestas: Google Scholar y RefWorks. Explica cómo buscar artículos académicos y ordenarlos por citas usando Google Scholar, y sugiere filtrar los artículos más antiguos para los más recientes. Pacheco destaca la importancia de exportar y gestionar citas, y presenta RefWorks como herramienta para esta tarea. También proporciona consejos para acceder a publicaciones académicas, incluido el uso de búsquedas creativas de palabras clave y la posible necesidad de acceso a la red universitaria o una VPN.

  • 00:00:00 En esta sección, Paulo Pacheco presenta dos herramientas para realizar encuestas: Google Scholar y RefWorks de la biblioteca. Explica cómo se puede usar Google Scholar para buscar trabajos académicos y ordenarlos aproximadamente por citas. También sugiere cómo filtrar documentos más antiguos y centrarse en los más recientes. Pacheco destaca la importancia de exportar y administrar citas para trabajos académicos y menciona a RefWorks como una herramienta que puede ayudar en ese proceso.

  • 00:05:00 En esta sección, el disertante analiza varias herramientas y consejos para acceder a publicaciones académicas, específicamente a través de Google Scholar y la biblioteca de la Universidad de Waterloo. Explica cómo se puede usar Google Scholar para encontrar documentos relevantes y ordenarlos por año o número de citas, y también señala que acceder a los textos completos puede requerir acceso a la red de la universidad o el uso de una VPN. Además, sugiere usar una búsqueda creativa de palabras clave como "conjuntos de datos increíbles para PNL" o "enlaces increíbles para visión artificial" para encontrar inspiración y recursos de alta calidad.
 

CS480/680 Clase 6: conjuntos de datos y competiciones de Kaggle



CS480/680 Clase 6: conjuntos de datos y competiciones de Kaggle

La conferencia analiza Kaggle, una comunidad para profesionales de la ciencia de datos para competir en competencias patrocinadas utilizando conjuntos de datos proporcionados por un premio en efectivo, que ofrece núcleos para el entrenamiento de modelos de aprendizaje automático y extracción de características de datos, y una amplia selección de casi 17,000 conjuntos de datos para usar en el diseño de algoritmos. El disertante también señala que los repositorios GitHub de la empresa pueden proporcionar valiosos conjuntos de datos, códigos y artículos publicados para concursos.

  • 00:00:00 En esta sección, el disertante habla sobre Kaggle, una comunidad de ciencia de datos donde los profesionales de la ciencia de datos pueden competir en competencias patrocinadas por empresas privadas donde proporcionan un conjunto de datos y un premio en efectivo. Los participantes pueden descargar los datos, entrenar algoritmos de aprendizaje automático y enviar predicciones a la competencia para ganar si sus predicciones son las mejores para el conjunto de datos. Kaggle también proporciona kernels, fragmentos de código enviados por diferentes usuarios que son útiles para la extracción de funciones o para entrenar un tipo particular de modelo en algunos datos. Además de las competencias y los kernels, Kaggle proporciona casi 17 000 conjuntos de datos que cubren cualquier disciplina que se te ocurra. Los usuarios pueden buscar un poco para encontrar un conjunto de datos que pueda cumplir con los supuestos que necesitan para diseñar un algoritmo.

  • 00:05:00 En esta sección, el orador analiza algunas fuentes desde donde se pueden encontrar conjuntos de datos para varias competiciones. Menciona a Kaggle como una gran fuente de conjuntos de datos. También sugiere buscar en los repositorios de GitHub de la empresa donde están disponibles los códigos pagados y los artículos publicados junto con los datos que se pueden usar para ejecutar el código. Esto puede ser un recurso valioso para obtener conjuntos de datos de alta calidad.
 

CS480/680 Clase 6: Normalización de flujos (Priyank Jaini)



CS480/680 Clase 6: Normalización de flujos (Priyank Jaini)

El video proporciona una introducción a la normalización de flujos en modelos generativos profundos, una técnica que aprende una función para transformar una distribución en otra, con el objetivo de transformar una distribución conocida en una distribución de interés desconocida. El video también analiza posibles proyectos de investigación relacionados con la normalización de flujos, incluida la realización de una encuesta de diferentes documentos y avances relacionados con la normalización de flujos y el análisis de la transformación de un solo gaussiano en una mezcla de gaussianos. El disertante alienta la exploración de las muchas aplicaciones diferentes de la normalización de flujos.

  • 00:00:00 En esta sección, el ponente ofrece una introducción a la normalización de flujos en modelos generativos profundos. Aprender una distribución es un aspecto clave del aprendizaje automático, y el orador explica que la normalización de flujos es una técnica que aprende una función para transformar una distribución en otra. El objetivo es transformar una distribución conocida, como una distribución gaussiana, en una distribución desconocida de interés. En la práctica, se utiliza una red neuronal para esta transformación y la investigación se ha centrado en diseñar redes neuronales para obtener la distribución deseada.

  • 00:05:00 En esta sección, el disertante analiza posibles proyectos de investigación relacionados con la normalización de flujos, que es un tema candente en el aprendizaje automático que ha ganado mucha atención en los últimos años. Una idea de proyecto es realizar una encuesta sobre los diferentes documentos y avances relacionados con la normalización de flujos, que podrían ser potencialmente publicables. Otra idea es analizar la transformación de una sola gaussiana en una mezcla de gaussianas usando ciertas funciones y cómo esto se puede extender a otras distribuciones como la exponencial y la distribución T de Student. El disertante también destaca cuestiones teóricamente abiertas al capturar el comportamiento de cola pesada en los mercados de capitales financieros. En general, el disertante alienta a explorar las muchas aplicaciones diferentes de la normalización de flujos y da la bienvenida a los estudiantes interesados en contactarlos para obtener más conocimiento sobre el tema.
 

CS480/680 Clase 6: Traducción de palabras sin supervisión (Kira Selby)



CS480/680 Clase 6: Traducción de palabras sin supervisión (Kira Selby)

El video analiza la traducción de palabras sin supervisión, lo que implica entrenar un modelo de aprendizaje automático para traducir hacia y desde un idioma sin ninguna información entre idiomas o coincidencia de diccionario. El modelo Muse se presenta como un enfoque que puede lograr una precisión de vanguardia en cientos de idiomas sin ninguna información multilingüe y se acerca a los modelos supervisados en el rendimiento. El proceso de traducción de palabras no supervisada emplea una matriz que traduce los espacios incrustados de palabras de diferentes idiomas, utilizando GAN o redes adversarias generativas. Al entrenar estos dos modelos uno contra el otro, se crea una forma de asignar dos distribuciones a un espacio, lo que proporciona mejores resultados de traducción. Los modelos pueden alcanzar un 82,3 % de precisión en las traducciones palabra a palabra.

  • 00:00:00 En esta sección, el disertante analiza el tema de la traducción de palabras no supervisada, que implica entrenar un modelo de aprendizaje automático para traducir hacia y desde un idioma sin ninguna información entre idiomas ni coincidencias de diccionario. El disertante explica el concepto de incrustaciones de palabras, donde las palabras se convierten en vectores que pueden formar parte de un modelo. El disertante presenta el modelo Muse, que utiliza una hipótesis simple de que una transformación lineal puede conectar espacios vectoriales de diferentes lenguajes. Muse puede lograr una precisión de vanguardia en cientos de idiomas sin ninguna información multilingüe y se acerca a los modelos supervisados en rendimiento.

  • 00:05:00 En esta sección, Kira Selby explica el proceso de traducción de palabras sin supervisión utilizando una matriz que traduce los espacios incrustados de palabras de diferentes idiomas. La matriz puede comparar un montón de vectores de un espacio de idioma transformado en otro espacio de idioma. El objetivo es lograr espacios lingüísticos coincidentes para lograr traducciones. Este proceso emplea GAN o redes antagónicas generativas en las que el generador es la matriz u que toma un vector espacial de origen y proporciona un vector espacial de destino. Mientras tanto, el discriminador aprende a saber si un conjunto de vectores proviene de datos franceses reales o datos franceses aproximados generados por el modelo. Al entrenar estos dos modelos uno contra el otro, se crea una forma de asignar dos distribuciones a un espacio, lo que proporciona mejores resultados de traducción. Los modelos pueden lograr una precisión del 82,3 % en las traducciones palabra a palabra, aunque aún no convergen en varios idiomas, como el inglés, el farsi, el hindi, el japonés y el vietnamita.
 

CS480/680 Clase 6: Verificación de hechos y aprendizaje por refuerzo (Vik Goel)



CS480/680 Clase 6: Verificación de hechos y aprendizaje por refuerzo (Vik Goel)

El científico informático Vik Goel analiza la aplicación del aprendizaje reforzado en la verificación de noticias en línea y propone usar un sistema de recomendación para insertar evidencia de apoyo en tiempo real. Sugiere usar un gran corpus de trabajos académicos como fuente de datos para entrenar a un clasificador para predecir dónde se necesita una cita. Además, Goel explica cómo los investigadores han comenzado a codificar los antecedentes humanos en modelos de aprendizaje por refuerzo para acelerar el proceso y reconocer diferentes objetos en los videojuegos. Esto presenta un área de investigación prometedora donde los antecedentes adicionales pueden mejorar el proceso de aprendizaje.

  • 00:00:00 En esta sección de la conferencia, Vik Goel analiza la idea de usar el aprendizaje por refuerzo para verificar las noticias en línea. Explica que Google ha compilado un conjunto de datos de sitios web de verificación de hechos que podrían usarse para entrenar modelos de clasificación para determinar la veracidad de los artículos de noticias. Sin embargo, como la mayoría de los artículos de noticias carecen de citas en el texto, Goel sugiere desarrollar un sistema de recomendación para insertar evidencia de apoyo en tiempo real. Propone utilizar un gran corpus de trabajos académicos como fuente de datos y entrenar un clasificador para predecir en qué parte de cada artículo se necesita una cita. La aplicación de un sistema de recomendación puede sugerir qué fuentes deben citarse, lo que ayuda a prevenir la difusión de información errónea en línea.

  • 00:05:00 En esta sección, el informático Vik Goel explica el concepto de aprendizaje por refuerzo, en el que un agente intenta alcanzar un objetivo maximizando las recompensas en un entorno. Los modelos actuales requieren millones de interacciones con el medio ambiente, lo que dificulta aprender a jugar videojuegos. Para acelerar el proceso, los investigadores han comenzado a explorar la codificación de antecedentes humanos en modelos, lo que permite a los agentes comprender y reconocer diferentes objetos en el juego. Este enfoque presenta un área de investigación abierta donde los científicos pueden agregar más antecedentes para mejorar el proceso de aprendizaje de manera espectacular.
 

CS480/680 Clase 6: Redes de suma-producto (Pranav Subramani)



CS480/680 Clase 6: Redes de suma-producto (Pranav Subramani)

La conferencia analiza los conceptos de redes de suma-producto (SPN), que son redes compuestas de sumas y productos, que se utilizan para el modelado probabilístico manejable que produce tiempos de ejecución no exponenciales y tiene muchas aplicaciones, como la interpretabilidad y el cálculo sencillo de la densidad marginal. El video también menciona el excelente desempeño de SPN con redes neuronales convolucionales, su potencial en la construcción de mejores modelos generativos cuando se combina con modelos como GAN y codificadores de agua de variación, y las áreas de investigación potenciales sin explotar para SPN, incluida la robustez contradictoria, escenarios de aprendizaje de refuerzo y modelado de utilidades esperadas. en juegos También se destacó la garantía teórica de interpretar el modelo y la oportunidad de que los académicos hagan aportes significativos en el campo del aprendizaje automático.

  • 00:00:00 En esta sección, el orador analiza el modelado probabilístico manejable utilizando algunas redes de productos, que son redes compuestas de sumas y productos, por lo tanto, 'producto de suma', y son una forma manejable de modelar la función de probabilidad de una manera que produce tiempos de ejecución no exponenciales. A pesar de su tamaño, los modelos de red de suma-producto son muy útiles en términos de expresividad, interpretabilidad, fácil cálculo de densidad marginal, cálculo de consulta MAP y cálculo de probabilidad, al tiempo que muestran un excelente rendimiento en combinación con redes neuronales convolucionales. Se ha demostrado que estos modelos pueden superar el estado del arte en aproximadamente un 10 % y se pueden combinar con otros modelos como Gans y codificadores de variación de agua para crear mejores modelos generativos.

  • 00:05:00 En esta sección, el orador analiza las posibles áreas de investigación para algunas redes de productos (SPN). El orador primero presenta algunas propiedades éticas, que permiten la interpretación de modelos y conjuntos de datos como el "conjunto de datos de Amnistía". A diferencia de las redes neuronales, este modelo proporciona una garantía teórica que permite interpretar lo que hace el modelo hasta cierto punto. Algunas áreas potenciales de investigación para SPN incluyen características de construcción además de la biblioteca principal para SPN, solidez contradictoria, escenarios de aprendizaje reforzado con algunas redes máximas de productos y modelado de utilidades esperadas en juegos. Estas áreas de investigación están en su mayoría sin explotar, lo que ofrece una oportunidad para que los académicos hagan contribuciones significativas en el campo del aprendizaje automático.
 

CS480/680 Clase 6: EM y modelos mixtos (Guojun Zhang)



CS480/680 Clase 6: EM y modelos mixtos (Guojun Zhang)

En CS480/680 Lecture 6, el profesor Guojun Zhang analiza los conceptos básicos del aprendizaje no supervisado y la agrupación, centrándose en los modelos mixtos y su uso en la agrupación de datos. La conferencia se centra en el algoritmo Expectation-Maximization y sus procesos Estep y Mstep, así como en el descenso de gradiente como método de optimización. El proyecto potencial propuesto consiste en estudiar cómo se comportan EM y gradientes descendentes en modelos de mezcla de aprendizaje, con el objetivo final de proponer un mejor algoritmo para evitar malos mínimos locales. Una base matemática se señala como necesaria para el proyecto.

  • 00:00:00 En esta sección, Cody presenta los conceptos básicos del aprendizaje no supervisado y la agrupación, y cómo se relaciona con los modelos mixtos. Un modelo mixto es una forma de describir una distribución de probabilidad como una combinación convexa de distribuciones condicionales. Por ejemplo, la mezcla de gaussianas y la mezcla de distribuciones de Bernoulli se pueden utilizar para agrupar datos. Para encontrar una solución a los modelos mixtos, necesitamos formular una función objetivo para minimizar. El algoritmo clásico para esto es el algoritmo de maximización de expectativas.

  • 00:05:00 En esta sección, el disertante habla sobre los procesos Estep y Mstep que se utilizan para evaluar la distribución posterior y maximizar la función q en la optimización de modelos mixtos. El descenso de gradiente es otro algoritmo de optimización que se analiza y se observa que hay algunos grupos que pueden no recuperarse en el proceso de optimización. El proyecto potencial propuesto es estudiar cómo se comportan EM y gradientes descendentes en modelos de mezcla de aprendizaje y si hay alguna forma de evitar malos mínimos locales, con el objetivo final de proponer un mejor algoritmo. El profesor señala que se necesita una base matemática para este proyecto.
Razón de la queja: