Redes Neurais em IA e Deep Learning - página 36

 

Cómo se entrena ChatGPT



Cómo se entrena ChatGPT

ChatGPT es un sistema de aprendizaje automático que está diseñado para imitar la conversación humana. Primero se entrena utilizando un enfoque de preentrenamiento generativo que se basa en cantidades masivas de datos de texto no estructurados, y luego se ajusta utilizando el aprendizaje por refuerzo para adaptarse mejor a las preferencias del usuario.

  • 00:00:00 ChatGPT es un sistema de aprendizaje automático que está diseñado para imitar la conversación humana. Se entrena utilizando un enfoque de preentrenamiento generativo que se basa en cantidades masivas de datos de texto no estructurados.

  • 00:05:00 ChatGPT es un chatbot que está capacitado para responder a las solicitudes de los usuarios de forma similar a la humana. Para ello, primero condiciona el modelo en un ejemplo construido manualmente que ilustra el comportamiento deseado y luego utiliza el aprendizaje por refuerzo para ajustar el modelo a las preferencias del usuario.

  • 00:10:00 ChatGPT es un chatbot que se entrena usando una clasificación sobre K salidas para una entrada determinada. El modelo de recompensa asignará una puntuación escalar a cada miembro de un par, que representa logits o probabilidades logarítmicas no normalizadas. Cuanto mayor sea la puntuación, mayor será la probabilidad de que el modelo se coloque en esa respuesta preferida. La entropía cruzada estándar se usa para la pérdida y trata el modelo de recompensa como un clasificador binario. Una vez entrenados, los puntajes escalares se pueden usar como recompensas. Esto permitirá una formación más interactiva que el entorno puramente supervisado. Durante la etapa de aprendizaje por refuerzo, nuestro modelo de política, que es el bot de chat, se ajustará a partir del modelo final supervisado. Emite acciones sus secuencias de tokens cuando responde a un humano en un entorno conversacional. Dado un estado particular que es un historial de conversación y una acción correspondiente, el modelo de recompensa Devuelve la recompensa numérica. Los desarrolladores eligen utilizar la optimización de políticas próxima o PPO como el algoritmo de aprendizaje de refuerzo aquí. No entraremos en los detalles de PPO en este video, pero esta ha sido una opción popular en diferentes dominios. Ahora, el modelo de recompensas aprendidas contra el que estamos optimizando aquí es una aproximación decente al verdadero objetivo que nos importa. Sin embargo, sigue siendo solo una aproximación a un objetivo proxy.
 

El potencial REAL de la IA generativa



El potencial REAL de la IA generativa

La IA generativa tiene el potencial de revolucionar la forma en que se crean los productos, al ayudar a los desarrolladores con la creación de prototipos, la evaluación y la personalización. Sin embargo, la tecnología aún se encuentra en sus primeras etapas y se necesita más investigación para garantizar que se use de manera ética y segura.

  • 00:00:00 El video analiza los posibles beneficios y desafíos del uso de modelos de lenguaje grandes y continúa explicando cómo Human Loop puede ayudarlo a crear aplicaciones diferenciadas sobre estos modelos.

  • 00:05:00 El video analiza cómo la IA generativa puede ayudar a los desarrolladores con la creación de prototipos, la evaluación y la personalización de sus aplicaciones. Señala que es probable que el trabajo de un desarrollador cambie en el futuro, ya que la tecnología de inteligencia artificial ayuda a aumentar su flujo de trabajo.

  • 00:10:00 El video analiza el potencial de la IA generativa y analiza algunos de los obstáculos para su adopción generalizada. Señala que si bien la tecnología tiene un gran potencial, aún se encuentra en sus primeras etapas y se necesita más investigación para garantizar que se use de manera ética y segura.

  • 00:15:00 El potencial de la IA generativa es enorme, con muchos usos potenciales en un futuro próximo. Las empresas emergentes deben estar preparadas para una explosión cámbrica de nuevas aplicaciones, algunas de las cuales pueden ser difíciles de predecir.

  • 00:20:00 Este video analiza el potencial de la IA generativa y cómo se puede utilizar para crear productos nuevos e innovadores.
 

Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Introducción al aprendizaje automático (MLVU2019)



Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Introducción al aprendizaje automático (MLVU2019)

Este video proporciona una introducción al aprendizaje automático y cubre varios temas relacionados. El instructor explica cómo prepararse para el curso y aborda las preocupaciones comunes acerca de que el aprendizaje automático es intimidante. Introduce los diferentes tipos de aprendizaje automático y los distingue de la programación tradicional basada en reglas. El video también cubre los conceptos básicos del aprendizaje supervisado y proporciona ejemplos de cómo se puede usar el aprendizaje automático para problemas de clasificación y regresión. También se explican los conceptos de espacio de características, función de pérdida y residuos.

La segunda parte del video brinda una introducción al aprendizaje automático y explica su objetivo principal de encontrar patrones y crear modelos precisos para predecir los resultados de un conjunto de datos. El ponente analiza la importancia de utilizar algoritmos específicos y división de datos para evitar el sobreajuste y lograr la generalización. También introduce el concepto de estimación de densidad y sus dificultades con datos complejos. El ponente aclara la diferencia entre el aprendizaje automático y otros campos y alude a una estrategia para desglosar grandes conjuntos de datos con el fin de hacer predicciones precisas. El video también menciona el aumento de personas que trabajan en el aprendizaje automático con el desarrollo del aprendizaje profundo y brinda consejos para que los principiantes se inicien en el campo.

  • 00:00:00 En esta sección, el ponente habla sobre cómo prepararse para el curso de aprendizaje automático. Sugieren que los estudiantes deben leer cuidadosamente los materiales del curso principal y concentrarse en lo que es necesario. Además, hay un cuestionario disponible para que los estudiantes prueben su comprensión y memoricen lo que les dice el instructor. A los estudiantes se les dará tarea y se les permitirá usar una hoja impresa con fórmulas para escribir notas en el área restante con bolígrafo.

  • 00:05:00 En esta sección, el orador aborda las preocupaciones acerca de que el aprendizaje automático es aterrador e intimidante, especialmente para quienes no tienen experiencia en informática. Explica que el propósito del proyecto es ayudar a las personas a sentirse cómodas con el aprendizaje automático al proporcionar conjuntos de datos y recursos para explorar y experimentar. El orador enfatiza la importancia de la colaboración y fomenta el uso de las hojas de trabajo y las herramientas informáticas proporcionadas para facilitar el aprendizaje.

  • 00:10:00 En esta sección, el ponente analiza la importancia de las dinámicas de grupo y las habilidades de comunicación en el campo del aprendizaje automático. Él enfatiza que ser capaz de trabajar y comunicarse de manera efectiva en grupos es tan importante como las habilidades de escritura técnica. El orador también alienta a los participantes a registrarse para las sesiones grupales y comunicarse con otros en el programa para formar relaciones de trabajo efectivas. Aconseja a los participantes que utilicen los recursos disponibles, como los foros de discusión en línea, para conectarse con otros miembros del programa y crear relaciones productivas y colaborativas.

  • 00:15:00 En esta sección, el orador presenta los diferentes tipos de aprendizaje automático, comenzando con el aprendizaje automático supervisado. Explican que repasarán dos tipos de aprendizaje automático supervisado: clasificación y regresión, y la regresión se analizará después del descanso. El orador también menciona que discutirán brevemente el aprendizaje automático no supervisado y brindarán una explicación de por qué el aprendizaje automático es diferente a la maquinaria normal.

  • 00:20:00 En esta sección, el orador distingue entre la programación tradicional basada en reglas, que esencialmente sigue un conjunto de instrucciones predeterminadas, y el aprendizaje automático, que es un proceso de uso de grandes conjuntos de datos para construir modelos predictivos que se pueden usar para tomar decisiones basadas en nuevos datos. El aprendizaje automático es útil en situaciones en las que la toma de decisiones debe ser rápida, confiable e incorruptible. Sin embargo, es importante recordar que los modelos de aprendizaje automático no son perfectos y pueden fallar inesperadamente, por lo que aún se necesita la participación humana para tomar decisiones finales. El soporte de decisiones clínicas es un ejemplo de cómo se puede utilizar el aprendizaje automático para proporcionar a los médicos información adicional que les ayude en la toma de decisiones.

  • 00:25:00 En esta sección, el ponente explica el concepto de aprendizaje en línea o incremental en aprendizaje automático. Afirman que el aprendizaje en línea puede ser efectivo en situaciones donde hay un flujo constante de datos y el modelo necesita actualizarse y predecir nueva información, lo cual es una tarea difícil. Por lo tanto, recomiendan centrarse en aplicar el aprendizaje en línea separando y recreando los datos base para permitir que el modelo haga predicciones más fácilmente. Además, el orador analiza cómo los científicos en las décadas de 1950 y 1960 utilizaron cerebros artificiales simples llamados perceptrones para explorar cómo aprende el cerebro, usando ejemplos como entrenar a un perceptrón para reconocer la diferencia entre hombres y mujeres.

  • 00:30:00 En esta sección del video, el orador analiza los conceptos básicos del aprendizaje automático y presenta el concepto de aprendizaje supervisado, donde se entrena una máquina para clasificar datos en categorías específicas según las características de entrada. Se da un ejemplo de clasificación de correos electrónicos como spam o no spam mediante la medición de características tales como la frecuencia de ciertas palabras. El objetivo es alimentar estos datos a un algoritmo de aprendizaje que crea un modelo, que luego puede predecir con precisión la clase de ejemplos nuevos e invisibles. Hay muchos algoritmos de clasificación diferentes que se pueden utilizar para este tipo de problema.

  • 00:35:00 En esta sección, el orador da dos ejemplos de cómo se puede usar el aprendizaje automático para problemas de clasificación. El primer ejemplo consiste en reconocer números de varios dígitos en contratos de Arizona mediante la clasificación de imágenes. Utilizan imágenes de 28x28 píxeles de los dígitos como características y el objetivo es predecir qué dígito hay en la imagen. El segundo ejemplo implica el uso del aprendizaje automático para enseñar a un automóvil a conducir, donde recopilan datos a través de sensores en el volante y los dividen en marcos y usan funciones 960 para clasificar la dirección del automóvil.

  • 00:40:00 En esta sección, el orador discute cómo construir un algoritmo para resolver un problema de regresión. El ejemplo dado es predecir la duración de un viaje en autobús en función del número de pasajeros. El orador también menciona que hay una página con un horario completo para el curso, lo cual es importante debido a los cambios de tiempo entre grupos y visuales ocasionales que pueden cambiar. Por último, el hablante habla sobre el uso de dos características para predecir la altura de una persona, lo cual es un ejemplo de un problema de aprendizaje supervisado.

  • 00:45:00 En esta sección, el orador introduce el concepto de representar datos en un espacio de características usando un eje, lo que permite la representación visual de elementos y sus interfaces. Al dibujar una línea en este espacio, se puede crear un clasificador que divide el espacio en dos áreas donde un área representa todo lo que está por encima de la línea y la otra área representa todo lo que está debajo. El chupete logístico es la mejor opción cuando se usan líneas, y cada línea se puede describir con tres números que definen una propiedad en el plano del espacio 3D. Una función de pérdida, que es una función conmutable, permite el cálculo del número de ejemplos que un modelo se equivoca, y un valor más bajo significa un mejor ajuste del modelo.

  • 00:50:00 En esta sección, el orador brinda ejemplos de espacios y cómo se pueden usar para crear modelos. Explica el concepto de árboles de decisión y cómo pueden complicarse en un espacio grande. También demuestra cómo el proceso de clasificación puede hacerse simple y poderoso, usando algunas variaciones en la especificación y diversificación. Finalmente, el orador toca la clasificación de múltiples clases y múltiples etiquetas y cómo pueden ser útiles en instancias donde los objetos no son mutuamente excluyentes.

  • 00:55:00 En esta sección, el orador explica cómo determinar la puntuación de probabilidad de clase adecuada y el espacio de salida mediante la creación de características basadas en datos importantes. Para evaluar la línea theta y la función de pérdida muscular, se implementa un método de residuos que mide la distancia entre el valor predicho del modelo y el valor de salida real. Al utilizar la regresión para trazar el residual y calcular la suma de los residuales al cuadrado, se puede mejorar la precisión predictiva porque atrae la línea hacia los datos en función de la distancia al cuadrado adecuada.

  • 01:00:00 En esta sección, el ponente analiza la importancia de utilizar algoritmos específicos, como la regresión lineal múltiple, para analizar datos y crear modelos. Explica que estos modelos no siempre son precisos debido al sobreajuste, por lo que los datos deben dividirse en diferentes partes y analizarse en consecuencia. El orador también enfatiza que la generalización es el aspecto más importante al crear algoritmos de aprendizaje automático para garantizar que el modelo pueda predecir con precisión los resultados con nuevos datos.

  • 01:05:00 En esta sección, el video analiza el aprendizaje automático y cómo implica aprender de una gran cantidad de datos. Los modelos de aprendizaje automático se construyen colocando datos en un conjunto de funciones y etiquetas, con el objetivo de encontrar patrones y crear un modelo que pueda predecir con precisión una etiqueta basada en las funciones. Se pueden usar técnicas como el agrupamiento de k-medias para agrupar puntos de datos con características similares, lo que puede ayudar a construir modelos más precisos. Además, es importante comprender que encontrar un modelo óptimo requiere mucho ensayo y error, y no existe una forma directa de saber qué funcionará mejor de antemano.

  • 01:10:00 En esta sección, el orador presenta el concepto de estimación de densidad y cómo ayuda a identificar la distribución de probabilidad de los datos. La estimación de la densidad se realiza suponiendo una distribución de interés y capturándola en función de los datos de la muestra. El modelo predice una densidad de probabilidad para cada punto de las características y asigna un número para representar la probabilidad de diferentes tasas. Sin embargo, para datos complejos como fotografías de seres humanos, la estimación de la densidad se vuelve difícil debido a las características de gran dimensión, y se necesita un enfoque alternativo para proporcionar otra muestra similar.

  • 01:15:00 En esta sección, el orador menciona que hay otros campos además del aprendizaje automático que pueden confundir a las personas haciéndoles pensar que involucran maquinaria, como la planificación urbana o la planificación de baños. Sin embargo, estos campos no requieren necesariamente mucho gasto o tiempo. El orador también alude a una estrategia que se discutirá más a fondo la próxima semana, que consiste en dividir grandes conjuntos de datos en grupos más pequeños para hacer predicciones precisas. Esta estrategia se usa a menudo en campos como el reconocimiento de voz o el reconocimiento de caracteres.

  • 01:20:00 En esta sección, el orador analiza las diferentes formas de pensar sobre el aprendizaje automático y las técnicas y modelos existentes que se pueden utilizar para ello. También se refiere a cómo el aprendizaje profundo ha contribuido al aumento en la cantidad de sabores de las personas que trabajan en el aprendizaje automático. Además, brinda consejos para principiantes que desean comenzar con el aprendizaje automático y menciona la disponibilidad de recursos para ayudarlos en su viaje de aprendizaje.
 

2 Modelos Lineales 1: Hiperplanos, Búsqueda Aleatoria, Descenso de Gradiente (MLVU2019)



2 Modelos Lineales 1: Hiperplanos, Búsqueda Aleatoria, Descenso de Gradiente (MLVU2019)

Este video cubre los conceptos básicos de modelos lineales, métodos de búsqueda y algoritmos de optimización. Los modelos lineales se explican tanto en 2 dimensiones como en múltiples dimensiones, y se analiza el proceso de búsqueda de un buen modelo a través de métodos como la búsqueda aleatoria y el descenso de gradiente. Se explica la importancia de la convexidad en el aprendizaje automático y se abordan los inconvenientes de la búsqueda aleatoria en paisajes no convexos. El video también presenta métodos evolutivos y búsqueda ramificada como métodos de búsqueda. Finalmente, se explica el uso del cálculo y el descenso de gradientes para optimizar la función de pérdida, incluido el proceso de encontrar la dirección de descenso más empinado para un hiperplano.

La segunda parte analiza el descenso de gradiente y su aplicación a modelos lineales, donde el algoritmo actualiza los parámetros dando pasos en la dirección del gradiente negativo de la función de pérdida. La tasa de aprendizaje es crucial para determinar la rapidez con la que el algoritmo converge al mínimo, y las funciones lineales permiten calcular el modelo óptimo sin tener que buscar. Sin embargo, los modelos más complejos requieren el uso de descenso de gradiente. El video también presenta los límites de clasificación y decisión, donde el objetivo es separar los puntos azules de los puntos rojos al encontrar una línea que lo haga de manera óptima. Las limitaciones de los modelos lineales incluyen su incapacidad para clasificar conjuntos de datos separables no linealmente, pero son computacionalmente baratos y funcionan bien en espacios de características de alta dimensión. El instructor también presenta una vista previa de los temas futuros que se discutirán, como la metodología de aprendizaje automático.

  • 00:00:00 En esta sección, el orador explica la receta básica para el aprendizaje automático, que implica abstraer un problema, elegir instancias y características, seleccionar una clase de modelo y buscar un buen modelo. Luego introducen modelos lineales como la clase de modelo seleccionada y discuten cómo escribirlos en lenguaje matemático. Hablan sobre los métodos de búsqueda, incluido el descenso de gradiente, y enfatizan que estos métodos no son específicos de los modelos lineales y aparecerán en otros contextos. También se introduce la notación para describir conjuntos de datos, utilizando superíndices para hacer coincidir las instancias y los valores correspondientes. Finalmente, se utiliza un conjunto de datos de regresión simple como ejemplo de ejecución a lo largo de la lección.

  • 00:05:00 En esta sección, el orador analiza los modelos lineales y cómo se pueden usar para mapear un espacio a otro espacio. Un modelo lineal usa una función que describe una línea para lograr esto. La función de línea tiene dos parámetros, W y B, que representan la pendiente y el sesgo respectivamente. El orador explica que la cantidad de características en un conjunto de datos puede ser arbitraria y que el modelo tiene que funcionar con cualquier cantidad de características. Para múltiples entidades, cada instancia se representa como un vector usando una notación de letras en negrita, y cada uno de estos vectores se asigna a un solo valor.

  • 00:10:00 En esta sección, el orador explica cómo extender el modelo lineal de un plano a un hiperplano asignando pesos a cada característica y manteniendo un único valor B. Esta función se puede expresar como el producto punto de W y X más B, que es una operación simple de dos vectores de la misma longitud. El producto escalar también se puede expresar como la longitud de los dos vectores en el espacio por el coseno del ángulo entre ellos. El orador también menciona un principio interesante, que es que al agregar características simples a un modelo, puede volverse más poderoso. Finalmente, para encontrar un buen modelo, se utiliza una función de pérdida y una forma de buscar en el espacio de todos los modelos un valor que minimice esa función de pérdida.

  • 00:15:00 En esta sección, el orador analiza la función de pérdida de error cuadrático medio utilizada en la regresión lineal. La función mide la distancia entre la predicción del modelo y el valor real, eleva al cuadrado la distancia y suma todos los residuos para determinar la pérdida. Cuanto menor sea el valor, mejor será el modelo. El orador explica por qué la función eleva al cuadrado los valores en lugar de usar valores absolutos para evitar que los valores positivos y negativos se cancelen. El cuadrado también impone una penalización adicional a los valores atípicos, haciéndolos pesar más en la función de pérdida. La sección también analiza brevemente los espacios de modelos y características y cómo la búsqueda de valores de pérdida bajos en el panorama de pérdidas lleva a ajustar un modelo a los datos.

  • 00:20:00 modelo simple, la búsqueda aleatoria se puede usar para encontrar los valores óptimos de los parámetros comenzando con un punto aleatorio y usando un bucle para elegir otro punto que esté muy cerca de él, calculando la pérdida para ambos puntos, y si el la pérdida para el nuevo punto es mejor, cambiar al nuevo punto. El proceso continúa hasta que alcanza los valores óptimos de los parámetros. Esto es similar a un excursionista que navega en una tormenta de nieve dando pequeños pasos en todas las direcciones para determinar dónde sube más la ladera de la montaña y dando pasos en esa dirección hasta llegar al valle. Sin embargo, en entornos de aprendizaje automático, donde el espacio es multidimensional, no es posible ver la imagen completa a la vez, por lo que el proceso es similar a un excursionista en una tormenta de nieve, donde los pequeños pasos se dan en una distancia fija en una dirección aleatoria hasta alcanzar los valores óptimos.

  • 00:25:00 En esta sección, el video analiza el concepto de convexidad en el aprendizaje automático y su impacto en el uso de la búsqueda aleatoria como método de búsqueda de modelos. Una superficie de pérdida convexa, o con forma de cuenco cuando se grafica matemáticamente, tiene solo un mínimo, lo que hace posible encontrar un mínimo global. Sin embargo, cuando una superficie de pérdida no es convexa y tiene múltiples mínimos locales, la búsqueda aleatoria puede atascarse y converger en un mínimo local. Para abordar esto, se introduce el recocido simulado como método de búsqueda, lo que permite una probabilidad de movimiento cuesta arriba, lo que permite el potencial de escapar de los mínimos locales y encontrar el mínimo global.

  • 00:30:00 En esta sección, el video analiza el uso de métodos de optimización de caja negra, como la búsqueda aleatoria y el recocido simulado, para optimizar un espacio modelo continuo o discreto al considerar la función de pérdida como una caja negra, que no requiere ninguna conocimiento del funcionamiento interno del modelo. Se observa que estos métodos también se pueden paralelizar para ejecutar múltiples búsquedas simultáneamente para aumentar las posibilidades de encontrar el óptimo global. Además, el video menciona que estos métodos de optimización a menudo se inspiran en fenómenos naturales, como algoritmos evolutivos, partículas y colonias.

  • 00:35:00 En esta sección, el orador presenta el algoritmo básico para un método evolutivo de búsqueda que se inspira en la evolución. Este método comienza con una población de modelos, calcula su pérdida, los clasifica, mata a la mitad de la población y reproduce la otra mitad para crear una nueva población. Los nuevos modelos se seleccionan en función de las propiedades de los antiguos y se añade alguna variación a la población mediante la mutación. El orador también explica un método de búsqueda de ramificación, una variación de la búsqueda aleatoria, donde en lugar de elegir una dirección aleatoria, se eligen K direcciones aleatorias y se selecciona la dirección con la pérdida más baja. El orador concluye señalando la flexibilidad y el poder de los métodos evolutivos, pero advierte su alto costo computacional y los requisitos de ajuste de parámetros.

  • 00:40:00 En esta sección, los presentadores discuten diferentes métodos de búsqueda para encontrar el modelo óptimo para un problema dado. A medida que aumenta el número de modelos, dedican más tiempo a explorar la curvatura local, lo que conduce a una línea más directa hacia el óptimo. En lugar de dar un paso al azar, pueden dedicar más tiempo a comprender el vecindario local y descubrir la dirección óptima antes de moverse. Luego, los autores introducen el descenso de gradiente, que implica observar la función de pérdida y calcular la dirección en la que la función disminuye más rápido a través del cálculo. Este método requiere que la función sea diferenciable, uniforme y continua, y ya no es un modelo de caja negra.

  • 00:45:00 En esta sección, el orador analiza las pendientes y las líneas tangentes en relación con la función de pérdida. La superficie de pérdida no es una función lineal, pero la pendiente de la línea tangente, que representa la derivada de la función de pérdida, puede dar una indicación de la dirección y la velocidad a la que disminuye la función. En dimensiones superiores, el equivalente de la línea tangente es el hiperplano tangente, que también puede darnos la dirección en la que la superficie de pérdida está disminuyendo más rápido. La conferencia también aborda la interpretación de los vectores como un punto en el espacio o una dirección, lo cual es útil cuando se trata de funciones lineales como los hiperplanos.

  • 00:50:00 En esta sección, el orador analiza cómo generalizar tomando la derivada a múltiples dimensiones y cómo encontrar la dirección de descenso más empinado para un hiperplano. El equivalente de tomar la derivada en múltiples dimensiones es calcular el gradiente, que es un vector que consiste en la derivada diferencial parcial con respecto a X, Y y Z. Estos tres valores juntos definen tres parámetros para un plano y tres valores juntos definen un hiperplano La dirección W del descenso más pronunciado se puede encontrar maximizando la norma de W por el coseno de a, que se maximiza cuando la distancia entre X y W es igual al ángulo entre X y W o cuando X y W son iguales. Por lo tanto, la dirección del descenso más empinado es W.

  • 00:55:00 En esta sección, el orador explica un algoritmo simple para encontrar el mínimo de una función de pérdida llamada descenso de gradiente. El algoritmo comienza con un punto aleatorio en el espacio modelo, calcula el gradiente de la pérdida en ese punto, lo multiplica por un valor pequeño llamado anta y luego lo resta del modelo. No hay aleatoriedad, solo pasos puramente deterministas. El gradiente da tanto la dirección como el tamaño del paso. Luego, el orador continúa calculando el gradiente para un paisaje de pérdida usando cálculo, explicando las reglas de la suma y la cadena, y termina con el vector bidimensional de la derivada de la función de pérdida con respecto a W y B.

  • 01:00:00 En esta sección, el disertante analiza la implementación del gradiente descendente en Python y cómo permite dar un paso en la dirección del vector, siguiendo la curvatura de la superficie, para encontrar el mínimo y permanecer allí. Para demostrar esto, presentan un sitio web llamado playground.tensorflow.org, que permite a los usuarios experimentar con un modelo lineal simple mediante el descenso de gradiente. Sin embargo, el orador también señala que el descenso de gradiente tiene algunas limitaciones, como la necesidad de elegir la tasa de aprendizaje y la posibilidad de quedarse atascado en un mínimo local.

  • 01:05:00 En esta sección, el video analiza el descenso de gradiente con más detalle y su aplicación a modelos lineales. Con el descenso de gradiente, el algoritmo actualiza los parámetros dando pasos en la dirección del gradiente negativo de la función de pérdida, y este proceso se repite hasta que alcanza un mínimo. La tasa de aprendizaje determina qué tan grande es cada paso, y es crucial encontrar una tasa de aprendizaje que no sea demasiado grande o demasiado pequeña, ya que afecta la rapidez con la que el algoritmo converge al mínimo. Las funciones lineales permiten calcular el modelo óptimo sin tener que buscar. Sin embargo, los modelos más complejos requieren el uso de descenso de gradiente. El descenso de gradiente es rápido, requiere poca memoria y es preciso, pero no escapa a los mínimos locales y solo funciona en espacios modelo continuos con funciones de pérdida suave. Finalmente, el video presenta los límites de clasificación y decisión, donde el objetivo es separar los puntos azules de los puntos rojos al encontrar una línea que lo haga de manera óptima en el espacio de características.

  • 01:10:00 En esta sección, el orador analiza el proceso de encontrar un clasificador para un conjunto de datos de clasificación simple que consta de seis instancias. Para ello, buscan una función de pérdida que pueda utilizarse para evaluar posibles modelos lineales o planos en el conjunto de datos, con el objetivo de minimizar el número de puntos mal clasificados para obtener una buena evaluación. Sin embargo, la función de pérdida que utilizan inicialmente no es adecuada para encontrar el modelo óptimo, ya que tiene una estructura plana, lo que hace que la búsqueda aleatoria y el ascenso de gradiente sean ineficaces. Luego, el hablante afirma que a veces la función de pérdida debería ser diferente de la función de evaluación y presenta una función de pérdida que tiene un mínimo alrededor del punto deseado, pero es uniforme en todas partes.

  • 01:15:00 En esta sección, el disertante demuestra cómo el principio de mínimos cuadrados utilizado en la regresión se puede aplicar a la clasificación asignando valores de puntos y tratando el problema como un problema de regresión. Este enfoque funciona bien en la agrupación de puntos linealmente separables, pero no hay garantía de que separará los grupos que no son linealmente separables. Muestran cómo funciona el algoritmo de descenso de gradiente tomando pasos determinados en el espacio de características para minimizar la función de pérdida. El ejemplo utilizado es un conjunto de datos con puntos linealmente separables, y el disertante también destaca cómo los modelos lineales están limitados en lo que pueden expresar, como lo muestra el ejemplo del conjunto de datos central que tiene límites complejos.

  • 01:20:00 En esta sección, el instructor analiza las limitaciones de los modelos lineales y cómo pueden fallar al clasificar conjuntos de datos separables no linealmente, como un conjunto de datos que tiene un patrón en espiral. Sin embargo, los modelos lineales pueden funcionar bien en espacios de características de alta dimensión y también son computacionalmente baratos. El instructor explica que el descenso de gradiente estocástico es una poderosa herramienta de optimización, pero requiere una función de pérdida suave para usarse como proxy para funciones de pérdida discreta. El instructor concluye con una vista previa de los temas futuros que se discutirán, como la metodología de aprendizaje automático.
 

3 Metodología 1: Área bajo la curva, sesgo y varianza, sin almuerzo gratis (MLVU2019)



3 Metodología 1: Área bajo la curva, sesgo y varianza, sin almuerzo gratis (MLVU2019)

El video cubre el uso de la métrica del área bajo la curva (AUC) en la evaluación de modelos de aprendizaje automático, además de presentar los conceptos de sesgo y varianza, y el teorema de "ningún almuerzo gratis". La métrica AUC mide el rendimiento del modelo de clasificación mediante el cálculo del área bajo la curva ROC. Además, se analizan el sesgo y la varianza, ya que juegan un papel crucial en la forma en que el modelo se ajusta a los datos de entrenamiento y se generaliza a nuevos datos. Además, el teorema de "no hay almuerzo gratis" destaca la necesidad de seleccionar el algoritmo apropiado para cada problema específico, ya que no existe un algoritmo universalmente aplicable para todos los problemas de aprendizaje automático.

Este video cubre tres conceptos importantes de aprendizaje automático: AUC (área bajo la curva), sesgo y varianza, y el teorema de "ningún almuerzo gratis". AUC es una métrica utilizada para evaluar modelos de clasificación binaria, mientras que el sesgo y la varianza se refieren a las diferencias entre los valores predichos de un modelo y los valores reales en un conjunto de datos. El teorema de "no hay almuerzo gratis" destaca la importancia de seleccionar el algoritmo apropiado para un problema dado, ya que no existe un único algoritmo que pueda funcionar de manera óptima en todos los problemas y conjuntos de datos posibles.

  • 00:20:00 En esta sección, el orador analiza la primera metodología para evaluar modelos de aprendizaje automático, la métrica del área bajo la curva (AUC). El AUC mide el rendimiento de los modelos de clasificación mediante el cálculo del área bajo la curva característica operativa del receptor (ROC). El orador también presenta los conceptos de sesgo y varianza, que miden qué tan bien se ajusta un modelo a los datos de entrenamiento y qué tan bien se generaliza a nuevos datos, respectivamente. Finalmente, el orador explica el teorema de "no hay almuerzo gratis", que establece que no existe un algoritmo único para todos los problemas de aprendizaje automático y enfatiza la importancia de seleccionar el algoritmo apropiado para cada problema específico.

  • 01:10:00 En esta sección, el orador presenta tres conceptos clave en la metodología de aprendizaje automático: área bajo la curva (AUC), sesgo y varianza, y el teorema de "ningún almuerzo gratis". AUC es una métrica utilizada para evaluar el rendimiento de los modelos de clasificación binaria y representa la probabilidad de que un modelo clasifique un ejemplo positivo elegido al azar más alto que un ejemplo negativo elegido al azar. El sesgo se refiere a la diferencia entre el valor esperado de las predicciones de un modelo y los valores reales en el conjunto de datos, mientras que la varianza se refiere a la varianza en las predicciones de un modelo cuando se entrena en diferentes conjuntos de datos. El teorema de "no hay almuerzo gratis" establece que no existe un algoritmo que pueda funcionar mejor en todos los problemas y conjuntos de datos posibles, lo que subraya la importancia de seleccionar el algoritmo apropiado para un problema determinado.
 

4 Metodología 2: limpieza de datos, análisis de componentes principales, caras propias (MLVU2019)



4 Metodología 2: limpieza de datos, análisis de componentes principales, caras propias (MLVU2019)

Esta primera parte del video cubre varios aspectos importantes del procesamiento previo y la limpieza de datos antes de aplicar algoritmos de aprendizaje automático, comenzando con la importancia crucial de comprender los sesgos y sesgos de los datos. Luego, el orador analiza los métodos para tratar los datos faltantes, los valores atípicos, el desequilibrio de clases, la selección de características y la normalización. El video continúa discutiendo el concepto de base y la distribución MVN, explica cómo usar el blanqueamiento para transformar los datos en una distribución normal para la normalización y concluye con el uso del análisis de componentes principales (PCA) para la reducción de la dimensionalidad. Desde la manipulación del conjunto de entrenamiento hasta el uso de métodos de imputación, PCA proyecta datos a un espacio dimensional más bajo mientras retiene información de los datos originales.

Esta segunda parte del video analiza el uso del análisis de componentes principales (PCA) en la limpieza de datos y la reducción de la dimensionalidad para el aprendizaje automático. El método consiste en centrar los datos en la media, calcular la covarianza de la muestra y descomponerla mediante la descomposición propia para obtener los vectores propios alineados con el eje que captura la mayor varianza. El uso de los primeros componentes principales de K proporciona una buena reconstrucción de datos, lo que permite un mejor rendimiento del aprendizaje automático. También se introduce el concepto de Eigenfaces, y se demuestra que PCA es efectivo para comprimir los datos a 30 dimensiones mientras mantiene la mayor parte de la información requerida para el aprendizaje automático. Se discuten varias aplicaciones de PCA, incluido su uso en antropología y en el estudio de conjuntos de datos complejos como el ADN y las caras.

  • 00:00:00 En esta sección del video, el presentador analiza los conceptos básicos de la limpieza y el preprocesamiento de datos antes de aplicar algoritmos de aprendizaje automático. La importancia de no tomar los datos al pie de la letra se enfatiza al analizar el sesgo de supervivencia, donde solo centrarse en la población sobreviviente puede conducir a resultados sesgados. Luego, el presentador analiza técnicas como el manejo de datos faltantes, valores atípicos, desequilibrio de clases, selección de características y normalización. Finalmente, la segunda mitad del video se enfoca en discutir la reducción de la dimensionalidad utilizando el algoritmo de análisis de componentes principales.

  • 00:05:00 En esta sección, el video presenta consejos prácticos para la limpieza de datos y el manejo de los datos que faltan en un conjunto de datos, incluida la eliminación de funciones faltantes o instancias que no son significativas y asegurarse de que la eliminación no cambie la distribución de datos. En lugar de eliminar los valores faltantes, podría ser más útil conservarlos para los datos de entrenamiento y probar las respuestas del modelo. Para maximizar la cantidad de datos de entrenamiento, hay disponible un método de imputación que completa las conjeturas para los datos que faltan, como usar la moda o el valor medio. El principio rector para manejar los datos faltantes es considerar el caso de uso del mundo real, o el entorno de producción, para preparar el modelo para tratar los datos faltantes esperados de la manera más relevante y práctica.

  • 00:10:00 En esta sección, el orador analiza dos tipos de valores atípicos en los datos: valores atípicos mecánicos y naturales. Los valores atípicos mecánicos se producen debido a errores, como datos faltantes o errores en la entrada de datos, y deben tratarse como datos faltantes que se deben limpiar. Por otro lado, los valores atípicos naturales ocurren debido a la distribución no normal de ciertas variables y deben mantenerse en el conjunto de datos para garantizar un mejor ajuste. El orador brinda ejemplos de ambos tipos de valores atípicos, incluidas características faciales inusuales en un conjunto de datos de rostros e ingresos extremadamente altos en un conjunto de datos de distribución del ingreso.

  • 00:15:00 En esta sección, se analiza la importancia de verificar los supuestos de normalidad en los datos. La regresión lineal, por ejemplo, se basa en estos supuestos, por lo que es importante comprobar la normalidad y ser consciente de que los supuestos pueden ocultarse en los modelos sin que se conozcan. Los valores atípicos también deben tenerse en cuenta al modelar y validar datos, y es importante probar los modelos con un conjunto de entrenamiento que represente situaciones de producción para garantizar que los modelos puedan manejar los valores atípicos de manera adecuada. Además, se analiza la importancia de transformar los datos en características categóricas o numéricas para los algoritmos de aprendizaje automático y la posible pérdida de información involucrada en tales transformaciones.

  • 00:20:00 En esta sección, el orador analiza la importancia de seleccionar las funciones correctas para los algoritmos de aprendizaje automático y cómo extraer información significativa de los datos. Explican que simplemente interpretar números como números de teléfono como valores numéricos no es útil y, en cambio, sugieren buscar características categóricas como códigos de área o estado de telefonía móvil frente a línea fija. En los casos en que un algoritmo de aprendizaje automático solo acepte características numéricas, el orador recomienda usar una codificación en caliente en lugar de una codificación de enteros para evitar imponer un orden arbitrario en los datos. El objetivo es extraer la información necesaria sin perder ningún detalle esencial y seleccionar funciones que transmitan de manera precisa y efectiva la información necesaria para la tarea en cuestión.

  • 00:25:00 En esta sección, el orador analiza el valor de ampliar las funciones para hacer que un modelo sea más potente. Usando el ejemplo de un conjunto de datos para la clasificación de spam de correo electrónico, el orador explica cómo dos características interrelacionadas no pueden interpretarse sin conocer el valor de la otra, lo que hace imposible que un clasificador lineal dibuje límites entre las clases. Para abordar esta limitación, el orador analiza agregar una característica de productos cruzados, que multiplica los valores de las características existentes, lo que permite dibujar un límite de clasificación en un espacio de características más alto, aunque no sea separable linealmente en el espacio original. Luego, el orador da un ejemplo de una clase de puntos con un límite de decisión circular para ilustrar aún más la importancia de expandir las características.

  • 00:30:00 En esta sección, el orador explica cómo agregar funciones adicionales puede ayudar a un clasificador lineal a resolver problemas de clasificación. Al agregar el cuadrado de las coordenadas x e y como características a un problema de límite de decisión, se puede usar un clasificador lineal para distinguir entre dos clases de puntos. El orador muestra cómo, usando TensorFlow Playground, el entrenamiento del clasificador da como resultado un límite de decisión que para el ojo humano parece ser circular. También se muestran los pesos de las características y se demuestra que solo se necesita una característica para resolver este problema de clasificación.

  • 00:35:00 En esta sección del video, el orador explica cómo expandir el espacio de funciones puede conducir a un modelo más poderoso, incluso para la regresión. Ilustran este punto al mostrar cómo agregar una variable cuadrada a un modelo de regresión lineal da como resultado una parábola que se ajusta mejor a los datos. El orador también aconseja sobre cómo lidiar con el desequilibrio de clases, sugiriendo manipular el conjunto de entrenamiento a través de técnicas como el sobremuestreo o el aumento de datos. Finalmente, introducen el tema de la normalización y brindan un ejemplo motivador de cómo las diferencias en las unidades pueden afectar el rendimiento de un modelo de clasificación de K vecino más cercano.

  • 00:40:00 En esta sección del video, el orador analiza la importancia de normalizar los datos para los algoritmos de aprendizaje automático. Explican tres formas de normalizar los datos: normalización, estandarización y blanqueamiento. La normalización implica comprimir el rango de datos en el rango entre cero y uno, mientras que la estandarización implica asegurarse de que la media de los datos sea cero y la varianza sea uno. El tercer método, el blanqueamiento, es una normalización ligeramente más agradable que tiene en cuenta todas las correlaciones de los datos y los reduce a una esfera en el espacio de características. El ponente explica que el blanqueamiento es útil para reducir la dimensionalidad.

  • 00:45:00 En esta sección, el orador explica el concepto de datos de blanqueamiento, que implica transformar los datos en un conjunto de características no correlacionadas. El orador usa álgebra lineal para demostrar cómo elegir una base diferente para los datos al elegir otros dos vectores para un nuevo sistema de ejes. El punto azul, originalmente representado como (3,2) en el sistema de coordenadas estándar, se vuelve a calcular con respecto al nuevo sistema base y tiene nuevas coordenadas de (2,5, 0,5). Esto lleva a la notación generalizada de pegar los vectores base en una matriz como columnas.

  • 00:50:00 En esta sección, el orador analiza el concepto de base y cómo se puede usar para transformar entre diferentes bases con la ayuda de la matriz transpuesta. La operación de matriz inversa es costosa y numéricamente imprecisa, por lo que se prefiere una base ortonormal donde los vectores base tienen longitud uno y son ortogonales entre sí. Luego, el orador explica cómo la distribución normal multivariante es una generalización de la distribución normal a múltiples dimensiones y puede ayudar a interpretar los datos. La media de la distribución es un vector y la varianza se convierte en una matriz de covarianza en una distribución normal multivariante. El orador también explica brevemente la fórmula para calcular la covarianza de la muestra para ajustar una distribución normal multivariada a los datos.

  • 00:55:00 En esta sección, se introduce el concepto de distribución normal multivariada (MVN), que tiene una media de cero, una varianza de uno en todas las direcciones, sin correlaciones y puede transformarse en cualquier otra distribución MVN. El proceso de blanqueamiento de datos se explica con más detalle en el que la transformación de una distribución MVN se invierte para transformar los datos en una distribución normal para la normalización. La sección también se enfoca en reducir la dimensionalidad de los datos de alta dimensión a través del análisis de componentes principales (PCA), un método que realiza tanto el blanqueamiento como la reducción de la dimensionalidad. Al encontrar nuevas funciones derivadas de las funciones originales que retienen la mayor cantidad de información relevante posible, PCA proyecta los datos a un espacio dimensional más bajo mientras retiene la información esencial de los datos originales.

  • 01:00:00 En esta sección del video, el presentador analiza el análisis de componentes principales (PCA) y cómo ordena las dimensiones por varianza capturadas, lo que permite una reconstrucción de datos útil y una reducción de la dimensionalidad. El presentador explica los vectores propios y cómo son vectores especiales cuya dirección no cambia bajo una transformación, y cómo se pueden usar para encontrar la varianza máxima en los datos originales. El presentador también explica cómo encontrar vectores propios para una matriz diagonal y cómo rotar una matriz para alinear los vectores propios a lo largo del eje.

  • 01:05:00 En esta sección, aprendemos sobre el uso del análisis de componentes principales (PCA) para preprocesar datos para algoritmos de aprendizaje automático. Primero queremos centrar los datos para eliminar la traducción, luego calculamos la covarianza de la muestra y la descomponemos usando la descomposición propia. Luego, transformamos los datos nuevamente a un espacio estándar multivariado normal (MVN) y descartamos todas las características excepto las primeras K. Los vectores propios obtenidos de la descomposición se alinean con el eje, lo que nos permite mantener la dirección con la mayor variación. Esto da como resultado una reducción significativa en la dimensionalidad, lo que permite un mejor rendimiento del aprendizaje automático.

  • 01:10:00 En esta sección, el presentador explica el concepto de reducción de dimensionalidad utilizando el análisis de componentes principales (PCA). El objetivo de la reducción de la dimensionalidad es mantener la invariancia conservando la mayor cantidad de datos posible. Maximizar la varianza en la proyección es lo mismo que minimizar el error de reconstrucción, que es una función de pérdida utilizada para medir la diferencia entre los datos originales y proyectados. El primer componente principal es la línea que captura la mayor parte de la varianza, y los siguientes componentes capturan la varianza restante. El uso de los primeros K componentes principales proporciona una buena reconstrucción de datos.

  • 01:15:00 En esta sección, el orador analiza el uso del análisis de componentes principales (PCA) en aplicaciones de investigación. Una de esas aplicaciones es en el campo de la antropología, donde se puede utilizar para cuantificar y demostrar las características de los huesos fosilizados. Al tomar medidas de diferentes aspectos del hueso y crear un espacio de características de alta dimensión para la comparación, PCA se puede usar para reducir las dimensiones de los datos a dos componentes principales, lo que permite la agrupación visual y la identificación de valores atípicos. Además, PCA se ha aplicado al estudio del ADN en poblaciones europeas, donde el ADN se transforma en un vector de características de alta dimensión, y PCA se puede utilizar para revelar patrones y grupos en los datos.

  • 01:20:00 En esta sección, el ponente analiza cómo se puede aplicar el análisis de componentes principales (PCA) a un conjunto de datos de características de ADN y cómo se puede utilizar para determinar la forma aproximada de Europa. Al observar los dos componentes principales de un conjunto de datos de ADN coloreados por país de origen, se puede determinar a qué distancia al norte, al oeste o al este vivía una persona o sus antepasados. PCA a menudo se ve como un método mágico debido a su capacidad para proporcionar información sobre conjuntos de datos complejos, como los vectores propios de un conjunto de datos de caras aplicadas en caras propias. Al calcular la media de un conjunto de datos de rostros y observar los vectores propios de la covarianza de ese conjunto de datos, PCA puede proporcionar direcciones en un espacio de imágenes de rostros de alta dimensión.

  • 01:25:00 En esta sección, el orador analiza el concepto de caras propias y cómo el análisis de componentes principales (PCA) ayuda en la limpieza de datos. Al agregar una pequeña cantidad del primer vector propio a la cara media, el hablante demuestra cómo esto corresponde a la edad en los rasgos faciales. Los vectores propios segundo y cuarto corresponden a iluminación y género, respectivamente. El quinto vector propio indica qué tan abierta o cerrada está la boca. Los vectores propios actúan como bases para el nuevo espacio y comprimir los datos a 30 dimensiones proporciona una buena representación de la cara original. El punto de inflexión ocurre alrededor de 30 vectores propios, donde el resto de los detalles se pueden descartar, manteniendo la mayor parte de la información requerida para el aprendizaje automático.
 

Clase 5 Probabilidad 1: Entropía, (Naive) Bayes, Pérdida de entropía cruzada (MLVU2019)



5 Probabilidad 1: Entropía, (Naive) Bayes, Pérdida de entropía cruzada (MLVU2019)

El video cubre varios aspectos de la teoría de la probabilidad y su aplicación en el aprendizaje automático. El orador presenta la entropía, que mide la cantidad de incertidumbre en un sistema, y explica cómo se relaciona con el bayesiano ingenuo y la pérdida de entropía cruzada. También se analizan los conceptos de espacio muestral, espacio de eventos, variables aleatorias y probabilidad condicional. Se explica el teorema de Bayes y se considera un concepto fundamental en el aprendizaje automático. El video también cubre el principio de estimación de máxima verosimilitud y la probabilidad bayesiana, así como el uso de código sin prefijos para simular distribuciones de probabilidad. Por último, el orador analiza clasificadores discriminativos versus generativos para la clasificación binaria, incluido el clasificador Naive Bayes.

La segunda parte explica el concepto de cálculo de probabilidades para un nuevo punto perteneciente a una clase particular utilizando un modelo de distribución normal multivariado. Analiza la independencia condicional de las características para ajustar de manera eficiente las distribuciones de probabilidad para un clasificador y la necesidad de suavizar o ajustar las pseudoobservaciones para manejar instancias cero. El orador también presenta la pérdida de entropía como una función de pérdida más eficaz para los clasificadores lineales que la precisión, y analiza la capacidad de la función de pérdida de entropía cruzada para medir la diferencia entre los datos previstos y los reales, con la función sigmoidea colapsando las simetrías de la función para simplificarla. Finalmente, el video sugiere que la próxima lección cubrirá la pérdida de SVM como la función de pérdida final.

  • 00:00:00 En esta sección del video sobre probabilidad, el orador comienza aconsejando a los estudiantes que se unan a un proyecto grupal si aún no lo han hecho, y que no se preocupen demasiado por encontrar un grupo perfecto, sino que aprovechen al máximo lo que obtienen Luego, el orador presenta la teoría de la probabilidad y la entropía, que están estrechamente relacionadas y son útiles en el aprendizaje automático. Explica que la entropía, en este contexto, significa medir la cantidad de incertidumbre o aleatoriedad en un sistema. El concepto de entropía es importante en el aprendizaje automático y se utiliza para explicar el bayesiano ingenuo y la pérdida de entropía cruzada, que se analizarán más adelante en la lección. La conferencia también cubrirá los conceptos básicos de clasificación y clasificadores lineales.

  • 00:05:00 En esta sección, el orador analiza las funciones de pérdida y presenta la pérdida de entropía cruzada, que se considera una muy buena función de pérdida. Presentan un ejemplo relacionado con el juego en línea de un adolescente y explican cómo funcionan las probabilidades en este escenario. El orador también toca el concepto de frecuencia y probabilidad y cómo se aplica en situaciones de la vida real.

  • 00:10:00 En esta sección, el orador analiza la diferencia entre las probabilidades subjetivas y objetivas. Explican que la probabilidad subjetiva se basa en creencias y experiencias personales, mientras que la probabilidad objetiva se basa en la probabilidad frecuentista, que se deriva de experimentos y observaciones. El orador señala que en el aprendizaje automático, el enfoque está en minimizar la pérdida en el conjunto de prueba basado en el conjunto de entrenamiento, y que la teoría de la probabilidad se usa como un marco matemático para describir las probabilidades. El disertante también introduce el concepto de variables aleatorias y espacio muestral.

  • 00:15:00 En esta sección, el video explica los conceptos de espacio muestral y espacio de eventos en la teoría de la probabilidad. El espacio muestral abarca todos los resultados posibles, donde no hay dos resultados que tengan otro resultado entre ellos. El espacio de eventos incluye un conjunto de subconjuntos del espacio de muestra, lo que permite identificar las probabilidades de varios eventos, como obtener un número par o impar en una tirada de dados. Las probabilidades se pueden asignar tanto a espacios muestrales discretos como continuos. Además, el video menciona el uso de características y variables aleatorias para modelar conjuntos de datos probabilísticos, lo que ayuda a explicar la probabilidad de los resultados de los eventos.

  • 00:20:00 En esta sección, el disertante introduce los conceptos básicos de probabilidad, incluidas las variables aleatorias y su representación como funciones. El orador explica que una variable aleatoria se puede representar con un solo número y se puede instanciar como una variable. También analizan el uso de la notación igual y cómo se puede hacer referencia a las variables aleatorias mediante la función o mediante un valor específico. Luego, el orador da un ejemplo de un espacio de eventos definido por dos variables aleatorias, X e Y, e introduce el concepto de probabilidad condicional.

  • 00:25:00 En esta sección, el orador analiza las probabilidades y cómo se pueden reescribir y proyectar para determinar la probabilidad de diferentes eventos. Explican que si dos variables son independientes, conocer el valor de una no cambiará la probabilidad de la otra. Luego, el orador usa el ejemplo de dos personas que viven en diferentes partes de una ciudad para ilustrar cómo la probabilidad de que una persona llegue a tiempo al trabajo no afecta la probabilidad de que la otra persona llegue a tiempo. Sin embargo, señalan que existe una rara posibilidad en la que las probabilidades de las dos personas podrían estar conectadas.

  • 00:30:00 En esta sección, el orador analiza la probabilidad y el teorema de Bayes, que es un concepto fundamental en el aprendizaje automático. El orador usa un ejemplo de un atasco de tráfico para explicar la independencia condicional y cómo saber que Alice llega tarde al trabajo aumenta ligeramente la creencia de que Bob también llega tarde. El teorema de Bayes se considera la fórmula más importante en el campo y explica cómo invertir la probabilidad condicional. Finalmente, el ponente explica cómo el aprendizaje automático ajusta una distribución de probabilidad a los datos y cómo el enfoque frecuentista determina los mejores parámetros dada la información disponible.

  • 00:35:00 En esta sección, el orador analiza el principio de estimación de máxima verosimilitud y la probabilidad bayesiana. El principio de estimación de máxima verosimilitud se basa en la suposición de que los puntos de datos observados son independientes y la probabilidad de estos puntos maximiza la tasa de verosimilitud. La probabilidad bayesiana, por otro lado, implica actualizar las propias creencias en función del conocimiento previo y los datos observados. La probabilidad bayesiana utiliza un compromiso entre dos partes, frecuentistas y bayesianos, para expresar la distribución de creencias, lo que funciona bien en el aprendizaje automático.

  • 00:40:00 En esta sección, el orador analiza el concepto de distribuciones de probabilidad y cómo simularlas sin un árbol que tenga un único resultado. El uso de un código sin prefijos o un árbol de prefijos se presenta como un medio para generar una amplia gama de distribuciones de probabilidad. El orador explica que este enfoque se puede utilizar para la comunicación y encontrar la probabilidad de ciertos resultados en varios escenarios. También se proporciona el ejemplo de usar una moneda para simular un dado de 3 caras y lograr una distribución uniforme.

  • 00:45:00 En esta sección, el orador analiza una familia de distribuciones de probabilidad que se pueden describir mediante un algoritmo de código sin prefijos. Este algoritmo, conocido como Naive Bayes, es eficiente para los datos y proporciona una buena conexión entre los métodos de descripción y la distribución de probabilidad. El uso principal de este algoritmo es explicar la entropía, que es la medida de incertidumbre en una variable aleatoria. El orador explica cómo se puede usar este algoritmo para codificar datos de una determinada distribución de probabilidad y obtener una distribución de probabilidad que se ajuste bien a los datos dados.

  • 00:50:00 En esta sección, el orador analiza la entropía y la pérdida de entropía cruzada como medidas de la uniformidad de los datos. La entropía se puede utilizar para representar la uniformidad de los datos entre diferentes elementos, donde una entropía más pequeña indica datos más uniformes. La entropía cruzada se usa para representar la longitud de código esperada cuando se usa un código diferente y siempre es igual o mayor que la entropía, con un valor mínimo en cero. Estas medidas ayudan a comprender la distancia entre dos distribuciones de probabilidad y brindan una base teórica para analizar conjuntos de datos como una secuencia de variables aleatorias.

  • 00:55:00 En esta sección, el ponente explica los conceptos de clasificadores discriminativos y generativos para la clasificación binaria. La clasificación discriminativa simplemente discrimina instancias, mientras que la clasificación generativa modela la probabilidad de los datos dada una clase. Los clasificadores generativos van desde el clasificador óptimo de Bayes hasta el clasificador Naive Bayes, que hace una suposición de independencia condicional y se considera incorrecto, pero aun así funciona muy bien y es económico.

  • 01:00:00 En esta sección, el orador explica cómo calcular la probabilidad de que un nuevo punto pertenezca a una clase en particular utilizando un modelo de distribución normal multivariado. Explican que al estimar las distribuciones de probabilidad y completarlas, podemos asignar probabilidades a cada clase en función de la probabilidad más alta. Sin embargo, cuando se trata de una gran dimensionalidad, es posible que no haya suficientes datos para ajustar con precisión el modelo, en cuyo caso se puede usar una distribución categórica para modelar las características con la distribución de Bernoulli.

  • 01:05:00 En esta sección, se explica el concepto de independencia condicional de características, que permite el ajuste eficiente de la distribución de probabilidad para un clasificador. Sin embargo, un solo valor de probabilidad cero puede afectar en gran medida la precisión del clasificador, lo que se puede resolver suavizando o ajustando las pseudoobservaciones para garantizar que haya al menos una observación para cada característica. Esto garantiza que la probabilidad nunca se vuelva cero y que la precisión del clasificador no se vea afectada negativamente.

  • 01:10:00 En esta sección, el orador analiza las formas de evitar resultados sesgados en los modelos de aprendizaje automático al garantizar que haya al menos una instancia con un valor para cada clase y función posibles. Resume clasificadores generativos con suposiciones de independencia que funcionan bien con conjuntos de datos grandes y de alta dimensión, pero requieren el suavizado de Laplace para manejar instancias cero. El disertante introduce el concepto de pérdida de entropía como una función de pérdida más efectiva para clasificadores lineales en comparación con la precisión.

  • 01:15:00 En esta sección, el orador explica cómo, en lugar de asignar valores a los modelos clasificadores, se pueden asignar probabilidades mediante el uso de la función logística sigmoidea. Todavía se usa el modelo lineal, pero está comprimido en el rango entre 0 y 1. Este método permite una interpretación más precisa de las instancias positivas y negativas.

  • 01:20:00 En esta sección, el presentador explica la función de pérdida de entropía cruzada, que se utiliza para medir la diferencia entre lo que predice un modelo de aprendizaje automático y lo que dicen los datos. La función de pérdida está diseñada para maximizar el tamaño de las líneas entre las predicciones y los datos, con el objetivo de empujar hacia arriba las líneas azules y minimizar el logaritmo negativo de todas las líneas para, en última instancia, maximizar el tamaño de estas líneas.

  • 01:25:00 En esta sección, el orador analiza cómo funciona la función de pérdida de entropía cruzada al castigar los residuos más grandes más que los residuos pequeños. La función de P versus M también muestra que las barras pequeñas contribuyen mucho a la pérdida, lo que equivale a elevar al cuadrado en modelos anteriores. Luego, el orador analiza la derivada del logaritmo y cómo se incluye el multiplicador constante en la ecuación. Para simplificar las matemáticas, se puede ignorar el multiplicador constante o se puede definir el logaritmo binario en términos del logaritmo natural.

  • 01:30:00 En esta sección, el orador analiza la pérdida de entropía cruzada y el papel que juega la función sigmoidea en su simplificación. Las simetrías de la función sigmoidea permiten el colapso de la función de pérdida y, en última instancia, la simplifican. El sigmoide logístico, cuando se aplica a la regresión logística, puede manejar puntos alejados del límite de decisión sin problemas. La regresión logística puede resultar en múltiples buenas soluciones en la región de incertidumbre.

  • 01:35:00 En esta sección, el disertante explica el concepto de probabilidad y clasifica los puntos como azules o rojos según sus valores de probabilidad. Además, insinúa que la próxima conferencia cubrirá la pérdida de SVM como la función de pérdida final.
 

Clase 6 Modelos Lineales 2: Redes Neuronales, Retropropagación, SVMs y Métodos Kernel (MLVU2019)



6 Modelos lineales 2: redes neuronales, retropropagación, SVM y métodos Kernel (MLVU2019)

Esta primera parte del video sobre modelos lineales se centra en la introducción de la no linealidad a los modelos lineales y explora dos modelos que se basan en la expansión del espacio de características: redes neuronales y máquinas de vectores de soporte (SVM). Para las redes neuronales, el ponente explica cómo configurar una red para problemas de regresión y clasificación utilizando funciones de activación como sigmoid o softmax. Luego, la conferencia profundiza en la retropropagación, un método utilizado para calcular los gradientes utilizados en las redes neuronales. Para SVM, el orador presenta el concepto de maximizar el margen a los puntos más cercanos de cada clase y demuestra cómo se puede expresar como un problema de optimización con restricciones. El video proporciona una introducción clara a los principios de las redes neuronales y las SVM, y recomienda a los estudiantes que se concentren en la primera mitad de la lección como punto de partida para el resto del curso.

La segunda parte del video cubre los temas de las máquinas de vectores de soporte (SVM), las SVM de margen suave, los trucos del kernel y las diferencias entre las SVM y las redes neuronales. Las SVM de margen suave se introducen como una forma de manejar datos separables no lineales, lo que permite agregar un valor de penalización a los puntos que no cumplen con las restricciones de clasificación. El truco del núcleo permite el cálculo del producto escalar en un espacio de mayor dimensión, expandiendo el espacio de características para aumentar significativamente la potencia del modelo. Se explican las diferencias entre las SVM y las redes neuronales, y se analiza el cambio hacia las redes neuronales debido a su capacidad para realizar tipos de clasificación más avanzados, incluso si no se comprenden por completo.

  • 00:00:00 En esta sección, el orador analiza cómo aprender funciones no lineales usando modelos lineales agregando funciones adicionales que son funciones derivadas de las funciones que se usan, lo cual se explicó anteriormente la semana pasada. Luego, el orador se enfoca en dos modelos, a saber, redes neuronales y máquinas de vectores de soporte, que se basan en expandir el espacio de funciones. Las redes neuronales requieren un extractor de funciones que se pueda aprender, mientras que las máquinas de vectores de soporte usan el truco del kernel para expandirse a un espacio de funciones más grande. La conferencia explica la retropropagación, un método específico para calcular gradientes que se usa en redes neuronales, así como la función de pérdida de bisagra que se usa en las máquinas de vectores de soporte. El ponente recomienda centrarse en la primera mitad de la lección para una mejor comprensión de los modelos lineales, ya que sirve como punto de partida para el resto del curso.

  • 00:05:00 En esta sección, el orador analiza la historia de las redes neuronales, remontándose a finales de los años 50 y principios de los 60, cuando los investigadores comenzaron a inspirarse en el cerebro humano para desarrollar sistemas de IA. Crearon una versión simplificada de una neurona llamada perceptrón que funcionó como un modelo lineal y se usó para la clasificación. Sin embargo, lo interesante del cerebro es la forma en que un gran grupo de neuronas trabajan juntas, por lo que los investigadores comenzaron a encadenar estos perceptrones para construir una red.

  • 00:10:00 En esta sección de la conferencia sobre modelos lineales, el ponente explica cómo introducir la no linealidad en una red de perceptrones para poder aprender funciones normalmente no lineales y modelos más interesantes. Una forma de hacer esto es mediante el uso de una función sigmoidea, que toma un rango de números y los comprime en el rango de 0 a 1. Al encadenar perceptrones con funciones de activación no lineales en una red de avance o perceptrón multicapa, uno puede convertirlo en un modelo de regresión o clasificación, donde cada línea representa un parámetro de la red que necesita ajuste. El proceso de adaptar estos números para resolver un problema de aprendizaje se llama retropropagación, que se discutirá más adelante en la lección.

  • 00:15:00 En esta sección del video titulado "6 modelos lineales 2: redes neuronales, retropropagación, SVM y métodos Kernel (MLVU2019)", el disertante explica cómo configurar una red neuronal para problemas de regresión y clasificación. Para la regresión, se configura una red con una capa oculta y sin activación en la capa de salida, seguida de la aplicación de una función de pérdida de regresión. Para la clasificación binaria, se agrega una activación sigmoidea a la capa de salida, y las probabilidades obtenidas se pueden interpretar como la probabilidad de que la entrada sea positiva. Para la clasificación multiclase, se agrega una activación softmax, que crea un nodo de salida para cada clase y normaliza las probabilidades para que sumen uno. La función de pérdida se utiliza para entrenar los pesos de la red hasta que se minimiza la pérdida de entropía cruzada.

  • 00:20:00 En esta sección, el orador analiza el principio básico de las redes neuronales, que utiliza el descenso de gradiente. Sin embargo, dado que calcular la pérdida en todo el conjunto de datos puede ser costoso, se usa el descenso de gradiente estocástico, donde solo se usa un ejemplo en el conjunto de datos para calcular la pérdida, optimizando el modelo para ese único ejemplo. El descenso de gradiente estocástico agrega aleatoriedad y crea un poco de aleatoriedad, lo que ayuda a escapar de los mínimos locales. Luego, el orador agrega una capa oculta en el patio de flores de atención para la clasificación, donde se muestra la clasificación probabilística. Sin embargo, el modelo no parece funcionar bien en este problema en particular.

  • 00:25:00 En esta sección del video, el orador analiza las funciones de activación para modelos lineales, comparando las funciones de activación sigmoide y ReLU. La función ReLU ajusta los datos más rápido y su límite de decisión es lineal por partes, mientras que el sigmoide crea un límite de decisión con curvas. El orador recomienda experimentar con capas adicionales para hacer que el modelo sea más poderoso, aunque la complejidad adicional hace que sea más difícil de entrenar. Luego, el video profundiza en la retropropagación, que permite a las computadoras calcular gradientes de manera eficiente mediante la diferenciación simbólica sin el costo exponencial. El ponente explica que la idea básica es describir la función como una composición de módulos y aplicar repetidamente la regla de la cadena.

  • 00:30:00 En esta sección, el algoritmo de propagación hacia atrás se explica como un método para tomar cualquier modelo dado y dividirlo en una cadena de módulos para calcular el gradiente global para una entrada en particular multiplicando los gradientes de cada submódulo juntos. Este proceso comienza calculando la derivada de cada módulo con respecto a su entrada simbólicamente usando lápiz y papel, luego pasa al cálculo numérico. Se da un ejemplo simple para ilustrar la idea de componer una función como una secuencia de módulos, usando derivadas locales y aplicando repetidamente la regla de la cadena para derivar la derivada global. Los factores resultantes se denominan derivados globales y locales, respectivamente.

  • 00:35:00 En esta sección, el video analiza la retropropagación dividiendo el sistema en módulos y aplicándolo a una red neuronal de dos capas con activación sigmoidea. El enfoque está en encontrar la derivada de la función de pérdida con respecto a los pesos, no a la entrada. El primer módulo es la función de pérdida, seguido de Y, que es una función de activación lineal. Cada valor oculto obtiene un módulo con su propia función de activación, en este caso, una función sigmoidea, aplicada a él. H2 prime es la entrada lineal a la función de activación. Finalmente, el video establece que es importante reconocer la diferencia entre la derivada del modelo con respecto a su entrada y la derivada de la función de pérdida con respecto a los pesos.

  • 00:40:00 En esta sección, el disertante analiza los gradientes locales de cada módulo, específicamente la derivada de la pérdida con respecto a V2 e Y sobre V2. La derivada de L sobre Y se simplifica usando la regla de la cadena y da como resultado 2 veces Y menos T, que es solo el error cuadrático normal. Y sobre V2 es una función lineal y la derivada es simplemente H2. Al aplicar descenso de gradiente al parámetro z2, se actualiza restando el error por la activación de H2. El orador brinda una analogía de una red neuronal como un gobierno con el Primer Ministro en la parte superior, los ministros en la segunda capa y los funcionarios públicos en la primera capa. Los ministros escuchan a los funcionarios y gritan más fuerte por ciertas decisiones, interpretadas como confianza positiva, mientras que permanecer en silencio significa confianza negativa. El Primer Ministro ajusta su nivel de confianza en función del error y lo propaga por la red para obtener actualizaciones.

  • 00:45:00 En esta sección, el orador explica cómo funciona la retropropagación asignando responsabilidad a todos los pesos por el error en la salida del modelo. Utiliza una analogía artificial para demostrar que el error global se computa y se multiplica por el nivel de confianza en los ministros que contribuyeron al problema. Luego, el orador muestra cómo se debe tener en cuenta la función de activación al actualizar el nivel de confianza. La retropropagación esencialmente propaga el error hacia atrás por la red para actualizar los pesos del modelo. El ponente resume que las redes neuronales son una combinación de funciones lineales y no lineales y la versión más simple es una red de avance.

  • 00:50:00 En esta sección, el video analiza la historia y los desafíos con las redes neuronales, y cómo disminuyó el interés en ellas debido a su dificultad en el entrenamiento y la incertidumbre que implica ajustar sus parámetros. Las máquinas de vectores de soporte, que tienen una superficie de pérdida convexa que permite una retroalimentación inmediata sobre si el modelo funciona, se hicieron más populares debido a la falta de incertidumbre involucrada en su entrenamiento. Luego, el video presenta máquinas de vectores de soporte como una solución al problema de múltiples modelos que funcionan de manera diferente en datos similares, usando el concepto de maximizar el margen a los puntos más cercanos y llamándolos vectores de soporte.

  • 00:55:00 En esta sección, se introduce el concepto de máquinas de vectores de soporte (SVM) como un método para encontrar un límite de decisión para un problema de clasificación binaria. El algoritmo SVM tiene como objetivo encontrar una línea que maximice el margen, o la distancia entre el límite de decisión y los puntos más cercanos de cada clase. El objetivo de la SVM se puede expresar como un problema de optimización con restricciones, donde el objetivo es maximizar el margen mientras se satisfacen las restricciones que aseguran que la salida del modelo sea +1 para vectores de soporte positivos y -1 para vectores de soporte negativos. El SVM se puede simplificar aún más mediante la introducción de un parámetro de etiqueta que codifica si un punto es positivo o negativo, lo que permite reducir los dos objetivos a un solo objetivo que se puede escribir completamente en términos de los parámetros del hiperplano.

  • 01:00:00 En esta sección, el orador analiza el concepto de maximizar el margen entre los límites de decisión en las máquinas de vectores de soporte (SVM). El tamaño del margen depende de la longitud de un vector, que puede determinarse mediante los parámetros del modelo. El objetivo es maximizar este margen sin dejar de satisfacer ciertas restricciones. Sin embargo, si los datos no son linealmente separables, el modelo debe aflojarse agregando un parámetro de holgura, lo que permite que el modelo viole ciertas restricciones para encontrar un mejor ajuste. Cada punto de datos tiene su propio parámetro de holgura, que se puede establecer en cero o en un valor positivo.

  • 01:05:00 En esta sección, el disertante analiza el concepto de SVM de margen suave, que permite manejar conjuntos de datos que no son linealmente separables agregando un valor de penalización a los puntos que no cumplen con las restricciones de clasificación. Esta penalización se expresa a través de una función de pérdida que se puede minimizar utilizando el método de descenso de gradiente. El disertante también presenta la opción de reescribir la función de pérdida en términos de los vectores de soporte como una alternativa al truco del kernel, lo que permite resolver el problema de optimización con restricciones. La función de pérdida de bisagra se presenta como una forma de implementar este sistema de penalización.

  • 01:10:00 En esta sección, el instructor analiza diferentes funciones de pérdida en el aprendizaje automático, como la precisión, los mínimos cuadrados, la pérdida de entropía cruzada y la pérdida de SVM de margen suave. El SVM de margen suave funciona maximizando el margen entre un límite de decisión y los puntos más cercanos con penalizaciones. Sin embargo, debido a que esta función de optimización tiene restricciones y un punto de silla, no se puede resolver de manera efectiva mediante el descenso de gradiente. El instructor presenta el método de los multiplicadores de LaGrange, que ayuda a reescribir el problema de optimización con restricciones en una forma mucho más simple sin deshacerse de las restricciones. Al usar este método, el instructor muestra cómo se puede reescribir la función de optimización de SVM de margen suave, lo que permite la aplicación del truco del kernel.

  • 01:15:00 En esta sección, el orador analiza las máquinas de vectores de soporte (SVM) y el truco del núcleo, que es una forma de sustituir los productos escalares de pares de puntos en un conjunto de datos con otros productos escalares. Las SVM funcionan penalizando el tamaño de los alfas, indicando qué puntos son vectores de soporte y sumando todos los pares de puntos en el conjunto de datos. El truco del kernel permite el cálculo del producto escalar en un espacio de mayor dimensión, lo que lleva a un modelo mucho más poderoso por un costo similar al cálculo de un modelo lineal. Se da un ejemplo en el que las funciones se amplían al agregar todos los productos cruzados, lo que aumenta enormemente el espacio de funciones y permite modelos mucho más potentes.

  • 01:20:00 En esta sección, se analiza el concepto de usar funciones kernel para lograr espacios de características de alta dimensión para la clasificación. Al usar el producto punto y expandirlo a potencias más altas, el espacio de características se puede expandir para incluir productos cruzados y espacios de características infinitamente dimensionales, todo mientras se mantiene un bajo costo. Este método, sin embargo, es propenso al sobreajuste y puede ser complicado de implementar. El uso de funciones del kernel también se puede extender a datos no numéricos, como texto o secuencias de proteínas, donde la extracción directa de características no es sencilla. Si bien las funciones del núcleo pueden no estar de moda actualmente, aún pueden ser útiles en ciertos casos.

  • 01:25:00 En esta sección, se analizan las diferencias entre las máquinas de vectores de soporte (SVM) y las redes neuronales. Las SVM están limitadas porque su tiempo de entrenamiento es cuadrático, mientras que las redes neuronales solo requieren una cierta cantidad de pases sobre los datos. Sin embargo, las SVM aún se pueden entrenar con descenso de gradiente, pero este método pierde de vista el truco del núcleo. Alrededor de 2005, el entrenamiento de SVM se volvió cada vez más difícil debido a la cantidad de datos involucrados, lo que llevó al resurgimiento de las redes neuronales. Además, la cultura dentro del aprendizaje automático cambió para aceptar que las redes neuronales funcionan, incluso si el razonamiento detrás de su éxito aún no se comprende por completo. En última instancia, este cambio permitió el uso de modelos de redes neuronales para realizar tipos de clasificación más avanzados, que se analizarán en la siguiente sección.
 

Aprendizaje profundo 1: retropropagación para tensores, redes neuronales convolucionales (MLVU2019)



7 Aprendizaje profundo 1: Retropropagación para tensores, redes neuronales convolucionales (MLVU2019)

Esta primera parte del video sobre aprendizaje profundo y retropropagación cubre varios temas, incluidos los conceptos básicos de un marco de trabajo de aprendizaje profundo, tensores, el algoritmo de retropropagación y el problema del gradiente de fuga. El ponente explica cómo se pueden implementar redes neuronales utilizando una secuencia de operaciones de álgebra lineal y cómo se puede utilizar el algoritmo de retropropagación para definir un modelo como una composición de funciones. El video también cubre cómo calcular derivadas usando operaciones matriciales y explora soluciones al problema del gradiente que se desvanece, como la inicialización del peso y el uso de ReLU como una función de activación. Finalmente, el video aborda el descenso de gradiente de mini lotes y varios optimizadores que se pueden utilizar en una red neuronal compleja.

Esta segunda parte cubre una variedad de temas relacionados con el aprendizaje profundo, incluidos los algoritmos de optimización y las técnicas de regularización. La optimización de Adam se explica como un algoritmo popular para el aprendizaje profundo, mientras que la regularización de L1 y L2 se exploran como métodos para evitar el sobreajuste. También se analiza el potencial de las redes neuronales en el procesamiento de imágenes, destacando las redes neuronales convolucionales como una poderosa herramienta para las tareas de reconocimiento de imágenes. El video también profundiza en el funcionamiento de estas redes y cómo construyen funciones para reconocer imágenes complejas, así como el concepto de aprendizaje de extremo a extremo como una forma de superar las limitaciones de encadenar varios módulos.

  • 00:00:00 En esta sección del video sobre aprendizaje profundo, el ponente comienza repasando conceptos discutidos en la sesión anterior, como las redes neuronales y cómo se organizan en capas. Luego discuten cómo las redes neuronales son esencialmente solo una serie de pasos de álgebra lineal, con funciones no lineales ocasionales como la función sigmoidea. Esto es importante porque simplifica el proceso de implementación de una red neuronal y permite un entrenamiento más eficiente. El orador también señala que las redes neuronales cayeron en desgracia durante un tiempo porque eran difíciles de entrenar, pero en la siguiente sección, analizarán cómo la propagación hacia atrás ayuda a superar este desafío.

  • 00:05:00 En esta sección, el video describe los conceptos básicos de un sistema o marco de aprendizaje profundo, que requiere una comprensión del cálculo matricial tensorial y la revisión del algoritmo de propagación hacia atrás. El orador enfatiza que, a pesar del bagaje de la red neuronal asociado con el aprendizaje profundo, no es tan especial, ya que es solo una secuencia de operaciones de álgebra lineal. El primer paso para desarrollar un marco general para redes neuronales es definir las operaciones de manera eficiente y simple para que sea fácil entrenarlas de manera efectiva. Además, al hacer uso de unidades de procesamiento gráfico o tarjetas de video, las cosas se vuelven aproximadamente 20 veces más rápidas debido a su efectividad en la multiplicación de matrices. Finalmente, el video describe el resto de los temas que se tratarán en la serie de conferencias, que incluye capas de convolución, codificadores automáticos y una discusión sobre aspectos filosóficos del aprendizaje profundo.

  • 00:10:00 En esta sección, el orador analiza los tensores, una estructura de datos que se usa para almacenar un montón de números que se pueden usar en el aprendizaje profundo. Los tensores se utilizan para almacenar conjuntos de datos y deben tener el mismo tipo de datos para todos los elementos, que generalmente contienen números de coma flotante. El orador explica cómo almacenar una imagen en un tensor de tres, que es una pila de tres imágenes en escala de grises, una para cada canal de color, y cómo almacenar un conjunto de datos de imágenes en un tensor de cuatro agregando otro índice que itera sobre las imágenes en el conjunto de datos Finalmente, el ponente explica que las funciones u operaciones en deep learning son como en el lenguaje de programación, pero con tensores como entradas y salidas, y que el cálculo hacia atrás, que calcula el gradiente local, también se implementa junto con el cálculo hacia adelante.

  • 00:15:00 En esta sección, el video analiza el algoritmo de retropropagación y cómo se puede usar para definir un modelo de red neuronal como una composición de funciones. El gradiente de toda la red se calcula como el producto de todos los gradientes locales de cada función, y se utiliza la retropropagación para propagar la pérdida a lo largo de todo el gráfico de cálculo. El video explica que hay dos formas de definir el gráfico de cálculo: ejecución perezosa y ansiosa, y aunque la ejecución perezosa es sencilla, no es ideal para la depuración o la investigación. La ejecución ansiosa es actualmente la predeterminada en marcos como PyTorch y TensorFlow, ya que permite al usuario definir el gráfico de cálculo realizando cálculos, lo que facilita la depuración y el cambio del modelo durante el entrenamiento.

  • 00:20:00 En esta sección, el orador analiza el gráfico de cálculo y cómo se construye utilizando variables escalares. Luego proporciona un ejemplo de cómo se puede implementar una red neuronal dentro de un marco utilizando un gráfico de cálculo. El valor de pérdida se calcula sobre la red neuronal y el proceso de retropropagación se inicia a partir del valor de pérdida para obtener el gradiente sobre los parámetros de la red. Una vez que se obtiene el gradiente, se puede realizar un paso de descenso del gradiente restando un poco del gradiente del valor.

  • 00:25:00 En esta sección, el orador analiza dos aspectos importantes de la retropropagación para los sistemas de aprendizaje profundo: el manejo de múltiples rutas de computación y el trabajo con tensores. El orador presenta la regla de la cadena multivariada para manejar diamantes en un gráfico de cálculo donde múltiples caminos conducen al mismo valor. Además, el ponente explica la importancia de trabajar con tensores en retropropagación, donde todos los valores intermedios son tensores en lugar de valores escalares. El objetivo es calcular derivadas en términos de operaciones matriciales, lo que permite un cálculo más rápido. El orador demuestra cómo tomar la derivada de un vector con respecto a una matriz utilizando un ejemplo simple de una función que genera un escalar cuya entrada es un vector, haciendo que la función sea lo más simple posible al observar el producto escalar.

  • 00:30:00 En esta sección, el ponente explica cómo calcular derivadas de tensores usando ejemplos de un vector y una matriz. El primer ejemplo muestra que la derivada de un escalar con respecto a un vector es solo un vector de números, que es el gradiente. Luego, el segundo ejemplo demuestra que la derivada de un vector con respecto a una matriz es solo una matriz. El orador destaca que tomar todos los valores posibles y ordenarlos en una matriz da como resultado la matriz original P.

  • 00:35:00 En esta sección, el orador explica cómo tomar la derivada de una función nos da una matriz de posibles derivadas escalares para entradas y salidas vectoriales, y un tensor de derivadas para entradas/salidas de orden superior. Sin embargo, calcular estos valores intermedios puede ser difícil y complicado, especialmente cuando se trata de una combinación de vector/matriz. Para simplificar este proceso, podemos acumular el producto calculando cada derivada secuencialmente de izquierda a derecha, en lugar de tratar con estos valores intermedios. El ponente explica cómo la implementación hacia atrás de una función toma como entrada la derivada de la pérdida con respecto a su salida.

  • 00:40:00 En esta sección, el orador explica cómo calcular un valor en términos de cálculos matriciales eliminando los productos intermedios. Deben calcular la derivada sobre todas las entradas con respecto a todas las entradas y usar la regla de la cadena multivariante en la que indica la ruta de cálculo a seguir y suma los resultados. Incluso si K es un tensor o un tensor de alto nivel, necesitan derivar cada elemento y sumar el total que puede ser ineficiente para calcular de esa manera, por lo tanto, extraen los elementos de la multiplicación de matrices a un producto escalar de la i-ésima fila. de W-veces-X con X producto punto de la I-ésima fila de W con X. Eventualmente, al final de cada paso hacia adelante y hacia atrás, optimizan cada secuencia de seguimiento para que coincida con la variable objetivo dada al minimizar el resultado de la función de pérdida .

  • 00:45:00 En esta sección del video sobre aprendizaje profundo y retropropagación, el orador explica cómo calcular derivadas usando la regla de la cadena multivariante y operaciones matriciales. Las derivadas de cada elemento de la matriz de pesos W se pueden calcular y el gradiente local de W se obtiene utilizando el producto exterior de los dos vectores. El mismo proceso se puede seguir para las otras entradas. El cálculo directo de la capa lineal se calcula usando WX + B, y el cálculo hacia atrás se puede lograr calculando los gradientes de pérdida con respecto a W, X y B usando la multiplicación de matrices. Sin embargo, el orador señala que la mayoría de los sistemas de aprendizaje profundo ya tienen implementada la función de retroceso, por lo que no es necesario que los usuarios la calculen ellos mismos.

  • 00:50:00 En esta sección, el orador explica que el problema del gradiente de fuga fue el mayor revés para el aprendizaje profundo en los años 90. Examinan el problema con las inicializaciones de peso, ya que los pesos no deben ser demasiado grandes o pequeños, o de lo contrario las funciones de activación no funcionarán de manera efectiva, lo que dará como resultado que las salidas siempre sean cero. La solución es inicializar los pesos de la red utilizando valores ortogonales aleatorios o muestras de una distribución uniforme entre dos valores positivos, asegurando que los valores propios sean uno. Esto garantiza que la media y la varianza de la salida permanezcan iguales y, por lo tanto, la red pueda aprender de manera efectiva.

  • 00:55:00 En esta sección, el video analiza los problemas que surgen al usar funciones sigmoideas para redes de aprendizaje profundo, como el problema del gradiente de desaparición, en el que los gradientes se vuelven cada vez más pequeños y la red no aprende. En cambio, el video sugiere usar ReLU como una función de activación más simple, que tiene una función de identidad de 1 en entradas mayores que cero y una derivada cero en caso contrario, por lo que el gradiente no decae. El video también presenta el descenso de gradiente de mini lotes como una versión intermedia del descenso de gradiente estocástico y regular, que calcula la pérdida con respecto a un lote pequeño, lo que permite la aleatoriedad y el procesamiento en paralelo. Sin embargo, el video advierte que existe una compensación entre lotes más grandes, que utilizan la memoria GPU y se ejecutan más rápido, y lotes más pequeños, que son más efectivos para producir resultados óptimos. Por último, el video aborda varios optimizadores que utilizan el concepto de descenso de gradiente, pero se ajustan ligeramente para tener en cuenta los diferentes gradientes que pueden surgir en una red neuronal compleja.
  • 01:00:00 En esta sección, el instructor cubre tres métodos para manejar mínimos locales muy pequeños y suavizar superficies de pérdida irregulares: impulso, impulso de Nesterov y Adam. La intuición básica detrás del impulso es tratar los gradientes como una fuerza, similar a la gravedad, y la navegación de la superficie de pérdida al tratar el modelo como una roca que rueda cuesta abajo. Con el impulso de Nesterov, se agrega una pequeña idea de modo que el paso del impulso se puede aplicar primero y luego se puede calcular el gradiente. Adam incorpora esta idea junto con la idea de que cada parámetro en un modelo tiene su propia superficie de pérdida y preferencias sobre la agresividad con la que debe moverse en una determinada dirección, por lo que se estima un gradiente promedio por dimensión en el espacio del modelo y las actualizaciones se escalan en consecuencia. Se toma una media móvil exponencial tanto para el gradiente como para la varianza, lo que permite una especie de influencia del gradiente anterior que se suma a la media.

  • 01:05:00 En esta sección, el video analiza los optimizadores y regularizadores en el aprendizaje profundo. Adam se explica como un algoritmo de optimización que es una ligera adaptación al descenso de gradiente que funciona bien en el aprendizaje profundo. Tiene múltiples hiperparámetros y la configuración predeterminada funciona bien. Luego se analizan los regularizadores como una técnica para evitar el sobreajuste en modelos grandes con mucho espacio para memorizar datos. La regularización de L2 implica agregar un hiperparámetro multiplicado por la longitud del vector tensor de peso a la pérdida, lo que anima al sistema a preferir modelos con pesos más pequeños. La regularización L1 también sigue esta idea pero calcula la distancia usando la norma L1 del vector tensor, dando las esquinas de la superficie de pérdida. El regularizador L1 prefiere soluciones dispersas donde el sistema puede eliminar conexiones que no tienen impacto en la salida.

  • 01:10:00 En esta sección, el ponente explica el concepto de regularización en aprendizaje profundo, que es la técnica utilizada para evitar el sobreajuste de modelos. La regularización ayuda a garantizar que el modelo generalice bien los datos no vistos. L1 y L2 son dos tipos populares de regularización utilizados en el aprendizaje profundo. La regularización L2 tira de los modelos hacia el origen y evita que los pesos sean demasiado grandes, mientras que la regularización L1 produce un surco a lo largo de los bordes. También se analiza el abandono, que implica deshabilitar aleatoriamente los nodos ocultos durante el entrenamiento y obligar a cada nodo a tener en cuenta múltiples fuentes de información. Finalmente, el ponente destaca los logros del aprendizaje profundo, incluida una única red neuronal que consume imágenes y produce texto.

  • 01:15:00 En esta sección, el video analiza varias técnicas de procesamiento de imágenes usando redes neuronales. Una técnica interesante es la transferencia de estilo, en la que una red neuronal puede transformar una fotografía utilizando el estilo de una pintura determinada. La traducción de imagen a imagen es otra técnica en la que una red aprende a generar partes faltantes de una imagen basándose en el entrenamiento con imágenes desaturadas o detectadas en los bordes. Las capas convolucionales ayudan a que la red sea más eficiente al compartir pesos y reducir el espacio de parámetros, lo cual es particularmente importante para el procesamiento de imágenes. En general, el video destaca el increíble potencial de las redes neuronales en el procesamiento de imágenes, pero enfatiza la importancia de diseñar cuidadosamente la arquitectura basada en el conocimiento del dominio para lograr los mejores resultados.

  • 01:20:00 En esta sección, el ponente explica cómo funcionan las redes neuronales convolucionales, que es un tipo de red neuronal artificial feedforward que se usa comúnmente para tareas de reconocimiento y clasificación de imágenes. La idea clave detrás de estas redes es limitar la cantidad de parámetros mediante el uso de pesos compartidos y la reducción de la resolución de la imagen mediante el uso de una capa de agrupación máxima. Consisten en una serie de capas completamente conectadas seguidas de una o más capas de convolución, que usan una ventana deslizante llamada kernel para filtrar la imagen de entrada y generar la imagen de salida con canales modificados. Al encadenar estas capas de convolución y agrupación máxima y agregar algunas capas completamente conectadas, se puede crear una red de clasificación de imágenes básica que produce resultados altamente precisos.

  • 01:25:00 En esta sección, el orador analiza la visualización de lo que realmente está haciendo una red neuronal convolucional observando los nodos en la parte superior de la red para ver qué tipo de entrada desencadena una respuesta alta. La primera capa de la red responde principalmente a la detección de bordes, mientras que la siguiente capa reúne los bordes individuales en características. Este proceso continúa, construyendo progresivamente representaciones y terminando con rostros completos. Para explorar más a fondo cómo funciona la red neuronal, el orador describe la optimización de la entrada para hacer que una neurona específica se active, lo que da como resultado imágenes abstractas similares al arte. Al examinar estas imágenes, el hablante puede determinar a qué características está respondiendo la neurona, como características de pájaros o perros. Finalmente, el orador explica que una diferencia importante entre el aprendizaje automático tradicional y el aprendizaje profundo es la idea del aprendizaje de extremo a extremo, donde no se necesita una canalización y la red puede analizar periódicos, por ejemplo, y realizar procesamiento de lenguaje natural sin un proceso de varias etapas.

  • 01:30:00 En esta sección, el orador explica la limitación de encadenar varios módulos que tienen una alta precisión al realizar tareas de aprendizaje automático. Los errores acumulativos de cada módulo pueden crear una entrada ruidosa para los siguientes módulos, lo que reduce significativamente la precisión del sistema en general. Luego se presenta el aprendizaje de extremo a extremo como una solución para hacer frente a este problema. En lugar de aislar el entrenamiento para cada módulo, la canalización completa se entrena como un todo para aprender de los datos sin procesar de principio a fin mediante un método de descenso de gradiente. Esto hace que el enfoque sea más flexible y permite que el sistema de aprendizaje profundo resuelva una gama más amplia de problemas.
 

8 Probabilidad 2: máxima verosimilitud, modelos de mezcla gaussiana y maximización de expectativas (MLVU2019)



8 Probabilidad 2: máxima verosimilitud, modelos de mezcla gaussiana y maximización de expectativas (MLVU2019)

Esta sección del video se centró en los modelos de probabilidad para la estimación de la densidad utilizando la estimación de máxima verosimilitud, las distribuciones normales, los modelos de mezcla gaussiana y el algoritmo de maximización de expectativas. El ponente explicó el principio de Máxima Verosimilitud y mostró su aplicación en la selección del mejor modelo de probabilidad. Exploraron las distribuciones normales, explicaron la diferencia entre la probabilidad y las funciones de densidad de probabilidad e introdujeron los modelos de mezcla gaussiana. El orador también discutió el método de muestreo de una distribución normal univariante y multivariante, y cómo el modelo de mezcla gaussiana ayuda a identificar diferentes grupos dentro de una población. Además, se introdujo el algoritmo de maximización de expectativas para ajustar los modelos de mezcla gaussiana a los conjuntos de datos. El ponente también explicó cómo formalizar el enfoque de Maximización de Expectativas usando la aproximación de la función Q y demostró que converge a un óptimo local.

Este video cubre los temas de máxima verosimilitud, modelos de mezcla gaussiana y maximización de expectativas (EM). El orador explica el algoritmo EM, su prueba y por qué converge. También discuten el paso M, donde maximizan L eligiendo theta mientras mantienen Q fijo. Ajustar un modelo de mezcla gaussiana a los datos requiere el uso del algoritmo EM, y el orador explica sus aplicaciones, como el agrupamiento y el análisis exploratorio, y cómo se puede usar para la clasificación ajustando un modelo de mezcla gaussiana a cada clase. El video también menciona la próxima conferencia sobre el ajuste de modelos de probabilidad a redes neuronales complicadas.

  • 00:00:00 En esta sección del video, el orador presenta el concepto de usar modelos probabilísticos para la estimación de densidad al ajustar distribuciones de probabilidad a los datos. Se centran específicamente en la estimación de máxima verosimilitud y la aplican a cuatro modelos diferentes basados en la distribución normal o Gaussiana. El video también brinda un ejemplo del uso del principio de máxima probabilidad para determinar qué moneda se usó en una secuencia aleatoria de lanzamiento de 12 monedas, donde una moneda está doblada y la otra recta. Luego introducen el modelo de mezcla de gaussianas, que es un modelo poderoso pero difícil de ajustar utilizando la máxima verosimilitud, y se sumergen en el algoritmo de maximización de expectativas como una forma de ajustar modelos de mezcla gaussiana.

  • 00:05:00 En esta sección, se explica el principio de máxima verosimilitud, que se utiliza en la selección de modelos para el aprendizaje automático. Implica ajustar un modelo a los datos observados para seleccionar el modelo con la mayor probabilidad de dar esos datos. El logaritmo de la probabilidad generalmente se toma por simplicidad y es una función monótona que no cambiará donde la función alcanza su punto más alto. También se introducen las distribuciones normales, con la media y la varianza o desviación estándar como parámetros, y se utilizan en varios modelos, incluidas las distribuciones normales de regresión y multivariadas. Los modelos de mezcla gaussiana también se analizan como una combinación de distribuciones normales múltiples.

  • 00:10:00 En esta sección, el orador analiza los diferentes tipos de distribuciones y la importancia de tener una escala definida, que proporcionan las distribuciones normales. El orador también aborda la diferencia entre las funciones de probabilidad y las funciones de densidad de probabilidad, enfatizando que los eventos individuales tienen una densidad de probabilidad, y la probabilidad se obtiene integrando sobre esa densidad. Luego, el orador presenta la fórmula de distribución normal y muestra cómo logra el requisito fundamental de tener una escala definida al decaer exponencialmente. La fórmula se mejora aún más al agregar un término al cuadrado que acelera aún más el decaimiento.

  • 00:15:00 En esta sección del video, el presentador explica cómo crear una función de densidad de probabilidad de la distribución normal mediante el cambio de escala y el movimiento alrededor de una función básica. Muestra cómo se pueden usar los puntos de inflexión para colocar la masa de probabilidad donde más se necesita y cómo controlar el tamaño de la escala, además de cómo mover la función para ajustar la media. Finalmente, analiza la estimación de máxima verosimilitud de los parámetros para crear una distribución normal a partir de los datos.

  • 00:20:00 En esta sección, el orador analiza la estimación de máxima verosimilitud y su aplicación para encontrar el punto más alto en un espacio de probabilidad. Presentan un objetivo de maximizar la suma del logaritmo de las probabilidades para los parámetros de una distribución gaussiana 1D. Luego toman la derivada con respecto a la media y la resuelven para el máximo. Encuentran que el estimador de máxima verosimilitud para la media de una distribución normal es solo la media de los datos, y se puede aplicar el mismo enfoque para encontrar la desviación estándar para todas estas funciones. El ponente también menciona la existencia de una solución analítica para encontrar el óptimo.

  • 00:25:00 En esta sección, el video analiza el supuesto de normalidad en la regresión de mínimos cuadrados. El modelo asume que los datos se generan agregando un poco de ruido a una línea, y la distribución de probabilidad de los datos se puede considerar como una distribución normal. Para maximizar la probabilidad de los parámetros del modelo lineal, deben maximizar la probabilidad de Y dados X, W y B. Al completar esta ecuación y calcular el logaritmo, la porción de normalización desaparece y la función restante es similar a la función mínima. Función objetivo al cuadrado. También se analiza la distribución multivariada, con la media en el origen y la densidad de probabilidad decayendo exponencialmente a medida que aumenta la distancia.

  • 00:30:00 En esta sección, el orador analiza el uso de una transformación lineal para mover un círculo unitario, que contiene la mayor parte de la masa de probabilidad de una curva de campana normalizada, en el espacio para ajustar los datos. La transformación lineal define una matriz y un vector T, que se aplica al círculo unitario que se normaliza primero para que se calcule el volumen total bajo la curva y se divida por él. La aplicación de esta transformación estira el círculo en cierta dirección y aumenta la densidad de probabilidad. Para corregir esto, el determinante de la matriz se divide por el volumen inflado para obtener la densidad de probabilidad de un punto específico bajo la Gaussiana transformada.

  • 00:35:00 En esta sección, el orador analiza el método de muestreo de una distribución normal univariada no estándar con una media y sigma determinados. Para hacer esto, se puede muestrear x de la distribución normal estándar, multiplicarla por la varianza y sumar la media para obtener una muestra de la distribución deseada. De manera similar, el muestreo de una distribución normal multivariante con una media y sigma dadas implica descomponer el sigma, muestrear de la distribución estándar y aplicar una transformación lineal. El orador también presenta el concepto de un modelo de mezcla gaussiana, que será el tema central de la discusión después de la pausa. El orador usa un ejemplo de distribuciones de calificaciones para ilustrar el concepto de diferentes poblaciones dentro de una muestra.

  • 00:40:00 En esta sección, el orador analiza el modelo de mezcla gaussiana y cómo puede ayudar a identificar diferentes grupos dentro de una población. Al crear tres distribuciones normales separadas con diferentes pesos y escalas, la función de densidad de probabilidad resultante tendrá tres picos o modas. Para ajustar este modelo a los datos, se utiliza el objetivo de máxima verosimilitud para determinar los mejores parámetros del modelo de mezcla gaussiana. Si bien el gradiente puede ser útil en algunos casos, no es fácil trabajar con él debido a la suma dentro del logaritmo. En su lugar, se utiliza el algoritmo de maximización de expectativas, que es similar al algoritmo de agrupamiento de k-medias, para encontrar el agrupamiento óptimo de los datos.

  • 00:45:00 En esta sección, el video analiza el uso de modelos de mezcla gaussiana, que es esencialmente un modelo de variable oculta que implica muestrear un conjunto de valores aleatorios y usarlo para muestrear un valor X de diferentes componentes con sus respectivos pesos. Sin embargo, el problema es que solo se observan los valores de X y se ocultan los valores de Z. La solución es utilizar el algoritmo de maximización de expectativas (EML), que itera el proceso de adivinar aleatoriamente los componentes, asignando responsabilidades blandas a cada punto, ajustando distribuciones a los subconjuntos de datos e infiriendo la distribución en los valores establecidos dada la valores de X. A través de este proceso iterativo, el algoritmo puede estimar los parámetros del modelo y maximizar la probabilidad de los datos.

  • 00:50:00 En esta sección, el video analiza el algoritmo Expectation-Maximization (EM), que se usa para ajustar modelos de mezcla gaussiana a conjuntos de datos, donde algunos puntos son más importantes que otros. El algoritmo funciona asignando primero responsabilidades blandas a cada punto, lo que significa que cada punto tiene una parte de la responsabilidad de cada componente. Estas responsabilidades luego se utilizan para ajustar un modelo gaussiano al conjunto de datos ponderado, donde la media y la varianza se calculan utilizando medias y varianzas ponderadas. El proceso itera a través de los pasos de expectativa y maximización hasta que se logra un buen ajuste. El video muestra una visualización de este proceso, demostrando cómo el modelo se desplaza hacia los puntos más importantes hasta que se encuentra un buen ajuste.

  • 00:55:00 En esta sección, el orador analiza la formalización de la naturaleza intuitiva de la maximización de expectativas y cómo probar que converge a un óptimo local. Al usar las funciones Q como aproximaciones de la verdadera probabilidad, la función de probabilidad se puede descomponer en dos términos: la divergencia KL y la función L, que mide qué tan buena es la aproximación. Al tomar el logaritmo de estos términos, el hablante muestra que la función L se puede calcular restando el logaritmo del conjunto Q aproximado del logaritmo del conjunto de funciones de probabilidad dados los parámetros óptimos. Esta descomposición es útil para comprender y probar la convergencia del enfoque de maximización de expectativas.

  • 01:00:00 En esta sección, el orador analiza la prueba del algoritmo EM y por qué converge. Se muestra que al reorganizar la distribución conjunta y la distribución condicional, la expectativa del logaritmo de x dada theta se puede escribir como una constante con respecto a Q. Luego, el orador explica cómo redefinir el algoritmo EM en términos de la divergencia KL y elegir la señal dados algunos datos y theta arbitrario para hacer que la divergencia KL sea 0 mientras se mantienen los datos fijos, lo que lleva a que L cubra todo el espacio y se logre la máxima probabilidad.

  • 01:05:00 En esta sección, el orador explica el paso M, donde maximizan L eligiendo theta para maximizar L mientras mantienen Q fijo. Explican cómo este paso conduce a un aumento en la probabilidad y por qué la iteración E/M aumenta constantemente la probabilidad. El orador también explica cómo pueden convertir el paso M en un objetivo de maximización y derivar estimadores de máxima verosimilitud para el algoritmo de maximización de expectativas. Discuten las aplicaciones de esta técnica, como el agrupamiento y el análisis exploratorio, y cómo se puede usar para la clasificación ajustando un modelo de mezcla gaussiana a cada clase.

  • 01:10:00 En esta sección, el orador analiza los modelos de mezcla gaussiana y cómo pueden tomar muchas formas, haciéndolas mucho más poderosas que las distribuciones normales. Ajustar un modelo de mezcla gaussiana a los datos requiere el uso del algoritmo de maximización de expectativas, ya que no existe una solución analítica de forma cerrada para el ajuste de máxima verosimilitud. Sin embargo, una vez que se ajusta el modelo, se puede usar de varias maneras, como usar el clasificador base para clasificar nuevos puntos en función de su densidad de probabilidad. En la próxima conferencia, el orador planea discutir modelos de variables ocultas en redes neuronales y cómo ajustar modelos de probabilidad a redes neuronales complicadas.
Razón de la queja: