Redes Neurais em IA e Deep Learning - página 48

 

CS480/680 Clase 17: Modelos ocultos de Markov


CS480/680 Clase 17: Modelos ocultos de Markov

La conferencia presenta los Modelos ocultos de Markov (HMM), un tipo de modelo gráfico probabilístico utilizado para explotar las correlaciones en los datos de secuencia que pueden mejorar la precisión. Los supuestos del modelo implican un proceso estacionario y un proceso markoviano en el que un estado oculto solo depende del estado anterior. Las tres distribuciones en HMM son la distribución de estado inicial, la distribución de transición y la distribución de emisión, con el último tipo usado dependiendo del tipo de datos. El algoritmo se puede utilizar para monitorear, predecir, filtrar, suavizar y probablemente tareas de explicación. HMM se ha utilizado para el reconocimiento de voz y el aprendizaje automático, como la predicción de la secuencia más probable de salidas en función de una secuencia de entradas y estados ocultos para personas mayores que usan dispositivos andadores para la correlación de estabilidad. Se realizó un experimento con sensores y cámaras modificados en un andador para reconocer automáticamente las actividades realizadas por los adultos mayores a partir de la recopilación de datos sobre las actividades de los adultos mayores en un centro de retiro. También se discutió la demostración en el aprendizaje supervisado y no supervisado en el contexto del reconocimiento de actividades.

La conferencia se centra en el uso de distribuciones de emisiones gaussianas en modelos ocultos de Markov (HMM), que se usan comúnmente en aplicaciones prácticas donde los datos recopilados son continuos. El disertante explica que este método consiste en calcular la media y los parámetros de varianza que corresponden a la media empírica y la varianza de los datos y utilizarlos para calcular la solución para las distribuciones inicial y de transición. La distribución de transición corresponde a conteos de frecuencia relativa, y se utiliza la máxima verosimilitud para obtener las soluciones. Este enfoque es similar a la solución para mezclas de gaussianas, donde también se utilizan una distribución inicial y de emisión.

  • 00:00:00 En esta sección, el disertante introduce el concepto de Modelos Ocultos de Markov (HMM) que son diferentes de las redes neuronales que se han discutido hasta ahora. El disertante explica que HMM se puede usar cuando los datos provienen de secuencias en lugar de puntos de datos independientes, y las predicciones para un punto de datos se correlacionan con las predicciones para el siguiente punto de datos. El disertante proporciona el ejemplo de reconocimiento de voz donde la predicción de un fonema o palabra se correlaciona con el siguiente fonema o palabra. La explotación de estas correlaciones puede mejorar la precisión de las predicciones. El disertante también explica que HMM se puede generalizar en una red neuronal recurrente (RNN) que puede manejar datos de secuencia y propagar información entre diferentes puntos en una secuencia, que se discutirá más adelante.

  • 00:05:00 En esta sección de la conferencia, el disertante introduce modelos ocultos de Markov como una generalización de mezclas de gaussianas. Explica que los modelos ocultos de Markov aprovechan las correlaciones en los datos secuenciales para aumentar la precisión y se utilizan para expresar una distribución sobre y, que sigue la distribución de probabilidad condicional x dado y. Esto es diferente de una mezcla de gaussianas, donde una distribución condicional de clase para la entrada x se expresa después de que y se muestrea a partir de una distribución multinomial. El ponente también hace una comparación entre este modelo y el campo aleatorio condicional y las redes neuronales recurrentes.

  • 00:10:00 En esta sección, el disertante explica las suposiciones hechas al diseñar un modelo oculto de Markov. La primera suposición es que el proceso es estacionario, lo que significa que las distribuciones de transición y emisión son independientes del tiempo. La segunda suposición es que el proceso es markoviano, lo que significa que un estado oculto dado solo depende del estado oculto anterior. Estos supuestos crean un modelo gráfico probabilístico con una distribución inicial, una distribución de transición y una distribución de emisiones, que juntas forman una distribución conjunta. La distribución inicial describe la distribución del primer estado oculto y normalmente es un multinomio.

  • 00:15:00 En esta sección, aprendemos sobre las tres distribuciones en los modelos ocultos de Markov: distribución de estado inicial, distribución de transición y distribución de emisión. La distribución de emisión gaussiana se usa para datos continuos, mientras que la distribución de emisión multinomial es útil para datos discretos, como secuencias de palabras para el procesamiento del lenguaje natural. Al multiplicar estas distribuciones juntas, podemos derivar la distribución conjunta, que se puede usar para varias aplicaciones, como la localización de robots.

  • 00:20:00 En esta sección, aprendemos sobre el problema de un robot que se pierde debido a la deriva y las imprecisiones en las lecturas del odómetro. Una solución a este problema es el uso de un modelo oculto de Markov, donde las Y's, el estado oculto, corresponden a las coordenadas de ubicación del robot y las entradas corresponden a algunas medidas por sensores. La distribución de transición captura la probabilidad de que el robot termine en diferentes ubicaciones debido a las incertidumbres en el movimiento, mientras que la distribución de emisiones tiene una distribución sobre las mediciones obtenidas por los sensores para tener en cuenta las imprecisiones de las mediciones. El modelo oculto de Markov se puede utilizar para la localización, lo que implica calcular la probabilidad de la ubicación del robot en cualquier paso de tiempo dado.

  • 00:25:00 En esta sección, el ponente explica las cuatro grandes categorías en las que se pueden clasificar las tareas relacionadas con los modelos ocultos de Markov (HMM). Estas categorías incluyen el seguimiento, la predicción, la eliminación de ambigüedades y la explicación más probable. Para la tarea de monitoreo, el algoritmo utilizado se conoce como algoritmo directo. Implica la descomposición recursiva de la consulta en términos de la probabilidad del estado oculto anterior dadas todas las medidas anteriores, lo que permite el cálculo de la probabilidad de Y para X dada. El algoritmo funciona calculando el primer estado oculto dada la primera medición y luego calcular el siguiente estado oculto dado las mediciones hasta ese paso de tiempo y continúa aumentando la secuencia avanzando en el tiempo.

  • 00:30:00 En esta sección, el disertante analiza la tarea de predicción utilizando modelos ocultos de Markov (HMM), que implica predecir el estado futuro de un sistema dado el estado actual. Los ejemplos de esta tarea incluyen la predicción del tiempo y del mercado de valores. El cómputo se realiza de manera similar al monitoreo, utilizando un algoritmo directo con dos fases: monitoreo y predicción. En el ejemplo proporcionado, el disertante muestra cómo calcular la probabilidad de Y4 dados solo X1 y X2. El disertante también menciona que los HMM con predicción podrían usarse para la generación de texto, donde el modelo predice el siguiente texto observable dado el texto actual.

  • 00:35:00 En esta sección, el disertante analiza las tareas de los modelos ocultos de Markov (HMM), que incluyen filtrado, suavizado y razonamiento retrospectivo. Filtrar se refiere a predecir el estado actual de un sistema basado en observaciones pasadas, mientras que suavizar se refiere a predecir estados anteriores utilizando observaciones anteriores y posteriores a ese estado. El razonamiento retrospectivo implica calcular la propiedad de un estado en el pasado dadas las observaciones antes y después de ese estado. El conferenciante destaca que los HMM ya no son lo más avanzado para estas tareas, sino que son un precursor de las redes neuronales recurrentes que tienden a ser más efectivas. El cálculo de estas tareas se realiza de forma recursiva, lo que conduce a la creación del algoritmo de avance-retroceso.

  • 00:40:00 En esta sección, el orador analiza el uso de modelos ocultos de Markov (HMM) para el reconocimiento de voz y la traducción automática. Los HMM se utilizan para calcular la secuencia más probable de salidas en función de una secuencia de entradas y estados ocultos. El algoritmo de Viterbi se aplica a este procedimiento de programación dinámica para llevar a cabo la maximización. También se analiza una aplicación de reconocimiento de actividad utilizando mediciones de sensores y dispositivos Walker que las personas mayores usan para caminar. Inferir las actividades de una persona con un andador ayuda a determinar las maniobras más probables que podrían conducir a una caída o provocar una caída, lo que se ha observado que ocurre en algunas situaciones a pesar de que los andadores se utilizan para la estabilidad.

  • 00:45:00 En esta sección, el orador analiza un estudio en el que se utilizó un andador modificado con sensores y cámaras para recopilar datos sobre las actividades de los adultos mayores en un centro de retiro. El andador tenía sensores como un acelerómetro 3D y sensores de carga que medían el peso en cada pata del andador, y una cámara que miraba hacia atrás en las piernas. El experimento consistió en hacer que los participantes atravesaran una carrera de obstáculos que simulaba actividades cotidianas comunes. Los datos recopilados se utilizaron para desarrollar un modelo oculto de Markov que reconocía automáticamente las actividades realizadas por los participantes. El modelo tenía ocho canales para los sensores y utilizó el aprendizaje automático para estimar los parámetros de la transición inicial y las distribuciones de emisión.

  • 00:50:00 En esta sección, el orador analiza una demostración de un algoritmo que predice la actividad de una persona en función de las mediciones del sensor. El algoritmo utiliza un modelo oculto de Markov o un campo aleatorio condicional para rastrear la actividad de la persona y generar predicciones, que luego se comparan con los comportamientos correctos etiquetados manualmente. La actividad de la persona se representa visualmente como curvas fluctuantes, y el panel derecho del video muestra 13 actividades separadas indicadas por un cuadrado rojo para el comportamiento correcto y un cuadrado azul para la predicción del algoritmo. El orador explica que, si bien es teóricamente posible, que la persona que usa los sensores indique su actividad no es práctico, ya que la persona no siempre puede ser un juez confiable de sus propios movimientos, y puede ser incómodo que alguien anuncie continuamente sus acciones. Además, si se usara el aprendizaje no supervisado, el algoritmo inferiría una actividad pero no podría nombrarla con precisión.

  • 00:55:00 En esta sección, el orador analiza el enfoque adoptado para el aprendizaje supervisado y no supervisado en el contexto del reconocimiento de actividades. Para el aprendizaje supervisado, se conocen las Y y el objetivo es maximizar la probabilidad de los datos. Un enfoque discutido es calcular la derivada, establecerla en cero, aislar los parámetros y obtener valores y estimaciones para pi, theta y phi. En el caso de dos actividades y medidas binarias, es posible expandir la Distribución Conjunta del modelo y poner la derivada a cero. Las respuestas resultantes son naturales e involucran la proporción del número de clases en los datos.

  • 01:00:00 En esta sección, el disertante analiza el uso de distribuciones de emisión gaussianas, que es una práctica común en aplicaciones prácticas porque los datos recopilados suelen ser continuos. Este método implica el uso de parámetros de media y varianza que corresponden a la media empírica y la varianza de los datos recopilados. La solución para las distribuciones inicial y de transición es la misma que antes, mientras que la distribución de transición corresponde a conteos de frecuencia relativa. Luego se utiliza la máxima verosimilitud para obtener estas soluciones. Esta técnica es similar a la solución para mezclas de Gaussianas, donde también tenemos una distribución inicial y de emisión.
 

CS480/680 Clase 18: Redes neuronales recurrentes y recursivas



CS480/680 Clase 18: Redes neuronales recurrentes y recursivas

En esta conferencia, el ponente presenta las redes neuronales recurrentes y recursivas como modelos adecuados para datos secuenciales sin una longitud fija. Las redes neuronales recurrentes pueden manejar secuencias de cualquier longitud debido a ciertos nodos con salidas retroalimentadas como entradas, y la forma en que se calcula H en cada paso de tiempo es mediante el uso de la misma función f, que implica compartir peso. Sin embargo, pueden tener limitaciones, como no recordar la información de las primeras entradas y la desviación de la predicción. El disertante también explica la arquitectura de la red neuronal recurrente bidireccional (BRNN) y el modelo de codificador-decodificador, que utiliza dos RNN, un codificador y un decodificador, para aplicaciones donde las secuencias de entrada y salida no coinciden naturalmente. Además, el disertante describe los beneficios de las unidades de memoria a corto plazo (LSTM), que pueden mitigar el problema del gradiente de fuga, facilitar las dependencias de largo alcance y permitir o bloquear selectivamente el flujo de información.

Esta lección sobre redes neuronales recurrentes y recursivas cubre una variedad de temas, incluido el uso de unidades de memoria a corto plazo largo (LSTM) y unidades recurrentes cerradas (GRU) para evitar problemas de gradiente, así como la importancia de los mecanismos de atención en la traducción automática. para preservar el significado de las oraciones y la alineación de las palabras. El disertante también analiza cómo las redes neuronales recurrentes se pueden generalizar a redes neuronales recursivas para secuencias, gráficos y árboles, y cómo analizar oraciones y producir incrustaciones de oraciones usando árboles de análisis.

  • 00:00:00 En esta sección del video, el ponente presenta redes neuronales recurrentes y recursivas como modelos adecuados para datos secuenciales sin una longitud fija. Las redes neuronales de avance, discutidas anteriormente, asumen una entrada de longitud fija, lo que plantea problemas cuando se trata de datos de longitud variable, como datos de series temporales o traducción automática. Las redes neuronales recurrentes, que tienen ciertos nodos con salidas retroalimentadas como entradas, pueden manejar secuencias de cualquier longitud. El orador explica esto usando una plantilla y una versión desenrollada de la red. También se analizan las redes neuronales recursivas, que se generalizan a árboles o gráficos.

  • 00:05:00 En esta sección, el orador analiza cómo se conectan las redes neuronales recurrentes en diferentes pasos de tiempo y cómo se entrenan. Para entrenar RNN, el ponente explica que se utiliza el descenso de gradiente junto con una técnica conocida como retropropagación a través del tiempo, que implica desenrollar la red a lo largo del tiempo y crear una red neuronal de alimentación hacia adelante. El orador también señala que la forma en que se calcula H en cada paso de tiempo es mediante el uso de la misma función f, que implica compartir el peso. La función f toma información tanto de la H anterior como de la X actual y los pesos utilizados para ella son los mismos en cada paso de tiempo.

  • 00:10:00 En esta sección, el disertante explica las redes neuronales recurrentes (RNN) y el peso compartido. Las RNN son redes que usan la misma función repetidamente en cada paso de tiempo, compartiendo los mismos pesos. Esto significa que se está compartiendo algo de peso, lo que puede hacer que la derivación del gradiente durante la retropropagación sea diferente. El disertante también menciona que H es generalmente un vector, siendo F una función que genera un vector. Este efecto crea desafíos para el entrenamiento, incluido el problema de la explosión y la desaparición del gradiente, donde la multiplicación de factores menores o mayores que uno puede conducir a un gradiente que se desvanece o explota.

  • 00:15:00 En esta sección de la conferencia, el orador analiza las limitaciones de las redes neuronales recurrentes (RNN) y cómo es posible que no recuerden la información de las primeras entradas. Esto puede ser problemático para aplicaciones como la traducción automática, donde la primera palabra es tan importante como la última palabra. Sin embargo, para actividades como el reconocimiento de actividad, puede estar bien si la RNN olvida las mediciones del sensor que ocurrieron hace un tiempo porque las mediciones recientes son más importantes. Otro problema con las RNN es la desviación de la predicción, donde los errores en las predicciones se acumulan con el tiempo, lo que hace que las predicciones se desvíen. El orador también compara los RNN con los modelos ocultos de Markov (HMM) y explica cómo se pueden usar los RNN para generalizar los HMM.

  • 00:20:00 En esta sección, el ponente explica la diferencia entre un modelo oculto de Markov y una red neuronal recurrente. En un modelo oculto de Markov, las flechas indican dependencias probabilísticas, mientras que en una red neuronal recurrente, las flechas indican dependencias funcionales. El orador introduce estados ocultos y salidas en una red neuronal recurrente y explica que el gráfico corresponde al cálculo
    Siendo hecho. El estado oculto se calcula usando una función que toma el estado oculto anterior y la entrada, y la salida se obtiene usando otra función que toma el estado oculto como entrada. En última instancia, el objetivo es utilizar este cálculo para calcular probabilidades o reconocer actividades.

  • 00:25:00 En esta sección, se analiza el concepto de usar redes neuronales recurrentes para emular un modelo oculto de Markov en el contexto de la clasificación, específicamente el reconocimiento de actividades. El RNN se usa para desacoplar el estado oculto de la salida, lo que significa que la salida solo depende del estado oculto transformado a través de alguna función. Se muestra un ejemplo de esto utilizando una función de activación no lineal aplicada a HT y diferentes conjuntos de pesos para transformar la salida. El algoritmo directo de la RNN puede calcular y1 en función de X1, y2 en función de X1 y X2, y así sucesivamente, de forma similar al modelo oculto de Markov; sin embargo, la RNN tiene un problema al calcular y2, que se aborda más adelante en la lección.

  • 00:30:00 En esta sección, el disertante analiza las limitaciones de la arquitectura de red neuronal recurrente unidireccional que solo permite el cálculo directo e introduce la arquitectura de red neuronal recurrente bidireccional (BRNN) como una solución a este problema. El disertante dibuja un diagrama de la arquitectura BRNN, que incluye entradas, salidas y estados ocultos hacia adelante y hacia atrás. Al agregar información de antes y después a través de los estados ocultos hacia adelante y hacia atrás, la arquitectura BRNN permite el cálculo bidireccional y puede calcular predicciones basadas en entradas en ambas direcciones.

  • 00:35:00 En esta sección del video, el disertante analiza cómo se pueden usar las redes neuronales recurrentes en aplicaciones donde las secuencias de entrada y salida no coinciden naturalmente, como la traducción automática, la respuesta a preguntas y los agentes conversacionales. Para hacer frente a estos problemas, a menudo se utiliza una arquitectura diferente conocida como modelo de codificador y decodificador, o modelo de secuencia a secuencia. Esta arquitectura utiliza dos RNN: un codificador y un decodificador. El codificador codifica la secuencia de entrada en un vector de contexto, que es una incorporación de la entrada, y el decodificador usa el vector de contexto para producir la secuencia de salida correspondiente. Este enfoque permite secuencias de entrada y salida de diferentes longitudes y ninguna sincronización entre palabras en la entrada y la salida.

  • 00:40:00 En esta sección de la lección, el instructor describe la arquitectura de un modelo de secuencia a secuencia en traducción automática, que utiliza una red neuronal recurrente para resumir oraciones de entrada en un vector de contexto (C) que sirve como el memoria del modelo. El vector de contexto se usa para decodificar y producir una secuencia de palabras traducidas, donde cada palabra corresponde a una salida diferente. El modelo también utiliza estados ocultos para realizar un seguimiento del progreso de la traducción y garantizar que la información del vector de contexto no se olvide con el tiempo. El instructor explica que es útil alimentar tanto el vector de contexto como el estado oculto anterior en cada paso del proceso de decodificación para garantizar la coherencia de la oración traducida.

  • 00:45:00 En esta sección del video, el profesor analiza el uso de la redundancia en el flujo de información en las redes neuronales. El vector que se utiliza para codificar la información suele ser de gran dimensión y puede tener entre 500 y 1000 valores, lo que lo hace ideal para codificar oraciones completas. El video también muestra ejemplos de traducciones logradas utilizando un modelo que utiliza una red neuronal recurrente. El modelo se entrenó en un gran corpus de datos y fue capaz de igualar el estado del arte en traducción automática sin necesidad de tener muchos conocimientos sobre lingüística o las complejidades de la traducción automática, lo que lo convierte en un avance significativo. Además, la unidad Long Short-Term Memory (LSTM) se propuso en la década de 1990 para mejorar las dependencias de largo alcance en las redes neuronales.

  • 00:50:00 En esta sección, el disertante analiza los beneficios de las unidades de memoria a corto plazo (LSTM), que pueden mitigar el problema del gradiente de fuga y facilitar el aprendizaje de dependencias de largo alcance debido a su capacidad para recordar información durante períodos prolongados. períodos de tiempo. La clave de la unidad LSTM es la introducción de puertas, incluidas las puertas de entrada, olvido y salida. Estas puertas regulan el flujo de información tomando un valor entre 0 y 1 y multiplicándolo por la entrada, el estado oculto o la salida. El disertante también despliega la arquitectura de celdas LSTM e introduce puertas a cada enlace para regular las conexiones entre ellos. Estas modificaciones permiten que la unidad LSTM permita o bloquee selectivamente el flujo de información y facilite la memoria a largo plazo en tareas como la traducción automática.

  • 00:55:00 En esta sección, el disertante explica la estructura y las variaciones de las unidades de Memoria a Corto Plazo Largo (LSTM), un tipo de red neuronal recurrente. Las unidades LSTM se construyen utilizando una combinación de varias puertas que regulan el flujo de información, como la puerta de entrada, la puerta de salida, la puerta de olvido y la puerta de memoria. Estas puertas toman tanto la X actual como el estado oculto anterior como entrada y emiten un valor entre 0 y 1 que decide si dejar entrar nueva información u olvidar la antigua. El disertante también menciona que las unidades LSTM más nuevas usan estados de celda en lugar de estados ocultos para el almacenamiento de memoria y tienen H como salida en lugar de Y. La conferencia concluye describiendo ecuaciones específicas que gobiernan las diferentes puertas de la unidad LSTM.

  • 01:00:00 En esta sección, el instructor explica cómo funcionan las unidades de memoria a corto plazo (LSTM) y cómo son útiles para prevenir problemas de gradientes, como gradientes que se desvanecen y explotan. Se explica que las puertas se utilizan para determinar qué puede influir en el estado de la celda, que lleva la memoria de la red. El instructor también señala que las unidades cerradas conocidas como Unidad Recurrente Cerrada (GRU) se propusieron en 2014 como una versión simplificada de las unidades LSTM. La GRU elimina una de las puertas utilizadas en las unidades LSTM.

  • 01:05:00 En esta sección, el orador presenta la unidad recurrente cerrada (GRU), que simplifica la unidad de memoria a corto plazo (LSTM) al tener solo dos puertas: la puerta de reinicio y la puerta de actualización. La puerta de actualización determina si la nueva entrada pasa al estado oculto o conserva lo que ya estaba en él. Esto reduce la complejidad de la unidad y la hace más eficiente, lo que se traduce en un mejor rendimiento. Sin embargo, incluso con el uso de GRU, todavía hay algo de memoria que se perturba en cada paso, por lo que se desarrollaron mecanismos de atención, particularmente útiles en la traducción automática, para alinear cada palabra de salida con algunas palabras en la secuencia de entrada, lo que permite que el modelo preservar el significado de la oración original y verificar la alineación de palabra a palabra.

  • 01:10:00 En esta sección, se introdujo la idea de los vectores de contexto para decodificar una secuencia de palabras. El vector de contexto se basa en una combinación ponderada de todos los estados ocultos asociados con cada paso de tiempo en el proceso de codificación. Los pesos se obtienen a través de un softmax que produce una mayor probabilidad cuando hay una alineación entre la salida prevista y una palabra de entrada. La alineación se calcula utilizando un producto punto y se convierte en una probabilidad a través de un softmax que permite calcular una combinación ponderada de posibles entradas. Al hacerlo, creamos un vector de contexto que resume el contexto que importa para las próximas palabras que queremos producir, en lugar de resumir la oración completa.

  • 01:15:00 En esta sección, el disertante analiza el uso de los mecanismos de atención en la traducción automática. El mecanismo de atención implica tomar una combinación convexa de estados ocultos calculados en cada paso de tiempo, en lugar de usar simplemente el último estado oculto como vector de contexto. Los pesos utilizados para la combinación son probabilidades obtenidas de un softmax y se utilizan para calcular las alineaciones entre el estado oculto anterior y todas las entradas anteriores. Esto permite que el modelo de traducción automática alinee los conceptos que está a punto de traducir con la parte correcta de la entrada. El uso de la atención ha mejorado la traducción automática, y el disertante presenta algunos resultados obtenidos por autores que la utilizaron en 2015.

  • 01:20:00 En esta sección de la conferencia, el disertante discute el tema de las oraciones largas en la traducción automática y la importancia de tener un mecanismo que permita mirar hacia atrás durante el proceso de traducción. El investigador compara la precisión de una red neuronal recurrente con y sin atención, y mide las diferencias en la precisión utilizando la puntuación de la evaluación bilingüe en estudio (BLEU). La curva superior, que utiliza la atención, muestra un nivel constante de precisión incluso a medida que aumenta la longitud de la oración. Esto se puede atribuir al mecanismo de atención que permite que todas las palabras en la secuencia de entrada influyan en el vector de contexto para el siguiente paso en la decodificación, independientemente de su posición.

  • 01:25:00 En esta sección, el disertante discute las limitaciones de las redes neuronales recurrentes cuando se trabaja con oraciones largas y la importancia de los mecanismos de atención para resolver este problema. Las redes neuronales recurrentes tienden a sobrescribir las primeras palabras con palabras posteriores, lo que da como resultado una calidad de traducción degradada cuando se trata de secuencias largas. Los mecanismos de atención resuelven este problema centrándose en palabras específicas, lo que permite que la red neuronal se ocupe de secuencias más largas de longitud arbitraria. Los mecanismos de atención también ayudan con el procesamiento de diferentes idiomas, donde la alineación de palabras no es necesariamente uno a uno. El disertante proporciona ejemplos de cómo funcionan los mecanismos de atención en la producción de mapas de traducción que muestran la alineación de las palabras en diferentes idiomas.

  • 01:30:00 En esta sección, el orador explica cómo las redes neuronales recurrentes se pueden generalizar a redes neuronales recursivas, que se pueden usar para secuencias, gráficos y árboles. La clave es transformar las entradas y combinarlas recursivamente de una manera que produzca una salida o incrustación que capture el significado de la entrada. Para lidiar con diferentes longitudes de entradas, el orador enfatiza la importancia de compartir el peso entre las diferentes aplicaciones de reglas para combinar diferentes nodos en el gráfico. El orador también sugiere usar árboles de análisis o gráficos de dependencia para construir un gráfico que refleje la sintaxis y que pueda ser útil en computación e incrustación.

  • 01:35:00 En esta sección, el disertante analiza cómo analizar una oración utilizando árboles de análisis de distritos electorales y cómo producir incrustaciones para oraciones completas. La idea es crear etiquetas de partes del discurso y combinarlas en frases y árboles de análisis para comprender la estructura de la oración. Al asociar reglas con cada transformación y compartir pesos en todas las aplicaciones de la misma regla, podemos producir incrustaciones que son más prometedoras y consistentes con la forma en que los humanos entienden las oraciones. Algunos investigadores han demostrado que construyendo incrustaciones de esta manera podemos obtener muy buenos resultados.

  • 01:40:00 En esta sección del video, el orador analiza el potencial para obtener una mejor incrustación de oraciones mediante el uso de un árbol de análisis correcto. Concluyen el conjunto anterior de diapositivas y pasan al siguiente.
 

CS480/680 Clase 19: Redes de atención y transformadores



CS480/680 Clase 19: Redes de atención y transformadores

En esta lección, se introduce el concepto de atención en las redes neuronales y se analiza su papel en el desarrollo de redes transformadoras. La atención se estudió inicialmente en la visión por computadora, lo que permitió la identificación de regiones cruciales de manera similar a cómo los humanos se enfocan naturalmente en áreas específicas. La aplicación de la atención a la traducción automática condujo a la creación de redes transformadoras, que utilizan únicamente mecanismos de atención y producen resultados tan buenos como las redes neuronales tradicionales. Las redes de transformadores tienen ventajas sobre las redes neuronales recurrentes, ya que resuelven problemas asociados con dependencias de largo alcance, gradientes que se desvanecen y explotan y computación paralela. La conferencia explora la atención de múltiples cabezales en las redes de transformadores, lo que garantiza que cada posición de salida atienda a la entrada. Se analiza el uso de máscaras, capas de normalización y la capa Donora en redes de transformadores, y se explora el concepto de utilizar la atención como componente básico.

En esta conferencia sobre redes de atención y transformadores, el orador explica la importancia de la normalización para desacoplar gradientes en diferentes capas, así como la importancia de la incrustación posicional para retener el orden de las palabras en las oraciones. El orador compara las estimaciones de complejidad de las redes de transformadores con las redes neuronales recurrentes y convolucionales, destacando la capacidad de la red de transformadores para capturar dependencias de largo alcance y procesar palabras simultáneamente. También se analizan las ventajas de las redes de transformadores para mejorar la escalabilidad y reducir la competencia, junto con la introducción de redes de transformadores como GPT, BERT y XLNet, que han demostrado un rendimiento impresionante en precisión y velocidad, lo que genera dudas sobre el futuro de las redes neuronales recurrentes.

  • 00:00:00 En esta sección, el disertante introduce el concepto de atención en redes neuronales y su papel en el desarrollo de redes transformadoras. La atención se estudió por primera vez en la visión por computadora, con la idea de que un mecanismo de atención podría identificar regiones de interés en una imagen de manera similar a cómo los humanos se enfocan naturalmente en regiones específicas. Luego, este concepto se aplicó a la traducción automática y finalmente condujo a la creación de redes de transformadores, que consisten únicamente en mecanismos de atención y han demostrado producir resultados al menos tan buenos como los de las redes neuronales tradicionales. La atención también se puede utilizar para resaltar características importantes en una imagen que contribuyen al resultado deseado, como la ubicación de los objetos en la detección de objetos.

  • 00:05:00 En esta sección, el disertante analiza cómo se puede usar la atención como un componente básico en el proceso de reconocimiento, como se vio en el innovador trabajo de traducción automática de 2015, donde el decodificador pudo mirar hacia atrás en la oración de entrada. En 2017, los investigadores demostraron el uso de la atención para desarrollar técnicas generales de modelado del lenguaje, lo que permite predecir y recuperar las palabras que faltan en una secuencia. La red de transformadores, que utiliza exclusivamente bloques de atención, se convierte en lo último en procesamiento de lenguaje natural y supera a las redes neuronales recurrentes debido a su capacidad para manejar dependencias de largo alcance y optimizar el cómputo paralelo en GPU. Las redes de transformación son, por lo tanto, una opción eficiente para las tareas de procesamiento de lenguaje natural.

  • 00:10:00 En esta sección, el ponente explica las ventajas de las redes de atención y transformadoras sobre las tradicionales redes neuronales recurrentes. Los bloques de atención ayudan a trazar conexiones entre cualquier parte de la secuencia, evitando el problema de las dependencias de largo alcance. Además, las redes de transformadores realizan cálculos simultáneamente para toda la secuencia, lo que permite una mayor paralelización y menos pasos para entrenar, y resuelve el problema de los gradientes que se desvanecen y explotan. El disertante también revisa la atención como una forma de aproximación para la recuperación de bases de datos e introduce la ecuación utilizada en los mecanismos de atención para redes neuronales.

  • 00:15:00 En esta sección, el orador explica cómo la función de similitud calcula una distribución y cómo el mecanismo de atención se puede generalizar a una arquitectura neuronal. El orador sugiere varias funciones que podrían usarse para medir la similitud, incluido el producto escalar y el producto escalar, y explica cómo se pueden aplicar para calcular la similitud entre las claves y la consulta. El ponente también introduce la idea de una combinación ponderada de valores con alta similitud en el proceso de recuperación, que corresponde al mecanismo de atención.

  • 00:20:00 En esta sección de la conferencia, el profesor explica en detalle la primera capa del mecanismo de atención. La capa calcula la similitud entre una consulta y cada clave en la memoria. La forma más común de calcular la similitud es a través de un producto escalar o escalar el producto escalar dividiéndolo por la raíz cuadrada de la dimensionalidad. Otra forma es proyectar la consulta en un nuevo espacio usando una matriz de peso y luego tomando un producto escalar. Este paso permitirá que la red neuronal aprenda un mapeo W para comparar la similitud entre la consulta y la clave de manera más directa.

  • 00:25:00 En esta sección, analizamos cómo se calculan los valores de atención en una red totalmente conectada que utiliza la función softmax. Los pesos se calculan usando una expresión que compara una consulta con varias claves para obtener una medida de similitud, y esto se usa para asignar un peso a cada clave. Luego, el valor de atención se calcula usando una combinación lineal de los valores asociados con cada tecla. Los pesos, representados por la matriz W, son aprendidos por la red neuronal a través de la retropropagación, optimizando la proyección de Q en el espacio abarcado por W. Los pesos resultantes se utilizan para producir una salida, con un peso por palabra de salida y los vectores ocultos asociado con cada palabra de entrada utilizada como el VI.

  • 00:30:00 En esta sección, la conferencia discute el mecanismo de atención y las redes transformadoras. El mecanismo de atención es una forma de combinar vectores ocultos para una palabra de salida con vectores ocultos para palabras de entrada, lo que permite la producción de un vector de contexto. La red de transformadores, presentada en 2017, elimina la recurrencia en los datos secuenciales, lo que agiliza la optimización y paraleliza las operaciones. La red transformadora en traducción automática tiene dos partes: un codificador y un decodificador. El codificador procesa la secuencia completa de palabras en paralelo a través de la atención de múltiples cabezas y una red neuronal de avance, con la adición de codificación posicional para dar cuenta del posicionamiento de la palabra.

  • 00:35:00 En esta sección, la conferencia describe el mecanismo de atención de múltiples cabezas, que calcula la atención entre cada posición y cualquier otra posición. La atención de múltiples cabezas toma cada palabra y la combina con algunas de las otras palabras en la oración a través de un mecanismo de atención, produciendo una mejor incrustación que fusiona información de pares de palabras. La conferencia también analiza una capa de Donora que agrega una conexión residual, que toma la entrada original de lo que sale de la atención de múltiples cabezas y luego lo normaliza. El bloque se repite varias veces para que el modelo pueda combinar pares de palabras, pares de pares, etc. El resultado de este proceso es una secuencia de incrustaciones, y hay una incrustación por posición en la oración. Luego, la clase explora el decodificador, que produce una salida utilizando un softmax que produce probabilidades para generar una etiqueta en cada posición. El decodificador también incluye dos capas de atención, la primera de las cuales es la autoatención entre las palabras de salida y la segunda combina palabras de salida con palabras de entrada.

  • 00:40:00 En esta sección, el orador analiza el mecanismo de atención de cabezales múltiples en Transformer Networks, que se utiliza para garantizar que cada posición en la salida esté atendiendo a las posiciones en la entrada. La atención multicabezal funciona descomponiendo pares clave-valor con consultas, comparándolos con las claves para encontrar los pesos más altos y tomando una combinación ponderada de los valores correspondientes para producir el resultado. Este proceso se repite varias veces con diferentes combinaciones lineales para calcular diferentes proyecciones y mejorar las incrustaciones hasta que se produce una distribución entre las palabras del diccionario.

  • 00:45:00 En esta sección de la conferencia, el profesor analiza el concepto de atención de múltiples cabezas y cómo se puede comparar con mapas de características en redes neuronales convolucionales. Las diferentes combinaciones lineales en la atención de múltiples cabezas pueden pensarse como diferentes filtros, proyectando o cambiando el espacio en el que residen los valores. Esto da como resultado atenciones de productos de puntos de múltiples escalas, que corresponden a múltiples mapas de características en las CNN. La capa de contacto concatena estas diferentes atenciones y, al final, una combinación lineal de ellas da como resultado una atención de múltiples cabezas. Además, el profesor explica la máscara de atención multicabezal, que anula o elimina enlaces que crearían dependencias en futuras palabras, haciéndola adecuada para tareas de traducción automática.

  • 00:50:00 Esta sección del video analiza el uso de máscaras en el contexto de la red Transformer. El presentador explica cómo se usan las máscaras para anular ciertas conexiones en la función softmax y cómo usar máscaras con valores de menos infinito garantiza que se mantenga una distribución adecuada. El presentador también analiza cómo el uso de máscaras permite el cálculo paralelo durante la capacitación y cómo la técnica de forzar al maestro desacopla la entrada y la salida durante la capacitación.

  • 00:55:00 En esta sección del video, se discute la importancia de la capa de normalización en Transformer Networks. La capa de normalización ayuda a reducir la cantidad de pasos que necesita el descenso de gradiente para optimizar la red, ya que garantiza que la salida de cada capa, independientemente de cómo se establezcan los pesos, tendrá una media de 0 y una varianza de 1. Al hacer esto , la escala de las salidas es la misma, lo que reduce la competencia de gradiente entre capas y hace que la convergencia sea más rápida. Se observa que la normalización de capas es diferente de la normalización por lotes, ya que normaliza al nivel de una capa en lugar de una sola unidad oculta, lo que la hace adecuada para lotes más pequeños o incluso un punto de datos a la vez en una configuración en línea o de transmisión.

  • 01:00:00 En esta sección del video, el orador analiza la importancia de la normalización para desacoplar cómo evolucionan los gradientes en diferentes capas. También profundizan en el tema de la incrustación posicional, que se agrega después de la incrustación de entrada en la red del transformador. La incrustación posicional asegura que el mecanismo de atención pueda capturar información posicional, lo cual es importante para retener el orden de las palabras en una oración. El orador explica que la incrustación posicional es un truco de ingeniería y analiza la fórmula utilizada para calcularla, aunque señala que puede haber diferentes formas de abordar este aspecto de la red.

  • 01:05:00 En esta sección de la conferencia, el orador compara las estimaciones de complejidad de una red de transformadores con las de una red neuronal recurrente o una red neuronal convolucional. La red de transformadores, también conocida como red de autoatención, tiene una complejidad de orden n al cuadrado porque el mecanismo de atención atiende a todas las demás posiciones para cada posición en una capa, al mismo tiempo que calcula sus incrustaciones. Sin embargo, la red transformadora no pierde información desde la primera palabra y permite que la información fluya entre pares de palabras de forma inmediata, lo que la hace efectiva para capturar dependencias de largo alcance. Además, no hay operaciones secuenciales en una red de transformadores, lo que significa que todas las palabras se pueden procesar simultáneamente y en paralelo. Por el contrario, una red neuronal recurrente tiene operaciones secuenciales y una longitud de ruta que puede ser de hasta n.

  • 01:10:00 En esta sección de la conferencia, el orador analiza las ventajas de las redes de transformadores, específicamente su capacidad para reducir la competencia y mejorar la escalabilidad. Luego, el orador compara diferentes modelos para la traducción automática, específicamente de inglés a alemán y de inglés a francés, y muestra que, si bien los modelos de transformadores no necesariamente produjeron resultados sobresalientes, redujeron drásticamente el tiempo de cálculo, convirtiéndolos en una opción más eficiente para la capacitación. . El orador también analiza otros tipos de redes de transformadores, como GPT y GPT-2, que se propusieron en 2018 para el modelado de lenguaje no supervisado.

  • 01:15:00 En esta sección, el video presenta dos tipos de redes de transformadores llamados GPT y BERT. GPT es un modelo de lenguaje que se puede usar para una variedad de tareas que incluyen comprensión de lectura, traducción, resumen y respuesta a preguntas. El modelo atiende a las salidas anteriores para generar una secuencia de palabras sin atender a la salida futura. Los investigadores aplicaron esto a diferentes tareas sin adaptar la red a la tarea específica y descubrieron que, de una manera completamente sin supervisión, lograron acercarse al estado del arte. BERT significa representaciones codificadas bidireccionales de transformadores y su principal avance es que predice una palabra basándose tanto en la palabra anterior como en las palabras futuras, lo que la hace mejor que GPT.

  • 01:20:00 En esta sección, el disertante analiza los avances realizados en las redes de transformadores, específicamente BERT y XLNet. BERT cuenta con la capacidad de ajustar modelos con datos específicos de tareas, lo que resulta en una mejora importante en el estado del arte en once tareas. Sin embargo, XLNet ha presentado un rendimiento aún más impresionante, superando a BERT en la mayoría de las tareas debido a que permite entradas faltantes y, en consecuencia, un mejor rendimiento al generalizar. Estas redes de transformadores han demostrado tener un buen desempeño en términos de precisión y velocidad, lo que genera dudas sobre el futuro de las redes neuronales recurrentes.
 

CS480/680 Clase 20: Codificadores automáticos



CS480/680 Clase 20: Codificadores automáticos

Los codificadores automáticos se refieren a una familia de redes estrechamente relacionadas con los codificadores-decodificadores, con la diferencia de que los codificadores automáticos toman una entrada y producen la misma salida. Son importantes para la compresión, la eliminación de ruido, la obtención de una representación dispersa y la generación de datos. Los codificadores automáticos lineales logran la compresión mediante el mapeo de vectores de alta dimensión a representaciones más pequeñas, al tiempo que garantizan que no se pierda información, y utilizan matrices de peso para calcular una transformación lineal desde la entrada hasta la representación comprimida y viceversa. Además, los codificadores automáticos profundos permiten mapeos sofisticados, mientras que los codificadores automáticos probabilísticos producen distribuciones condicionales sobre la representación y entrada intermedias, que pueden usarse para la generación de datos. El uso de funciones no lineales por parte de los codificadores automáticos aprovecha la variedad no lineal, una proyección en un espacio dimensional más bajo que captura la dimensionalidad intrínseca de los datos, lo que lleva a una compresión sin pérdidas de la entrada.

  • 00:00:00 En esta sección de la conferencia sobre Autoencoders, el presentador explica que son una familia de redes estrechamente relacionadas con los codificadores-decodificadores, con la diferencia de que los Autoencoders toman una entrada y producen la misma salida. Los codificadores automáticos son importantes para tareas como la compresión, la eliminación de ruido, la obtención de una representación dispersa y la generación de datos. La compresión implica la asignación de vectores de alta dimensión a representaciones más pequeñas, al tiempo que garantiza que no se pierda información. Para lograr esto, la entrada se alimenta a un codificador que produce una representación más pequeña, que luego se decodifica de nuevo a la entrada para garantizar que la representación comprimida tenga toda la información de la entrada. Los codificadores automáticos lineales utilizan matrices de peso para calcular una transformación lineal de la entrada a la representación comprimida y de regreso a la entrada.

  • 00:05:00 En esta sección, el disertante explica la conexión entre los autocodificadores y el análisis de componentes principales (PCA). Señala que el uso típico de PCA es proyectar datos en un hiperplano de menor dimensión mientras se preserva la variación en los datos. Sin embargo, también explica que cuando se utiliza un codificador automático (con asignaciones lineales) para minimizar la distancia euclidiana, se obtiene la misma solución que PCA, lo que la convierte en una herramienta útil para la reducción de la dimensionalidad. El disertante destaca que las matrices WF y WG en el autocodificador son esencialmente las inversas (o pseudo-inversas) entre sí, ya que WG x WF da como resultado X.

  • 00:10:00 En esta sección, el disertante explica la belleza de los codificadores automáticos, que es que no se limitan a mapeos lineales a diferencia de PCA. En cambio, los codificadores automáticos pueden usar funciones no lineales para encontrar la representación oculta de los datos, que se pueden proyectar en un espacio dimensional más bajo a través de una variedad no lineal. Esta variedad puede capturar la dimensionalidad intrínseca de los datos, lo que puede conducir a una compresión sin pérdidas de la entrada. Sin embargo, determinar la dimensionalidad óptima de H requeriría técnicas específicas para el aprendizaje de estructuras.

  • 00:15:00 En esta sección, el video presenta codificadores automáticos profundos y representaciones dispersas. Los codificadores automáticos profundos tienen múltiples capas antes de llegar a la capa oculta, lo que permite mapeos sofisticados, mientras que las representaciones dispersas imponen una estructura a las representaciones intermedias al minimizar la cantidad de entradas distintas de cero en el vector producido por F. Esto se puede hacer a través de optimización no convexa o usando la regularización l1 para minimizar la norma l1 de la salida. Además, el video proporciona un ejemplo del uso de un codificador automático para eliminar el ruido al alimentar una versión corrupta de la entrada e intentar recuperar el X original.

  • 00:20:00 En esta sección, el disertante describe autocodificadores probabilísticos o estocásticos, que son diferentes de los deterministas porque se enfocan en distribuciones condicionales. En un codificador automático determinista, el codificador produce una representación intermedia que el decodificador puede usar directamente para reconstruir la entrada, mientras que un codificador automático probabilístico produce distribuciones condicionales sobre la representación intermedia y la entrada. Al diseñar una red neuronal con funciones de última activación apropiadas, la última capa se puede usar para producir patrones que se pueden interpretar como distribuciones. Las unidades lineales en la capa de salida se pueden usar para codificar distribuciones condicionales para datos reales, mientras que las unidades sigmoideas pueden funcionar con datos binarios. El disertante destaca que estos autocodificadores probabilísticos permiten la generación de datos, lo que es una diferencia significativa con los deterministas.

  • 00:25:00 En esta sección de la conferencia, el disertante explica el modelo gráfico probabilístico de un autocodificador. La entrada X se considera una variable aleatoria y la tilde de salida X es una versión aproximada de la entrada. H es otra variable aleatoria que representa la capa oculta y las flechas indican dependencias condicionales. Los pesos están representados por distribuciones condicionales y el decodificador es una distribución condicional. Se utilizan diferentes funciones de activación para producir diferentes tipos de salida. El orador también analiza cómo calcular una distribución sobre X basada en una distribución sobre H para vectores binarios y gaussianos.

  • 00:30:00 En esta sección, el disertante explica cómo se puede usar una arquitectura como un codificador automático probabilístico para generar datos. Con un codificador automático determinista, el decodificador toma algunas incrustaciones y genera un punto de datos. Sin embargo, al tener una distribución, podríamos tomar muestras de alguna distribución sobre la representación intermedia y usarla para generar un punto de datos. Por ejemplo, si entrenamos el codificador automático probabilístico con caras, podríamos muestrear fácilmente la representación oculta y luego producir una nueva cara que sea diferente pero similar a las del conjunto de datos. Tomando muestras de la distribución de imágenes, obtenemos una imagen.

  • 00:35:00 En esta sección, el ponente habla sobre la generación de nuevas imágenes usando autocodificadores probabilísticos. El orador explica cómo el codificador automático puede generar nuevas imágenes asignando puntos de datos de entrada en incrustaciones en un espacio donde los puntos cercanos se pueden decodificar en nuevas imágenes. Sin embargo, el orador señala que para generar imágenes verdaderamente nuevas, debe haber una distribución que permita el muestreo de incrustaciones adecuadas. La distribución utilizada en el autocodificador está condicionada al punto de datos de entrada X, lo que puede dar lugar a la generación de imágenes similares. Para superar esta limitación, el siguiente conjunto de diapositivas discutirá los mecanismos para muestrear directamente con una H y generar nuevas imágenes.
 

CS480/680 Clase 21: Redes generativas (autocodificadores variacionales y GAN)



CS480/680 Clase 21: Redes generativas (autocodificadores variacionales y GAN)

Esta conferencia se centra en las redes generativas, que permiten la producción de datos como salida a través de redes como codificadores automáticos variacionales (VAEs) y redes antagónicas generativas (GAN). Los VAE usan un codificador para mapear datos del espacio original a un nuevo espacio y luego un decodificador para recuperar el espacio original. El disertante explica el concepto detrás de VAE y los desafíos con el cálculo de la integral de las distribuciones necesarias en la capacitación. Las GAN constan de dos redes, un generador y un discriminador, donde la red del generador crea nuevos puntos de datos y la red del discriminador trata de distinguir entre los generados y los reales. Se discuten los desafíos en la implementación de GAN, incluido garantizar un equilibrio entre las fortalezas de las redes y lograr la convergencia global. La lección finaliza con ejemplos de imágenes generadas y una vista previa de la próxima lección.

  • 00:00:00 En esta sección de la conferencia, la atención se centra en las redes generativas y cómo se pueden utilizar para la generación de datos. Si bien la clasificación y la regresión han sido las principales técnicas cubiertas en el curso hasta el momento, las redes generativas permiten la producción de datos como salida. Esto es particularmente útil para la generación de lenguaje natural, la síntesis de voz y la generación de imágenes y videos. Los codificadores automáticos variacionales y las redes antagónicas generativas se encuentran entre las redes más populares que se utilizan actualmente para la generación de datos. Estas redes se utilizan para producir datos realistas que son similares a los que se encuentran en un conjunto de datos.

  • 00:05:00 En esta sección, el disertante analiza la idea de los codificadores automáticos probabilísticos, donde en lugar de un codificador determinista, tenemos un codificador probabilístico que codifica una distribución condicional. De manera similar, el decodificador también es una distribución condicional y puede considerarse como un generador que crea una distribución sobre los datos, lo que hace posible generar nuevos puntos de datos. Se utiliza un autocodificador variacional para muestrear un vector oculto, H, de una distribución fija, una gaussiana con media 0 y varianza 1, y luego construir un objetivo que intente hacer que la distribución del codificador sobre H esté condicionada por X lo más cerca posible de este distribución fija, asegurando buenos resultados de muestra.

  • 00:10:00 En esta sección, el disertante explica el concepto detrás de los autocodificadores variacionales (VAEs). Los VAE usan un codificador para mapear datos del espacio original a un nuevo espacio y luego un decodificador para recuperar el espacio original. El codificador produce una distribución que se puede usar para muestrear nuevos puntos, que el decodificador puede mapear de nuevo al espacio original. Sin embargo, la distribución del codificador debe ser lo más parecida posible a una distribución fija para garantizar que los puntos de datos generados sean del mismo tipo que los datos originales. La conferencia cubre la función objetivo para VAE y cómo optimizar la red para lograr este objetivo.

  • 00:15:00 En esta sección, el disertante analiza los desafíos de calcular la integral de la distribución del codificador sobre H y la distribución sobre X para cada H. Esta integral no se puede calcular en forma cerrada ya que el codificador y el decodificador son complejos. Redes neuronales. Para abordar esto, el disertante propone el uso de una sola muestra para aproximar la integral y producir una H mediante el muestreo del codificador y luego aproximar la distribución resultante por la distribución del decodificador. La aproximación se realiza durante el entrenamiento, y el disertante destaca que esto es diferente de los codificadores automáticos normales, ya que hay un paso de muestreo que requiere una consideración cuidadosa para calcular un gradiente.

  • 00:20:00 En esta sección del video, el orador explica el truco de repriorización utilizado para entrenar redes generativas como codificadores automáticos variacionales. Las arquitecturas de red de codificador y decodificador implican pasos de muestreo, lo que dificulta el cálculo de gradientes durante la optimización. Para abordar esto, se introduce una distribución gaussiana fija para permitir el muestreo de una nueva variable, H tilde, que se multiplica con la salida del codificador, H, para obtener la distribución con la media y la varianza óptimas para la variable latente. La H transformada se usa luego en la red del decodificador para generar la tilde X de salida reconstruida.

  • 00:25:00 En esta sección, el orador explica un truco llamado "reparametrización" que permite que las redes neuronales generen muestras a partir de una distribución de datos sin impedir la retropropagación de gradientes. El truco implica tomar muestras de una distribución diferente pero reparable (como una gaussiana) y luego usar algunas operaciones matemáticas para transformar la muestra en una muestra de la distribución deseada. De esta forma, la muestra es una entrada a la red, lo que permite que los gradientes pasen a través de ella durante la retropropagación. Luego, el orador explica cómo se usa este truco para entrenar una red generativa y generar nuevos puntos de datos a partir de la red entrenada.

  • 00:30:00 En esta sección, el orador analiza el uso de la divergencia de la biblioteca de retorno, una medida de distancia utilizada para minimizar la diferencia entre una distribución fija y una distribución de codificador en redes generativas. El orador usa Gaussian con varianza unitaria media cero como distribución fija y entrenó al codificador para producir una distribución cercana a ella. Al utilizar el término de regularización, el decodificador puede generar un punto de datos similar al del conjunto de entrenamiento, que en este caso son imágenes de rostros. Se muestran ejemplos de imágenes generadas por un codificador automático variacional, que están ligeramente borrosas debido a la naturaleza probabilística del codificador automático. Luego, el orador presenta las redes adversarias generativas (GAN), que utilizan dos redes, un generador y un discriminador, para producir imágenes más nítidas y realistas que no se construyen probabilísticamente.

  • 00:35:00 En esta sección, el disertante explica cómo funcionan las Redes adversarias generativas (GAN). Las GAN constan de dos redes: una red generadora y una red discriminadora. La red generadora crea nuevos puntos de datos, mientras que la red discriminadora trata de distinguir entre los puntos de datos generados y los reales. El discriminador actúa como tutor proporcionando retroalimentación al generador, ayudándolo a generar puntos de datos más realistas. El entrenamiento se realiza mediante la optimización de una función objetivo, donde la red discriminadora trata de maximizar la probabilidad de reconocer puntos de datos reales y falsos, mientras que la red generadora trata de minimizar estas probabilidades y engañar al discriminador. La función objetivo se puede reescribir como la probabilidad de que un punto de datos sea falso.

  • 00:40:00 En esta sección, el instructor explica la arquitectura de las redes adversas generativas (GAN), que consisten en un generador y un discriminador. El generador toma un vector de muestra y produce datos simulados, mientras que el discriminador es un clasificador que toma datos reales y generados para clasificarlos como reales o falsos. El objetivo de GAN es optimizar estas dos redes utilizando backpropagation con diferentes conjuntos de pesos para el generador (WG) y el discriminador (WD). El instructor continúa explicando que los pesos se actualizan dando pasos en la dirección del gradiente para minimizar el objetivo GAN.

  • 00:45:00 En esta sección, el orador analiza un algoritmo para entrenar una red adversaria generativa. El algoritmo involucra un ciclo externo donde los pesos se optimizan para el discriminador y luego se toman K pasos para optimizar el objetivo. Después de eso, se toma un solo paso para optimizar el generador. El objetivo es que el generador aprenda la distribución utilizada para generar el conjunto de entrenamiento para que pueda producir datos reales indistinguibles del entorno real. Si tiene éxito, el discriminador tendrá una tasa de error del 50 % y será imposible saber si un punto de datos es real o falso.

  • 00:50:00 En esta sección del video, el disertante analiza los desafíos que surgen en la implementación de redes generativas antagónicas (GAN), un enfoque para el modelado generativo que utiliza dos redes llamadas generador y discriminador que funcionan en un entorno antagónico para generar nuevos datos. Una cuestión clave es garantizar un equilibrio entre las fortalezas de ambas redes, ya que una podría dominar a la otra. Otra dificultad es lograr la convergencia global durante la optimización, ya que la optimización no convexa puede conducir a óptimos locales que no son óptimos. A pesar de estos desafíos, algunos aspectos de las GAN funcionan bien en la práctica, ya que las imágenes generadas de dígitos y caras se asemejan a puntos de datos reales en su conjunto de entrenamiento, aunque es posible que aún se necesiten algunos ajustes.

  • 00:55:00 En esta sección del video, el orador habla sobre las redes antagónicas generativas (GAN) y cómo pueden generar caras que son similares pero diferentes. Proporciona ejemplos de imágenes generadas, incluidos un caballo, un perro y una imagen borrosa. El orador también menciona que la próxima clase cubrirá un tema diferente en el aprendizaje automático.
 

CS480/680 Clase 22: Aprendizaje de conjunto (empaquetado y refuerzo)



CS480/680 Clase 22: Aprendizaje de conjunto (empaquetado y refuerzo)

La conferencia analiza el aprendizaje conjunto, donde se combinan varios algoritmos para mejorar los resultados del aprendizaje. Las dos técnicas principales revisadas son embolsado y potenciado, y el disertante enfatiza la importancia de combinar hipótesis para obtener una hipótesis más rica. La conferencia desglosa el proceso de votación por mayoría ponderada y su probabilidad de error, así como también cómo funciona el impulso para mejorar la precisión de la clasificación. El disertante también cubre las ventajas del impulso y el aprendizaje en conjunto, destacando la aplicabilidad del aprendizaje en conjunto a muchos tipos de problemas. Finalmente, el video sigue el ejemplo del desafío de Netflix para demostrar el uso del aprendizaje conjunto en competencias de ciencia de datos.

En esta conferencia sobre el aprendizaje conjunto, el orador enfatiza el valor de combinar hipótesis de diferentes modelos para obtener un aumento en la precisión, un enfoque que puede ser particularmente útil cuando se comienza con soluciones bastante buenas. Discute la importancia de tomar una combinación ponderada de predicciones, señalando que se debe tener cuidado ya que el promedio de dos hipótesis a veces podría ser peor que las hipótesis individuales por sí solas. El ponente también explica que puede ser necesaria la normalización de pesos, dependiendo de si la tarea es de clasificación o de regresión.

  • 00:00:00 Se introduce la importancia del aprendizaje conjunto, que es el proceso de combinar múltiples algoritmos e hipótesis para mejorar los resultados del aprendizaje. La conferencia analiza las técnicas de embolsado y refuerzo y destaca la dificultad de determinar qué algoritmo individual es el más adecuado para un problema específico. A menudo es una cuestión de prueba y error, pero la combinación de hipótesis imperfectas puede conducir a un mejor resultado general, similar a cómo las elecciones combinan las opciones de los votantes o los comités combinan las opiniones de los expertos. Al combinar múltiples algoritmos, el objetivo es obtener una predicción o clasificación más robusta y precisa.

  • 00:05:00 El disertante analiza el aprendizaje conjunto y cómo se puede utilizar para mejorar la precisión de los modelos de aprendizaje automático. El aprendizaje en conjunto implica la combinación de múltiples hipótesis imperfectas para obtener una hipótesis más rica que es potencialmente mejor. La conferencia menciona dos métodos de aprendizaje conjunto: embolsado y potenciado. La técnica de embolsado implica tomar una bolsa de hipótesis producidas por diferentes algoritmos y combinarlas mediante votación, mientras que impulsar implica ajustar los pesos de las hipótesis para dar más peso a las que funcionan bien. El disertante explica cómo se utilizan estas técnicas para generalizar separadores lineales para obtener límites no lineales y proporciona un ejemplo de un politopo.

  • 00:10:00 Se introduce el concepto de votación mayoritaria para la clasificación, en el que múltiples hipótesis hacen predicciones y se elige la clase que obtiene la mayor cantidad de votos. Cuanto mayor sea el número de hipótesis, más improbable será que la mayoría sea incorrecta. Cuando las hipótesis son independientes, la votación mayoritaria se vuelve más robusta. Se introduce una ecuación matemática para calcular la probabilidad de que la mayoría cometa un error en función del número de hipótesis y la probabilidad de error. Se proporciona un ejemplo en el que cinco hipótesis que cometen un 10 % de errores proporcionan una probabilidad de menos del 1 % de que el voto mayoritario sea incorrecto, lo que demuestra la solidez del método de voto mayoritario.

  • 00:15:00 El video analiza las limitaciones de las técnicas básicas de aprendizaje en conjunto, como la suposición de hipótesis independientes. Para abordar estas limitaciones, se puede usar un voto de mayoría ponderada para ajustar las correlaciones y dar mayor peso a mejores hipótesis. Esta técnica se conoce como impulso y se realiza mediante el uso de un aprendiz base que produce clasificadores, que luego se agrupan para obtener una mayor precisión. El marco de impulso ha sido capaz de superar la creencia de que los malos algoritmos deben abandonarse en favor del diseño de mejores mediante la combinación de sus hipótesis para mejorar la precisión general.

  • 00:20:00 El disertante analiza el concepto de impulso en el aprendizaje conjunto, que implica utilizar un alumno base para producir hipótesis y luego perturbar los pesos del conjunto de entrenamiento para obtener una hipótesis diferente. Al aumentar los pesos de las instancias mal clasificadas, hay más posibilidades de obtener una hipótesis más precisa. El disertante explica que las técnicas de aprendizaje supervisado se pueden ajustar para trabajar con un conjunto de entrenamiento ponderado, y esto se puede hacer simplemente cambiando el objetivo e introduciendo un peso para cada punto de datos. Este método permite la creación de una combinación ponderada de la función de pérdida de cada punto de datos.

  • 00:25:00 El disertante explica el concepto de impulso en el aprendizaje conjunto. Impulsar implica aprender con un conjunto de entrenamiento ponderado donde las instancias con pesos altos están sesgadas hacia la clasificación correcta. El marco de impulso incluye un ciclo en el que se aprende repetidamente una hipótesis del conjunto de datos con los pesos correspondientes, se verifican las instancias para detectar errores de clasificación y se aumentan sus pesos y, al final, la hipótesis en la muestra es una mayoría ponderada de las hipótesis generadas usando pesos. que son proporcionales a su precisión. Hay dos tipos de pesos, los de los puntos de datos y los de las hipótesis. El disertante enfatiza que la idea es mejorar la precisión de la clasificación y que cualquier algoritmo que funcione con conjuntos de datos ponderados puede usarse como base de aprendizaje para impulsar.

  • 00:30:00 El orador analiza el concepto de aumentar el peso de los puntos de datos mal clasificados en los algoritmos de refuerzo. Explican que esto tiene el efecto de disminuir implícitamente los pesos de los puntos de datos correctamente clasificados, pero lo que importa es la magnitud relativa de los pesos. Luego, el algoritmo minimiza la pérdida e intenta clasificar correctamente para evitar pagar un precio más alto por una clasificación errónea. El orador también señala que si el conjunto de entrenamiento no sigue la misma distribución que el conjunto de prueba, se pueden usar pesos para perturbar la distribución. Sin embargo, el impulso generalmente no se usa para este propósito, ya que aumentar los pesos de las hipótesis imperfectas puede evitar el sobreajuste y mejorar la generalización.

  • 00:35:00 El instructor explica el funcionamiento del algoritmo de refuerzo adaptativo con un ejemplo visual de cómo generar múltiples hipótesis utilizando un conjunto de datos simple. Usando votos de mayoría ponderada, el algoritmo asigna pesos que son proporcionales a la precisión de cada hipótesis, y estos se utilizan para calcular una combinación ponderada de las hipótesis de mejor rendimiento. El conjunto formado a partir de esta combinación se usa luego para hacer predicciones.

  • 00:40:00 El disertante explica el concepto de combinar múltiples hipótesis para evitar el sobreajuste. Argumentan que incluso si tenemos una hipótesis perfecta, es mejor combinar múltiples hipótesis para evitar el sobreajuste. El disertante señala que una red neuronal profunda puede conducir a una precisión perfecta en el conjunto de entrenamiento, pero no es simple ni rápida, que es lo que queremos en un alumno base utilizado junto con el aprendizaje en conjunto. El disertante también describe el algoritmo Adaboost y cómo funciona para asignar pesos a hipótesis e instancias de datos.

  • 00:45:00 El orador explica la teoría detrás del boosting y sus ventajas. Boosting funciona bien con alumnos débiles, que son algoritmos que producen hipótesis que son al menos tan buenas como un clasificador aleatorio. El objetivo es mejorar la precisión y el rendimiento. El ponente explica cómo calcular los pesos de las instancias de datos e hipótesis, y cómo normalizarlos. El refuerzo tiende a ser resistente al sobreajuste y es simple de implementar, lo que lo hace aplicable a muchos problemas. Además, impulsar genera múltiples hipótesis, no solo una, lo que conduce a una mayor precisión.

  • 00:50:00 Aprendemos sobre el impulso y el aprendizaje conjunto, que es una técnica utilizada para combinar las predicciones de varios modelos. El impulso es un método para generar múltiples hipótesis con diferentes pesos, combinándolas todas y seleccionando la mejor. Como una aproximación al aprendizaje bayesiano, es una forma manejable de generar una hipótesis a la vez mientras se es selectivo en la combinación de múltiples hipótesis para la generalización. Boosting tiene varias aplicaciones industriales, incluido el Kinect producido por Microsoft y el desafío de Netflix, donde se utilizó para mejorar su sistema de recomendación en un 10%. El impulso es generalmente muy bueno para combinar predicciones de expertos, a diferencia de otras heurísticas, que pueden no funcionar siempre y vienen sin ninguna teoría.

  • 00:55:00 El orador habla sobre los orígenes de Kaggle y cómo comenzaron a organizar competencias de ciencia de datos. Se remonta a 2006 cuando Netflix lanzó un concurso para mejorar la precisión en un 10%. El primer equipo, Bellcore, logró una mejora del 8,43% pero no alcanzó el umbral. Luego, el orador describe cómo, a lo largo de los años, los equipos comenzaron a colaborar, utilizando el aprendizaje conjunto, y cómo se formó el equipo del gran premio. Los equipos se unieron para repartirse un millón de dólares del gran premio, proporcional a la mejora en la puntuación del equipo que aporta cada algoritmo. El equipo del gran premio logró llegar al 9,46 % al formar un gran ejemplo de muchos investigadores, y el último día, Bellcore, pragmatic y chaos se presentaron y ganaron el premio.

  • 01:00:00 El orador discute la importancia y el valor del aprendizaje conjunto, particularmente en el contexto de ganar competencias. Utiliza el ejemplo del equipo Pragmatic Chaos de BellKor que ganó el premio Netflix al utilizar técnicas de aprendizaje en conjunto para mejorar su precisión en algunos puntos porcentuales. Señala que el aprendizaje conjunto es particularmente útil cuando se comienza con soluciones bastante buenas en lugar de estudiantes débiles y que al combinar hipótesis de diferentes modelos, es posible obtener un aumento en la precisión. Además, menciona que el aprendizaje conjunto se presta bien a la computación distribuida y se puede lograr a través de múltiples máquinas o núcleos.

  • 01:05:00 El instructor explica el concepto de tomar una combinación ponderada de predicciones en lugar de hipótesis para evitar incurrir en un costo mayor. La idea es que cada hipótesis hará una predicción y esas predicciones se combinarán de acuerdo con los pesos. Sin embargo, se debe tener cuidado al combinar hipótesis, ya que a veces el promedio de dos hipótesis podría ser peor que las hipótesis individuales por sí solas. El instructor también menciona que es posible que sea necesario normalizar los pesos dependiendo de si la tarea es de clasificación o regresión.
 

CS480/680 Lecture 23: Normalizing flows (Priyank Jaini)



CS480/680 Lecture 23: Normalizing flows (Priyank Jaini)

In this lecture, Priyank Jaini discusses normalizing flows as a method for density estimation and introduces how they differ from other generative models, such as GANs and VAEs. Jaini explains the concept of conservation of probability mass and how it is used to derive the change of variables formula in normalizing flows. He further explains the process of building the triangular structure in normalizing flows by using families of transformations and the concept of permutation matrices. Jaini also introduces the concept of sum of squares (SOS) flows, which use higher order polynomials and can capture any target density, making them universal. Lastly, Jaini discusses the latent space and its benefits in flow-based methods for image generation and asks the audience to reflect on the potential drawbacks of flow-based models.

In this lecture on normalizing flows by Priyank Jaini, he discusses the challenges of capturing high-dimensional transformations with a large number of parameters. Normalizing flows require both dimensions to be the same to achieve an exact representation, unlike GANs which use bottlenecks to overcome such issues. Jaini highlights that learning the associated parameters with high-dimensional datasets in normalizing flows experiments can be difficult. He also addresses questions about how normalizing flows can capture multimodal distributions and offers a code for implementing linear affine transformations.

  • 00:00:00 PhD student Priyank Jaini discusses normalizing flows as a family of deep generative models for solving the problem of density estimation, which forms a core problem in unsupervised learning. Jaini explains that density estimation has a wide range of applications in machine learning, such as important sampling, Bayesian inference, and image synthesis. Jaini also gives a brief introduction on how normalizing flows are different from variational autoencoders (VAEs) and generative adversarial networks (GANs), which were discussed in earlier lectures. He proposes that normalizing flows are useful for conditional generative models and can be used for density estimation.

  • 00:05:00 The speaker discusses the framework for generative models, including Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs), and introduces normalizing flows as an alternative approach. Both GANs and VAEs use a source distribution and a transformation to generate synthetic examples or reconstruct data, but they represent the density functions implicitly rather than explicitly. In contrast, normalizing flows give an explicit representation of density functions and work on the principle of conservation of probability mass. The goal is to learn a transformation that transforms a simple source distribution (e.g., Gaussian) onto a more complicated target distribution to approximate the true data distribution.

  • 00:10:00 Priyank Jaini introduces the concept of conservation of probability mass and how it is used to derive the change of variables formula. He gives an example of a random variable on the interval 0-1 and applies the function T of Z, which results in a uniform random variable with probability density 1/3. He explains that the change of variables formula is used to find the density of a target random variable X in terms of the source random variable Z and the function T. He extends the formula to the multivariate case, where the function T is learned from Rd to Rd, and the formula becomes QX = PZ times the determinant of the gradient of T times the inverse.

  • 00:15:00 The speaker explains the concept of normalizing flows, which involves learning a function that maps a given input vector, X, to another vector, Z. The function, denoted as D, is composed of univariate functions, T1 to TD, that take in the components of X and output the components of Z. The goal is to approximate the density of the input data set, QX, using a simple source density PZ, and maximizing the likelihood of the data points using the change of variables formula. However, certain problems arise, including the function D needing to be invertible and bijective.

  • 00:20:00 The lecturer discusses how to calculate the latent space given only the observed data. To do this, the inverse function of the mapping function is needed. However, computing the determinant in practice is expensive, so the lecturer introduced the concept of triangular maps, where the computation of the determinant is easy. The lecture then explains that normalizing flow research is mainly focused on building these transformations that are triangular, so that density estimation can be done, and how these transformations can be used in different normalizing flows.

  • 00:25:00 The lecturer explains the process of building a triangular structure for normalizing flows. The structure involves choosing a simple density, P(Z), to approximate a given density, Q(X). The density P(Z) can be any probability distribution, such as a normal or uniform distribution. Initially, one transformation t1 is used to get X1 from Set 1. Then, as iterations continue, transformation t2 takes boards at 1 and Z2 as input, giving X2. The process continues until TD takes Z1, Z2, ..., until ZD as input and provides XT as output. The objective is to maximize the likelihood by optimizing a negative log likelihood, which involves finding the sum of the log of the matrix's diagonal elements. The lecturer provides examples of families of transformations that can be used to build the triangular structure and explains how the joint density can be written as a product of the marginals and conditional distributions.

  • 00:30:00 The lecturer discusses the concept of normalizing flows. Normal distributions are conditioned on data and are functions of the data. A transformation is learned from standard Gaussian to this normal distribution. The transformation is done iteratively, and the resulting function is triangular. By stacking these transformations, a mask auto-regressive flow is formed, allowing for a more complex transformation with multiple random variables. The determinant of each transformation and the final transformation can be easily computed by taking the Jacobian and the inverse. The parameters that define the transformation are trained by minimizing a log-likelihood.

  • 00:35:00 The presenter explains how to use a permutation matrix to switch up the ordering of random variables and break correlations to create a more complex transformation in density estimation. By stacking multiple transformations, the complexity of the transformation is increased, allowing for the ability to capture any density in real life, even if it does not follow a nice form. However, once the permutation is applied, the transformation is no longer triangular, making taking the Jacobian computationally expensive. The method of using a permutation matrix saves time and approximates the full transformation.

  • 00:40:00 The speaker discusses the various transformation methods used in normalizing flows. He explains that Real NVP is a linear transformation method that splits the input into two parts, applies a linear transformation to one part, and leaves the other part unchanged. They then stack multiple layers of this to build more complicated transformations. The speaker also mentions that neural autoregressive flows use deep neural networks instead of linear transformations and are universal. Further, he talks about his paper that proposes the use of sum of squares of polynomials instead of linear transformations or neural networks. This method uses high degree polynomials with coefficients that come from another neural network and is also universal.

  • 00:45:00 The lecturer discusses the properties of sum of squares (SOS) flows, which are a generalization of previously explored sum of squares of polynomials in computer science and optimization. Unlike other methods, SOS flows use higher order polynomials that can control higher order moments of the target distribution, such as kurtosis and skewness, without any constraints on the coefficient. SOS flows are easier to train and can capture any target density, making them universal, with applications in stochastic simulation. The lecturer also introduces an architecture called "Glow" that uses invertible one crossman convolutions and affine coupling layers to produce images that can interpolate faces to an older version.

  • 00:50:00 Priyank Jaini explains the architecture of normalizing flows and how they can be used for image generation. The algorithm works by using an affine coupling layer with multiple expressions and a random rotation matrix, W. They fix the determinant of the matrix by using an LU decomposition. Using this, they can interpolate between images of old and young people by transforming an input image into a latent representation, then moving in a specific direction within the latent space to achieve the desired outcome. Results show that the generated images are sharp, contradicting previous assumptions that images generated with log-likelihood would be blurry.

  • 00:55:00 The lecturer discusses the concept of the latent space, which captures certain properties of the input and is a hidden distribution used in flow-based methods for image generation. The lecturer provides an example of linear interpolation using the latent space to create an image of a person getting older. The lecturer also highlights the benefits of normalizing flow models, such as their explicit representation of densities and the use of efficient triangular transformations to capture the Jacobian determinant. However, the lecturer also poses a question to the audience regarding the potential drawbacks of flow-based methods, with one of them being the computation complexity.

  • 01:00:00 The lecturer discusses the challenges of capturing high-dimensional transformations with a large number of parameters in normalizing flows. While GANs use a bottleneck to overcome this problem, normalizing flows require both dimensions to be the same to achieve the exact representation. The lecturer highlights that the dimensions of datasets used in normalizing flows experiments are high, and this makes it difficult to learn the associated parameters. The lecturer also answers questions regarding how normalizing flows can capture multimodal distributions and how training on the weights of neural networks implicitly trains on the network parameters.

  • 01:05:00 Priyank Jaini explains that he has provided about a hundred lines of code for implementing linear affine transformations, which he learned from a tutorial by Eric Jack. He mentions that it is a simple process to train these networks, and offers the code for those interested.
 

CS480/680 Clase 24: Aumento de gradiente, embolsado, bosques de decisión



CS480/680 Clase 24: Aumento de gradiente, embolsado, bosques de decisión

Esta conferencia cubre los bosques de decisión, embolsado y aumento de gradientes en el aprendizaje automático. El aumento de gradiente implica agregar nuevos predictores basados en el gradiente negativo de la función de pérdida al predictor anterior, lo que lleva a una mayor precisión en las tareas de regresión. La conferencia también explora cómo prevenir el sobreajuste y optimizar el rendimiento mediante la regularización y la detención temprana de los procesos de entrenamiento. Además, la conferencia cubre el embolsado, que implica submuestrear y combinar diferentes alumnos base para obtener una predicción final. También se analiza el uso de árboles de decisión como estudiantes base y la creación de bosques aleatorios, y se proporciona un ejemplo de la vida real de Microsoft Kinect que usa bosques aleatorios para el reconocimiento de movimiento. Se analizan los beneficios de los métodos de conjunto para la computación paralela y se enfatiza la importancia de comprender las actualizaciones de peso en los sistemas de aprendizaje automático. Esta conferencia cubre los problemas potenciales con el promedio de pesos al combinar predictores dentro de redes neuronales o modelos ocultos de Markov, recomendando en su lugar la combinación de predicciones a través de un voto mayoritario o un método de promedio. El profesor también sugiere varios cursos relacionados disponibles en la Universidad de Waterloo, varios cursos de posgrado en optimización y álgebra lineal, y un programa de ciencia de datos de pregrado centrado en IA, aprendizaje automático, sistemas de datos, estadísticas y temas de optimización. La conferencia enfatiza la importancia de los enfoques algorítmicos sobre la superposición con las estadísticas y la especialización en temas de ciencia de datos en comparación con los títulos generales de informática.

  • 00:00:00 El instructor habla sobre el aumento de gradiente. Menciona que el algoritmo adaboost es excelente para la clasificación, pero no para la regresión. Introduce el aumento de gradiente, donde se calcula el gradiente negativo de la función de pérdida y el próximo predictor se ajusta a este gradiente. Esto es un poco contradictorio ya que no ajusta el predictor a la salida deseada, sino al gradiente negativo. Esto emulará un paso de descenso de gradiente y, al aplicarlo repetidamente, el predictor final será la suma de todos los predictores. Este método es particularmente útil para la regresión. El instructor explica que este algoritmo se puede usar con una amplia gama de funciones de pérdida y es una solución para aumentar la regresión.

  • 00:05:00 Se explica el concepto de aumento de gradiente, donde en cada paso del algoritmo, un predictor con alguna función de pérdida acompaña la diferencia entre el objetivo y el valor predicho. A continuación, se toma el gradiente negativo para aproximar los residuales y se entrena el próximo predictor para el conjunto de datos residuales. El objetivo es reducir el error agregando este nuevo predictor al anterior. Luego se proporciona el pseudocódigo del algoritmo, donde inicialmente, el primer predictor se establece como una constante minimizando las pérdidas para cada punto de datos.

  • 00:10:00 El profesor explica el aumento de gradiente, un concepto poderoso en el aprendizaje automático que combina varios estudiantes débiles en un solo estudiante fuerte. La idea es comenzar con un predictor simple que sea solo una constante y luego calcular un nuevo predictor en cada iteración calculando un pseudo residual para cada punto de datos, formando un nuevo conjunto de datos residuales, capacitando a un nuevo alumno base con respecto a esos datos. conjunto, y agregando la nueva hipótesis multiplicada por alguna longitud de paso al predictor. La longitud del paso se selecciona minimizando una expresión de optimización para dar un paso en la dirección del gradiente negativo para reducir el error. La actualización del peso ocurre cuando se calcula el gradiente negativo, pero no es una actualización del peso per se.

  • 00:15:00 El orador explica el proceso de actualización del peso durante la fase de entrenamiento de un alumno base, que podría ser una red neuronal, un árbol de decisión o cualquier otro tipo de regresor. Aclaran que al optimizar el predictor, no hay actualización de pesos, ya que todas las funciones, es decir, FK-1, HK y Etha k, ya están optimizadas y configuradas en pesos fijos. La combinación de las predicciones de estas funciones conduce a un predictor que mejora gradualmente en cada paso, lo que lleva a una función de pérdida menor. Sin embargo, el proceso puede no conducir a una pérdida de cero a largo plazo.

  • 00:20:00 El instructor analiza el potencial de reducir el error gradualmente con el aumento de gradiente, pero señala que esto podría conducir a un ajuste excesivo, según el espacio de los predictores y la cantidad de ruido presente en los datos. El algoritmo implica agregar más hipótesis para crear una muestra más grande sin cambiar los pesos. El instructor plantea una pregunta a la clase sobre el riesgo de sobreajuste con el aumento de gradiente y concluye que existe el riesgo de sobreajuste, pero es posible evitar que esto ocurra utilizando técnicas como la regularización o la parada anticipada.

  • 00:25:00 El disertante analiza formas de reducir el sobreajuste, incluida la introducción de la aleatorización y la detención temprana del proceso de capacitación mediante el uso de un conjunto de validación. Luego, la conferencia presenta la técnica de aumento de gradiente y menciona el paquete popular, XG boost, que ha sido optimizado para rendimiento y precisión. El disertante también destaca las principales diferencias entre bagging y boosting, incluyendo el uso de hipótesis independientes y un voto mayoritario en bagging frente a la creación secuencial de hipótesis y su combinación en boosting.

  • 00:30:00 El orador analiza las técnicas de impulso y embolsado en el aprendizaje automático. El impulso implica predicciones ponderadas, que permiten algunas hipótesis correlacionadas e hipótesis con precisión desequilibrada. El impulso es flexible y puede determinar los pesos de diferentes hipótesis para contrarrestar el problema de la correlación. Por el contrario, el embolsado implica un muestreo de arranque, que implica capacitar a un alumno base en un subconjunto de datos para reducir la correlación entre hipótesis. El orador indica que estas técnicas ofrecen una forma práctica de diseñar una configuración en la que las suposiciones sobre la independencia de la hipótesis se pueden mantener o aproximadamente, reduciendo las restricciones arbitrarias y haciendo que el modelo sea más confiable.

  • 00:35:00 El orador discute la idea de obtener un predictor simple que sea mejor que aleatorio en el paradigma de aprendizaje en muestra al submuestrear las características para reducir la correlación. Al submuestrear tanto los puntos de datos como las características, se obtiene un conjunto de datos más pequeño, que se alimenta al alumno base, y el proceso se repite para cada predictor. Las hipótesis resultantes están menos correlacionadas, lo que hace que el embolsado sea una mejor opción. El algoritmo de embolsado consta de un bucle en el que se crean K predictores, y para cada predictor, los datos se submuestrean y el alumno base produce diferentes hipótesis según la superposición.

  • 00:40:00 Aprendemos sobre embolsado, que es una técnica que funciona extrayendo múltiples muestras aleatorias de los datos de entrenamiento para construir múltiples modelos. La idea es generar una hipótesis de cada uno de los alumnos base y luego combinarlos para hacer una predicción final. Si el objetivo es la clasificación, la predicción se hace tomando el voto de la mayoría, mientras que para la regresión, la decisión se toma tomando el promedio de la predicción. La práctica popular en la literatura es usar un árbol de decisión como base de aprendizaje, y una vez que se entrenan múltiples árboles de decisión en varios subconjuntos de datos, los llamamos bosque aleatorio. Los bosques aleatorios también se pueden usar para la computación distribuida. Se proporciona el ejemplo de la vida real de Microsoft Kinect que usa un bosque aleatorio para el reconocimiento de postura y movimiento.

  • 00:45:00 El video habla sobre Kinect y cómo produce un mapa de profundidad al proyectar una nube de puntos en el espectro infrarrojo y usar una cámara infrarroja para percibir los puntos. Microsoft incorporó algún hardware para permitir la inferencia en tiempo real de la información de profundidad basada en la distribución de puntos. Kinect tiene la capacidad de etiquetar píxeles para identificar partes del cuerpo y movimientos con un enfoque de bosque aleatorio, donde los píxeles adyacentes se comparan con el valor de profundidad del píxel actual. La técnica de submuestreo se usa para simplificar los píxeles vecinos, y la comparación de distancias según el tamaño de la parte del cuerpo da pistas para clasificar el píxel actual, aunque este método se considera débil.

  • 00:50:00 El orador analiza los beneficios de embolsar, impulsar y otros métodos de conjunto, que permiten distribuir y utilizar múltiples clasificadores livianos en paralelo, escalando así bien para grandes datos. Las GPU se han vuelto clave para la paralelización de la computación y existen varios marcos para manipular vectores, matrices y tensores sin preocuparse por la paralelización. Sin embargo, el orador advierte contra el método intuitivo pero poco confiable de tomar el promedio de potencias de clasificadores o predictores, ya que las capas y variables ocultas pueden causar problemas con este enfoque.

  • 00:55:00 El presentador explica cómo puede ser problemático tomar el promedio de sistemas individuales en una arquitectura. El presentador dibuja un ejemplo en la pizarra en el que utilizan variables booleanas que toman valores de 0 y 1 para codificar un o exclusivo. El presentador establece ponderaciones para las variables booleanas que están diseñadas para calcular el o de lo que entra. combinándolos a través de otra unidad de retención de basura. El presentador continúa explicando cómo cambiar los pesos puede afectar la salida del sistema.

  • 01:00:00 El disertante discute los peligros de promediar pesos al combinar predictores en redes neuronales o modelos ocultos de Markov. El peligro radica en el hecho de que puede haber soluciones simétricas que no calculen lo mismo, y tomar el promedio de los pesos podría dar como resultado un predictor que no calcule lo correcto. En cambio, lo más seguro es combinar las predicciones, lo que se puede hacer mediante un voto mayoritario para la clasificación o tomando el promedio para la regresión. El orador también recomienda otros cursos relacionados con el aprendizaje automático que se ofrecen en la Universidad de Waterloo para aquellos interesados en aprender más.

  • 01:05:00 El profesor analiza otros cursos que complementarían el curso actual sobre aprendizaje automático. En primer lugar, sugiere tomar el curso de Álgebra lineal computacional antes de tomar el curso actual, ya que el álgebra lineal es una base crucial para el aprendizaje automático. Además, menciona el curso llamado Fundamentos teóricos del aprendizaje automático que se enfoca en un factor importante en el aprendizaje automático, a saber, la complejidad de los datos. Explica cómo determinar el nivel de precisión alcanzable con una cierta cantidad de datos es un asunto complejo, por lo tanto, el curso tiene como objetivo derivar principios que determinen la cantidad de datos que se necesitan para lograr el nivel deseado de precisión. Por último, el profesor menciona otros cursos a nivel de posgrado, como Optimización para ciencia de datos y Fundamentos de optimización, que son beneficiosos para comprender los algoritmos de aprendizaje automático.

  • 01:10:00 El disertante analiza los cursos y programas disponibles relacionados con la ciencia de datos que los estudiantes pueden tomar. Estos cursos van desde cursos de nivel 800 que no se ofrecen regularmente hasta programas de ciencia de datos a nivel de pregrado y posgrado. El disertante señala que si bien puede haber cierta superposición entre este curso y los cursos de estadística, el enfoque aquí es más algorítmico. Los programas de ciencia de datos cubren temas en la intersección de IA, aprendizaje automático, sistemas de datos, estadísticas y optimización. Los cursos que toman los estudiantes en estos programas enfatizan la especialización en temas de ciencia de datos, mientras que una maestría en informática general requiere amplitud en diferentes temas.
 

¿Debemos temerle a la inteligencia artificial? con Emad Mostaque, Alexandr Wang y Andrew Ng | 39



¿Debemos temerle a la inteligencia artificial? con Emad Mostaque, Alexandr Wang y Andrew Ng | 39

Los invitados en este video de YouTube discuten varios aspectos de la inteligencia artificial (IA), incluidos sus peligros potenciales, la disrupción en varias industrias y la importancia de volver a capacitar a los trabajadores para mantenerse relevantes. Los panelistas también debaten la usabilidad de las herramientas de IA, la implementación de IA en el cuidado de la salud, la estandarización en los sistemas de distribución de información, el potencial de creación de riqueza en IA y el uso de modelos de lenguaje en el cuidado de la salud y la educación. Además, enfatizaron la necesidad de un despliegue responsable de modelos de IA, transparencia y consideraciones éticas en la gobernanza. Por último, los panelistas responden brevemente algunas preguntas de la audiencia sobre temas como la privacidad en la IA para la atención médica y la educación.

  • 00:00:00 Los invitados discuten los peligros potenciales de la IA y la necesidad de transparencia y precaución cuando se trata de esta tecnología. También abordan la disrupción que la IA está causando en varias industrias y la importancia de volver a capacitar a los trabajadores para mantenerse relevantes frente a esta disrupción. Los invitados ofrecen soluciones potenciales, como educación en línea y asociaciones con gobiernos, para ayudar a las personas a adaptarse a los cambios provocados por la IA. En última instancia, creen que la IA tiene el potencial de crear riqueza más rápido que cualquier cosa que hayamos visto y animar a todos, pero debe tratarse con cuidado y responsabilidad.

  • 00:05:00 Los expertos discuten la usabilidad de las herramientas de IA en comparación con la interfaz fácil de usar de Google. Esperan que las herramientas de IA puedan evolucionar para volverse más fáciles de usar sin requerir mucha educación. La IA generativa se entrena en grandes corpus de un conjunto de medios completo y se centra en la comprensión del lenguaje natural. Sin embargo, están de acuerdo en que la política y la adopción de la IA son relativamente inciertas, y los cursos de educación y la comunicación con los legisladores podrían hacerla más accesible. El panel también habla sobre los desafíos de definir conceptos en la programación de IA y la necesidad de nombres estructurales únicos bien definidos junto con el uso creciente de indicaciones.

  • 00:10:00 Un médico de Chicago pregunta a los panelistas cómo se puede usar la IA de manera más eficiente en el cuidado de la salud en términos de punto de atención y evaluación del paciente. Los panelistas sugieren encontrar casos de uso concretos y ejecutarlos para obtener una ventaja en el mercado, ya que llegar primero al mercado es clave. También recomiendan crear un conjunto de datos a través de herramientas como euroscape.com y etiquetar y anotar los datos para entrenar un nuevo modelo sobre ellos. Sugieren asociarse con otras empresas o traer un equipo para desarrollar e implementar IA, potencialmente comenzando de a poco y expandiéndose gradualmente.

  • 00:15:00 Los oradores discuten si hay alguna actividad comercial que AI nunca podrá interrumpir. Si bien algunas tareas físicas e industrias pueden estar más lejos de ser interrumpidas por la IA que otras, los oradores finalmente están de acuerdo en que no hay actividad comercial que la IA nunca pueda interrumpir. Sin embargo, discuten el desafío de interpretar las decisiones de IA y la necesidad de depósitos centralizados de confianza y estándares para seleccionar información y combatir la difusión de información falsa o engañosa en las redes sociales.

  • 00:20:00 Los disertantes discuten la necesidad de estandarización en los sistemas de distribución de información para adaptarse a la creciente adopción de inteligencia artificial (IA). También tocan la importancia de las consideraciones éticas y las implicaciones de la IA, tal como está ocurriendo actualmente y seguirá dando forma al futuro. La conversación cambia hacia las aplicaciones prácticas de la IA en la recuperación ante desastres, donde se puede utilizar para tiempos de respuesta rápidos y coordinación de esfuerzos humanitarios. El panel también analiza el papel de un Director de IA, que debe tener una comprensión técnica de la tecnología y una mentalidad orientada a los negocios para identificar casos de uso valiosos para la IA.

  • 00:25:00 Los oradores discuten la implementación y la pasión necesarias para mantenerse al día con la tecnología de IA. Sugieren crear un repositorio interno para que las empresas se mantengan al día con las últimas tendencias en IA y recomiendan catalogar todos los datos existentes que se pueden cargar en los sistemas de IA. También discuten el potencial de creación de riqueza en la industria de la IA y recomiendan invertir en mejorar las habilidades de uno mismo o de una empresa en esta área. Aunque algunos pueden sentir que es demasiado tarde para participar, los oradores sugieren que en realidad aún es pronto para la IA y que se espera un crecimiento significativo en el futuro cercano.

  • 00:30:00 Peter habla sobre la importancia de controlar los niveles de glucosa y recomienda Levels, una empresa que proporciona un control continuo de los niveles de glucosa para garantizar que las personas sean conscientes de cómo les afectan los diferentes alimentos en función de su fisiología y genética. Luego, la conversación cambia a cómo la tecnología puede contribuir a la paz mundial, con énfasis en cómo la IA puede funcionar como un traductor universal y proporcionar contexto y comprensión entre diferentes puntos de vista. Los panelistas también tocaron el tema de la IA abierta y la destitución de su Comité de Ética, y un miembro expresó su admiración por el trabajo realizado por la IA abierta, pero también reconoció su preocupación por la decisión.

  • 00:35:00 Los oradores discuten la responsabilidad que conlleva implementar grandes modelos de IA y la posible compensación de los beneficios que brindan frente a los riesgos que plantean. Se refieren al despliegue responsable de la tecnología por parte de OpenAI y reconocen los esfuerzos de los equipos éticos de IA que intentan mitigar los aspectos negativos del uso de la IA. La conversación también cubre la necesidad de transparencia y gobernanza responsable cuando se trata de tecnología potencialmente peligrosa. Finalmente, los ponentes abordan el uso de la IA en la toma de decisiones de inversión, reconociendo la complejidad del proceso y las limitaciones de la tecnología actual.

  • 00:40:00 El grupo analiza el uso de modelos de lenguaje en el cuidado de la salud, específicamente para construir chatbots que respalden al personal de enfermería o de triaje. Mencionan el uso de modelos de chat estables como GPT-Neo y TF-Plan T5, pero advierten que, dado que los datos de atención médica son muy confidenciales, es fundamental crear un modelo de código abierto que pueda controlarse y poseer. El grupo también discute el uso de modelos de lenguaje en la educación, específicamente la controversia sobre el uso de herramientas como Chad-GPT para escribir ensayos o reseñas de libros. Debaten los méritos de la transparencia y cómo capacitar a los estudiantes para usar estas herramientas de manera efectiva sin limitar su crecimiento. Por último, el grupo lidia con la cuestión de qué define hacer trampa en un contexto educativo.

  • 00:45:00 Los panelistas responden brevemente algunas preguntas de la audiencia en una ronda rápida. Los temas incluyen la creación de contenido en música y artes, la privacidad en la IA para la atención médica y si un joven de 15 años debe continuar tomando Python e ir a la universidad. Los panelistas abordan la importancia de la privacidad de los datos y la necesidad de una IA auditable e interpretable en el cuidado de la salud. También mencionan que la ética de la IA y su posible uso indebido por parte de países como China se discutirán en la próxima sesión.
 

El “padrino de la IA” Geoffrey Hinton advierte sobre la “amenaza existencial” de la IA | Amanpour y Compañía



El “padrino de la IA” Geoffrey Hinton advierte sobre la “amenaza existencial” de la IA | Amanpour y Compañía

Geoffrey Hinton, reconocido como el "Padrino de la IA", profundiza en las implicaciones de las inteligencias digitales que avanzan rápidamente y su potencial para superar las capacidades de aprendizaje humano. Expresa su preocupación por la amenaza existencial que representan estos sistemas de IA y advierte que pueden superar al cerebro humano en varios aspectos. A pesar de tener una capacidad de almacenamiento significativamente menor que el cerebro, las inteligencias digitales poseen una gran cantidad de conocimiento de sentido común, que supera miles de veces al de los humanos. Además, exhiben habilidades de aprendizaje y comunicación más rápidas, utilizando algoritmos superiores en comparación con el cerebro.

Hinton comparte un descubrimiento intrigante que hizo usando el sistema Palm de Google, donde la IA pudo explicar por qué las bromas eran divertidas, lo que sugiere una comprensión más profunda de ciertos conceptos en comparación con los humanos. Esto destaca su notable capacidad para formar conexiones y adquirir información. Él enfatiza que la intuición y los prejuicios humanos están integrados en nuestra actividad neuronal, lo que nos permite atribuir cualidades de género a los animales. Sin embargo, estos procesos de pensamiento también arrojan luz sobre las posibles amenazas que plantea la IA en el futuro.

Al abordar las preocupaciones sobre la sensibilidad de la IA, Hinton reconoce la ambigüedad que rodea su definición y la incertidumbre que rodea su desarrollo. Plantea varios desafíos que presenta AI, incluido el desplazamiento laboral, la dificultad de discernir la verdad y el potencial para exacerbar la desigualdad socioeconómica. Para mitigar estos riesgos, Hinton propone implementar regulaciones estrictas similares a las que rigen el dinero falso, criminalizando la producción de videos e imágenes falsos generados por IA.

Destacando la importancia de la colaboración internacional, Hinton enfatiza que los chinos, los estadounidenses y los europeos comparten un interés personal en prevenir el surgimiento de una IA incontrolable. Reconoce el enfoque responsable de Google para el desarrollo de IA, pero enfatiza la necesidad de una amplia experimentación para permitir que los investigadores mantengan el control sobre estos sistemas inteligentes.

Si bien reconoce las valiosas contribuciones de las inteligencias digitales en campos como la medicina, la predicción de desastres y la comprensión del cambio climático, Hinton no está de acuerdo con la idea de detener por completo el desarrollo de la IA. En cambio, aboga por asignar recursos para comprender y mitigar los posibles efectos negativos de la IA. Hinton reconoce las incertidumbres que rodean el desarrollo de la IA superinteligente y enfatiza la necesidad del esfuerzo humano colectivo para dar forma a un futuro optimizado para el mejoramiento de la sociedad.

  • 00:00:00 En esta sección, Geoffrey Hinton, conocido como el padrino de la IA, analiza cómo las inteligencias digitales que se están creando pueden estar aprendiendo mejor que el cerebro humano, que es una amenaza existencial para la humanidad, advierte. Describe cómo las inteligencias digitales tienen miles de veces más conocimientos básicos de sentido común, a pesar de tener una centésima parte de la capacidad de almacenamiento del cerebro. Además, pueden aprender y comunicarse entre sí mucho más rápido que el cerebro, que utiliza un algoritmo de aprendizaje inferior. Explica que al usar un sistema de Google llamado Palm, se dio cuenta de que estas IA podían explicar por qué las bromas eran divertidas, y esto sugiere que entienden ciertas cosas mejor que los humanos, lo que indica sus mejores formas de obtener información en las conexiones.

  • 00:05:00 En esta sección, Geoffrey Hinton, el "padrino de la IA", explica que la intuición y los prejuicios humanos están representados en nuestra actividad neuronal, que es la forma en que atribuimos ciertas cualidades de género a los animales. Sin embargo, este tipo de procesos de pensamiento también insinúan por qué la IA puede ser una amenaza en el futuro. Hinton aborda las preocupaciones sobre la sensibilidad de la IA y señala que, si bien las personas afirman que no es sensible, no siempre están seguros de lo que quieren decir con esa definición. Además, existen varias amenazas que plantea la IA, incluida la toma de puestos de trabajo, lo que dificulta descifrar la verdad y el aumento de la desigualdad socioeconómica. Para combatir estos problemas, Hinton sugiere tener regulaciones estrictas como las establecidas para el dinero falso, que criminalizaría la producción de videos e imágenes falsos creados a través de IA.

  • 00:10:00 En esta sección, Geoffrey Hinton, un destacado investigador de inteligencia, advierte sobre la amenaza existencial que representa la IA. Menciona el riesgo de que estas máquinas se vuelvan súper inteligentes y tomen el control de los seres humanos. Hinton explica además que los chinos, los estadounidenses y los europeos comparten un interés mutuo en prevenir este resultado y, por lo tanto, deben colaborar para evitar el desarrollo de una IA peligrosa. También cita a Google como un gigante tecnológico responsable, pero enfatiza la necesidad de que las personas que desarrollan estas máquinas experimenten mucho para ayudar a los investigadores a comprender cómo mantener el control de esta IA.

  • 00:15:00 En esta sección, el experto en inteligencia artificial Geoffrey Hinton reconoce las útiles contribuciones de las inteligencias digitales en varios campos, como la medicina, la predicción de desastres naturales y la comprensión del cambio climático. Sin embargo, no está de acuerdo con la idea de poner una pausa en el desarrollo de la IA y, en cambio, sugiere que se debe usar una cantidad comparable de recursos para comprender y evitar los efectos negativos de la IA. Hinton también destaca las incertidumbres que surgen con el desarrollo de superinteligencias y enfatiza la necesidad de que la humanidad se esfuerce mucho para asegurarse de que el futuro esté optimizado para mejor.
Razón de la queja: