Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
CS480/680 Clase 17: Modelos ocultos de Markov
CS480/680 Clase 17: Modelos ocultos de Markov
La conferencia presenta los Modelos ocultos de Markov (HMM), un tipo de modelo gráfico probabilístico utilizado para explotar las correlaciones en los datos de secuencia que pueden mejorar la precisión. Los supuestos del modelo implican un proceso estacionario y un proceso markoviano en el que un estado oculto solo depende del estado anterior. Las tres distribuciones en HMM son la distribución de estado inicial, la distribución de transición y la distribución de emisión, con el último tipo usado dependiendo del tipo de datos. El algoritmo se puede utilizar para monitorear, predecir, filtrar, suavizar y probablemente tareas de explicación. HMM se ha utilizado para el reconocimiento de voz y el aprendizaje automático, como la predicción de la secuencia más probable de salidas en función de una secuencia de entradas y estados ocultos para personas mayores que usan dispositivos andadores para la correlación de estabilidad. Se realizó un experimento con sensores y cámaras modificados en un andador para reconocer automáticamente las actividades realizadas por los adultos mayores a partir de la recopilación de datos sobre las actividades de los adultos mayores en un centro de retiro. También se discutió la demostración en el aprendizaje supervisado y no supervisado en el contexto del reconocimiento de actividades.
La conferencia se centra en el uso de distribuciones de emisiones gaussianas en modelos ocultos de Markov (HMM), que se usan comúnmente en aplicaciones prácticas donde los datos recopilados son continuos. El disertante explica que este método consiste en calcular la media y los parámetros de varianza que corresponden a la media empírica y la varianza de los datos y utilizarlos para calcular la solución para las distribuciones inicial y de transición. La distribución de transición corresponde a conteos de frecuencia relativa, y se utiliza la máxima verosimilitud para obtener las soluciones. Este enfoque es similar a la solución para mezclas de gaussianas, donde también se utilizan una distribución inicial y de emisión.
CS480/680 Clase 18: Redes neuronales recurrentes y recursivas
CS480/680 Clase 18: Redes neuronales recurrentes y recursivas
En esta conferencia, el ponente presenta las redes neuronales recurrentes y recursivas como modelos adecuados para datos secuenciales sin una longitud fija. Las redes neuronales recurrentes pueden manejar secuencias de cualquier longitud debido a ciertos nodos con salidas retroalimentadas como entradas, y la forma en que se calcula H en cada paso de tiempo es mediante el uso de la misma función f, que implica compartir peso. Sin embargo, pueden tener limitaciones, como no recordar la información de las primeras entradas y la desviación de la predicción. El disertante también explica la arquitectura de la red neuronal recurrente bidireccional (BRNN) y el modelo de codificador-decodificador, que utiliza dos RNN, un codificador y un decodificador, para aplicaciones donde las secuencias de entrada y salida no coinciden naturalmente. Además, el disertante describe los beneficios de las unidades de memoria a corto plazo (LSTM), que pueden mitigar el problema del gradiente de fuga, facilitar las dependencias de largo alcance y permitir o bloquear selectivamente el flujo de información.
Esta lección sobre redes neuronales recurrentes y recursivas cubre una variedad de temas, incluido el uso de unidades de memoria a corto plazo largo (LSTM) y unidades recurrentes cerradas (GRU) para evitar problemas de gradiente, así como la importancia de los mecanismos de atención en la traducción automática. para preservar el significado de las oraciones y la alineación de las palabras. El disertante también analiza cómo las redes neuronales recurrentes se pueden generalizar a redes neuronales recursivas para secuencias, gráficos y árboles, y cómo analizar oraciones y producir incrustaciones de oraciones usando árboles de análisis.
Siendo hecho. El estado oculto se calcula usando una función que toma el estado oculto anterior y la entrada, y la salida se obtiene usando otra función que toma el estado oculto como entrada. En última instancia, el objetivo es utilizar este cálculo para calcular probabilidades o reconocer actividades.
CS480/680 Clase 19: Redes de atención y transformadores
CS480/680 Clase 19: Redes de atención y transformadores
En esta lección, se introduce el concepto de atención en las redes neuronales y se analiza su papel en el desarrollo de redes transformadoras. La atención se estudió inicialmente en la visión por computadora, lo que permitió la identificación de regiones cruciales de manera similar a cómo los humanos se enfocan naturalmente en áreas específicas. La aplicación de la atención a la traducción automática condujo a la creación de redes transformadoras, que utilizan únicamente mecanismos de atención y producen resultados tan buenos como las redes neuronales tradicionales. Las redes de transformadores tienen ventajas sobre las redes neuronales recurrentes, ya que resuelven problemas asociados con dependencias de largo alcance, gradientes que se desvanecen y explotan y computación paralela. La conferencia explora la atención de múltiples cabezales en las redes de transformadores, lo que garantiza que cada posición de salida atienda a la entrada. Se analiza el uso de máscaras, capas de normalización y la capa Donora en redes de transformadores, y se explora el concepto de utilizar la atención como componente básico.
En esta conferencia sobre redes de atención y transformadores, el orador explica la importancia de la normalización para desacoplar gradientes en diferentes capas, así como la importancia de la incrustación posicional para retener el orden de las palabras en las oraciones. El orador compara las estimaciones de complejidad de las redes de transformadores con las redes neuronales recurrentes y convolucionales, destacando la capacidad de la red de transformadores para capturar dependencias de largo alcance y procesar palabras simultáneamente. También se analizan las ventajas de las redes de transformadores para mejorar la escalabilidad y reducir la competencia, junto con la introducción de redes de transformadores como GPT, BERT y XLNet, que han demostrado un rendimiento impresionante en precisión y velocidad, lo que genera dudas sobre el futuro de las redes neuronales recurrentes.
CS480/680 Clase 20: Codificadores automáticos
CS480/680 Clase 20: Codificadores automáticos
Los codificadores automáticos se refieren a una familia de redes estrechamente relacionadas con los codificadores-decodificadores, con la diferencia de que los codificadores automáticos toman una entrada y producen la misma salida. Son importantes para la compresión, la eliminación de ruido, la obtención de una representación dispersa y la generación de datos. Los codificadores automáticos lineales logran la compresión mediante el mapeo de vectores de alta dimensión a representaciones más pequeñas, al tiempo que garantizan que no se pierda información, y utilizan matrices de peso para calcular una transformación lineal desde la entrada hasta la representación comprimida y viceversa. Además, los codificadores automáticos profundos permiten mapeos sofisticados, mientras que los codificadores automáticos probabilísticos producen distribuciones condicionales sobre la representación y entrada intermedias, que pueden usarse para la generación de datos. El uso de funciones no lineales por parte de los codificadores automáticos aprovecha la variedad no lineal, una proyección en un espacio dimensional más bajo que captura la dimensionalidad intrínseca de los datos, lo que lleva a una compresión sin pérdidas de la entrada.
CS480/680 Clase 21: Redes generativas (autocodificadores variacionales y GAN)
CS480/680 Clase 21: Redes generativas (autocodificadores variacionales y GAN)
Esta conferencia se centra en las redes generativas, que permiten la producción de datos como salida a través de redes como codificadores automáticos variacionales (VAEs) y redes antagónicas generativas (GAN). Los VAE usan un codificador para mapear datos del espacio original a un nuevo espacio y luego un decodificador para recuperar el espacio original. El disertante explica el concepto detrás de VAE y los desafíos con el cálculo de la integral de las distribuciones necesarias en la capacitación. Las GAN constan de dos redes, un generador y un discriminador, donde la red del generador crea nuevos puntos de datos y la red del discriminador trata de distinguir entre los generados y los reales. Se discuten los desafíos en la implementación de GAN, incluido garantizar un equilibrio entre las fortalezas de las redes y lograr la convergencia global. La lección finaliza con ejemplos de imágenes generadas y una vista previa de la próxima lección.
CS480/680 Clase 22: Aprendizaje de conjunto (empaquetado y refuerzo)
CS480/680 Clase 22: Aprendizaje de conjunto (empaquetado y refuerzo)
La conferencia analiza el aprendizaje conjunto, donde se combinan varios algoritmos para mejorar los resultados del aprendizaje. Las dos técnicas principales revisadas son embolsado y potenciado, y el disertante enfatiza la importancia de combinar hipótesis para obtener una hipótesis más rica. La conferencia desglosa el proceso de votación por mayoría ponderada y su probabilidad de error, así como también cómo funciona el impulso para mejorar la precisión de la clasificación. El disertante también cubre las ventajas del impulso y el aprendizaje en conjunto, destacando la aplicabilidad del aprendizaje en conjunto a muchos tipos de problemas. Finalmente, el video sigue el ejemplo del desafío de Netflix para demostrar el uso del aprendizaje conjunto en competencias de ciencia de datos.
En esta conferencia sobre el aprendizaje conjunto, el orador enfatiza el valor de combinar hipótesis de diferentes modelos para obtener un aumento en la precisión, un enfoque que puede ser particularmente útil cuando se comienza con soluciones bastante buenas. Discute la importancia de tomar una combinación ponderada de predicciones, señalando que se debe tener cuidado ya que el promedio de dos hipótesis a veces podría ser peor que las hipótesis individuales por sí solas. El ponente también explica que puede ser necesaria la normalización de pesos, dependiendo de si la tarea es de clasificación o de regresión.
CS480/680 Lecture 23: Normalizing flows (Priyank Jaini)
CS480/680 Lecture 23: Normalizing flows (Priyank Jaini)
In this lecture, Priyank Jaini discusses normalizing flows as a method for density estimation and introduces how they differ from other generative models, such as GANs and VAEs. Jaini explains the concept of conservation of probability mass and how it is used to derive the change of variables formula in normalizing flows. He further explains the process of building the triangular structure in normalizing flows by using families of transformations and the concept of permutation matrices. Jaini also introduces the concept of sum of squares (SOS) flows, which use higher order polynomials and can capture any target density, making them universal. Lastly, Jaini discusses the latent space and its benefits in flow-based methods for image generation and asks the audience to reflect on the potential drawbacks of flow-based models.
In this lecture on normalizing flows by Priyank Jaini, he discusses the challenges of capturing high-dimensional transformations with a large number of parameters. Normalizing flows require both dimensions to be the same to achieve an exact representation, unlike GANs which use bottlenecks to overcome such issues. Jaini highlights that learning the associated parameters with high-dimensional datasets in normalizing flows experiments can be difficult. He also addresses questions about how normalizing flows can capture multimodal distributions and offers a code for implementing linear affine transformations.
CS480/680 Clase 24: Aumento de gradiente, embolsado, bosques de decisión
CS480/680 Clase 24: Aumento de gradiente, embolsado, bosques de decisión
Esta conferencia cubre los bosques de decisión, embolsado y aumento de gradientes en el aprendizaje automático. El aumento de gradiente implica agregar nuevos predictores basados en el gradiente negativo de la función de pérdida al predictor anterior, lo que lleva a una mayor precisión en las tareas de regresión. La conferencia también explora cómo prevenir el sobreajuste y optimizar el rendimiento mediante la regularización y la detención temprana de los procesos de entrenamiento. Además, la conferencia cubre el embolsado, que implica submuestrear y combinar diferentes alumnos base para obtener una predicción final. También se analiza el uso de árboles de decisión como estudiantes base y la creación de bosques aleatorios, y se proporciona un ejemplo de la vida real de Microsoft Kinect que usa bosques aleatorios para el reconocimiento de movimiento. Se analizan los beneficios de los métodos de conjunto para la computación paralela y se enfatiza la importancia de comprender las actualizaciones de peso en los sistemas de aprendizaje automático. Esta conferencia cubre los problemas potenciales con el promedio de pesos al combinar predictores dentro de redes neuronales o modelos ocultos de Markov, recomendando en su lugar la combinación de predicciones a través de un voto mayoritario o un método de promedio. El profesor también sugiere varios cursos relacionados disponibles en la Universidad de Waterloo, varios cursos de posgrado en optimización y álgebra lineal, y un programa de ciencia de datos de pregrado centrado en IA, aprendizaje automático, sistemas de datos, estadísticas y temas de optimización. La conferencia enfatiza la importancia de los enfoques algorítmicos sobre la superposición con las estadísticas y la especialización en temas de ciencia de datos en comparación con los títulos generales de informática.
¿Debemos temerle a la inteligencia artificial? con Emad Mostaque, Alexandr Wang y Andrew Ng | 39
¿Debemos temerle a la inteligencia artificial? con Emad Mostaque, Alexandr Wang y Andrew Ng | 39
Los invitados en este video de YouTube discuten varios aspectos de la inteligencia artificial (IA), incluidos sus peligros potenciales, la disrupción en varias industrias y la importancia de volver a capacitar a los trabajadores para mantenerse relevantes. Los panelistas también debaten la usabilidad de las herramientas de IA, la implementación de IA en el cuidado de la salud, la estandarización en los sistemas de distribución de información, el potencial de creación de riqueza en IA y el uso de modelos de lenguaje en el cuidado de la salud y la educación. Además, enfatizaron la necesidad de un despliegue responsable de modelos de IA, transparencia y consideraciones éticas en la gobernanza. Por último, los panelistas responden brevemente algunas preguntas de la audiencia sobre temas como la privacidad en la IA para la atención médica y la educación.
El “padrino de la IA” Geoffrey Hinton advierte sobre la “amenaza existencial” de la IA | Amanpour y Compañía
El “padrino de la IA” Geoffrey Hinton advierte sobre la “amenaza existencial” de la IA | Amanpour y Compañía
Geoffrey Hinton, reconocido como el "Padrino de la IA", profundiza en las implicaciones de las inteligencias digitales que avanzan rápidamente y su potencial para superar las capacidades de aprendizaje humano. Expresa su preocupación por la amenaza existencial que representan estos sistemas de IA y advierte que pueden superar al cerebro humano en varios aspectos. A pesar de tener una capacidad de almacenamiento significativamente menor que el cerebro, las inteligencias digitales poseen una gran cantidad de conocimiento de sentido común, que supera miles de veces al de los humanos. Además, exhiben habilidades de aprendizaje y comunicación más rápidas, utilizando algoritmos superiores en comparación con el cerebro.
Hinton comparte un descubrimiento intrigante que hizo usando el sistema Palm de Google, donde la IA pudo explicar por qué las bromas eran divertidas, lo que sugiere una comprensión más profunda de ciertos conceptos en comparación con los humanos. Esto destaca su notable capacidad para formar conexiones y adquirir información. Él enfatiza que la intuición y los prejuicios humanos están integrados en nuestra actividad neuronal, lo que nos permite atribuir cualidades de género a los animales. Sin embargo, estos procesos de pensamiento también arrojan luz sobre las posibles amenazas que plantea la IA en el futuro.
Al abordar las preocupaciones sobre la sensibilidad de la IA, Hinton reconoce la ambigüedad que rodea su definición y la incertidumbre que rodea su desarrollo. Plantea varios desafíos que presenta AI, incluido el desplazamiento laboral, la dificultad de discernir la verdad y el potencial para exacerbar la desigualdad socioeconómica. Para mitigar estos riesgos, Hinton propone implementar regulaciones estrictas similares a las que rigen el dinero falso, criminalizando la producción de videos e imágenes falsos generados por IA.
Destacando la importancia de la colaboración internacional, Hinton enfatiza que los chinos, los estadounidenses y los europeos comparten un interés personal en prevenir el surgimiento de una IA incontrolable. Reconoce el enfoque responsable de Google para el desarrollo de IA, pero enfatiza la necesidad de una amplia experimentación para permitir que los investigadores mantengan el control sobre estos sistemas inteligentes.
Si bien reconoce las valiosas contribuciones de las inteligencias digitales en campos como la medicina, la predicción de desastres y la comprensión del cambio climático, Hinton no está de acuerdo con la idea de detener por completo el desarrollo de la IA. En cambio, aboga por asignar recursos para comprender y mitigar los posibles efectos negativos de la IA. Hinton reconoce las incertidumbres que rodean el desarrollo de la IA superinteligente y enfatiza la necesidad del esfuerzo humano colectivo para dar forma a un futuro optimizado para el mejoramiento de la sociedad.