Redes Neurais em IA e Deep Learning - página 15

 

Lección 9. Comprender los datos experimentales



9. Comprender los datos experimentales

En esta conferencia, el profesor Eric Grimson analiza el proceso de comprensión de datos experimentales, desde la recopilación de datos hasta el uso de modelos para hacer predicciones. Utiliza el ejemplo de un resorte para demostrar la importancia de medir la precisión al predecir relaciones lineales y explora diferentes métodos para medir la bondad del ajuste. Grimson introduce el concepto de regresión lineal y ajustes polinómicos, enfatizando que un valor alto de r-cuadrado no significa necesariamente que un polinomio de orden superior sea la mejor opción. Grimson usa código para optimizar en un espacio de 16 dimensiones, dejando la opción de usar o no este ajuste polinomial para la próxima lección.

  • 00:00:00 En esta sección de la conferencia, el profesor Eric Grimson analiza la importancia de comprender los datos experimentales en el mundo intensivo de datos de hoy. Él enfatiza que ya sea que sea científico, ingeniero, científico social o en cualquier otra profesión que se ocupe de los datos, necesita un software que pueda manipular los datos para extraer información útil. También habla sobre el proceso de realizar un experimento, obtener datos y usar modelos para hacer predicciones sobre los datos. Utilizando el ejemplo de un resorte, explica cómo recopilar datos sobre él, modelarlo y escribir software que pueda ayudar a analizar los datos.

  • 00:05:00 En esta sección, se introduce el concepto de la ley de elasticidad de Hooke. La ley establece que la fuerza requerida para comprimir o estirar un resorte se correlaciona linealmente con la distancia que se comprime o estira. El signo negativo denota que la fuerza se ejerce en la dirección opuesta a la compresión o estiramiento. La ley de Hooke se cumple para una amplia gama de resortes, pero tiene un límite de cuánto se puede estirar un resorte antes de que se rompa la ley. Se da el ejemplo de calcular la fuerza requerida para comprimir un resorte por un centímetro usando la ley de Hooke y la constante del resorte.

  • 00:10:00 En esta sección, el orador explica el proceso de determinación de la constante de resorte a través de mediciones de diferentes masas en un resorte. Idealmente, bastaría con una sola medición, pero debido a que las masas pueden no ser confiables y los resortes pueden contener materiales imperfectos, se necesitan múltiples ensayos para producir un conjunto de mediciones con una relación lineal que se pueda graficar para extraer la constante del resorte. El orador demuestra el uso de una función de matriz para escalar todos los valores de manera uniforme antes de graficar los puntos de datos. La relación lineal ideal permitiría a los investigadores calibrar microscopios de fuerza atómica y medir la fuerza en estructuras biológicas.

  • 00:15:00 En esta sección, el orador analiza cómo ajustar una línea a datos experimentales y medir la distancia entre la línea y los puntos medidos. Explican que se necesita una función objetivo para determinar qué tan bien se ajusta la línea, lo cual se hace encontrando la línea que minimiza la función objetivo. El orador también considera varias formas de medir la distancia, como el desplazamiento a lo largo del eje x, el desplazamiento vertical o la distancia al punto más cercano de la línea. En última instancia, eligen el desplazamiento vertical, ya que mide el valor dependiente que se predice dado un nuevo valor independiente.

  • 00:20:00 En esta sección, Eric Grimson explica cómo medir la precisión de una línea predicha usando el método de mínimos cuadrados. El método consiste en encontrar la diferencia entre los valores y observados y pronosticados, elevarlos al cuadrado para eliminar el signo y luego sumar estas diferencias al cuadrado para todos los valores observados. Esta suma proporciona una medida de cómo la línea se ajusta a los valores observados. Al minimizar la diferencia de la suma al cuadrado, se puede encontrar la línea que mejor se ajusta. Además, Grimson explica cómo encontrar la curva que mejor se ajusta suponiendo que el modelo de la curva predicha es un polinomio y usando la técnica de regresión lineal para encontrar el polinomio de grado uno o grado dos que mejor se ajusta a los datos.

  • 00:25:00 En esta sección, se introduce el concepto de regresión lineal como método para encontrar el punto más bajo en una superficie que se puede representar con todas las líneas posibles en un espacio bidimensional. La regresión lineal se usa para encontrar la mejor línea de ajuste comenzando en algún punto y caminando cuesta abajo a lo largo del gradiente una cierta distancia, midiendo el nuevo gradiente y repitiendo hasta alcanzar el punto más bajo. El algoritmo para hacer esto es muy similar al método de Newton. La sección también cubre cómo usar polyFit, una función integrada de PyLab, para encontrar los coeficientes de un polinomio con un grado dado que proporciona el mejor ajuste de mínimos cuadrados.

  • 00:30:00 En esta sección, el presentador demuestra cómo usar Python para ajustar una línea a los datos y cómo cambiar el orden del polinomio que se usa. Explican que cuanto mayor sea el orden del polinomio utilizado, más cercano será el ajuste a los datos. El presentador proporciona un ejemplo visual de un conjunto de datos donde ajustar una línea no funciona y ajustar una línea cuadrática es un mejor ajuste. También explican cómo usar la función polyval para adaptarse a cualquier polinomio de orden y devolver una matriz de valores predichos, lo que demuestra la naturaleza abstracta del código.

  • 00:35:00 En esta sección, el orador analiza cómo medir la bondad de ajuste de los datos experimentales. Para comparar diferentes modelos, sugiere medir el error cuadrático promedio, ya que este enfoque es útil para comparar dos modelos. Sin embargo, este método tiene un problema porque no proporciona una forma definitiva de saber si un ajuste es realmente mejor que otro. Para abordar este problema, el orador recomienda usar el coeficiente de determinación (r-cuadrado), que es independiente de la escala y puede decir qué tan cerca está un ajuste de ser perfecto. Proporciona una fórmula para calcular r-cuadrado que implica medir la diferencia entre los valores observados y predichos y el error medio.

  • 00:40:00 En esta sección, el ponente explica cómo calcular la varianza y el valor r-cuadrado para evaluar la precisión de un modelo. La varianza se puede obtener dividiendo la suma de los errores al cuadrado por el número de muestras. El valor r-cuadrado indica qué parte de la variabilidad de los datos se tiene en cuenta en el modelo, y oscila entre cero y uno. Un r-cuadrado de uno significa que el modelo explica toda la variabilidad, mientras que un r-cuadrado de cero significa que no hay relación entre el modelo y los datos. Luego, el orador presenta dos funciones, genFits y testFits, que generan y prueban modelos con diferentes grados de complejidad y devuelven los valores de r-cuadrado correspondientes. Estas funciones pueden ayudar a determinar el mejor ajuste para un conjunto de datos.

  • 00:45:00 En esta sección, el instructor ejecuta código con ajustes polinómicos cuadráticos, cuárticos, de orden 8 y de orden 16 para determinar el mejor ajuste para los datos. Explican que usar el tipo de código PyLab les permite optimizar en un espacio de 16 dimensiones y usar la regresión lineal para encontrar la mejor solución. Aunque el polinomio de orden 16 hace un trabajo excelente y tiene un valor de r cuadrado de casi el 97 %, el instructor advierte que un valor alto de r cuadrado no significa necesariamente que usar un polinomio de orden 16 sea la mejor opción. Dejan la decisión de usarlo o no para la próxima lección.
9. Understanding Experimental Data
9. Understanding Experimental Data
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonPr...
 

Lección 10. Comprender los datos experimentales (continuación)



10. Comprender los datos experimentales (continuación)

En esta sección del video, el presentador enfatiza la importancia de encontrar el modelo correcto para ajustar los datos experimentales, evitando al mismo tiempo el sobreajuste. Se analizan varios métodos, como el uso de la validación cruzada para determinar el equilibrio adecuado entre la complejidad del modelo y la eficacia en la predicción de nuevos datos. El orador brinda ejemplos de modelos de ajuste de diferentes órdenes a datos experimentales y demuestra los efectos del sobreajuste al agregar ruido a los conjuntos de datos. El valor R-cuadrado también se presenta como una herramienta para determinar qué tan bien se ajusta un modelo a los datos. En general, se destaca la importancia de equilibrar la complejidad y la eficacia del modelo para predecir nuevos datos.

  • 00:00:00 En esta sección, el instructor les recuerda a los estudiantes que anteriormente estaban discutiendo el concepto de ajustar modelos a datos experimentales para comprender los datos. El objetivo es tener un modelo que explique los fenómenos subyacentes a los datos y pueda hacer predicciones sobre el comportamiento en nuevos entornos. Sin embargo, dado que los datos siempre tienen ruido, es necesario tener en cuenta la incertidumbre experimental al ajustar el modelo. El instructor recapitula el uso de expresiones polinómicas, específicamente la regresión lineal, para encontrar coeficientes que minimicen las diferencias entre los datos observados y pronosticados.

  • 00:05:00 En esta sección, se explora en detalle el concepto de regresión lineal. La idea detrás de la regresión lineal es representar todas las líneas posibles en un espacio que tiene un acceso con valores a y el otro acceso con valores B, donde el valor o la altura de la superficie es el valor de esa función objetivo en cada punto. La idea es comenzar en algún punto de esa superficie y caminar cuesta abajo hasta llegar al fondo, donde siempre habrá un punto inferior, y una vez que se alcance ese punto, el valor de a y B dará la mejor línea. La sección concluye con una discusión sobre la determinación del coeficiente R al cuadrado, que es un valor independiente de la escala entre 0 y 1 que mide qué tan bien se ajusta un modelo a los datos.

  • 00:10:00 En esta sección, el orador analiza la importancia del valor R-cuadrado en el ajuste de modelos a datos experimentales. El valor R-cuadrado indica qué tan bien se ajusta el modelo a los datos, con un valor de 1 que indica un ajuste perfecto y un valor cercano a 0 que indica un ajuste deficiente. Si bien un modelo de orden superior puede ajustarse mejor a los datos, no es necesariamente el mejor modelo para explicar los fenómenos o hacer predicciones. El orador también explica cómo generó los datos para su ejemplo usando una función parabólica con ruido agregado.

  • 00:15:00 resumen. En esta sección, el orador analiza cómo probar la eficacia de un modelo mediante la validación o la validación cruzada. Generan datos a partir de un arco parabólico con ruido agregado y ajustan modelos para los grados 2, 4, 8 y 16 utilizando dos conjuntos de datos diferentes. El modelo que mejor se ajusta sigue siendo el de orden 16, pero el enigma es por qué un polinomio de orden 16 es el que mejor se ajusta cuando los datos se generaron a partir de un polinomio de grado 2. El orador explica que un pequeño error de entrenamiento es necesario pero no suficiente para un gran modelo y que la validación o validación cruzada es necesaria para ver qué tan bien se desempeña el modelo en diferentes datos generados a partir del mismo proceso.

  • 00:20:00 En esta sección, el orador analiza el uso de datos experimentales y cómo ajustar un modelo a ellos. También exploran la importancia de probar modelos en diferentes conjuntos de datos, así como el potencial de sobreajuste cuando se usan demasiados grados de libertad en un modelo. A través de su ejemplo, muestran que los modelos de orden bajo (por ejemplo, orden 2 o 4) en realidad pueden ser más efectivos para predecir el comportamiento que los modelos de orden alto (por ejemplo, orden 16) y que es importante probar los modelos en múltiples conjuntos de datos para garantizar que no sean demasiado complejos.

  • 00:25:00 En esta sección, el orador advierte sobre los peligros del ajuste excesivo a los datos, donde un modelo está diseñado para ajustarse a los datos de entrenamiento tan perfectamente que no puede ajustarse a nuevos conjuntos de datos. Explica cómo utilizar la validación para detectar el sobreajuste y por qué en algunos casos no son necesarios órdenes más altos de variables de entrada. Demuestra un ejemplo de cómo ajustar un modelo cuadrático a una línea y muestra que el sistema dice que no al coeficiente del término más alto porque comenzará a ajustar el ruido, lo que conducirá a un ajuste menos efectivo. El ejemplo del hablante ajusta una cuadrática a una línea y muestra cómo el modelo funciona perfectamente hasta que se agrega un punto que hace que el sistema ajuste perfectamente el ruido y, por lo tanto, prediga efectivamente nuevos valores.

  • 00:30:00 En esta sección, el orador presenta el concepto de sobreajuste y demuestra sus efectos agregando una pequeña cantidad de ruido a un conjunto de datos y ajustando un modelo cuadrático y de primer grado. Se muestra que el modelo cuadrático no funciona bien con el ruido añadido, mientras que el modelo de primer grado es más resistente a él. El orador enfatiza que encontrar el equilibrio correcto entre un modelo demasiado complejo y un modelo insuficientemente complejo es crucial para predecir los resultados con precisión. La sección concluye con un método sugerido para encontrar el modelo correcto.

  • 00:35:00 En esta sección, el video analiza cómo determinar el mejor modelo para un conjunto de datos dado, particularmente en los casos en que no existe una teoría para guiar la elección. Un enfoque consiste en aumentar el orden del modelo hasta que haga un buen trabajo en la predicción de nuevos datos, pero sin sobreajustar los datos de entrenamiento originales. Como ejemplo, el video analiza cómo se aplica la ley de Hooke para estirar un resorte y muestra que se necesitan diferentes modelos lineales para diferentes segmentos de los datos, lo que destaca la importancia de segmentar los datos de manera adecuada. La validación cruzada, incluida la validación de dejar uno fuera y la validación de K-fold, también puede ayudar a guiar la elección de la complejidad del modelo cuando se trata de conjuntos de datos más grandes.

  • 00:40:00 En esta sección, el orador explica cómo usar la validación cruzada para determinar el mejor modelo para predecir la temperatura máxima diaria promedio en los EE. UU. durante un período de 55 años. Utilizan muestreo aleatorio repetido para seleccionar muestras aleatorias del conjunto de datos, entrenar un modelo en el conjunto de entrenamiento y probarlo en el conjunto de prueba. También calculan las medias anuales de la temperatura alta para graficarla y crear modelos con dimensiones lineales, cuadráticas, cúbicas y cuárticas, donde entrenan con la mitad de los datos, prueban con la otra mitad y registran el coeficiente de determinación para obtener un promedio. Informan los valores medios para cada dimensionalidad.

  • 00:45:00 En esta sección, el presentador demuestra cómo dividir aleatoriamente el conjunto de datos en conjuntos de entrenamiento y prueba utilizando un método de muestra de puntos aleatorios. Luego ejecuta un ciclo en el que establece diferentes conjuntos de entrenamiento y prueba y luego ajusta cada dimensión usando un ajuste polinomial. Luego, el modelo se puede usar para predecir los valores del conjunto de prueba y compararlos con los valores reales, calculando el valor R-cuadrado y sumándolo. Concluye que es necesario ejecutar varios ensayos para obtener estadísticas sobre esos ensayos, así como estadísticas dentro de cada juicio. Esto les permite seleccionar el modelo más simple posible que represente los datos.

  • 00:50:00 En esta sección, el orador analiza la complejidad de los modelos que pueden predecir efectivamente nuevos datos basados en datos experimentales. Esta complejidad puede provenir de la teoría o de la validación cruzada para determinar el modelo más simple que aún hace un buen trabajo al predecir el comportamiento a partir de los datos.
10. Understanding Experimental Data (cont.)
10. Understanding Experimental Data (cont.)
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonPr...
 

Lección 11. Introducción al Aprendizaje Automático



11. Introducción al aprendizaje automático

El video analiza el concepto de aprendizaje automático, cómo funciona y dos formas comunes de hacerlo: aprendizaje supervisado y no supervisado. Luego pasa a mostrar un ejemplo de aprendizaje supervisado: entrenar a una máquina para predecir la posición de los nuevos jugadores de fútbol en función de su altura y peso.

  • 00:00:00 Este resumen de 1 párrafo pretende brindar una descripción general del video, Aprendizaje automático. Comienza presentando la idea del aprendizaje automático y sus diversas aplicaciones, antes de analizar los dos métodos principales de aprendizaje automático: clasificación y agrupación. Luego, el video pasa a presentar los conceptos básicos de la regresión lineal, antes de analizar el tema del aprendizaje automático con más detalle. La última sección del video se enfoca en presentar los conceptos de aprendizaje automático a los estudiantes de una manera más concisa.

  • 00:05:00 El aprendizaje automático es el proceso de aprendizaje de una computadora sin ser programado explícitamente. En esta lección, analizamos algunos de los diferentes tipos de algoritmos de aprendizaje automático y cómo funcionan. También destacamos algunos ejemplos de dónde se está utilizando actualmente el aprendizaje automático.

  • 00:10:00 Este video analiza la idea del aprendizaje automático, cómo funciona y dos formas comunes de hacerlo: aprendizaje supervisado y no supervisado. Luego pasa a mostrar un ejemplo de aprendizaje supervisado: entrenar a una máquina para predecir la posición de los nuevos jugadores de fútbol en función de su altura y peso.

  • 00:15:00 En este video, se demuestra un algoritmo de aprendizaje automático que se puede usar para crear grupos de datos basados en la distancia. El algoritmo funciona seleccionando dos ejemplos como ejemplares, agrupando todos los demás ejemplos simplemente diciendo que lo coloquen en el grupo al que está más cerca de ese ejemplo y luego encontrando el elemento mediano de ese grupo.

  • 00:20:00 El aprendizaje automático es un proceso de aprender a identificar patrones en los datos. El proceso comienza entrenando un modelo de aprendizaje automático en datos etiquetados y luego usando ese modelo para identificar patrones en datos no etiquetados. Hay dos formas principales de hacer esto: usando datos etiquetados y usando datos no etiquetados. En el primer caso, el modelo de aprendizaje automático es capaz de identificar patrones en los datos que corresponden a las etiquetas que le fueron asignadas. En el segundo caso, el modelo de aprendizaje automático puede identificar patrones en los datos que corresponden a características seleccionadas por el usuario.

  • 00:25:00 Este video analiza el concepto de ingeniería de características, que es el proceso de determinar qué características medir y cómo ponderarlas para crear un modelo que sea lo más preciso posible. El ejemplo utilizado es el etiquetado de reptiles, y si bien es fácil etiquetar un solo ejemplo, se vuelve más difícil a medida que aumenta el número de ejemplos. Luego, el video continúa discutiendo el concepto de selección de características, que es el proceso de elegir qué características mantener y cuáles descartar para crear un modelo que sea lo más preciso posible. El video termina con un ejemplo de etiquetado de pollos, que no se ajusta al modelo de reptiles, pero sí se ajusta al modelo de pollo.

  • 00:30:00 El video proporciona una introducción al aprendizaje automático y sus principios. Cubre la importancia de diseñar un sistema que nunca etiquetará falsamente ningún dato como algo que no es, utilizando el ejemplo de un juego en el que dos jugadores intentan determinar la diferencia entre ellos. Introduce la métrica de Minkowski, que es una forma de medir la distancia entre vectores.

  • 00:35:00 Este video presenta la distancia euclidiana, una medida de distancia estándar en el plano, y la distancia de Manhattan, una métrica utilizada para comparar distancias entre objetos con diferentes características. La distancia euclidiana se basa en la raíz cuadrada de dos, mientras que la distancia de Manhattan se basa en la distancia entre los puntos de una cuadrícula. En algunos casos, como cuando se compara el número de patas de diferentes criaturas, la diferencia de características entre los objetos puede ser más importante que la distancia entre los mismos objetos. La ingeniería de características (elegir qué características medir y cómo ponderarlas) es importante en el aprendizaje automático.

  • 00:40:00 Este video cubre la importancia de las escalas y cómo pueden afectar el funcionamiento de un algoritmo de aprendizaje automático. Discute cómo se pueden usar los pesos de diferentes maneras y cómo medir la distancia entre los ejemplos. También analiza cómo agrupar datos utilizando una serie de métodos y cómo elegir el número correcto de agrupaciones.

  • 00:45:00 Este video presenta el concepto de aprendizaje automático y demuestra cómo ajustar una curva a los datos para separar dos grupos. También proporciona un ejemplo de cómo evaluar un modelo de aprendizaje automático.

  • 00:50:00 Este video analiza el equilibrio entre la sensibilidad (cuántas cosas se etiquetaron correctamente) y la especificidad (la precisión con la que las etiquetas identificaron los elementos deseados). El profesor Guttag demuestra una técnica llamada ROC (Receiver Operator Curves), que ayuda a que esta compensación sea más fácil de entender.
11. Introduction to Machine Learning
11. Introduction to Machine Learning
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonIn...
 

Lección 12. Agrupación




12. Agrupación

Este video revisa el concepto de agrupar puntos de datos en grupos. Explica cómo realizar el agrupamiento utilizando el algoritmo k-means y cómo optimizar el algoritmo para la velocidad. También analiza cómo usar la agrupación en clústeres para diagnosticar problemas con los datos.

  • 00:00:00 El objetivo de este video es repasar los conceptos de variabilidad y agrupamiento. El video explica que la variabilidad es la suma de la distancia entre la media de un grupo y cada ejemplo en el grupo, y que el agrupamiento es el problema de optimización de agrupar un conjunto de ejemplos en un solo grupo.

  • 00:05:00 La agrupación jerárquica es un método para agrupar elementos en un conjunto de datos. El algoritmo comienza asignando cada elemento a su propio grupo y luego encuentra los dos grupos más similares. Si quedan menos de cinco grupos, el algoritmo fusiona los dos grupos más cercanos en un solo grupo.

  • 00:10:00 El video analiza diferentes métricas de agrupación y explica cómo cada una afecta los resultados finales de la agrupación. Por ejemplo, el enlace simple se usa para unir ciudades que están más cerca entre sí, mientras que el enlace completo se usa para unir ciudades que están más alejadas entre sí.

  • 00:15:00 El video explica cómo funciona el agrupamiento, y el algoritmo más utilizado es k-means. Es rápido y eficiente, pero se puede optimizar para hacerlo aún más rápido.

  • 00:20:00 En este video, el autor explica cómo agrupar objetos seleccionando aleatoriamente K centroides y asignando puntos a esos centroides. El autor también analiza la posible desventaja de elegir K incorrectamente. Finalmente, el autor recomienda usar un buen algoritmo de k-medias para encontrar la mejor K.

  • 00:25:00 En este video, el autor explica cómo realizar un agrupamiento jerárquico y k-medias en un subconjunto de datos. También analiza las debilidades del algoritmo y cómo solucionarlas.

  • 00:30:00 Este video explica cómo agrupar datos usando el algoritmo k-means. Los datos se dividen en grupos y se calculan los centroides de cada grupo.

  • 00:35:00 En esta conferencia, el profesor explica cómo agrupar datos usando escala y varianza. Muestra cómo escalar un vector de características y cómo calcular la media y la desviación estándar de los datos escalados.

  • 00:40:00 Este video explica cómo agrupar datos usando diferentes métodos, incluyendo escala Z, interpolación y k-medias. Los resultados muestran que los datos no están bien agrupados y que no hay una diferencia estadísticamente significativa entre los dos grupos.

  • 00:45:00 El video analiza cómo se puede usar el agrupamiento para diagnosticar problemas con los datos. En particular, demuestra cómo se puede usar el agrupamiento para encontrar grupos de pacientes con características similares, como aquellos que probablemente sean positivos. Luego, el video continúa mostrando cómo se puede usar la agrupación para encontrar diferentes valores de K, lo que aumenta la cantidad de grupos encontrados.

  • 00:50:00 En este video, los científicos de datos analizan la agrupación. Explican que la agrupación es el proceso de agrupar datos en grupos similares. Discuten cómo se pueden usar diferentes parámetros para crear diferentes clústeres y cómo el científico de datos debe pensar en los datos para crear los mejores clústeres.
12. Clustering
12. Clustering
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

Lección 13. Clasificación



13. Clasificación

Este video cubre varios métodos de clasificación, incluido el vecino más cercano, los K-vecinos más cercanos (KNN) y la regresión logística. El presentador demuestra KNN utilizando ejemplos de clasificación de animales y reconocimiento de escritura a mano y explica cómo evita datos ruidosos para proporcionar resultados más confiables. Presentan el conjunto de datos del Titanic y explican la importancia de encontrar el equilibrio adecuado cuando se utilizan métricas como la sensibilidad y la especificidad para evaluar el rendimiento de un modelo de clasificación. Además, el video analiza dos métodos de prueba, dejar uno fuera y submuestreo aleatorio repetido, y cómo aplicarlos a la clasificación KNN. Finalmente, el presentador explica por qué se prefiere la regresión logística a la regresión lineal para problemas de clasificación, destacando su capacidad para asignar diferentes pesos a diferentes variables y brindar información sobre las variables a través de pesos de características.

  • 00:00:00 En esta sección, el instructor comienza presentando el concepto de clasificación en el aprendizaje supervisado, que es el acto de predecir un valor discreto, a menudo denominado "etiqueta", asociado con un vector de características. Esto puede incluir predecir si alguien tendrá una reacción adversa a un medicamento o su calificación en un curso. Luego, el instructor proporciona un ejemplo utilizando una matriz de distancia y una representación binaria de animales para clasificarlos como reptiles o no. El enfoque más simple para la clasificación, conocido como vecino más cercano, implica recordar los datos de entrenamiento y seleccionar la etiqueta asociada con el ejemplo más cercano al predecir la etiqueta de un nuevo ejemplo.

  • 00:05:00 En esta sección, el presentador explica el método de clasificación K vecinos más cercanos (KNN), que evita datos ruidosos y es más confiable que solo el método del vecino más cercano. Demuestra KNN usando ejemplos como la clasificación de animales y el reconocimiento de escritura a mano. El método KNN toma el "voto" de varios vecinos más cercanos, generalmente un número impar, en lugar del más cercano, y esto reduce la influencia de los valores atípicos. El presentador concluye que, aunque no es infalible, KNN es un método de clasificación típicamente más confiable para datos con ruido.

  • 00:10:00 En esta sección, el video analiza el algoritmo de K-vecinos más cercanos y algunas de sus limitaciones. Si bien K-vecinos más cercanos es eficiente y fácil de entender, requiere almacenar todos los ejemplos de entrenamiento, lo que puede consumir mucha memoria, y la predicción de clasificaciones puede llevar mucho tiempo debido a la necesidad de comparar ejemplos. Además, si K es demasiado grande, el tamaño de la clase puede dominar el algoritmo, lo que genera errores de clasificación. El video sugiere el uso de validación cruzada para elegir el mejor valor para K y explica que es importante elegir K de tal manera que haya un claro ganador en el proceso de votación.

  • 00:15:00 En esta sección, el presentador presenta un nuevo ejemplo de clasificación: predecir qué pasajeros sobrevivirían al desastre del Titanic mediante el aprendizaje automático. El conjunto de datos incluye información sobre la clase, la edad, el género de los pasajeros y si sobrevivieron o no. Para evaluar el modelo de aprendizaje automático, el presentador explica por qué la precisión por sí sola no es una buena métrica cuando hay un desequilibrio de clases y presenta otras métricas como la sensibilidad, la especificidad, el valor predictivo positivo y el valor predictivo negativo. También explica la importancia de elegir el equilibrio correcto y cómo estas medidas brindan diferentes perspectivas.

  • 00:20:00 En esta sección, el orador analiza la importancia de la sensibilidad y la especificidad en los clasificadores y cómo probar un clasificador. La sensibilidad y la especificidad deben equilibrarse según la aplicación del clasificador. Por ejemplo, una prueba de cáncer requeriría más sensibilidad, mientras que una prueba para cirugía a corazón abierto requeriría más especificidad. Luego, el orador explica dos métodos para probar un clasificador: dejar uno fuera (usado para conjuntos de datos más pequeños) y submuestreo aleatorio repetido (usado para conjuntos de datos más grandes). Este último implica dividir aleatoriamente los datos en conjuntos para entrenamiento y prueba, y se introduce un parámetro llamado método de aprendizaje automático para comparar diferentes métodos como kN y regresión logística. Se muestra el código para estas pruebas y el orador enfatiza la importancia de probar un clasificador para validar su desempeño.

  • 00:25:00 En esta sección, el instructor analiza dos métodos de prueba, dejar uno fuera y muestreo aleatorio repetido, y muestra cómo aplicarlos a la clasificación KNN. El instructor también explica cómo usar la abstracción lambda, un truco de programación común en matemáticas, para convertir una función de cuatro argumentos en una función de dos argumentos. Se muestran los resultados de la clasificación KNN utilizando ambos métodos de prueba y no son significativamente diferentes, lo que indica que la precisión de los criterios de evaluación es consistente. La clasificación KNN también funcionó mejor que la predicción aleatoria.

  • 00:30:00 En esta sección, el orador analiza la regresión logística, que es un método común utilizado en el aprendizaje automático. A diferencia de la regresión lineal, que está diseñada para predecir un número real, la regresión logística predice la probabilidad de un determinado evento. Este método encuentra ponderaciones para cada característica, calcula para cada característica una ponderación que se usa para hacer predicciones y usa un proceso de optimización para calcular estas ponderaciones a partir de los datos de entrenamiento. La regresión logística usa la función de registro, de ahí su nombre, y el modelo lineal de aprendizaje SK es una biblioteca de Python que se usa para implementarlo.

  • 00:35:00 En esta sección, el orador explica cómo construir un modelo de regresión logística usando datos de entrenamiento y probarlo usando un conjunto de vectores de características. El modelo de regresión logística se crea utilizando la biblioteca SKLearn y, una vez que se han calculado los pesos de las variables, el modelo se puede utilizar para predecir las probabilidades de diferentes etiquetas en función de un vector de características dado. El orador también presenta la comprensión de listas, una forma versátil y eficiente de crear nuevas listas a partir de las existentes, que puede ser especialmente útil al crear conjuntos de vectores de características de prueba.

  • 00:40:00 En esta sección, el disertante analiza la comprensión de listas en Python y su conveniencia para ciertas tareas, pero advierte contra su mal uso. Avanzando, el orador explica su proceso al aplicar la regresión logística como modelo y cómo lo construyen y prueban utilizando los datos de prueba y entrenamiento. Luego definen LR, o regresión logística, y muestran cómo se puede aplicar el modelo con las etiquetas "sobrevivido" y "no sobrevivido". El ponente señala que la regresión logística es más rápida que la KNN, ya que una vez obtenidos los pesos, la evaluación del modelo es un proceso rápido.

  • 00:45:00 En esta sección, el instructor explica por qué se prefiere la regresión logística a la regresión lineal para problemas de clasificación. En primer lugar, se considera que la regresión logística es más sutil y puede asignar diferentes pesos a diferentes variables para un mejor rendimiento. En segundo lugar, proporciona información sobre las variables a través de pesos de características que se pueden imprimir como salida. Al observar los pesos, uno puede dar sentido a las variables utilizadas para la clasificación. Por ejemplo, en el modelo presentado, los pasajeros de cabina de primera clase tuvieron un efecto positivo en la supervivencia, mientras que la edad y ser hombre tuvieron efectos negativos. El instructor también recomienda tener cuidado al interpretar los pesos de las características, ya que las variables pueden estar correlacionadas.
 

Lección 14. Clasificación y Pecados Estadísticos



14. Clasificación y Pecados Estadísticos

Este video de YouTube analiza varios pecados estadísticos y de clasificación que pueden llevar a conclusiones incorrectas. Una conclusión clave es la importancia de comprender los conocimientos que se pueden obtener del estudio de los modelos de aprendizaje automático, ya que interpretar los pesos de las variables en la regresión logística puede ser engañoso, especialmente cuando las características están correlacionadas. El video también enfatiza la importancia de evaluar el desempeño de los clasificadores usando el área bajo la curva característica operativa del receptor (AUROC) y evitando la tentación de usar mal los números. Además, se destaca la importancia de escudriñar los datos y evitar el muestreo no representativo, ya que esto puede conducir a pecados estadísticos como basura adentro, basura afuera (GIGO) y sesgo de supervivencia.

  • 00:00:00 En esta sección del video, el instructor analiza la importancia de estudiar modelos de aprendizaje automático para obtener información sobre los sistemas y procesos que generaron los datos. Lo demuestra al examinar los pesos de diferentes variables en un modelo de regresión logística, que se utilizó para predecir las tasas de supervivencia del conjunto de datos del Titanic. Al observar los pesos relativos de diferentes variables, el instructor concluye que ser un pasajero masculino en tercera clase se asoció con una probabilidad mucho mayor de no sobrevivir al naufragio. Advierte contra confiar únicamente en modelos de aprendizaje automático para hacer predicciones sin comprender los conocimientos que se pueden obtener al estudiarlos.

  • 00:05:00 En esta sección, el orador explica los problemas con la interpretación de los pesos en la regresión logística, particularmente cuando las características están correlacionadas. Hay dos formas de usar la regresión logística, L1 y L2, siendo L2 la predeterminada en Python. L1 está diseñado para encontrar pesos y llevarlos a cero, lo que lo hace útil para evitar el sobreajuste en problemas de alta dimensión. Sin embargo, L1 llevará una variable a cero incluso si es importante pero está correlacionada con otra variable que tiene más peso. Por otro lado, L2 distribuye el peso entre todas las variables, haciendo que parezca que ninguna de ellas es muy importante, especialmente cuando están correlacionadas. Para ilustrar esto, el orador dio un ejemplo de las clases de cabina en el Titanic y discutió cómo la eliminación de una variable podría cambiar la interpretación de los resultados.

  • 00:10:00 En esta sección, el video explora el problema de sobreinterpretar los pesos cuando se trata de características correlacionadas. Al analizar algunos ejemplos, el video enfatiza que interpretar el signo de los pesos puede ser útil, mientras que interpretar los pesos mismos puede ser engañoso. Luego, el video aborda el parámetro P de la regresión logística y explica cómo los diferentes valores de P pueden afectar la precisión y la sensibilidad de las predicciones. El video concluye destacando que incluso si la precisión parece ser buena, podría haber problemas con la sensibilidad, lo que indica la necesidad de analizar los resultados exhaustivamente antes de sacar conclusiones significativas.

  • 00:15:00 En esta sección, el orador habla sobre la característica operativa del receptor (ROC) y cómo es una curva que nos permite observar todos los cortes posibles de un modelo para ver la forma de los resultados, donde el eje y presenta sensibilidad y el eje x muestra 1 menos especificidad. Mencionan la importancia del área bajo la curva (AUC) y cómo ayuda a comprender mejor el rendimiento de un modelo. El orador advierte que se eviten las esquinas de la curva que son altamente sensibles/inespecíficas o muy específicas/insensibles al elegir un punto de corte para un modelo, para evitar que el modelo tome malas decisiones y errores innecesarios.

  • 00:20:00 En esta sección, el disertante analiza el concepto de evaluar el desempeño de los clasificadores usando el área bajo la curva de operación del receptor (AUROC). Explican cómo la curva muestra la efectividad del clasificador en relación con un clasificador aleatorio y que cuanto más cerca está la curva de uno, mejor se desempeña el clasificador. El orador también señala que determinar la importancia estadística de la puntuación AUROC puede ser un desafío y depende de múltiples factores, incluida la cantidad de puntos de datos y la aplicación en cuestión. En última instancia, lo que importa es la utilidad de la puntuación AUROC, y debería ayudar a tomar decisiones prácticas.

  • 00:25:00 En esta sección, el orador analiza el concepto del área bajo la curva característica operativa del receptor (AUROC) y explica cómo se usa comúnmente en comparación con la especificidad. Explican que el truco de calcular el área bajo la curva se facilita mediante el uso de la curva cóncava que obtienen de la medición de especificidad, y esto ayuda a que las estadísticas sean fáciles de visualizar y comparar. Sin embargo, advierten que esta herramienta puede usarse con fines engañosos, y los estadísticos deben saber cómo evitar la tentación de hacer un mal uso de las cifras. Hacen hincapié en que los números en sí mismos no mienten, pero los mentirosos usan números para crear falsas impresiones. El orador ofrece un conjunto de pares XY donde explica que aunque estadísticamente los pares parecen ser iguales, pueden ser muy diferentes cuando se grafican.

  • 00:30:00 En esta sección, el orador analiza la importancia de no confundir las estadísticas con los datos reales y destaca el valor de visualizar los datos a través de diagramas y gráficos. Sin embargo, también advierte que se pueden crear imágenes engañosas de manera intencional o no, y enfatiza la necesidad de examinar las etiquetas y comprender el contexto de un gráfico antes de sacar conclusiones. El orador presenta dos ejemplos de gráficos visualmente engañosos, uno que involucra una comparación de calificaciones por género y el otro una comparación del número de personas que reciben asistencia social y tienen trabajos de tiempo completo.

  • 00:35:00 En esta sección, el orador analiza el pecado estadístico común de Garbage In, Garbage Out (GIGO). Brindan un ejemplo de la década de 1840 en el que los datos del censo se utilizaron para afirmar que la esclavitud era buena para los esclavos, afirmando que los esclavos liberados tenían más probabilidades de estar locos que los esclavos esclavizados. John Quincy Adams expuso los errores de esta afirmación y argumentó que se habían hecho tergiversaciones atroces. El orador enfatiza que la precisión de los datos es crucial, e incluso si hay errores, deben ser imparciales, independientes y distribuidos de manera idéntica para evitar que entre basura y salga basura.

  • 00:40:00 En esta sección, el orador advierte contra el análisis de datos erróneos que pueden ser peores que ningún análisis. A menudo, las personas realizan análisis estadísticos incorrectos con datos incorrectos, lo que lleva a conclusiones arriesgadas. El orador da el ejemplo del análisis defectuoso de los datos del censo del siglo XIX por parte de los abolicionistas. El análisis de errores no aleatorios en los datos llevó a conclusiones que no eran precisas. Luego, el orador cita cómo el sesgo de los sobrevivientes hizo que los aliados concluyeran algo incorrecto sobre sus aviones durante la Segunda Guerra Mundial. Analizaron los aviones que regresaron de los bombardeos y los puntos reforzados que sufrieron agujeros de bala por fuego antiaéreo, en lugar de aviones que fueron derribados. El orador explica que las técnicas estadísticas se basan en la suposición de que mediante el muestreo aleatorio de un subconjunto de la población, se pueden hacer afirmaciones matemáticas sobre toda la población. Cuando se utiliza el muestreo aleatorio, se pueden sacar conclusiones significativas.

  • 00:45:00 En esta sección, el orador analiza el muestreo no representativo, también conocido como muestreo por conveniencia, y su impacto en el análisis estadístico. Explica cómo las muestras de conveniencia no suelen ser aleatorias y, por lo tanto, sufren el sesgo de supervivencia, lo que puede sesgar los resultados de las encuestas de opinión y las evaluaciones de los cursos, entre otras cosas. Además, señala cómo el cálculo del error estándar, que supone muestras aleatorias e independientes, no puede sacar conclusiones fiables a partir de muestras de conveniencia, y cita las encuestas políticas como un ejemplo de la falta de fiabilidad del análisis estadístico. La conclusión clave es la importancia de comprender cómo se recopilaron y analizaron los datos, y si las suposiciones que subyacen al análisis son ciertas, para evitar caer presa de pecados estadísticos.
 

MIT 6.0002 Introducción al pensamiento computacional y la ciencia de datos, otoño de 2016. Conferencia 15. Pecados estadísticos y cierre



15. Pecados estadísticos y resumen

En este video, John Guttag analiza los tres tipos principales de pecados estadísticos y brinda un ejemplo de cómo cada uno puede llevar a conclusiones falsas. Insta a los estudiantes a ser conscientes del tipo de datos que están viendo y a usar un intervalo adecuado para asegurarse de que sus conclusiones sean precisas.

  • 00:00:00 John Guttag analiza los tres tipos principales de pecados estadísticos: cometer los pecados del eje y de comenzar en 0, truncar los datos para que parezcan correctos y confundir las fluctuaciones con las tendencias. También proporciona un ejemplo de un tema menos controvertido, fiebre y gripe, donde está claro que la temperatura no cambia cuando uno tiene gripe. Guttag insta a los estudiantes a ser conscientes del tipo de datos que están viendo y a usar un intervalo adecuado para asegurarse de que sus conclusiones sean precisas.

  • 00:05:00 En este video, el estadístico y profesor analiza los peligros de seleccionar datos, lo que puede llevar a conclusiones falsas. Sugiere que, para llegar a conclusiones sólidas, los científicos deben analizar los datos durante un período de tiempo apropiado.

  • 00:10:00 El orador señala que los números por sí mismos no siempre significan mucho, y que el contexto es importante al considerar las estadísticas. Habla de dos ejemplos de estadísticas donde el contexto es importante: la gripe porcina y la gripe estacional. También señala que cuando se habla de cambio porcentual, es importante conocer el denominador.

  • 00:15:00 Este video analiza los peligros de usar porcentajes para calcular cosas, como los grupos de cáncer. Muestra cómo las simulaciones matemáticas pueden dar una imagen más precisa de la probabilidad de algo y cómo los abogados pueden usar esta información en sus casos legales.

  • 00:20:00 Este video explica cómo el análisis estadístico puede ayudar a responder preguntas sobre si una determinada región tiene o no un alto número de casos de cáncer. El video también muestra cómo el abogado en cuestión realizó un análisis estadístico inadecuado, lo que llevó a conclusiones incorrectas.

  • 00:25:00 En este video, el instructor cubre varias falacias estadísticas, incluida la falacia del francotirador de Texas y la verificación de hipótesis múltiples. Advierte que el escepticismo y la negación son diferentes, y que al hacer inferencias a partir de los datos, se debe tener cuidado de no cometer errores.

  • 00:30:00 La conclusión principal de este video es que la programación se trata de resolver problemas usando bibliotecas y algoritmos. El video también enfatiza la importancia de pensar en términos de probabilidades y el uso de la aleatoriedad en la resolución de problemas.

  • 00:35:00 En este video, el profesor analiza los diferentes modelos estadísticos que los estudiantes pueden usar para analizar datos. Él enfatiza la importancia de comprender la confiabilidad de los resultados y brinda consejos sobre cómo presentar los datos de manera efectiva.

  • 00:40:00 Este video proporciona una breve historia de la informática y presenta el concepto de UROP (una pasantía de investigación). Explica que, aunque la informática puede no ser la especialización más popular en el campus, es un campo que vale la pena seguir. Finalmente, el video brinda algunos consejos finales sobre cómo tener éxito en la vida.
 

Curso intensivo de aprendizaje profundo para principiantes


Curso intensivo de aprendizaje profundo para principiantes

Este video proporciona un curso intensivo sobre aprendizaje profundo, centrándose en algoritmos de aprendizaje supervisado y no supervisado. Cubre los conceptos clave de cada enfoque, incluidos el modelo, el estado, la recompensa, la política y el valor. El principal inconveniente de los modelos de aprendizaje profundo es que pueden sobreajustarse a los datos de entrenamiento, lo que genera una generalización deficiente. Se analizan las técnicas para combatir el sobreajuste, incluido el abandono y el aumento de conjuntos de datos. Este curso introductorio sobre aprendizaje profundo proporciona una descripción general del tema, destacando la importancia de las redes neuronales y el abandono. También explica cómo se puede reducir el sobreajuste al comprender los conceptos básicos del aprendizaje profundo.

  • 00:00:00 En este video, Jason lleva a los espectadores a través de un curso intensivo de aprendizaje profundo, explicando qué es el aprendizaje profundo y su importancia. Continúa explicando cómo funciona el aprendizaje profundo, centrándose en sus principales ventajas sobre el aprendizaje automático tradicional: que puede aprender características y tareas directamente de los datos, sin necesidad de experiencia en el dominio o intervención humana. Finalmente, Jason cubre algunos de los éxitos recientes del aprendizaje profundo, incluida su capacidad para superar a los humanos en una variedad de tareas.

  • 00:05:00 Los modelos de aprendizaje profundo requieren mucha potencia computacional y datos, y no estaban disponibles hace algunas décadas. En tercer lugar, estos modelos se simplifican con la creciente popularidad del software de código abierto como TensorFlow y PyTorch. Las redes neuronales forman la base del aprendizaje profundo, un subcampo del aprendizaje automático donde los algoritmos se inspiran en la estructura del cerebro humano. Al igual que las neuronas forman el cerebro, los componentes básicos de una red neuronal también son neuronas. Las redes neuronales toman datos y se entrenan para reconocer patrones en estos datos y predecir salidas para un nuevo conjunto de datos similares. En el último paso antes de la propagación, una nueva red arroja una predicción. Si la predicción es correcta, la red usa una función de pérdida para cuantificar la desviación de la salida esperada. Si la predicción es incorrecta, la red utiliza la propagación hacia atrás para ajustar los pesos y sesgos.

  • 00:10:00 Este video explica cómo funciona el aprendizaje profundo, comenzando con la inicialización de la red. En la primera iteración, la red recibe un conjunto de datos de entrada. Luego, la red se entrena para hacer predicciones utilizando una función de pérdida. La propagación hacia atrás se usa luego para ajustar los pesos y sesgos en la red. Luego, la nueva red se entrena utilizando el descenso de gradiente hasta que pueda hacer predicciones para todo el conjunto de datos. Hay algunos inconvenientes en este enfoque, incluido el hecho de que los ajustes realizados en los pesos y sesgos no dependen de los datos de entrada.

  • 00:15:00 Las tres funciones de activación más comunes utilizadas en el aprendizaje profundo son sigmoid, tanh y relu. Estas funciones tienen diferentes ventajas y desventajas, pero al final, todas producen una red neuronal que no es lineal. El algoritmo de descenso de gradiente es capaz de manejar bien la escasez de activación, pero puede sufrir el "problema del valor de muerte".

  • 00:20:00 El aprendizaje profundo es un campo del aprendizaje automático que se ocupa del entrenamiento de redes neuronales artificiales. El curso intensivo comienza discutiendo qué es una función de activación y continúa explicando por qué las funciones de activación no lineales se usan en el aprendizaje profundo. A continuación, el curso intensivo analiza las funciones de pérdida y cómo se utilizan para entrenar la red. Finalmente, el curso intensivo habla sobre los optimizadores y cómo se utilizan para hacer que la red sea lo más precisa posible.

  • 00:25:00 El descenso de gradiente es un algoritmo usado para optimizar una función de pérdida dada. Comienza en un punto aleatorio y disminuye la pendiente de la función de pérdida hasta que alcanza un mínimo o un máximo. Es un optimizador popular y es rápido, robusto y flexible. El descenso de gradiente es iterativo y utiliza gradientes anteriores para calcular el siguiente paso.

  • 00:30:00 En este video, el autor describió la diferencia entre los parámetros del modelo (variables internas dentro de un modelo de aprendizaje automático) y los hiperparámetros (variables externas que no están dentro del modelo y cuyos valores no se pueden estimar a partir de los datos). Los hiperparámetros a menudo se denominan "parámetros que pueden confundir las cosas" y, por lo general, el profesional los configura manualmente. El descenso de gradiente y la propagación hacia atrás son dos procesos iterativos comunes que se utilizan en el aprendizaje profundo. El autor señala que no hay una "respuesta correcta" cuando se trata de la cantidad de épocas necesarias para entrenar un modelo de aprendizaje profundo, ya que diferentes conjuntos de datos requieren diferentes números de iteraciones. Finalmente, el autor ofrece algunos consejos sobre cómo usar el aprendizaje profundo de manera efectiva.

  • 00:35:00 Este video ofrece un curso intensivo sobre aprendizaje profundo, centrándose en el aprendizaje supervisado. Los principales conceptos cubiertos incluyen algoritmos de aprendizaje supervisado y sus propósitos, así como regresión lineal y no lineal.

  • 00:40:00 El principal objetivo del aprendizaje no supervisado es encontrar patrones y relaciones en los datos que un observador humano podría no captar. El aprendizaje no supervisado se puede dividir en dos tipos: agrupación y asociación. La agrupación en clústeres es la aplicación más simple y común del aprendizaje no supervisado y es el proceso de agrupar datos en diferentes clústeres. Las clases contienen puntos de datos que son lo más similares posible entre sí y lo más diferentes posible a los puntos de datos de otros clústeres. La agrupación ayuda a encontrar patrones subyacentes dentro de los datos que pueden no ser perceptibles a través de un observador humano. El agrupamiento jerárquico encuentra grupos mediante un sistema de jerarquías y cada punto de datos puede pertenecer a varios grupos. El agrupamiento jerárquico se puede organizar como un diagrama de árbol. Algunos de los algoritmos de agrupamiento más utilizados son k-means, expectativa y el análisis de conglomerados jerárquicos de aca. La asociación, por otro lado, intenta encontrar relaciones entre diferentes entidades. El ejemplo clásico de reglas de asociación es el análisis de la canasta de mercado. El aprendizaje no supervisado encuentra aplicaciones en casi todas partes, incluido airbnb, que ayuda a los anfitriones a encontrar estadías y experiencias y conecta a personas de todo el mundo. Esta aplicación utiliza algoritmos de aprendizaje no supervisados donde un cliente potencial consulta sus requisitos y airbnb aprende estos patrones y recomienda

  • 00:45:00 El curso intensivo de aprendizaje profundo para principiantes cubre los conceptos clave del aprendizaje por refuerzo, incluidos el modelo, el estado, la recompensa, la política y el valor. El principal inconveniente de los modelos de aprendizaje profundo es que pueden sobreajustarse a los datos de entrenamiento, lo que genera una generalización deficiente. Se analizan las técnicas para combatir el sobreajuste, incluido el abandono y el aumento de conjuntos de datos.

  • 00:50:00 Una red neuronal es un algoritmo de aprendizaje automático que se compone de varios nodos de procesamiento interconectados, o neuronas. Cada neurona recibe información de sus neuronas vecinas y puede producir una salida. Las redes neuronales se utilizan para modelar funciones complejas y se pueden entrenar utilizando varias arquitecturas diferentes.

  • 00:55:00 En este video, el Curso intensivo presenta el concepto de memoria secuencial, que las redes neuronales tradicionales luchan por modelar. Las redes neuronales recurrentes (RNns) son un tipo de nueva arquitectura de red que utiliza un bucle de retroalimentación en la capa oculta, lo que les permite modelar secuencias de datos con longitud de entrada variable.
  • 01:00:00 El video analiza cómo funcionan las redes neuronales recurrentes y cómo se puede resolver el problema de la memoria a corto plazo mediante el uso de dos variantes de la red: redes neuronales recurrentes cerradas y redes neuronales recurrentes de memoria a corto plazo.

  • 01:05:00 Los cinco pasos del aprendizaje profundo son la recopilación de datos, el preprocesamiento de datos, el modelado, la validación y la detección de errores. La calidad de los datos es importante, y los malos datos implican un mal modelo. No existe una talla única para todos cuando se trata de datos, pero la regla general es que la cantidad de datos que necesita para un modelo de buen rendimiento debe ser 10 veces la cantidad de parámetros en ese modelo.

  • 01:10:00 El video analiza la importancia del entrenamiento en un conjunto de datos confiable y la importancia de los conjuntos de validación. Continúa explicando la relación de división de validación de prueba de tren y proporciona ejemplos de cómo hacer una validación cruzada.

  • 01:15:00 El aprendizaje profundo es un proceso complejo que requiere una preparación cuidadosa de los datos antes de entrenar un modelo. Un paso en este proceso de preparación es lidiar con los datos que faltan. Hay un par de maneras de hacer esto, y ambas tienen ventajas y desventajas. La primera opción es eliminar las muestras con valores faltantes, pero esto puede ser riesgoso porque puede eliminar información relevante. La segunda opción es imputar los valores faltantes, pero esto puede llevar mucho tiempo y puede no ser adecuado en todos los casos. El escalado de características es otro paso importante en la preparación de datos para el aprendizaje profundo y ayuda a normalizar los datos, estandarizarlos y reducir los efectos de los valores atípicos. Una vez que se han preparado los datos, se introducen en una red para entrenar el modelo. Luego, el modelo se evalúa utilizando un conjunto de validación. Si el modelo es bueno, puede optimizarse aún más. Recuerde que la preparación de datos es un proceso complejo y lento, así que asegúrese de ver el video primero si no está seguro de algo.

  • 01:20:00 El aprendizaje profundo puede ser muy efectivo, pero también puede ser propenso al sobreajuste. Hay varias formas de evitar el sobreajuste, incluida la obtención de más datos, la reducción del tamaño del modelo y la implementación de la regularización del peso.

  • 01:25:00 Este curso de introducción al aprendizaje profundo proporciona una visión general del tema, destacando la importancia de las redes neuronales y el abandono. También explica cómo se puede reducir el sobreajuste al comprender los conceptos básicos del aprendizaje profundo.
 

Cómo funcionan las redes neuronales profundas - Curso completo para principiantes



Cómo funcionan las redes neuronales profundas - Curso completo para principiantes

00:00:00 - 01:00:00 El video "Cómo funcionan las redes neuronales profundas: curso completo para principiantes" ofrece una explicación completa de cómo funcionan las redes neuronales, desde ecuaciones básicas de regresión lineal hasta redes neuronales convolucionales complejas utilizadas en el reconocimiento de imágenes. El instructor usa ejemplos y ayudas visuales para explicar el funcionamiento de las redes neuronales, incluido cómo las capas de nodos realizan sumas y aplastamientos ponderados para producir resultados, el proceso de retropropagación para ajustar pesos y minimizar errores, y el concepto de redes neuronales convolucionales para reconocer patrones. en imágenes El video también cubre temas como funciones logísticas, perceptrones multicapa y el uso de múltiples funciones de salida para crear clasificadores.

01:00:00 - 02:00:00 El curso sobre cómo funcionan las redes neuronales profundas para principiantes cubre varios temas relacionados con el funcionamiento de las redes neuronales. El instructor del curso analiza la convolución, la agrupación y la normalización y cómo se apilan para formar una red neuronal profunda. La retropropagación también se explica como un proceso utilizado para ajustar los pesos de la red para la reducción de errores. El curso también cubre el uso de vectores, puertas, funciones de aplastamiento y redes neuronales recurrentes en la traducción de secuencia a secuencia. El instructor brinda ejemplos de cómo las redes LSTM predicen la siguiente palabra en una oración y cómo son útiles en los sistemas robóticos al identificar patrones a lo largo del tiempo. Finalmente, el video explica cómo se entrenan las redes neuronales usando descenso de gradiente con retropropagación para ajustar los pesos y reducir el error.

02:00:00 - 03:00:00 El video "Cómo funcionan las redes neuronales profundas: curso completo para principiantes" analiza el rendimiento de las redes neuronales en varios escenarios, comparándolo con la inteligencia a nivel humano. El disertante introduce una definición científica de inteligencia como la capacidad de hacer muchas cosas bien y compara el desempeño y la generalidad de las máquinas y los humanos en una escala logarítmica. El video cubre temas como las limitaciones de las redes neuronales convolucionales en la clasificación de imágenes, el éxito del aprendizaje profundo en los juegos de mesa y la traducción de idiomas, las limitaciones generales de los recomendadores y los autos autónomos, y la creciente complejidad de los robots humanoides. El video destaca el impresionante aumento de inteligencia, generalidad y rendimiento de AlphaZero y aboga por centrarse en la interacción física para crear algoritmos que puedan adaptarse a un conjunto más general de tareas, acercándonos a la inteligencia a nivel humano. Finalmente, el instructor explica el proceso de convolución, agrupación y normalización en redes neuronales convolucionales para reconocer patrones y hacer predicciones precisas.

03:00:00 - 03:50:00 Este video sobre cómo funcionan las redes neuronales profundas lleva a un principiante a través del proceso de categorización de imágenes mediante la construcción de neuronas y capas que reconocen patrones en los valores de brillo de las imágenes. El video cubre el proceso de optimización usando descenso de gradiente y diferentes métodos de optimización como algoritmos genéticos y recocido simulado. El instructor explica cómo minimizar el error y ajustar los pesos a través de la retropropagación y cómo optimizar los hiperparámetros en las redes neuronales convolucionales. Si bien hay muchas herramientas disponibles para crear redes neuronales, sigue siendo importante una comprensión profunda de la preparación de datos, la interpretación y la elección de hiperparámetros.

Parte 1

  • 00:00:00 En esta sección, el instructor brinda un ejemplo de cómo funcionaría una red neuronal si se le asigna la tarea de determinar automáticamente si una imagen en blanco y negro de cuatro píxeles es una imagen sólida completamente blanca o completamente oscura. una línea vertical, una línea diagonal o una línea horizontal. Explica que es complicado hacer esto con reglas simples sobre el brillo de los píxeles y, en cambio, una red neuronal comenzaría tomando todas las entradas y asignando un número a cada píxel según su brillo, siendo más uno todos los blanco y menos uno completamente negro. Luego, las conexiones ponderadas de las neuronas de entrada se suman y los valores se aplastan para garantizar que el valor de la neurona nunca se salga del rango de más uno a menos uno, lo que es útil para mantener los cálculos en la red neuronal acotados y estables.

  • 00:05:00 En esta sección, el video explica cómo funcionan las redes neuronales profundas y cómo opera cada capa. Las neuronas en una capa realizan una suma ponderada y aplastan el resultado, que luego se convierte en la entrada para la siguiente capa. A medida que las capas se hacen más profundas, los campos receptivos se vuelven más complejos y cubren todos los píxeles. El video también presenta el concepto de unidades lineales rectificadas, que reemplazan la función squash y tienen muy buenas propiedades de estabilidad para las redes neuronales. Finalmente, después de crear tantas capas como sea necesario, se crea la capa de salida, que proporciona los resultados de la red neuronal.

  • 00:10:00 En esta sección, el instructor explica cómo se entrenan las redes neuronales para ajustar sus pesos y minimizar el error entre sus predicciones de salida y la verdad real. Esto se logra calculando la pendiente, o el cambio de error con respecto a un cambio de peso, y ajustando los pesos en la dirección que disminuya el error. Este es un proceso computacionalmente costoso porque requiere la multiplicación de todos los pesos y valores de las neuronas en cada capa para cada ajuste de peso. Sin embargo, hay una idea que permite calcular la pendiente directamente sin volver a pasar por la red neuronal, lo que hace que el proceso de entrenamiento sea más eficiente.

  • 00:15:00 En esta sección, el instructor explica cómo funcionan las redes neuronales profundas y cómo usan el cálculo para calcular la pendiente para ajustar los pesos y reducir los errores. A través de un ejemplo simple de una red neuronal con un peso, demuestra el concepto de encadenamiento, donde la pendiente de cada pequeño paso se multiplica para obtener la pendiente de la cadena completa. Menciona que hay muchos tipos de retropropagación que requieren que se realicen diferentes operaciones en cada neurona, pero en última instancia, el objetivo es calcular la pendiente para ajustar los pesos y reducir los errores de manera eficiente.

  • 00:20:00 En esta sección, el instructor discutió cómo propagar hacia atrás los elementos de una red neuronal como la función sigmoidea y la unidad lineal rectificada para calcular el efecto de ajustar cualquier peso dado en el error. Para entrenar una red, se comienza con una red completamente conectada, se asignan valores aleatorios a todos sus pesos y se calcula el error usando retropropagación para ajustar esos pesos ligeramente. La entrada conocida con la respuesta determina la corrección de los pesos, y el proceso se repite con múltiples entradas hasta que los pesos gravitan hacia un punto bajo donde funcionan bien más cerca de la verdad en la mayoría de las imágenes. Las redes neuronales tienden a estimar tales relaciones entre variables de entrada y salida, aprenden continuamente y evalúan relaciones no lineales entre datos.

  • 00:25:00 En esta sección, el video explica cómo una ecuación de regresión lineal se puede representar como una red. Esto nos ayuda a comprender mejor cómo funcionan las redes neuronales. La red está formada por nodos y aristas, siendo los nodos de entrada x sub 0 y x sub 1, y el nodo de salida v sub 0. Los pesos, representados por w sub 0 0 y w sub 1, son las aristas que conectan los nodos de entrada y salida. Esto se llama gráfico acíclico dirigido, lo que significa que los bordes solo van en una dirección y no hay forma de formar un bucle. Agregar más nodos de entrada puede hacer que la ecuación tenga una dimensión más alta, pero sigue siendo una ecuación lineal, con los pesos que determinan la relación entre las entradas y la salida.

  • 00:30:00 En esta sección, el video analiza el concepto de una red lineal de dos capas y cómo agregarle más capas puede aumentar su complejidad. La red de dos capas se compone de capas idénticas que funcionan de la misma manera. Para hacer que el modelo sea más flexible, se debe agregar la no linealidad. Una función no lineal común para agregar es la función logística, también conocida como función sigmoidea, que tiene forma de S. Agregar más capas y no linealidad a la red crea un modelo más complejo que puede proporcionar resultados más sofisticados.

  • 00:35:00 En esta sección, aprendemos sobre las funciones logísticas y su papel en la regresión logística, que se usa como clasificador. La regresión logística encuentra la relación entre una entrada y salida continua y categórica, donde las observaciones de una categoría se tratan como ceros y las observaciones de la otra categoría se tratan como unos, y se encuentra una función logística que se ajusta mejor a todas esas observaciones. Al agregar más entradas, la regresión logística puede funcionar con muchas variables de entrada, y estas se convierten en clasificadores lineales independientemente del número de dimensiones. También aprendemos sobre la tangente hiperbólica, que es una función no lineal relacionada con la función logística. Estas funciones no lineales nos ayudan a salir del ámbito de las redes lineales y nos brindan una variedad de comportamientos más amplia de lo que jamás vimos en las redes de una sola capa. Al apilar capas con múltiples nodos ocultos, podemos crear curvas más complejas con ondulaciones, picos y valles.

  • 00:40:00 En esta sección, el video describe cómo las curvas creadas por una red de dos capas pueden ser matemáticamente idénticas a las creadas usando una red de muchas capas. Aunque la red de muchas capas puede crear curvas más complejas con menos nodos, la red de dos capas aún puede crear curvas ricas con suficientes nodos ocultos. Luego, el video explica cómo se pueden usar estas curvas para crear un clasificador y muestra que los clasificadores no lineales, a diferencia de los lineales, pueden crear regiones de clasificación intercaladas. El video concluye mostrando el diagrama de red completo de un perceptrón multicapa y un diagrama genérico para una red de tres capas de una sola entrada y una sola salida, que se puede definir completamente especificando el número de entradas, salidas, capas y nodos ocultos.

  • 00:45:00 En esta sección del video, el presentador analiza el uso de una red neuronal de dos salidas para crear un clasificador que divide el espacio de entrada en regiones en función del cruce de las dos funciones de salida. Este enfoque se puede ampliar con tres o más funciones de salida, lo que permite aprender más categorías y dividir los espacios de entrada de formas más complejas que las que puede lograr un clasificador lineal. Sin embargo, la categoría ganadora puede no ser significativamente mejor que la categoría finalista. A pesar de sus limitaciones, este método demuestra el poder de las redes neuronales para crear diversos límites de categoría al mismo tiempo que favorece la suavidad debido a las funciones de activación utilizadas.

  • 00:50:00 En esta sección, el video analiza las redes neuronales convolucionales (CNN) y su capacidad para aprender y reconocer patrones en imágenes, como caras, automóviles e incluso videojuegos. El video explica que las CNN no son mágicas sino que se basan en principios fundamentales aplicados de manera inteligente. El video utiliza un ejemplo de juguete simple de una CNN que decide si una imagen de entrada es una X o una O para ilustrar cómo funcionan las CNN. La parte difícil de las CNN es que es posible una gran cantidad de variaciones al identificar cuál es la imagen. El video explica cómo una CNN puede manejar la variación e identificar la imagen dividiendo la imagen en patrones más pequeños y usando filtros para identificar esos patrones.

  • 00:55:00 En esta sección, el curso explica cómo las redes neuronales convolucionales pueden unir partes de una imagen para determinar si dos partes son iguales. Al dividir las imágenes en partes o características más pequeñas, la red neuronal convolucional puede identificar si las características coinciden entre sí. La matemática detrás de hacer coincidir estas características se llama filtrado, e implica alinear una característica con un parche de una imagen y luego multiplicar un píxel por otro píxel y dividirlo por el número total de píxeles. La aplicación repetida de esta función en la imagen produce un mapa de dónde ocurre esta función, lo que permite que la red neuronal identifique qué partes de la imagen coinciden.


Parte 2

  • 01:00:00 En esta sección, el instructor del curso explica los tres trucos principales que se utilizan en las redes neuronales profundas. El primer truco es la capa de convolución, donde una imagen se convoluciona con una serie de filtros para producir una pila de imágenes filtradas. El segundo truco es la agrupación, que se utiliza para reducir la pila de imágenes tomando un tamaño de ventana y un valor de zancada para obtener una imagen más pequeña que represente el valor máximo de la ventana. Finalmente, el tercer truco es la normalización, que se utiliza para evitar que las matemáticas exploten e implica cambiar todos los valores negativos de la imagen a cero. Estos trucos se apilan para formar una red neuronal profunda, y su salida forma una matriz de píxeles que se pueden manipular aún más.

  • 01:05:00 En esta sección, el video explica cómo las redes neuronales pueden usar una técnica de apilamiento profundo de capas convolucionales y de agrupación que filtran y reducen la imagen con cada iteración. La capa final totalmente conectada conecta cada lista de imágenes filtradas y reducidas con una serie de votos, que se convierten en la respuesta final. Para obtener estos pesos, las redes neuronales se basan en la propagación hacia atrás para ajustarse en función de la señal de error final de la capa de salida. Este proceso se conoce como descenso de gradiente.

  • 01:10:00 En esta sección del curso para principiantes sobre cómo funcionan las redes neuronales profundas, el instructor explica el proceso de descenso de gradiente, que permite ajustar los pesos de la red neuronal para minimizar el error. Al ajustar los pesos hacia arriba y hacia abajo, la red encuentra la dirección cuesta abajo y se establece en un mínimo donde el error es mínimo. Los hiperparámetros son perillas que el diseñador puede girar e incluyen decisiones como la cantidad de funciones utilizadas, el tamaño de la ventana y la zancada en las capas de agrupación, y la cantidad de neuronas ocultas en las capas completamente conectadas. Además, el instructor explica que la red neuronal se puede aplicar a datos bidimensionales o incluso tridimensionales o tetradimensionales, siempre que los datos sigan un patrón en el que las cosas más cercanas estén más estrechamente relacionadas. Esto permite que la red se utilice en campos como el análisis de sonido y texto.

  • 01:15:00 En esta sección, se analizan las limitaciones de las redes neuronales convolucionales (CNN), ya que están diseñadas para capturar patrones espaciales locales y, por lo tanto, pueden no ser adecuadas para datos que no se pueden representar como imágenes. Las CNN son muy eficientes para encontrar patrones y clasificar imágenes, pero si los datos son tan útiles después de intercambiar cualquiera de las columnas, es posible que las CNN no sean una buena opción. Por otro lado, las redes neuronales recurrentes (RNN), específicamente la memoria a corto plazo (LSTM), son útiles para la traducción de secuencia a secuencia, con aplicaciones como voz a texto o de un idioma a otro. Se da un ejemplo de cómo funcionan los LSTM para predecir qué hay para la cena, donde el proceso de votación se simplifica a través de la observación de los ciclos de la cena.

  • 01:20:00 En esta sección, el instructor explica el concepto de vectores, que es solo una lista de números y cómo puede ser útil en el aprendizaje automático. Los vectores se expresan en forma de una lista de todos los valores posibles y se asigna un número a cada uno. El instructor explica cómo se suele utilizar la codificación one-hot para codificar sentencias. La red neuronal se diseña conectando cada elemento del vector de entrada con cada elemento del vector de salida. El ejemplo utilizado es predecir qué hay para cenar utilizando datos pasados teniendo en cuenta nuestra información real de ayer y cuál fue nuestra predicción de ayer. El instructor luego explica que las redes neuronales recurrentes pueden ser útiles para predecir lo que sigue en una serie, como en el aprendizaje de idiomas.

  • 01:25:00 En esta sección, se explica el uso de una función de aplastamiento para evitar bucles de retroalimentación. La red neuronal recurrente implica votos por un nombre, período o "sierra" en función de las palabras que se han usado antes. Sin embargo, este sistema está sujeto a errores y limitaciones porque solo puede recordar un paso de tiempo. Para superar esto, se agrega una función de memoria a la red a través de símbolos adicionales que incluyen una función de aplastamiento con un fondo plano, una "x" en un círculo y una cruz en un círculo para la suma y multiplicación de elementos. Esto permite que la red recuerde lo que sucedió hace muchos pasos de tiempo y realice la multiplicación por elementos, lo que permite una funcionalidad nueva y mejorada.

  • 01:30:00 En esta sección, el video presenta la compuerta, que permite controlar lo que pasa y lo que se bloquea en una red neuronal. El concepto se demuestra utilizando tuberías con diferentes niveles de flujo de agua y grifos, que pueden cerrarse a cero o abrirse a uno. La introducción de la función logística, que aplasta los valores entre cero y uno, proporciona una forma de tener siempre un valor dentro de este rango. Luego, el video demuestra cómo se puede usar la activación para retener y liberar de forma selectiva recuerdos y predicciones utilizando un conjunto de compuertas, cada una controlada por su propia red neuronal y función de aplastamiento. Finalmente, se introduce un mecanismo de atención para dejar de lado la entrada irrelevante para evitar que nuble las predicciones y la memoria en el futuro.

  • 01:35:00 En esta sección, el instructor da un ejemplo de cómo una red LSTM entrenada puede generar predicciones para la siguiente palabra en una oración. Suponiendo que el LSTM haya sido entrenado en ejemplos de libros para niños, la oración de ejemplo es "Jane vio a Spot". La palabra "Doug" es la palabra más reciente, y el LSTM predice "Doug", "Jane" y "Spot" como opciones viables. El LSTM luego pasa estas predicciones a través de cuatro redes neuronales diferentes que aprenden a hacer predicciones, y el LSTM predice que "sierra" es la próxima palabra más probable. El ejemplo muestra cómo un LSTM puede generar predicciones basadas en las palabras y predicciones anteriores y evitar cometer ciertos errores mediante el uso de puertas de memoria y selección.

  • 01:40:00 En esta sección, el instructor explica cómo las redes neuronales LSTM pueden mirar hacia atrás en muchos pasos de tiempo para identificar patrones en los datos, lo que los hace exitosos en aplicaciones prácticas como la traducción de idiomas y el software de voz a texto. También analiza cómo las redes LSTM son particularmente útiles en robótica, donde las acciones realizadas por un agente pueden influir en lo que se detecta y lo que se debe hacer muchos pasos de tiempo después. Aunque las redes LSTM pueden parecer complejas cuando se expresan matemáticamente, el instructor alienta a los espectadores a centrarse en los principios básicos, comparando el aprendizaje profundo con un avión de combate altamente especializado en comparación con un avión más simple.

  • 01:45:00 En esta sección del video, el instructor explica la estructura básica y la función de las neuronas en una red neuronal. Las dendritas de las neuronas actúan como sensores y captan la actividad eléctrica, que luego se acumula en el soma y se envía a través del axón como una señal. La fuerza de la señal que pasa a través de una sinapsis, donde el axón de una neurona toca la dendrita de otra, está representada por el tamaño de un círculo, donde un círculo más grande indica una conexión más fuerte. Al asignar números y pesos a estas conexiones, una red neuronal compleja se puede simplificar en un diagrama de barras circulares donde cada barra representa un peso. Este diagrama se utiliza para representar combinaciones de entradas y salidas, donde cada conexión tiene su propio peso.

  • 01:50:00 En esta sección, el video explica que las redes neuronales funcionan al combinar las neuronas de entrada y sus conexiones con las neuronas de salida. A través de un ejemplo simple de combinación de píxeles de entrada para crear una imagen de salida, el video muestra cómo las neuronas de entrada representan elementos individuales, como píxeles o palabras, y se pueden combinar para representar conceptos más complejos. El video también analiza el proceso de aprendizaje en redes neuronales, donde los pesos de conexión iniciales se asignan aleatoriamente y luego se actualizan en función de los patrones de entrada y salida observados, lo que permite que la red mejore con el tiempo.

  • 01:55:00 En esta sección, el video explica cómo se entrenan las redes neuronales usando gradiente descendente con retropropagación. El objetivo es ajustar los pesos de las neuronas para reducir el error entre la salida real y la salida esperada. Tomando pequeños pasos incrementales, los pesos se ajustan hasta que se minimiza el error. Este proceso se repite para cada punto de datos y, si hay varias capas, la salida de una capa se utiliza como entrada para la siguiente capa. Esto se llama una red neuronal profunda. Cuantas más capas haya, más complejas serán las funciones que se pueden aprender, lo que hace posible identificar imágenes o incluso frases en lenguaje natural.


parte 3

  • 02:00:00 En esta sección del video, el instructor explica cómo funcionan las redes neuronales profundas en diferentes escenarios. Cuando se entrena con imágenes de rostros o automóviles, la red neuronal aprende a reconocer los componentes básicos de estos objetos, como ojos, narices y ruedas. Cuanto más profunda se vuelve la red, más complejo se vuelve el reconocimiento, lo que eventualmente conduce a imágenes identificables como rostros, arañas y osos de peluche. Además, las redes neuronales profundas se pueden usar para aprender y agrupar artistas musicales similares. El instructor también cubre cómo las redes neuronales profundas se pueden combinar con el aprendizaje por refuerzo para aprender a jugar juegos de Atari mejor que los humanos, y cómo se puede enseñar a los robots a cocinar mediante el uso de representaciones de video. Finalmente, el instructor aclara que el aprendizaje profundo es bueno para aprender patrones, pero no es magia.

  • 02:05:00 En esta sección, se introduce una definición funcional de inteligencia como la capacidad de hacer muchas cosas y hacerlas bien. Esta definición permite una discusión científica sobre la inteligencia artificial y nos permite comparar la inteligencia relativa de diferentes agentes. Usando la ecuación "inteligencia es igual a rendimiento por generalidad", podemos trazar esto en una escala logarítmica para representar el nivel humano de rendimiento y generalidad. Las máquinas pueden superar el rendimiento humano en algunas áreas debido a las limitaciones humanas, como la atención limitada y los sesgos cognitivos.

  • 02:10:00 En esta sección, el video analiza cómo se compara la inteligencia en un gráfico con la generalidad como un eje y el desempeño como el otro. Las computadoras que juegan al ajedrez fueron los primeros agentes en desempeñarse a un nivel sobrehumano, con Deep Blue de IBM venciendo a Gary Kasparov en 1989. El actual programa de ajedrez de última generación, Stockfish, tiene una calificación ELO de 3447, lo que lo hace mucho mejor. que cualquier jugador humano. Sin embargo, vale la pena señalar que Stockfish está específicamente programado para el ajedrez y carece de generalidad, a diferencia de los humanos. El video compara Stockfish con el juego de mesa Go, que se considera aún más complejo y demuestra la importancia de la generalidad en la inteligencia.

  • 02:15:00 En esta sección, la transcripción analiza cómo el juego de Go, a pesar de tener exponencialmente más configuraciones de tablero posibles que el ajedrez, fue derrotado por el programa AlphaGo, que utilizó una técnica llamada redes neuronales convolucionales para aprender configuraciones comunes y aprendizaje por refuerzo. en una biblioteca de juegos humanos para aprender qué movimientos eran buenos. De manera similar, en el campo de la clasificación de imágenes, se creó una base de datos llamada ImageNet donde las máquinas podían clasificar las imágenes mejor que los humanos con una tasa de error de menos del cinco por ciento. Dado que las máquinas superan habitualmente a los humanos en esta tarea, el progreso realizado en el aprendizaje automático es impresionante.

  • 02:20:00 En esta sección, el disertante discute las limitaciones de las redes neuronales convolucionales (CNN) en la clasificación de imágenes. Si bien las CNN están diseñadas para encontrar patrones en conjuntos de datos bidimensionales, como píxeles en un tablero de ajedrez, se ha demostrado que se rompen fácilmente fuera del conjunto de imágenes en las que están entrenadas. La fragilidad de las CNN se demuestra cuando las imágenes se distorsionan, se cambia un solo píxel o se agregan pegatinas para engañar a la CNN para que clasifique erróneamente la imagen. El disertante explica que la generalidad de la clasificación de imágenes no está donde nos gustaría que estuviera, a pesar de que se desempeña mejor que los humanos en el conjunto de datos de ImageNet. La conferencia también menciona que el algoritmo de aprendizaje q profundo de DeepMind impresionó al mundo al alcanzar el nivel de experto humano en 29 de los 49 juegos clásicos de Atari.

  • 02:25:00 En esta sección, el instructor analiza cómo funcionan las redes neuronales profundas al jugar videojuegos y traducir idiomas. Después de usar redes neuronales convolucionales para aprender patrones de píxeles para jugar videojuegos mediante el aprendizaje por refuerzo, el algoritmo no pudo igualar el rendimiento humano en 20 juegos que requerían una planificación a más largo plazo. Esto sugiere que el algoritmo no pensó en varios pasos para realizar las conexiones requeridas. Por otro lado, la traducción de idiomas utiliza la memoria a corto plazo (LSTM) para traducir más de 100 idiomas a una única representación intermedia. Sin embargo, vale la pena señalar que la traducción tiene limitaciones de precisión y problemas de eficiencia debido a la gran cantidad de cálculos involucrados. Por lo tanto, si bien la traducción automática tiene el alcance, no alcanza el desempeño humano.

  • 02:30:00 En esta sección, el orador analiza el desempeño de los recomendadores y señala que son relativamente buenos en comparación con los humanos. Sin embargo, su desempeño no es perfecto, ya que el algoritmo no se adapta al hecho de que las preferencias de una persona pueden cambiar, y no consideran cómo se relacionan varios productos. En términos de generalidad, el conocimiento del mundo requerido para que los recomendadores funcionen bien es bastante profundo, lo que los hace impactar en el rendimiento. Pasando a los robots, el ponente señala que los coches autónomos tienen un rendimiento impresionante ya que sus tasas de accidentes son más bajas que las de los humanos, a pesar de que su tarea es más complicada. Sin embargo, los autos sin conductor son menos generales de lo que parecen, y el mayor truco es reducir la dificultad de la tarea, lo que reduce la generalidad necesaria de la solución.

  • 02:35:00 En esta sección, el orador explica que los autos sin conductor no son tan generales como parecen, ya que están diseñados a medida en función de un conjunto específico de sensores, selección de algoritmos y condiciones ambientales. El desafío para los automóviles autónomos es abarcar todas las condiciones en las que operarán. A partir de ahora, los autos sin conductor tienen un rendimiento más bajo que los conductores humanos, principalmente debido a su interacción física y con otros autos y personas. A continuación, el orador analiza los robots humanoides y cómo la mayoría de las actividades están codificadas y son bastante frágiles. Aunque su aplicación general aumenta con la complejidad de los sistemas, el rendimiento sigue siendo ridículamente bajo en comparación con un agente humano. La generalidad frente a la tendencia de rendimiento se analiza en detalle, lo que lleva al punto del orador con respecto a la capacidad del programa AlphaZero como se ve en DeepMind.

  • 02:40:00 En esta sección, el video explica cómo AlphaZero, un programa de inteligencia artificial, pudo vencer a algunos de los mejores juegos de mesa del mundo sin seguir ninguna regla. AlphaZero se creó para aprender los patrones visuales de un juego a través de prueba y error. Se crearon dos bebés AlphaZero que jugaron entre sí, pero solo a uno se le permitió aprender y al otro no. El que aprendió logró evolucionar y convertirse en un jugador intermedio después de jugar y clonarse con uno aprendiendo y el otro no. Este enfoque hizo que AlphaZero venciera a los humanos en solo cuatro horas y venciera a la mejor computadora anterior después de ocho. El juego de IA también continuó y venció al mejor programa de juego de ajedrez y al mejor programa de juego de shogi, por lo tanto, mostró el aumento significativo de AlphaZero en inteligencia, generalidad y rendimiento. El video también destaca cómo las suposiciones limitan la generalidad y permiten el rendimiento en los sistemas de IA.

  • 02:45:00 En esta sección, el orador explica algunas suposiciones comunes hechas por algoritmos utilizados en inteligencia artificial, incluidas las redes neuronales convolucionales, y por qué estas suposiciones son insuficientes para lograr una inteligencia a nivel humano. Los supuestos incluyen estacionariedad, independencia, ergodicidad y los efectos de las acciones que se hacen evidentes rápidamente. Si bien estas suposiciones funcionan bien para analizar conjuntos bidimensionales de información o datos que no cambian mucho, no se mantienen en las interacciones físicas con el mundo, lo que los hace inadecuados para la robótica humanoide o cualquier robot físicamente interactivo. El orador propone centrarse en la interacción física para crear algoritmos que puedan adaptarse a un conjunto más general de tareas y acercarnos un paso más a la inteligencia a nivel humano. La sección también presenta las redes neuronales convolucionales y su capacidad para aprender los componentes básicos de las imágenes.

  • 02:50:00 En esta sección, el instructor brinda un ejemplo de una red neuronal convolucional que puede clasificar si una imagen es una X o una O, lo que tiene en cuenta diferentes tamaños, rotaciones y pesos de las imágenes. Para identificar características específicas de la imagen, la red hace coincidir partes de la imagen con ciertas características y las cambia hasta que la imagen general se considera una buena coincidencia. El proceso implica el filtrado, donde la función se alinea con la imagen, se multiplica píxel por píxel y luego se divide por el número total de píxeles. Este método permite que la red reconozca patrones de imágenes y haga predicciones precisas.

  • 02:55:00 En esta sección, el instructor explica cómo funciona la convolución en las redes neuronales convolucionales. La convolución toma una función y verifica todos los parches posibles en una imagen para ver qué tan bien coincide. Las comparaciones se pueden hacer en cada ubicación de la imagen, lo que da como resultado un mapa de imagen filtrado de dónde la característica coincide con la imagen. El instructor describe cómo la agrupación reduce las imágenes filtradas a versiones más pequeñas de la imagen original. En este paso, se selecciona una ventana de píxeles y se eligen los valores maximizados, lo que da como resultado una imagen más pequeña que aún mantiene la señal original. Por último, se requiere normalización para evitar números negativos y mantener valores manejables en la red.


parte 4

  • 03:00:00 En esta sección del video, el instructor explica el proceso de cómo la red neuronal convolucional avanza a través de capas posteriores, comenzando con la función de unidad lineal rectificada que convierte todo lo que es negativo en cero. Como la salida de una capa se parece a la entrada de la siguiente capa, la salida final es una pila de imágenes que ha sido transformada por capas de convolución, rectificación y agrupación, lo que produce una pila de imágenes filtradas sin valores negativos que ha sido de tamaño reducido. Además, el instructor afirma que los valores finales de píxel que tienden a ser fuertes cuando la respuesta correcta es x o o dan un voto fuerte para las categorías x o o, respectivamente, y los votos ponderados totales se usan para categorizar la entrada como una x o o por una capa completamente conectada que toma una lista de valores de características y se convierte en una lista de votos para cada categoría de salida.

  • 03:05:00 En esta sección, el ponente explica cómo se utilizan las redes neuronales para categorizar imágenes. Las imágenes se dividen en los píxeles que las componen, que luego se convierten en una lista de valores de brillo. Cada valor corresponde a un nivel diferente de brillo, que va desde -1 para el negro hasta +1 para el blanco. Esta lista de valores de brillo se usa para construir una neurona, que recibe información de cuatro de los píxeles y realiza una suma ponderada. Luego, la neurona aplica una función de "aplastamiento" para garantizar que el resultado esté entre -1 y +1. Este proceso de usar neuronas para categorizar imágenes se puede repetir varias veces para crear una capa, que se inspira libremente en las capas biológicas que se encuentran en la corteza humana.

  • 03:10:00 En esta sección, el instructor explica cómo los campos receptivos en las redes neuronales se vuelven más complejos en las capas superiores. Al conectar la capa de entrada a múltiples capas ocultas de neuronas, cada neurona combina entradas de la capa anterior con pesos específicos. Cuando se utiliza una unidad lineal rectificada en lugar de una suma ponderada, la neurona emite el valor original si es positivo y 0 si es negativo. A través de este proceso, la red aprende a reconocer patrones que se asemejan a las salidas deseadas, lo que da como resultado una capa de salida final que clasifica la entrada. El instructor usa un ejemplo de una imagen con una barra horizontal para demostrar cómo la red procesa la imagen a través de cada capa.

  • 03:15:00 En esta sección, el video explica el proceso de optimización y cómo los modelos de redes neuronales profundas aprenden adaptándose a través de la optimización de pesos y filtros. El proceso de optimización se ilustra con un ejemplo de optimización de la temperatura del té para maximizar el disfrute. El proceso consiste en encontrar el punto mínimo de la función matemática, lo que se puede hacer por descenso de gradiente, un proceso de hacer iteraciones y ajustar ligeramente la entrada hasta alcanzar el valor mínimo. El video también señala que los pesos y los filtros se aprenden a través de un montón de ejemplos a lo largo del tiempo, y de eso se trata el aprendizaje automático.

  • 03:20:00 En esta sección, el orador analiza otros métodos para optimizar modelos además del descenso de gradiente. Un método popular es usar la curvatura para encontrar los parámetros óptimos haciendo té a diferentes temperaturas y observando la inclinación de la curva. Sin embargo, este método puede fallar si la curva no se comporta bien y los gradientes pueden atascarse en los mínimos locales. Para evitar quedarse atascado en los mínimos locales, se pueden utilizar otros métodos como los algoritmos genéticos y el recocido simulado, que son más eficientes en la muestra que la exploración exhaustiva, pero no tan rápidos como el descenso de gradiente. El orador compara estos métodos con diferentes tipos de vehículos, siendo el descenso de gradientes un auto de carreras de fórmula uno, los algoritmos genéticos y el recocido simulado son una camioneta con tracción en las cuatro ruedas y la exploración exhaustiva es como viajar a pie.

  • 03:25:00 En esta sección, el orador da un ejemplo de cómo usar la optimización numérica para responder una pregunta de una manera menos incorrecta. El ejemplo consiste en adivinar la cantidad de M&M en una bolsa, y el orador explica cómo convertir la suposición en una función de costo mediante el uso de una medida de desviación, que se puede elevar al cuadrado para penalizar más severamente las conjeturas más lejanas. La función de pérdida calcula qué tan equivocada es la suposición cuando se eleva al cuadrado una medida de desviación, y puede ayudar a explorar exhaustivamente la suposición dentro de un rango y encontrar visualmente el valor más bajo. Alternativamente, se puede encontrar una pendiente con respecto a las conjeturas tomando la derivada de la función de pérdida, igualándola a 0 y resolviendo la ecuación.

  • 03:30:00 En esta sección, el orador analiza la optimización y cómo se usa en las redes neuronales para encontrar los mejores pesos y características. El descenso de gradiente se usa para ajustar todos los pesos en cada capa para reducir el error. Sin embargo, calcular la pendiente requiere muchas pasadas a través de la red para determinar qué dirección es cuesta abajo. Luego se introduce la retropropagación como una forma de encontrar una solución analítica al problema de la pendiente, lo que permite un proceso de optimización más eficiente. El disertante también explica el uso de una función de costo, específicamente la desviación al cuadrado, que permite el cálculo de la suma de las desviaciones, lo que lleva a encontrar la mejor suposición.

  • 03:35:00 En esta sección, el instructor explica cómo calcular la pendiente o la derivada de la función de error puede ayudar a ajustar los pesos de una red neuronal. Da el ejemplo de una red neuronal simple con una entrada, una salida y una capa oculta con una neurona, mostrando cómo se puede encontrar la pendiente de la función de error con un cálculo simple. El proceso de desglosar los cambios en los pesos y errores para encontrar la pendiente se denomina encadenamiento, lo que hace posible ajustar los pesos que se encuentran más profundos en la red neuronal. Este proceso se denomina retropropagación, donde los valores al final de la red deben usarse para calcular las derivadas de los pesos para la propagación de errores a través de las profundidades de la red.

  • 03:40:00 En esta sección del video, el instructor explica el paso de propagación hacia atrás en el entrenamiento de redes neuronales. Él enfatiza la importancia de que cada elemento en una red neuronal permanezca diferenciable para que la regla de la cadena pueda usarse para calcular el eslabón en la cadena al encontrar derivadas. El instructor demuestra cómo se puede usar la regla de la cadena para una capa completamente conectada y también explica cómo se puede aplicar a capas convolucionales y de agrupación. También se analiza el proceso de ajustar los pesos en una red neuronal durante miles de iteraciones repetitivas para lograr respuestas eficientes.

  • 03:45:00 En esta sección, el instructor explica cómo optimizar los hiperparámetros de una red neuronal convolucional (CNN). Estos parámetros, como el número, el tamaño y el paso de las características, las ventanas de agrupación y el número de neuronas ocultas, son el siguiente nivel y controlan cómo sucede todo a continuación. El instructor señala que hay algunas recetas con las que los investigadores se han topado que parecen funcionar bien, pero hay muchas combinaciones de estos hiperparámetros que aún no se han probado, lo que significa que siempre existe la posibilidad de que algunas combinaciones funcionen mucho mejor. de lo que se ha visto hasta ahora. Además, se observa que las CNN no solo son útiles para las imágenes, sino también para cualquier dato de dos o tres dimensiones donde las cosas que están más cerca están más estrechamente relacionadas que las cosas que están lejos. Sin embargo, las capacidades de reconocimiento de patrones de las CNN se limitan solo a patrones espaciales y, por lo tanto, son menos útiles en situaciones en las que la organización espacial de los datos no es importante.

  • 03:50:00 En esta sección, el orador explica que aunque crear sus propias redes neuronales convolucionales desde cero es un gran ejercicio, ya hay muchas herramientas maduras disponibles para su uso. La conclusión de esta sección es que cuando se trabaja con redes neuronales, es importante tomar muchas decisiones sutiles sobre cómo preparar los datos, interpretar los resultados y elegir los hiperparámetros. Comprender qué se está haciendo con los datos y el significado detrás de ellos ayudará a aprovechar al máximo las herramientas disponibles.
 

Curso de aprendizaje automático para principiantes (partes 1-4)


Curso de aprendizaje automático para principiantes

00:00:00 - 01:00:00 En este video de YouTube sobre un curso para principiantes sobre aprendizaje automático, el instructor explica los conceptos básicos de los algoritmos de aprendizaje automático y sus aplicaciones en el mundo real, cubriendo aspectos tanto teóricos como prácticos. El curso lleva a los alumnos desde los conceptos básicos del aprendizaje automático hasta algoritmos como la regresión lineal, la regresión logística, el análisis de componentes principales y el aprendizaje no supervisado. El video también analiza conjuntos de datos de sobreajuste, ajuste insuficiente y entrenamiento/prueba. El instructor enfatiza la importancia de comprender cómo desarrollar funciones que permitan a los algoritmos de aprendizaje automático analizar datos para crear predicciones. Al final, presenta el algoritmo de descenso de gradiente para optimizar las funciones de costo utilizadas para evaluar el rendimiento.

01:00:00 - 02:00:00 Este curso de aprendizaje automático para principiantes cubre una variedad de temas esenciales en el aprendizaje automático para nuevos estudiantes. El instructor explica la vectorización de la derivada parcial de theta en regresión lineal, ecuación normal, suposiciones de regresión lineal y la diferencia entre características independientes y dependientes. El curso también incluye tareas de clasificación y regresión logística, enseñando la hipótesis para la regresión logística, la función de costo y el gradiente descendente, así como el código de vectorización para la función de costo y el gradiente descendente. Además, el curso presenta las bibliotecas de Python, las técnicas de análisis de datos, la construcción de modelos y la verificación de precisión mediante la regresión lineal. El instructor también cubre las técnicas de regularización y su importancia en el aprendizaje automático para evitar el sobreajuste. El curso cubre la regresión de cresta y lazo, que penaliza los pesos de características de características menos importantes, acercándolos a cero o eliminándolos por completo.

. 02:00:00 - 03:00:00 El "Curso de aprendizaje automático para principiantes" cubre varios temas, como técnicas de regularización, máquinas de vectores de soporte (SVM), clasificación no lineal y exploración de datos. El curso proporciona una introducción a las SVM y explica cómo construyen hiperplanos con márgenes máximos para hacer predicciones mientras clasifican puntos de datos. También se cubre el concepto de clasificación de margen duro y margen blando en SVM junto con sus diferencias. El curso también incluye un proyecto de predicción del precio de las acciones utilizando bibliotecas de Python y explora métricas de evaluación como el error cuadrático medio, el error cuadrático medio y el cuadrado R2 para el modelo de regresión lineal. Los modelos lineales regularizados como Ridge y Lasso también se explican en detalle, junto con la demostración de cómo crear una aplicación simple usando Flask.

03:00:00 - 04:00:00 El video "Curso de aprendizaje automático para principiantes" cubre varios temas relacionados con el aprendizaje automático, como configurar un servidor y un sitio web usando Flask, análisis de componentes principales (PCA), sesgo y comercio de varianza -offs, modelos de regresión y sentencias if-else anidadas. Los instructores enfatizan la importancia de comprender los conceptos de aprendizaje automático y preprocesamiento de datos para datos de texto e imágenes en escenarios del mundo real, y brindan ejemplos prácticos de cómo trabajar con datos de Iris y crear árboles de decisión simples. El video también cubre temas como transformaciones lineales, vectores propios y valores propios, y explica cómo PCA puede reducir las dimensiones de los datos mientras preserva la información. En general, el video proporciona una introducción completa para que los principiantes aprendan sobre el aprendizaje automático y sus aplicaciones.

04:00:00 - 05:00:00 Este video brinda una introducción para principiantes a los árboles de decisión, incluida la terminología básica, cómo construir árboles de decisión usando medidas de selección de atributos como entropía, ganancia de información e impureza de Gini, y cómo los árboles de decisión Se puede utilizar tanto para problemas de clasificación como de regresión. El video también enfatiza la importancia de los hiperparámetros y la comprensión de los árboles de decisión como un concepto crucial en el aprendizaje automático. La siguiente sección analiza el aprendizaje conjunto y sus tres técnicas: bagging, boosting y stacking, que se usan comúnmente en las competencias de Kaggle.

05:00:00 - 06:00:00 Este video de YouTube explica varias técnicas de aprendizaje de conjuntos para mejorar la precisión del modelo de aprendizaje automático. Una de las técnicas populares es la agregación de embolsado o bootstrap, donde se entrenan múltiples modelos en subconjuntos de datos de entrenamiento y se combinan para un mejor rendimiento con el muestreo de filas utilizado para el entrenamiento. El video también cubre bosques aleatorios que utilizan árboles de decisión, embolsado y muestreo de columnas para crear modelos poderosos. Además, el video cubre el impulso, que se utiliza para reducir el sesgo y mejorar la precisión del modelo, lo que se logra mediante la combinación aditiva de alumnos débiles en un modelo sólido. El instructor brinda una descripción general de varios tipos de potenciación, como la potenciación de gradiente y la potenciación adaptativa, por nombrar algunas. El video concluye proporcionando un conjunto de problemas en GitHub para que los espectadores prueben y alienta a los espectadores a suscribirse a su canal para recibir más contenido gratuito.

06:00:00 - 07:00:00 El video "Curso de aprendizaje automático para principiantes" cubre varios temas relacionados con la potenciación, como la idea central detrás de la potenciación, diferentes técnicas de potenciación (p. ej., potenciación de gradiente, potenciación adaptativa y potenciación extrema ), el algoritmo para entrenar un modelo mediante impulso y cómo se puede usar el impulso para reducir el alto sesgo en los modelos de aprendizaje automático. Además, el video analiza la implementación de algoritmos de refuerzo en Python utilizando bibliotecas como scikit-learn y mlx10. El video también aborda el concepto de apilamiento, un método para combinar múltiples modelos para crear un nuevo modelo con mejor rendimiento. El instructor demuestra cómo crear un modelo de clasificación apilado mediante regresión logística, k-vecinos más cercanos, bayesiano ingenuo gaussiano y modelos de bosque aleatorio en Python mediante la biblioteca sklearn.

07:00:00 - 08:00:00 El instructor cubre varios temas en este video, comenzando con el aprendizaje en conjunto y clasificadores de apilamiento. Luego, el enfoque cambia al aprendizaje no supervisado y sus aplicaciones en la agrupación de puntos de datos. El orador explica diferentes tipos de algoritmos de agrupamiento, incluidos los basados en el centro y los basados en la densidad, y brinda una descripción general de las técnicas de evaluación, como el índice de Dunn y el índice de Davies-Bouldin, para evaluar la calidad del modelo de agrupamiento. Finalmente, el orador profundiza en el agrupamiento de k-medias, incluida la inicialización, los centroides, los hiperparámetros y las limitaciones, al tiempo que proporciona una visualización del algoritmo con dos centroides. En general, el video cubre una variedad de conceptos y técnicas de aprendizaje automático, proporcionando una introducción completa al tema.

08:00:00 - 09:00:00 Este video de YouTube titulado "Curso de aprendizaje automático para principiantes" cubre varios temas relacionados con el aprendizaje automático. Una sección se enfoca en el agrupamiento de k-medias y explica el algoritmo en detalle, cubriendo la inicialización de los centroides, la asignación de grupos y la actualización de los grupos hasta la convergencia. El video también presenta K-means++ y el método del codo como soluciones a los problemas que se enfrentan en la inicialización aleatoria. Además, otra sección profundiza en el agrupamiento jerárquico, explicando la creación de una jerarquía de clústeres utilizando métodos de agrupamiento aglomerativo y divisivo. El video concluye discutiendo el proyecto del modelo de predicción de insuficiencia cardíaca, que tiene como objetivo construir un sistema de inteligencia artificial para el cuidado de la salud que ayudará con la detección temprana de problemas de salud para salvar vidas.

09:00:00 - 09:50:00 El video del "Curso de aprendizaje automático para principiantes" cubre varios temas relacionados con el aprendizaje automático, como datos desequilibrados, correlación, ingeniería de funciones, creación y evaluación de modelos y clasificación de texto mediante técnicas de NLP. El instructor enfatiza la importancia de los datos balanceados y visualizar los datos para comprenderlos mejor. El presentador recorre un proceso paso a paso para construir un sistema detector de spam y ham, analizando y comprendiendo los datos, e implementando técnicas de NLP para clasificar los mensajes como spam o ham. El curso brinda una descripción general de los conceptos esenciales que los entusiastas principiantes del aprendizaje automático pueden desarrollar.


Parte 1

  • 00:00:00 En esta sección, Ayush, científico de datos e ingeniero de aprendizaje automático, presenta su curso de aprendizaje automático que cubre los aspectos teóricos y prácticos de los algoritmos de aprendizaje automático y los proyectos de IA del mundo real. Ayush describe sus antecedentes, incluida su experiencia trabajando en varias aplicaciones de inteligencia artificial, como la visión artificial y el procesamiento del lenguaje natural, y su canal de YouTube, donde ofrece cursos completos sobre aprendizaje automático y aprendizaje profundo. Explica el plan de estudios del curso, que comienza con los conceptos básicos del aprendizaje automático y avanza hasta comprender algoritmos como la regresión lineal, la regresión logística, el análisis de componentes principales y el aprendizaje no supervisado. Ayush enfatiza la importancia de comprender el ajuste excesivo y el ajuste insuficiente antes de concluir la sección.

  • 00:05:00 En esta sección, el instructor brinda una explicación simple de qué es el aprendizaje automático. Esencialmente, implica el uso de algoritmos para analizar datos y hacer predicciones inteligentes basadas en esos datos sin programación explícita. El objetivo es crear una función que asigne variables de entrada a variables de salida, como predecir el precio de una casa en función de su tamaño, número de dormitorios, etc. El instructor también brinda una definición más formal de aprendizaje automático, que involucra una computadora. programa mejorando su desempeño en una tarea con experiencia. En general, el instructor enfatiza la importancia de comprender cómo crear estas funciones para utilizar con éxito el aprendizaje automático.

  • 00:10:00 En esta sección del video, el instructor analiza varias aplicaciones del aprendizaje automático, como los automóviles autónomos, la predicción del precio de las acciones y el diagnóstico médico. También explica el flujo de trabajo básico de cómo funciona el aprendizaje automático, comenzando con el estudio de un problema y el análisis de datos, luego entrenando el algoritmo y evaluando su rendimiento. El instructor también brinda una descripción general de los principales tipos de sistemas de aprendizaje automático, incluido el aprendizaje supervisado, no supervisado y de refuerzo. Da un ejemplo de aprendizaje supervisado mediante la predicción del precio de la vivienda, en el que el tamaño de la vivienda se utiliza como característica para predecir el precio de la vivienda.

  • 00:15:00 En esta sección, el ponente analiza el aprendizaje supervisado y sus dos tipos de problemas: regresión y clasificación. El orador también proporciona ejemplos, como la predicción del precio de la vivienda para la regresión y la clasificación de imágenes para la clasificación. El ponente explica que el aprendizaje supervisado implica datos etiquetados, donde se conoce la variable de salida y existe una relación entre las variables de entrada y salida. El orador también menciona brevemente el aprendizaje no supervisado, donde los datos no están etiquetados y el modelo tiene que reconocer patrones basados en los datos disponibles.

  • 00:20:00 En esta sección, el orador analiza la diferencia entre los problemas de clasificación y regresión en el aprendizaje automático. Si la salida de un problema está en valor continuo, se considera un problema de regresión. Si la salida está en valor de grado, es un problema de clasificación. Se destaca la importancia de dividir los datos en conjuntos de entrenamiento y prueba, con un 80 % utilizado para entrenamiento y un 20 % para probar el modelo. El orador también explica los problemas de sobreajuste y desajuste, donde los modelos se desempeñan mal en los datos de entrenamiento y prueba o se desempeñan bien en el entrenamiento pero fallan en las pruebas. La sección concluye con algunas notaciones que se utilizarán a lo largo del curso.

  • 00:25:00 En esta sección, el instructor analiza el aprendizaje supervisado y no supervisado en el aprendizaje automático. En el aprendizaje supervisado, se crea una función f(x) que asigna variables de entrada a variables de salida, utilizando datos de entrada y salida para hacer predicciones. El instructor da un ejemplo de un conjunto de datos que utiliza características como la perspectiva, la temperatura, la humedad y el viento para predecir si un jugador jugará tenis o no, siendo la variable objetivo si jugará o no. Las características de entrada son independientes, mientras que la variable objetivo depende de esas características. En general, el aprendizaje supervisado involucra un conjunto de datos etiquetados donde existe una relación entre los datos de entrada y salida.

  • 00:30:00 En esta sección, el instructor explica la diferencia entre las funciones independientes y dependientes en el aprendizaje supervisado, así como la diferencia entre regresión y clasificación. Por ejemplo, predecir el precio de las acciones o de la vivienda sería una regresión, mientras que identificar si una persona tiene diabetes sería una clasificación. Luego, el instructor presenta el aprendizaje no supervisado y explica que implica solo un conjunto de funciones independientes sin funciones dependientes. Un ejemplo de esto es la segmentación del mercado sin conocer las etiquetas de los datos. El instructor señala que la siguiente sección cubrirá el aprendizaje no supervisado con mayor profundidad.

  • 00:35:00 En esta sección, aprendemos sobre la regresión lineal, un tipo de algoritmo de aprendizaje supervisado que se usa cuando los datos de salida son continuos. El objetivo es crear una función que asigne la variable de entrada a la variable de salida. La regresión lineal implica ajustar una línea recta a datos dispersos para hacer predicciones, por ejemplo, predecir el precio de una casa en función de su tamaño. La línea representa una hipótesis, y cuanto más cerca esté de los datos, mejores serán las predicciones. Esta sección proporciona una descripción general de la regresión lineal y prepara a los alumnos para la siguiente sección sobre algoritmos de aprendizaje y un proyecto sobre la predicción de fuentes termales de Boston.

  • 00:40:00 En esta sección, el instructor explica cómo funciona la función de hipótesis en la regresión lineal. La hipótesis se construye utilizando el peso de cada característica, representado por theta. El término de sesgo, x0, determina la intersección y o dónde la línea cruzará el eje y. La máquina aprende los pesos de las características y los mejores pesos producen la mejor predicción. El instructor enfatiza que el aprendizaje automático se basa en parámetros de aprendizaje, específicamente el peso de las funciones. La función de hipótesis asigna las variables de entrada a una variable de salida, que se puede utilizar para la predicción.

  • 00:45:00 En esta sección, el instructor explica la función de hipótesis para la regresión lineal usando ponderaciones de características y el término de sesgo, y cómo se puede expresar en una forma vectorizada. Mostró que en Python, se puede escribir en una sola línea de código. Luego presenta la función de costo que se usa para evaluar qué tan bien está funcionando el modelo y cómo se usa para calcular la distancia entre los puntos de datos reales y los previstos. Se utiliza un diagrama de dispersión como ejemplo para ilustrar el concepto de la función de costo.

  • 00:50:00 En esta sección del video, el orador explica el concepto de una función de costo en el aprendizaje automático. La función de costo implica calcular la diferencia entre los valores previstos y reales para todos los puntos de datos, que se denominan residuales. Tomando la distancia entre los valores predichos y reales y elevándolos al cuadrado, se produce una función de costo. El objetivo es minimizar la función de costo, que determina la efectividad del modelo. El orador también presenta el Algoritmo de Descenso de Gradiente como un método de optimización para encontrar el mejor theta, que proporcionará el modelo óptimo.

  • 00:55:00 En esta sección, el instructor explica el concepto detrás del descenso de gradiente, un método utilizado para minimizar la función de costo en el aprendizaje automático. El instructor usa una analogía simple para demostrar cómo el descenso de gradiente modifica el valor de theta para minimizar la función de costo. Luego, el instructor explica la derivación matemática de este proceso, tomando derivadas parciales para actualizar el valor theta. Finalmente, el instructor presenta el algoritmo de descenso de gradiente y describe los pasos para actualizar theta utilizando la tasa de aprendizaje y las derivadas parciales de la función de costo. El instructor también analiza cómo ajustar la tasa de aprendizaje y los beneficios de vectorizar el proceso.

Parte 2

  • 01:00:00 En esta sección, el instructor explica cómo vectorizar la derivada parcial de theta en regresión lineal. En lugar de tomar la derivada parcial de theta cero y theta uno por separado, puede ponerla en un vector theta conjunto y sacar la derivada parcial de lo que quiera calcular. Con esta vectorización, puede escribir la ecuación derivada en una forma vectorizada, que puede usarse para el poder computacional. El instructor también destaca la ecuación normal, que le brinda theta óptimo en una sola ecuación. Explican los supuestos de la regresión lineal y la diferencia entre características independientes y dependientes. Finalmente, mencionan otros algoritmos de optimización que se pueden utilizar en niveles avanzados, como el descenso de gradiente estocástico, el algoritmo de optimización de Adam y RMS Prop.

  • 01:05:00 En esta sección, el instructor explica brevemente el concepto de regresión polinomial y cómo se puede usar para transformar datos no lineales en una forma lineal que se ajuste a la regresión lineal. El instructor también menciona los próximos temas del curso, incluidas la regresión logística y las tareas de clasificación. Se explica la diferencia entre la regresión lineal y la regresión logística, y la hipótesis de la regresión logística se presenta como similar a la de la regresión lineal, pero se utiliza para clasificar los datos.

  • 01:10:00 En esta sección del video, el instructor explica la hipótesis de la regresión logística, que incluye una función sigmoidea para obtener el resultado entre 0 y 1. Luego, el resultado se compara con un umbral (0,5 o 0,7) para predecir si la imagen es un gato o no. La función de costo o pérdida también se explica como una forma de evaluar la precisión del modelo. El instructor proporciona la fórmula para la función de costo para un ejemplo de capacitación.

  • 01:15:00 En esta sección, el orador analiza la función de costo de pérdida de registro y su fórmula en el aprendizaje automático. La fórmula toma el valor de verdad fundamental y el valor predicho por el modelo y calcula el logaritmo de este último, multiplicado por el valor de verdad fundamental (y_i). El locutor explica que si ambos valores son iguales, el costo será aproximadamente cero, y si son diferentes, el costo será muy alto. Luego, el autor continúa discutiendo el algoritmo de descenso de gradiente, que utiliza la función de costo para ajustar los parámetros y actualiza el valor theta para acercarse al óptimo global. Se toma la derivada parcial de la función de costo para actualizar el valor theta.

  • 01:20:00 En esta sección, el orador analiza la vectorización en el aprendizaje automático y proporciona un código vectorizado para la función de costo y el descenso de gradiente en la regresión logística. Explican que la vectorización significa hacer todos los cálculos a la vez para ahorrar tiempo. El ponente destaca la importancia de entender la regresión logística como un algoritmo de clasificación, incluyendo la hipótesis, la función de coste y el descenso de gradiente para encontrar el mejor theta óptimo. También mencionan que la siguiente sección cubrirá la detección de cáncer de mama y las máquinas de vectores de apoyo. El orador alienta a la audiencia a seguir en su Jupyter Notebook, que incluye la carga de datos, la ingeniería de funciones, la visualización de datos y la selección de funciones.

  • 01:25:00 En esta sección, el instructor presenta las bibliotecas de Python que se utilizarán en el proyecto, que incluye numpy, pandas, plotly, seaborn y matplotlib. El proyecto consiste en predecir los precios de las casas en Boston utilizando el aprendizaje automático y los datos se cargan desde la biblioteca scikit-learn. La variable objetivo es y, que es el precio de venta, mientras que x son las características independientes utilizadas para predecir el modelo. Luego, los datos se convierten en un marco de datos y el instructor muestra cómo acceder a la información sobre los datos, incluida la cantidad de filas y columnas, valores no nulos y tipos de datos utilizando varias funciones de pandas. La función describe también se usa para mostrar la media, la desviación estándar, el mínimo, el máximo y los percentiles de cada columna.

  • 01:30:00 En esta sección del video, el presentador analiza las técnicas de análisis de datos para obtener información sobre un problema de aprendizaje supervisado que involucra una variable objetivo, precio de venta y variables de características. Demuestran cómo usar herramientas de visualización como diagramas de distribución, diagramas de pares y diagramas qq. También explican cómo identificar y tratar los valores atípicos, calcular la asimetría y aplicar transformaciones a los datos. Además, introducen el concepto de correlación entre características y cómo se puede utilizar para seleccionar características altamente correlacionadas para el problema.

  • 01:35:00 En esta sección del video, el instructor cubre la construcción de modelos y la verificación de precisión mediante regresión lineal. La atención se centra en evitar el sobreajuste, que es cuando un modelo aprende demasiado de los datos de entrenamiento y tiene un rendimiento deficiente con los datos nuevos. El instructor explica cómo la regularización puede reducir el sobreajuste ya sea reduciendo características o aplicando una penalización a la complejidad del modelo. La siguiente sección cubrirá los modelos lineales regularizados, incluida la regresión de Lasso y Ridge. El instructor alienta a los espectadores a buscar soluciones en línea cuando encuentran problemas y ofrece un repositorio de Github para proyectos futuros.

  • 01:40:00 En esta sección, el orador analiza las técnicas de regularización en el aprendizaje automático, específicamente la regresión de cresta y lazo. La regresión de cresta penaliza los pesos de características de características menos importantes, acercándolos cada vez más a cero. La regresión de Lasso va un paso más allá y elimina características menos importantes haciendo que los pesos de los parámetros sean iguales a cero. El término de regularización se agrega al final de la función de costo, con regresión de cresta usando la norma L2 y regresión de lazo usando la norma L1. El orador también enfatiza que theta cero, que es el término de sesgo, no debe ser penalizado.

  • 01:45:00 En esta sección, el instructor presenta el tema de la regularización, que se considera uno de los temas más importantes en el aprendizaje automático. El instructor explica que la regularización ayuda a reducir el sobreajuste, que ocurre cuando un modelo se desempeña muy bien en el conjunto de entrenamiento pero no logra generalizar bien en el conjunto de prueba. La idea principal detrás de la regularización es eliminar las características que son menos importantes o contienen menos información haciendo que sus respectivos hiperparámetros o thetas sean iguales a cero. El instructor usa el ejemplo de la predicción del precio de la vivienda para mostrar cómo la regularización puede ayudar a eliminar características menos útiles.

  • 01:50:00 En esta sección del video, el instructor explica el concepto de ponderación y aprendizaje de funciones en el aprendizaje automático. Usando un ejemplo de predicción del precio de la vivienda, el instructor muestra cómo se pueden asignar diferentes pesos a diferentes características, como el tamaño de la casa, la cantidad de ventiladores, la cantidad de habitaciones y los acondicionadores de aire, que se pueden aprender y optimizar con el tiempo. Los pesos se pueden ajustar ajustando los parámetros con respecto a la derivada parcial de la función de costo, y esto se puede mejorar mediante técnicas de regularización como la regresión de cresta.

  • 01:55:00 En esta sección, el video analiza la regularización en el aprendizaje automático, específicamente la regresión de cresta y lazo. Ambos tipos de regresión penalizan el valor theta, pero la regresión de cresta usa la norma L2 mientras que la regresión de lazo usa la norma L1. El término alfa controla qué tan estricto es el modelo en las características, con valores más altos que lo hacen más estricto. Ambos tipos no penalizan el término de sesgo theta 0, y la norma L1 en la regresión de lazo ayuda a que los pesos de las características menos importantes estén más cerca de cero, lo que hace que el modelo sea menos propenso al sobreajuste.

parte 3

  • 02:00:00 En esta sección, el video explica la norma l1 y l2 en regularización y sus casos de uso específicos. La norma L1 es muy estricta ya que directamente hace que cualquier característica sin importancia theta sea cero, mientras que L2 es más flexible. Luego, el video menciona brevemente la red elástica, una combinación de ambas normas. Avanzando, el video presenta en detalle la máquina de vectores de soporte (SVM), que es un algoritmo de aprendizaje supervisado que se usa tanto para tareas de clasificación como de regresión. SVM construye un hiperplano con márgenes paralelos para maximizar el margen mientras clasifica nuevos puntos como gatos o no gatos en un sistema de reconocimiento de gatos y no gatos. El video también describe los temas que se tratarán en las próximas secciones con respecto a SVM.

  • 02:05:00 En esta sección, el instructor explica la máquina de vectores de soporte (SVM) y cómo construye dos hiperplanos paralelos para separar puntos de datos con un margen máximo. SVM tiene como objetivo maximizar este margen mientras mantiene el punto de datos más cercano lejos del hiperplano. Los puntos de datos más cercanos se denominan vectores de soporte, que soportan los hiperplanos paralelos para separar los datos. El instructor proporciona un ejemplo del uso de SVM para la detección del cáncer y explica la diferencia entre la clasificación de margen duro y margen blando. La clasificación de margen rígido no permite que ningún punto de datos infrinja el margen, lo que puede dar lugar a un sobreajuste, mientras que la clasificación de margen flexible permite algunas infracciones para evitar el sobreajuste.

  • 02:10:00 En esta sección, se introdujo el concepto de margen duro y margen suave en SVM. El margen duro no permite que ningún punto de datos entre en el margen, mientras que el margen suave permite que algunos puntos de datos violen el margen para evitar el sobreajuste. El ancho del margen se ajusta mediante el parámetro c, donde una c muy grande hace que el margen sea muy pequeño y ac de 1 hace que el margen sea muy grande. También se discutió la construcción del hiperplano en SVM, que se define por la ecuación w transpone x menos b es igual a z, donde w es el vector de parámetros de peso y b es el término de sesgo. Se definieron restricciones para las predicciones de margen estricto, en las que todo lo que se encuentra en el margen o por encima del mismo se considera uno y todo lo que está por debajo se considera cero.

  • 02:15:00 En esta sección, el video analiza cómo funcionan las máquinas de vectores de soporte (SVM) y proporciona una explicación matemática de SVM. El margen del hiperplano se escribe como 2 sobre la norma de w, y para maximizar este margen, necesitamos minimizar la norma de w. SVM busca maximizar el margen para hacer predicciones. El video explica que podemos escribir una función objetivo expresada como la distancia entre dos hiperplanos, que es igual a dos sobre la norma de w, sujeta a que la etiqueta real de los datos sea mayor o igual a 1. El video también aborda un función de pérdida, escrita como pérdida de bisagra o margen suave, y explica cómo funciona para obtener buenas predicciones de una manera directa. El concepto de una SVM lineal también se cubre antes de una discusión sobre la clasificación no lineal.

  • 02:20:00 En esta sección, el video analiza el concepto de clasificación no lineal y el truco del kernel que puede ayudar a lograr una especificación no lineal. El truco del núcleo transforma los datos de un espacio unidimensional a un espacio de mayor dimensión asignando los datos de entrada a la función phi de x. La función kernel RBF es uno de los kernels famosos que transforma los datos en un espacio de alta dimensión. El video también habla sobre el problema primal que ayuda a formalizar la función objetivo al introducir una nueva variable llamada zeta. La variable zeta se introduce para cada miembro i de uno a todo el redondo a n.

  • 02:25:00 En esta sección, el orador presenta el concepto de pérdida de bisagra y cómo se puede usar para formular una función de costo para problemas de aprendizaje automático. Explican cómo usar el descenso de subgradiente para actualizar los parámetros de la función de costo y cómo funciona el problema primario, enfatizando que es un enfoque de aprendizaje automático para principiantes. El orador también analiza la minimización de riesgos empíricos y la regresión de vectores de soporte, proporcionando ecuaciones para estos conceptos. Animan a los espectadores a comentar si tienen alguna pregunta y terminan mencionando que la siguiente sección se centrará en hacer un predictor de precios de acciones como un proyecto de aprendizaje automático de extremo a extremo.

  • 02:30:00 En esta sección, el orador demuestra cómo crear un predictor de precios de acciones utilizando las bibliotecas de Python como NumPy, Pandas, Matplotlib, Seaborn e YFinance. El código descarga datos de Yahoo Finance y toma una entrada para ingresar el código de la acción que se descargará. Los datos se ajustan con ajuste automático y se muestra la forma de los datos, revelando un total de 1256 ejemplos de entrenamiento y cinco columnas. El orador explica que este es el punto de partida para construir un predictor de precios de acciones.

  • 02:35:00 En esta sección del video, el orador explora la exploración y el análisis de datos para la predicción del precio de las acciones. El orador comienza mirando estadísticas como la media, la desviación estándar, el máximo y el mínimo de los datos. Advierten que la predicción del precio de las acciones es altamente no lineal y debe usarse solo con fines educativos. El orador procede a analizar su variable de destino, "cerrar", para demostrar la no linealidad y cómo no se puede confiar en ella para predecir la salida con precisión. Luego, el orador pasa a trazar la distribución de "abrir" y "cerrar" para tener una mejor idea de cómo proceder con los datos y aplicar la ingeniería de características. Finalmente, el orador concluye resumiendo sus resultados y destacando lo que han entendido sobre los datos.

  • 02:40:00 En esta sección, el orador analiza varios algoritmos de aprendizaje automático que se han cubierto en el curso hasta ahora, incluida la regresión lineal, la regresión logística, los modelos lineales regularizados, las máquinas de vectores de soporte y el análisis de componentes principales. El orador explica que, si bien la regresión lineal a menudo se considera un mal algoritmo, puede ser poderosa en ciertos casos, como para predecir precios de acciones no lineales. Se enfatiza la importancia de dividir los datos en conjuntos de entrenamiento y prueba, y el orador demuestra cómo usar la función train_test_split para lograr esto. Luego, el algoritmo de regresión lineal se instancia y se entrena en el conjunto de entrenamiento, y se usa para predecir el conjunto de prueba. Las salidas pronosticadas se muestran y se comparan con las salidas reales del equipo de prueba.

  • 02:45:00 En esta sección, el disertante habla sobre el cálculo de matrices para evaluar el desempeño de los modelos de regresión lineal. Analizan el uso del error cuadrático medio (MSE), el error cuadrático medio (RMSE) y el cuadrado R2 para evaluar la eficacia del modelo. El orador proporciona la función auxiliar para calcular estas matrices y la utilizan para evaluar el rendimiento de su modelo de regresión lineal. Encuentran que el MSE y el RMSE son casi iguales a cero, lo que significa que el modelo predice valores con precisión. El cuadrado de R2 también está cerca de 1, lo que indica un buen ajuste del modelo.

  • 02:50:00 En esta sección, el orador analiza los modelos lineales regularizados como ridge y lazo, y demuestra cómo se pueden implementar utilizando Scikit-Learn en Python. El orador explica que lasso elimina las características menos importantes, mientras que ridge las penaliza. El modelo de cresta es menos propenso a sobreajustarse, lo que lo convierte en una mejor opción para guardar un modelo y crear un sitio web, según el orador. El orador también analiza la regresión del vector de soporte y demuestra cómo se puede ajustar utilizando CV de búsqueda de cuadrícula para verificar diferentes valores y seleccionar el mejor modelo.

  • 02:55:00 En esta sección, el video analiza el uso de modelos lineales regularizados para el aprendizaje automático y cómo son más potentes que el método anterior utilizado. El presentador repasa ejemplos de cómo importar y guardar un modelo usando joblib y cómo cargar el modelo guardado para uso futuro. El video también profundiza en la creación de una aplicación simple con Flask y la representación de una plantilla a partir de un archivo HTML. Se proporciona una demostración sobre cómo crear un archivo index.html y representarlo en una ruta de aplicación.

parte 4

  • 03:00:00 En esta sección del video, el orador muestra cómo configurar un servidor y un sitio web usando Flask para un proyecto de aprendizaje automático de extremo a extremo. Explican cómo usar un formulario para ingresar datos, preprocesarlos, hacer predicciones usando un modelo cargado y devolver la predicción a una plantilla de predicción.html que se deriva de una plantilla de diseño.html. El orador también alienta a los usuarios a modificar las características de los datos para hacer que el modelo sea más poderoso, pero advierte contra hacerlo demasiado complejo. Concluyen enfatizando la importancia de comprender las limitaciones de la regresión lineal cuando se trata de datos multicolineales.

  • 03:05:00 En esta sección del video de YouTube "Curso de aprendizaje automático para principiantes", el instructor explica cómo eliminar la multicolinealidad en los datos mediante el uso del análisis de componentes principales (PCA). Las variables correlacionadas pueden ser problemáticas en los modelos de aprendizaje automático, pero PCA es un algoritmo de reducción de dimensionalidad que puede abordar este problema de manera efectiva. Para prepararse para aprender sobre PCA, el instructor repasa brevemente las transformaciones lineales y los vectores propios/valores propios, que proporcionan una base para comprender el concepto de reducción de dimensionalidad. El instructor recomienda un canal de YouTube para aquellos interesados en una inmersión más profunda en el álgebra lineal, pero enfatiza que este material no es necesario para comprender PCA.

  • 03:10:00 En esta sección, el instructor explica la transformación lineal, los vectores propios, los valores propios y su importancia en el análisis de componentes principales (PCA). La transformación lineal es una función que transforma un espacio vectorial en otro manteniendo una estructura lineal en cada espacio vectorial. Los vectores propios y los valores propios representan un nuevo vector transformado y el factor por el cual se escala, respectivamente. El instructor también analiza la necesidad de reducir la dimensionalidad, especialmente en grandes conjuntos de datos, y cómo se usa PCA para transformar grandes conjuntos de características en otros más pequeños. En general, comprender estos conceptos es crucial para trabajar con datos de texto e imágenes en escenarios del mundo real.

  • 03:15:00 En esta sección, el ponente explica la intuición básica detrás del Análisis de Componentes Principales (PCA), que es reducir las dimensiones de un conjunto de datos conservando la mayor cantidad de información posible. Describen cómo PCA construye nuevas variables, o componentes principales, que son una combinación lineal de las variables iniciales. Estos componentes no están correlacionados y la mayor parte de la información está comprimida en los primeros componentes. El ponente también repasa la visualización de la proyección de datos sobre los componentes principales y destaca que el algoritmo debe garantizar que los componentes no estén correlacionados.

  • 03:20:00 En esta sección, se analiza la importancia del preprocesamiento de datos en relación con el análisis de componentes principales (PCA). El primer paso en PCA es estandarizar los datos para garantizar que se encuentren dentro del mismo rango, lo cual es fundamental porque PCA es sensible a los valores atípicos. Una vez que se estandarizan los datos, se calcula la matriz de covarianza de los datos para comprender cómo varían las variables de entrada entre sí. Las variables altamente correlacionadas pueden contener información innecesaria y pueden eliminarse. Finalmente, se calculan los vectores propios y los valores propios de la matriz de covarianza, que son factores importantes para transformar los datos en un espacio de menor dimensión.

  • 03:25:00 En esta sección, el instructor explica el proceso de cálculo de vectores propios y valores propios en Python para transformar vectores a partir de un vector original y el factor por el cual se estira, que se denomina valor propio. Las columnas de la matriz de vectores propios y la matriz de valores propios se clasifican en orden decreciente y se calcula el contenido de energía acumulada de cada vector propio. Luego, se selecciona un subconjunto de vectores propios con el mayor contenido de energía como vectores base. Finalmente, los datos se proyectan sobre la nueva base. El instructor concluye el tutorial describiendo los temas que se tratarán en las siguientes secciones, que incluyen la teoría del aprendizaje, la compensación de sesgo y varianza, la aproximación y el error de estimación.

  • 03:30:00 En esta sección, el instructor analiza el concepto de minimización de riesgos empíricos y la importancia de comprender las compensaciones de sesgo y varianza en el aprendizaje automático. El instructor enfatiza que aunque el sesgo y la varianza parecen conceptos fáciles de entender, es difícil dominarlos en la práctica cuando se desarrollan productos del mundo real. El instructor también explica el ajuste insuficiente, que ocurre cuando un modelo no funciona bien en un conjunto de entrenamiento debido a una cantidad baja de características o datos. El instructor sugiere ingeniería de funciones para generar más funciones y mejorar el rendimiento del modelo.

  • 03:35:00 En esta sección del video, se explican los diferentes tipos de modelos de regresión, como el ajuste insuficiente, el ajuste adecuado y el ajuste excesivo. El sobreajuste ocurre cuando un modelo funciona bien en el conjunto de entrenamiento pero mal en el conjunto de prueba debido a que el modelo es demasiado complejo o tiene demasiadas funciones. Se puede prevenir seleccionando características importantes o usando la regularización. También se analiza el equilibrio entre el sesgo y la varianza, donde un modelo que da un error bajo en el conjunto de entrenamiento pero un error alto en el conjunto de validación indica una varianza alta, y el embolsado se usa para reducirlo en los métodos de aprendizaje por conjuntos.

  • 03:40:00 En esta sección, el instructor explica cómo identificar si un modelo tiene un sesgo alto o una varianza alta. Si el modelo tiene una varianza alta, el conjunto de entrenamiento puede tener una tasa de error del 15 %, mientras que el conjunto de evaluación tiene una tasa de error del 16 %. Por otro lado, si tiene un alto sesgo, puede tener una tasa de error del 30% en la evaluación. El instructor también explica el concepto de error de estimación de aproximación, la diferencia entre el valor exacto y la aproximación del mismo, que es el resultado del modelo. Finalmente, mencionan la suposición de que el error base o el rendimiento del nivel humano es aproximadamente cero por ciento al construir un modelo de clasificación.

  • 03:45:00 En esta sección, el video presenta el concepto de minimización de riesgos empírica, que es un algoritmo que recibe una muestra de conjunto de entrenamiento de una gran distribución, con etiquetas asignadas por una función de destino. El objetivo es minimizar el error con respecto a la distribución desconocida, para que el modelo pueda predecir nuevos ejemplos que ni siquiera ha visto antes con errores mínimos. El video enfatiza que el predictor de salida depende de los pesos aprendidos del conjunto de entrenamiento, y el objetivo es minimizar el error o riesgo llamado minimización de riesgo empírico. El video invita a los espectadores a hacer cualquier pregunta en el cuadro de comentarios y visitar el sitio web del curso.

  • 03:50:00 En esta sección, el instructor analiza el concepto de declaraciones if-else anidadas en el aprendizaje automático, que es una forma común de dividir datos haciendo preguntas. Usan el ejemplo del conjunto de datos Iris, que contiene cuatro características y una etiqueta que indica la especie de la flor. La tarea es detectar las especies de flores en función de cuatro características, lo que lo convierte en un conjunto de datos de clasificación binaria. El instructor explica cómo crear un clasificador simple usando declaraciones if-else para dividir los datos según las características y determinar la etiqueta.

  • 03:55:00 En esta sección del video, el instructor explica cómo crear un árbol de decisión simple usando dos características: longitud de pétalos y longitud de sépalos. El árbol de decisiones utiliza sentencias if-else y bucles anidados para definir varias condiciones y clasificar las variables de destino. El instructor también explica la terminología de los árboles de decisión, como los nodos raíz, los nodos principales y los nodos secundarios.
Razón de la queja: