Redes Neurais em IA e Deep Learning - página 3

 

Arte de IA en evolución



Arte de IA en evolución

El video analiza el proceso de evolución de imágenes utilizando IA, comenzando con la selección de una imagen, dando un aviso y generando variaciones a través de un proceso de evolución. El propósito de este proceso es la exploración, para encontrar obras de arte hermosas e inimaginables o lindos gatos utilizando un espacio de imágenes inconcebiblemente enorme e inescrutable. La entrada para modelos de texto a imagen permite a los usuarios ingresar un mensaje simple y recibir una amplia gama de posibles imágenes que satisfacen ese mensaje, lo que también permite la creación de imágenes completamente nuevas y la organización y catalogación de las existentes en el espacio latente. El método Pick Breeder es una forma eficiente y natural de mutar, seleccionar y reproducir genes que funcionan mejor para crear imágenes, lo que permite a las personas seguir hilos evolutivos y descubrir una belleza inesperada a través de caminos ramificados con potentes herramientas de IA.

  • 00:00:00 El creador analiza un modelo de IA llamado Mid-Journey, que es un algoritmo de texto a imagen que utiliza redes neuronales para generar imágenes basadas en un mensaje de texto determinado. El creador ha estado experimentando con este algoritmo en su servidor Discord, lo que permite a los usuarios seleccionar y mutar imágenes y crear árboles de vida evolutivos. Si bien la creatividad de este proceso está limitada por el indicador y el conjunto de datos utilizados para entrenar el modelo, las imágenes resultantes no se parecen a ninguna obra de arte que el creador haya visto antes, y el proceso ha dado lugar a creaciones interesantes y únicas. El creador también menciona otro modelo de código abierto llamado Stable Diffusion que pueden ejecutar en su propia GPU.

  • 00:05:00 En esta sección, el creador explica el proceso de evolución de una imagen usando IA. El proceso comienza con la selección de una imagen, dando un aviso y luego generando variaciones a través de un proceso evolutivo. El proceso evolutivo se puede reducir para evitar el aspecto de la comunidad o permitir que se desarrolle por sí solo. El propósito de evolucionar una imagen es la exploración, al explorar el espacio de la imagen, un espacio matemático literal en el que cada imagen ocupa un punto o vector, para encontrar obras de arte hermosas e inimaginables o gatos excepcionalmente lindos, algo más allá del ruido aleatorio, ya que el espacio de la imagen es inconcebiblemente enorme y irremediablemente inescrutable.

  • 00:10:00 El video explica el proceso de ingreso de modelos de texto a imagen, que permite a los usuarios ingresar un mensaje en un lenguaje simple y recibir una amplia gama de posibles imágenes que satisfacen ese mensaje. Estos motores de búsqueda generativos pueden crear imágenes completamente nuevas, así como descubrir las existentes organizadas, catalogadas y etiquetadas en el espacio latente. Al dar al modelo valores aleatorios, como un vector latente, la salida de la imagen tiene más variedad y se puede cambiar moviéndose por el espacio latente. El método Pick Breeder es una forma eficiente y natural de mutar, seleccionar y reproducir los genes que funcionan mejor para crear imágenes. Las personas pueden seguir un hilo evolutivo de indicaciones e imágenes interesantes para descubrir una belleza inesperada a través de caminos ramificados con estas poderosas herramientas.
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

La IA que crea cualquier imagen que quieras, explicada



La revolución de texto a imagen, explicada

Este video analiza cómo se pueden usar los algoritmos de aprendizaje automático para generar imágenes basadas en descripciones de texto y cómo se puede usar esta tecnología para crear obras de arte. El video entrevista a James Gurney, un ilustrador estadounidense, quien analiza las implicaciones de esta tecnología en la ley de derechos de autor y el mundo del arte.

  • 00:00:00 Esta parte explica cómo los algoritmos de aprendizaje automático pueden subtitular imágenes y cómo los desarrolladores han creado generadores de texto a imagen usando estos algoritmos. El video también analiza cómo es necesaria la ingeniería rápida para comunicarse con estos modelos de manera efectiva.

  • 00:05:00 La IA que crea cualquier imagen que desees, explicó, comienza con un conjunto de datos de entrenamiento de millones de imágenes y sus leyendas correspondientes. Los modelos aprenden a reconocer patrones en estas imágenes y luego generan nuevas imágenes basadas en ese reconocimiento. Las imágenes generadas de esta manera pueden ser diferentes para diferentes personas y modelos, debido a la aleatoriedad del proceso de difusión.

  • 00:10:00 Este video explica cómo el aprendizaje profundo permite a los usuarios crear imágenes similares a las producidas por artistas famosos sin tener que copiar sus imágenes directamente. El video entrevista a James Gurney, un ilustrador estadounidense, quien se convirtió en una referencia popular para los usuarios de modelos de texto a imagen. Gurney dice que aunque los artistas deberían poder optar por aceptar o no que su trabajo se use como un conjunto de datos para crear otras obras de arte, las cuestiones de derechos de autor en torno a las imágenes que se utilizan para entrenar a los modelos y las imágenes que surgen de ellos aún no están resueltas. Además, el espacio latente de estos modelos contiene algunos rincones oscuros que se vuelven más aterradores a medida que los resultados se vuelven fotorrealistas. Sin embargo, lo que hace que esta tecnología sea tan única es que nos permite a cualquiera de nosotros dirigir la máquina para imaginar lo que queremos que vea.
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...
 

Guía de MidJourney AI Art - ¡Cómo empezar GRATIS!



Guía de MidJourney AI Art - ¡Cómo empezar GRATIS!

En este video, el orador presenta MidJourney, una herramienta que genera arte de IA basado en indicaciones y brinda instrucciones paso a paso sobre cómo comenzar a usarla. Demuestran cómo usar los comandos para cambiar el estilo y la calidad de las imágenes generadas, usando ejemplos como "renderización 3D" o "boceto de tinta que gotea". Además, explican la sección de la comunidad del sitio web de MidJourney, donde los usuarios pueden encontrar inspiración y copiar indicaciones para probarse a sí mismos. El orador también comparte su viaje con el arte de la IA y proporciona recursos y códigos adicionales para aquellos interesados en obtener más información.

  • 00:00:00 Esta parte explica cómo comenzar con MidJourney, una herramienta que genera arte de IA basado en indicaciones. Para registrarse, vaya al sitio web de MidJourney y siga las indicaciones para registrarse y aceptar la invitación de Discord. Una vez en Discord, escribe el comando "/imagina" seguido de un mensaje como "humano púrpura con alas" para generar una imagen. El orador también muestra cómo mejorar la imagen para obtener más detalles y cómo cambiar el estilo de la imagen usando diferentes comandos como "renderización 3D" o "boceto de tinta que gotea". Cada vez que se ingresa un comando, la imagen resultante será única.

  • 00:05:00 En esta sección, el narrador explora los diferentes estilos y opciones de calidad disponibles en el arte de IA de MidJourney. Demuestran el uso de palabras clave y comandos para crear una variedad de efectos en un renderizado 3D, incluido el hiperrealismo y la estilización. También experimentan usando una imagen de sí mismos como indicación y ajustando el peso de la imagen para producir diferentes resultados.
    Además, analizan la sección de la comunidad del sitio web MidJourney, donde los usuarios pueden encontrar inspiración y copiar indicaciones para probarse a sí mismos. El narrador también brinda consejos sobre cómo usar MidJourney de manera responsable, como agregar un descargo de responsabilidad al compartir el arte generado en línea.

  • 00:10:00 El narrador proporciona enlaces a su Discord y MidJourney AI Art, así como a otros recursos y códigos relacionados con su viaje artístico de AI. Animan a los espectadores a comprobar su viaje por sí mismos y ofrecen información adicional para aquellos interesados en saber más.
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney -Getting Started [Nuevo y actualizado] Un tutorial rápido para comenzar en la generación de arte de IA



MidJourney -Getting Started [Nuevo y actualizado] Un tutorial rápido para comenzar en la generación de arte de IA

El video tutorial proporciona una descripción general completa de cómo usar la plataforma de generación de arte AI de MidJourney, a la que solo se puede acceder a través de Discord. El orador explica los diferentes modos de suscripción disponibles, cómo crear avisos utilizando artistas y diversas condiciones, cómo usar interruptores para eliminar elementos no deseados de las imágenes generadas por IA y cómo mejorar y ajustar las relaciones de aspecto de las imágenes. También brindan consejos sobre cómo generar arte de IA único usando indicaciones con atractivo visual y usando el botón de variación antes de escalar. En general, MidJourney se presenta como una herramienta para la exploración y partida artística más que como un medio para crear obras de arte terminadas.

  • 00:00:00 Esta parte proporciona una descripción general de la mitad del viaje y Discord, y explica que solo se puede acceder a la mitad del viaje a través de Discord. Discuten cómo Discord es una plataforma utilizada para el chat de voz que también se puede usar para crear bots, que es como funciona a mitad de camino. También explican la propiedad de los activos creados a mitad del viaje y las opciones de precios disponibles para usar el servicio. Luego, el orador continúa discutiendo las diferentes salas y características dentro de Discord y cómo comenzar a mitad del viaje, incluido el uso de los diferentes comandos disponibles a través de la barra inclinada.

  • 00:05:00 En esta sección del tutorial, el narrador analiza los diferentes modos de suscripción disponibles en MidJourney, incluido el modo relajado y el modo privado. También explican los diversos modos de mejora y advierten contra el uso de una calidad demasiado alta para evitar usar demasiados créditos de imagen. El narrador también cubre brevemente el sitio web del viaje, incluido el feed de la comunidad donde los usuarios pueden ver las creaciones de otras personas y copiar sus indicaciones. Finalmente, el narrador presenta el comando "imaginar" y analiza el proceso de creación de una imagen utilizando indicaciones y varios interruptores.

  • 00:10:00 En esta sección del tutorial, el usuario explica cómo navegar por la plataforma de generación de arte con IA de MidJourney, incluido cómo calificar imágenes para horas gratuitas de generación de imágenes, cómo mejorar y acceder a variaciones de imágenes, y cómo crear avisos utilizando artistas y otras condiciones. Advierten que si bien la ingeniería rápida es un aspecto importante de la creación de arte de IA, los usuarios deben estar preparados para resultados inesperados y ver la plataforma como un motor de ideas en lugar de un producto terminado.

  • 00:15:00 Este video tutorial parcial explica cómo usar ciertos interruptores para eliminar elementos no deseados de una imagen generada por IA, como el interruptor "sin personas". Sin embargo, la eficacia de tales cambios depende del artista seleccionado y de la complejidad de la imagen. El tutorial también repasa las directivas comunes que se pueden agregar a una indicación de arte de IA, como "muy detallado" o "pintura al óleo", y la importancia de mantener las indicaciones concisas para evitar confundir al bot de IA. Finalmente, el tutorial cubre cómo aumentar la escala de las imágenes y ajustar sus relaciones de aspecto usando MidJourney.

  • 00:20:00 El autor explica cómo usar banderas adicionales mientras aumenta la escala de una imagen para obtener diferentes resultados. Las banderas comienzan con "AR", que significa relación de aspecto, seguido del ancho y la altura separados por dos puntos. El orador señala que existen limitaciones en la tecnología, como problemas con los dedos, la cara y las extremidades adicionales. También exploran diferentes tipos de mensajes, como cryengine y acuarela, y cómo remezclarlos. Finalmente, el orador recomienda comenzar con un mensaje básico y luego perfeccionarlo mezclándolo y escalando. La imagen final se puede guardar y descargar desde el sitio web de MidJourney.

  • 00:25:00 Esta parte analiza diferentes estrategias para generar arte de IA único con MidJourney. Menciona que el uso de indicaciones con atractivo visual o apariencia específica, como "Blade Runner" o "cyberpunk", puede ser útil para guiar la producción de MidJourney. También sugiere usar el botón de variación antes de comprometerse a ampliar una imagen para obtener el mejor resultado posible. Finalmente, les recuerda a los espectadores que MidJourney es una herramienta para la exploración y partida artística, no necesariamente para obras de arte terminadas.
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT, explicado: qué saber sobre el chatbot de OpenAI | Podcast informativo de noticias tecnológicas | Wall Street Journal



ChatGPT, explicado: qué saber sobre el chatbot de OpenAI | Podcast informativo de noticias tecnológicas | WSJ

Los chatbots ahora están disponibles para el público y se pueden usar para hacer preguntas y obtener respuestas. Existen preocupaciones sobre cómo se podrían usar estas herramientas, pero los expertos dicen que las personas deberían usarlas para mejorar su trabajo, no para reemplazar sus roles.

  • 00:00:00 ChatGPT, un modelo de inteligencia artificial conversacional de última generación, es capaz de entablar conversaciones similares a las de los humanos y proporcionar respuestas a las preguntas. Se basa en cantidades masivas de datos y está siendo utilizado por OpenAI, una empresa de inteligencia artificial, para desarrollar Dolly, una plataforma de IA que crea imágenes. Si bien ChatGPT tiene limitaciones, su popularidad y sofisticación plantean dudas sobre sus usos y abusos potenciales.

  • 00:05:00 Los chatbots ahora están disponibles para el público y se pueden usar para hacer preguntas y obtener respuestas. Existen preocupaciones sobre cómo se podrían usar estas herramientas, pero los expertos dicen que las personas deberían usarlas para mejorar su trabajo, no para reemplazar sus funciones.
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 Clase 01 - El problema de aprendizaje




Curso de aprendizaje automático de Caltech - CS 156. Clase 01 - El problema de aprendizaje

La primera lección del curso de aprendizaje automático de Yaser Abu-Mostafa presenta el problema de aprendizaje, que es el proceso de encontrar patrones en los datos para hacer predicciones sin intervención humana. Explica la necesidad de formalización matemática para abstraer problemas prácticos de aprendizaje e introduce el primer algoritmo para aprendizaje automático en el curso, el modelo de perceptrón, que utiliza un vector de peso para clasificar puntos de datos en categorías binarias. La conferencia también cubre diferentes tipos de aprendizaje, incluido el aprendizaje supervisado, no supervisado y de refuerzo, y presenta un problema de aprendizaje supervisado a la audiencia para abordar el problema de determinar una función objetivo para el aprendizaje. El profesor cubre varios temas relacionados con el aprendizaje automático. Hace hincapié en la necesidad de evitar sesgos al seleccionar conjuntos de datos, así como en la importancia de recopilar una cantidad suficiente de datos. El profesor también analiza el papel del conjunto de hipótesis en el aprendizaje automático y el impacto de la elección de la función de error en la técnica de optimización. También aborda los criterios para incluir métodos de aprendizaje automático en el curso y su enfoque en proporcionar conocimiento práctico en lugar de teoría pura.

  • 00:00:00 En esta sección, Yaser Abu-Mostafa presenta el esquema del curso para el aprendizaje automático y explica la importancia de los aspectos matemáticos y prácticos del tema. Afirma que los temas del curso no están destinados a estar separados, sino que siguen una historia lógica. Luego profundiza en el problema de aprendizaje al dar un ejemplo de cómo un espectador calificaría una película, lo cual es relevante para Netflix, ya que lo usan para personalizar las recomendaciones para sus clientes. Menciona la importancia de la formalización matemática en la abstracción de problemas prácticos de aprendizaje e introduce el primer algoritmo para el aprendizaje automático en el curso. También proporciona una encuesta sobre los tipos de aprendizaje y termina con un rompecabezas interesante.

  • 00:05:00 En esta sección, el disertante explica que la esencia del aprendizaje automático radica en la existencia de patrones junto con la disponibilidad de datos. Además, describe la necesidad de encontrar patrones, lo cual no es posible matemáticamente sin los datos adecuados. Usando el ejemplo de las clasificaciones de películas, habla sobre la creación de un sistema para predecir la clasificación utilizando las preferencias del espectador como un vector de factores y los compara con el contenido de la película. Aunque este sistema funciona, no se considera aprendizaje automático ya que requiere intervención humana. La idea del aprendizaje automático es que puede resolver el problema sin intervención humana mediante la búsqueda de patrones y la adopción de medidas correctivas para mejorar el sistema por sí solo.

  • 00:10:00 En esta sección, el orador analiza el enfoque de aprendizaje y cómo aplica ingeniería inversa al proceso de calificación para descubrir qué factores serían consistentes con esa calificación. El proceso de aprendizaje automático comienza a partir de factores aleatorios y los empuja hacia los valores de calificación al pasar por 100 millones de calificaciones una y otra vez, y eventualmente encuentra factores significativos en términos de calificaciones. Luego, el orador usa una metáfora de una solicitud financiera, aprobación de crédito, para explicar los componentes matemáticos que componen el problema de aprendizaje, que incluyen la información del solicitante, el patrón de solvencia y la decisión de aprobar o negar el crédito.

  • 00:15:00 En esta sección, el instructor analiza el problema de aprendizaje y cómo se aplica a la aprobación de créditos. La función objetivo es la fórmula ideal de aprobación de crédito, que se desconoce, y la hipótesis es la fórmula creada para aproximar la función objetivo. Los datos se utilizan para aprender la hipótesis y se utiliza un algoritmo de aprendizaje para crear la fórmula a partir de un conjunto de fórmulas candidatas conocido como conjunto de hipótesis. El razonamiento detrás de restringir el algoritmo de aprendizaje al conjunto de hipótesis es evitar la desventaja de tener una fórmula sin restricciones y beneficiarse de tener un conjunto predefinido de fórmulas para elegir.

  • 00:20:00 En esta sección, el orador explica que ha mostrado el problema de aprendizaje como una imagen para discutir los componentes de la solución de la figura. Señala que el conjunto de hipótesis juega un papel vital en la teoría del aprendizaje, ya que nos dice qué tan bien aprendemos, entre otras cosas. Explica que el conjunto de hipótesis, el algoritmo de aprendizaje y la hipótesis final conforman un modelo de aprendizaje, como el modelo de perceptrón y un algoritmo de aprendizaje de perceptrón. Continúa dando un ejemplo de modelo de perceptrón simple utilizando una fórmula de puntuación de crédito basada en diferentes atributos de un cliente, que puede aprobar o rechazar una solicitud de tarjeta de crédito en función de un umbral.

  • 00:25:00 En esta sección, el profesor discute cómo definir una hipótesis h y el conjunto de hipótesis que tiene todas las hipótesis que tienen la misma forma funcional. Al usar el modelo de perceptrón, que separa los datos en dos regiones, el algoritmo de aprendizaje juega con los parámetros para mover la línea con la esperanza de llegar a la solución correcta. El profesor también presenta el algoritmo de aprendizaje del perceptrón, que toma datos de entrenamiento y navega por el espacio de hipótesis para mostrar la hipótesis final que le da al cliente. El algoritmo comienza con pesos aleatorios y se mueve hasta que encuentra el peso correcto, que se utiliza en la hipótesis final.

  • 00:30:00 En esta sección, el orador explica el algoritmo de aprendizaje de perceptrón (PLA), que es un modelo lineal que es capaz de clasificar puntos de datos en categorías binarias. El algoritmo utiliza un vector de ponderación que tiene en cuenta todos los atributos del conjunto de datos y, si un punto está mal clasificado, el algoritmo actualiza el vector de ponderación para que se comporte mejor en ese punto en particular. El orador también analiza cómo hay problemas con este enfoque y las iteraciones del PLA, pero que al elegir un punto mal clasificado y aplicarle la iteración, eventualmente llegará a una solución correcta si los datos originalmente eran linealmente separables.

  • 00:35:00 En esta sección, el disertante analiza diferentes tipos de aprendizaje, comenzando con el tipo más popular, el aprendizaje supervisado. Este tipo de aprendizaje implica el uso de datos con salidas dadas explícitamente, como el comportamiento crediticio del cliente, para ayudar a clasificar instancias futuras. El disertante usa el ejemplo de enseñar a una máquina a reconocer diferentes monedas usando medidas físicas como el tamaño y la masa. Las monedas se pueden agrupar según sus medidas, lo que puede ayudar a la máquina a distinguirlas. Otros tipos de aprendizaje mencionados incluyen el aprendizaje no supervisado, que se analizará en detalle más adelante en el curso, y el aprendizaje por refuerzo, que se presentará brevemente.

  • 00:40:00 En esta sección, el disertante analiza el aprendizaje supervisado y no supervisado utilizando ejemplos de clasificación de monedas y aprendizaje de idiomas. En el aprendizaje supervisado, se dan los datos de entrenamiento y la salida correcta, y una vez que el sistema está entrenado, se puede usar para clasificar un ejemplo futuro. Sin embargo, en el aprendizaje no supervisado, solo se proporcionan los datos de entrada y no se conoce la función objetivo. A pesar de esto, el aprendizaje no supervisado aún puede ser útil para agrupar datos en grupos e identificar patrones que pueden ayudar en la clasificación futura. El disertante también explica cómo se puede utilizar el aprendizaje no supervisado para el aprendizaje de idiomas al sumergirse en el idioma y desarrollar un modelo del idioma a través de la exposición a él.

  • 00:45:00 En esta sección, el video explica el concepto de aprendizaje por refuerzo como un método para permitir que un sistema aprenda a través de la experiencia. El disertante utiliza el ejemplo de un niño pequeño que toca una taza de té caliente para ilustrar cómo funciona el aprendizaje por refuerzo. Al permitir que el sistema realice cualquier salida (incluso las más locas) y confiar gradualmente en el condicionamiento a través de recompensas o castigos, el sistema eventualmente puede aprender a navegar en juegos como el backgammon. Este enfoque es un método conveniente y más fácil de producir el sistema deseado en lugar de escribir código y estudiar las matemáticas detrás de él.

  • 00:50:00 En esta sección de la conferencia, el profesor presenta un problema de aprendizaje supervisado a la clase y al público en línea. El problema involucra datos de entrenamiento con algunos puntos asignados a +1 y otros asignados a -1. El objetivo es aprender la función objetivo y determinar el valor de la función para un punto de prueba. El profesor enfatiza que la función objetivo es desconocida y puede ser cualquier cosa, lo que hace imposible determinar un patrón que se aplique fuera del conjunto de entrenamiento dado. Esto presenta un desafío difícil para el aprendizaje, que requiere métodos más allá de la simple memorización de ejemplos.

  • 00:55:00 En esta sección de la conferencia, el profesor analiza las preguntas de la sesión de preguntas y respuestas. Aborda el tema de la separabilidad lineal y explica que, si bien es una suposición simplista, existen algoritmos que pueden tratar el caso de la inseparabilidad lineal, y la próxima semana se estudiará una técnica para hacer que los puntos separables no linealmente sean separables linealmente. El profesor también menciona que la tasa de convergencia del algoritmo del perceptrón cambia con la dimensionalidad y puede generar casos patológicos en los que tomará una eternidad. Además, comenta que es difícil saber si hay un patrón específico que detectar, pero existe una separación entre la función objetivo y si podemos aprenderla, lo que se explicará en una conferencia completa más adelante.
  • 01:00:00 En esta sección del video, el profesor explica cómo trata de evitar mirar el conjunto de datos particular que se le ha dado o adaptar su sistema para evitar decepciones cuando aparece otro conjunto de datos. Explica que el aprendizaje automático es una disciplina que trata de cubrir la mayor parte del territorio con la menor cantidad de suposiciones, y se puede aplicar tanto de manera práctica como científica. Además, el profesor menciona que la optimización es una herramienta para el aprendizaje automático, pero no es algo que la gente del aprendizaje automático estudie por sí misma. Finalmente, señala que la hipótesis establecida para el aprendizaje automático puede ser cualquier cosa, ya sea continua o discreta.

  • 01:05:00 En esta sección, el profesor habla sobre el sesgo de muestreo en la aprobación de créditos y cómo afecta la calidad de los datos utilizados. Explica que tomar una muestra sesgada puede conducir a resultados inexactos, pero usar una base de clientes para tomar decisiones aún puede funcionar porque la base de clientes está más adentro de la región de clasificación. Luego analiza los aspectos teóricos y prácticos de la recopilación de datos y cuántos datos son necesarios para crear un sistema razonable. Finalmente, aborda el tema de elegir el tamaño del conjunto de hipótesis y afirma que el objetivo del aprendizaje es predecir utilizando datos para generar un patrón razonable que se generalizará fuera del conjunto de datos.

  • 01:10:00 En esta sección de la conferencia sobre el problema de aprendizaje, el profesor analiza el papel de la teoría en el aprendizaje automático, específicamente cómo mide la sofisticación de un conjunto de hipótesis y la cantidad de datos necesarios para hacer afirmaciones sobre la generalización. El profesor también cubre las preguntas de la audiencia en línea, incluida la forma de corregir los comentarios mediante la validación y el uso de diferentes tipos de funciones para las hipótesis. Además, se analiza el papel del algoritmo de aprendizaje y el conjunto de hipótesis, centrándose en cómo la elección de la función de error afecta la elección de la técnica de optimización. Finalmente, el profesor aclara qué sucede si una salida está exactamente en el umbral del algoritmo del perceptrón.

  • 01:15:00 En esta sección de la conferencia, el profesor analiza la idea de que debe haber un patrón para que funcione el aprendizaje automático. Si no hay patrón, entonces no hay nada que aprender. También menciona la importancia de los datos y cómo es clave para el aprendizaje. El profesor enfatiza la importancia de pasar por las secciones matemáticamente inclinadas del esquema para comprender completamente los componentes que hacen posible el aprendizaje. También aborda brevemente la cuestión de por qué el perceptrón a menudo se relaciona con una neurona y menciona que la analogía con la biología se discutirá con más detalle más adelante. Por último, el profesor menciona que la selección de modelos y los principios bayesianos se discutirán más adelante en el curso.

  • 01:20:00 En esta sección, el ponente analiza los criterios para incluir métodos de aprendizaje automático en el curso. Afirma que se incluirán los métodos más útiles en la práctica y que su objetivo es proporcionar una comprensión general de los conceptos y herramientas para usarlos en la práctica. Menciona que existen diferentes métodos jerárquicos con ramificaciones en la generalización que puede mencionar cuando analiza las máquinas de vectores de soporte, pero en general, su enfoque es proporcionar conocimiento práctico en lugar de teoría pura.
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

Lección 2. ¿Es factible el aprendizaje?



Curso de aprendizaje automático de Caltech - CS 156. Clase 02 - ¿Es factible el aprendizaje?

La conferencia analiza la viabilidad del aprendizaje, específicamente el uso del aprendizaje automático para determinar patrones a partir de datos dados. El disertante introduce el concepto de nu y mu en probabilidad y cómo se relaciona con el problema de aprendizaje. Se explora la adición de probabilidad, lo que permite la viabilidad del aprendizaje sin comprometer la función objetivo, lo que significa que no es necesario hacer suposiciones sobre la función que se aprenderá. Se discute el concepto de sobreajuste y cómo se relaciona con la sofisticación del modelo, con un mayor número de hipótesis que conducen a una generalización más pobre. En última instancia, la conferencia concluye con una solicitud para revisar la diapositiva sobre la implicación de nu es igual a mu.

  • 00:00:00 En esta sección, Yaser Abu-Mostafa analiza los tres criterios para determinar si el aprendizaje automático es la técnica adecuada para una aplicación: si hay un patrón que se puede aprender, si el patrón no se puede precisar matemáticamente y si existen datos suficientes para representar el patrón. Además, explica que si no hay un patrón, aún se puede probar el aprendizaje automático, pero fallará, y si el patrón se puede determinar matemáticamente, es posible que el aprendizaje automático no sea la técnica óptima. Abu-Mostafa explica además el aprendizaje supervisado, donde se desconoce la función objetivo, pero se proporcionan la entrada y salida de datos, y cómo se llama "supervisado" porque la salida actúa como supervisor del proceso de aprendizaje.

  • 00:05:00 En esta sección, el disertante analiza la viabilidad del aprendizaje y cómo es imposible aprender una función desconocida. Para abordar esta pregunta, la conferencia se centra en una situación probabilística en la que se toma una muestra de un recipiente de canicas que son rojas o verdes con una probabilidad de sacar una canica roja representada por mu. La conferencia traduce esta situación al aprendizaje y luego encuentra una solución al dilema, declarando finalmente que el aprendizaje es factible en un sentido particular.

  • 00:10:00 En esta sección del video, el presentador describe un experimento con un recipiente opaco que contiene canicas, donde la probabilidad de sacar una canica roja es mu y la probabilidad de sacar una canica verde es 1 menos mu. Se desconoce el valor de mu, y el objetivo es determinar si la frecuencia de muestra nu (fracción de canicas rojas en una muestra de canicas) puede proporcionar alguna información sobre mu. La respuesta es no para muestras pequeñas, pero para muestras más grandes, nu puede estar cerca de mu con una mayor probabilidad, abriendo posibilidades para la inferencia estadística. La distinción entre posible y probable es clave en ciencia e ingeniería.

  • 00:15:00 En esta sección, el disertante presenta la Desigualdad de Hoeffding, que es una fórmula que se utilizará a lo largo del curso para probar algo sobre la dimensión VC. La desigualdad establece que la probabilidad de un evento, donde la frecuencia de la muestra no se aproxima a la frecuencia del contenedor dentro de una tolerancia dada, es pequeña y disminuye exponencialmente con un tamaño de muestra más grande. Sin embargo, una tolerancia más pequeña da como resultado un exponente más alto, lo que amortigua los beneficios del exponencial negativo. Se prefiere la fórmula con los 2 a la fórmula original, ya que es cierta.

  • 00:20:00 En esta sección de la lección, se presenta la Desigualdad de Hoeffding como una herramienta para limitar la desviación de la frecuencia de muestra de la frecuencia real. La desigualdad se cumple para cada N y épsilon, lo que la convierte en una propuesta muy atractiva a pesar de tener una exponencial. La distribución de probabilidad de nu depende explícitamente de mu, que es el valor desconocido, pero la desigualdad no depende de mu, lo cual es una ventaja. También se analiza la compensación entre N y épsilon, ya que cuanto menor es el épsilon, mayor es el N necesario para compensar el mismo nivel de límite de probabilidad. Finalmente, se explica la lógica del enunciado de que nu es aproximadamente lo mismo que mu, lo que implica que mu es aproximadamente lo mismo que nu.

  • 00:25:00 En esta sección del video, el orador analiza el concepto de mu y nu en probabilidad y cómo se relaciona con el problema de aprendizaje. Explican que mientras que en probabilidad el propósito es inferir mu de nu generando diferentes muestras y calculando la probabilidad, en el problema de aprendizaje la cantidad desconocida es una función completa con un dominio que podría ser un espacio euclidiano de décimo orden. Luego, el orador continúa presentando el concepto de codificación por colores en este escenario para indicar el acuerdo entre una hipótesis y la función objetivo. A través de este mapeo, el hablante efectivamente ha agregado probabilidad al problema de aprendizaje.

  • 00:30:00 En esta sección, se explora la adición de probabilidad al problema de aprendizaje. La probabilidad se introduce en el espacio de entrada aplicando una distribución de probabilidad sobre el espacio de entrada, que genera puntos de forma independiente. La distribución de probabilidad que se presenta no requiere supuestos y la maquinaria se puede aplicar a cualquier distribución de probabilidad. La adición de probabilidad permite la viabilidad del aprendizaje sin comprometer la función objetivo, lo que significa que no es necesario hacer suposiciones sobre la función que se aprenderá. Sin embargo, se discute el problema de la verificación, donde la situación descrita es equivalente a un banco que busca una fórmula específica para la aprobación del crédito con base en datos dados.

  • 00:35:00 En esta sección, el disertante explica cómo convertir un simple problema de prueba de hipótesis en un problema binario que se puede aprender. Comenzando con un solo contenedor y un umbral alto, elige una ponderación de 0,1 para los años de residencia, ya que contribuye débilmente al problema de aprendizaje. Sin embargo, esta técnica no tiene en cuenta múltiples hipótesis, lo que significa que es más inteligente elegir entre varios contenedores. Esto requiere que uno escanee diferentes muestras, lo que puede permitir un aprendizaje efectivo. El disertante presenta la notación que se usará a lo largo del resto de la charla, llamando a nu y mu con nombres descriptivos, ya que representan la frecuencia en la muestra y dentro del contenedor respectivamente, introduciendo en consecuencia E_in como la tasa de error en la muestra.

  • 00:40:00 En esta sección de la conferencia, el profesor presenta la notación para el desempeño dentro y fuera de la muestra. El rendimiento fuera de muestra se refiere a algo que no se ha visto antes, y si un modelo funciona bien con datos fuera de muestra, significa que ha aprendido. La Desigualdad de Hoeffding, que se usa para medir las diferencias en el desempeño dentro y fuera de la muestra, luego se aplica a múltiples grupos de hipótesis, pero el profesor explica que no se aplica en este caso. Luego se discute la razón por la que no se aplica, y se le pide a la audiencia que lance una moneda al aire cinco veces y registre los resultados para ilustrar el punto.

  • 00:45:00 En esta sección, el profesor describe cómo la desigualdad de Hoeffding se aplica a la situación de aprendizaje, donde los datos caen aleatoriamente en una de dos categorías. Explica que varios contenedores dificultan el manejo del problema y diluyen la garantía de la desigualdad de Hoeffding, ya que calcula la probabilidad de que un contenedor dé cinco caras. Aunque cada uno de los contenedores puede pasar la prueba de cinco cabezas, no son una indicación de la probabilidad real del contenedor, ya que es muy probable que ocurra una probabilidad extremadamente alta de que suceda algo malo, en algún lugar. El profesor termina esta sección afirmando que necesitan encontrar algo que les permita manejar varios contenedores de manera eficiente.

  • 00:50:00 En esta sección, el disertante analiza la probabilidad de que el error dentro de la muestra esté cerca del error fuera de la muestra en el escenario de aprendizaje genuino, que implica elegir una hipótesis de un conjunto basado en un error dentro de la muestra. criterio. La probabilidad de este evento es menor o igual a la probabilidad de que cualquier hipótesis del conjunto finito sea mala, la cual se calcula utilizando la unión de probabilidad. Aunque este límite es pesimista y no considera la superposición, se puede utilizar para calcular el límite superior de todas las probabilidades. Cada término en este límite corresponde a una hipótesis fija, que puede ser sustituida por el límite de Hoeffding. En última instancia, la probabilidad de que el error dentro de la muestra esté cerca del error fuera de la muestra todavía está limitada por un término con un exponencial, pero incluye un factor adicional que es molesto.

  • 00:55:00 En esta sección, el profesor analiza el problema del sobreajuste y cómo se relaciona con la sofisticación del modelo utilizado. Con un mayor número de hipótesis, la probabilidad de que algo malo suceda también aumenta. El profesor explica que tener un modelo más sofisticado puede llevar a la memorización dentro de la muestra y a una mala generalización fuera de la muestra. La sesión de preguntas y respuestas analiza la desigualdad de Hoeffding y sus implicaciones, incluido el caso en el que el resultado es trivial y cómo el número de hipótesis para los modelos de aprendizaje suele ser infinito. La conferencia concluye con una solicitud para revisar la diapositiva 6 sobre la implicación de nu es igual a mu.
  • 01:00:00 En esta sección del video, el profesor explica el concepto de causa y efecto en estadística y cómo se relaciona con el aprendizaje automático. Él enfatiza que la frecuencia en la muestra es el efecto, mientras que el contenedor es la causa. Esta comprensión es crucial cuando se usa la Desigualdad de Hoeffding para inferir el contenedor en función de la muestra mientras se trata mu como una constante y nu como la causa. El profesor también aclara que cada h en el aprendizaje automático es una hipótesis, y el modelo es el conjunto de hipótesis disponibles para la selección. La complejidad del modelo y las hipótesis individuales se discutirán más adelante en el curso. Finalmente, el profesor analiza cómo extender la ecuación para respaldar un rango de respuestas y no solo una respuesta binaria, lo que se puede lograr tomando el valor esperado de algo versus el promedio de la muestra.

  • 01:05:00 En esta sección, el profesor explica que el aprendizaje es factible, pero se debe tener en cuenta la varianza de la variable. Señala que el valor esperado y el promedio muestral de una función están relacionados con la probabilidad, y que es solo un caso más simple de probabilidad y promedio muestral. Además, aclara que el uso de contenedores múltiples es necesario para representar múltiples hipótesis en el aprendizaje, ya que diferentes hipótesis darán lugar a diferentes colores. El profesor también explica cómo funciona elegir los mejores hiperplanos y cómo los algoritmos de aprendizaje resuelven este problema eligiendo la solución específica con la que terminan. Por último, señala que la única invocación de probabilidad necesaria en el aprendizaje es colocar una distribución de probabilidad en X para obtener el beneficio del análisis probabilístico en el aprendizaje, pero que el enfoque bayesiano colocará una distribución de probabilidad en H al final del proceso. curso.

  • 01:10:00 En esta sección, la discusión se centra en la flexibilidad del conjunto de hipótesis (H) utilizado en un algoritmo de aprendizaje. El símbolo 'g' se usa para indicar la hipótesis final seleccionada por un algoritmo de H. Sin embargo, g puede ser diferente ya que se refiere a todo el proceso de aprendizaje que se llevó a cabo para seleccionarla del conjunto de hipótesis de acuerdo con los datos y la regla de aprendizaje. Además, es importante señalar que, aunque el algoritmo de perceptrón o cualquier algoritmo de aprendizaje lineal selecciona una hipótesis en cada paso, es un proceso oculto desde la perspectiva del análisis, ya que el objetivo es seleccionar una hipótesis final correcta, g, de H. Finalmente, la Desigualdad de Hoeffding modificada es una extensión de la Desigualdad de Hoeffding simple que permite hacer declaraciones simultáneamente sobre una serie de hipótesis en el conjunto de hipótesis para garantizar un buen desempeño al tiempo que se tiene en cuenta la probabilidad de que sucedan cosas malas.

  • 01:15:00 En esta sección, el profesor analiza la relación entre la Desigualdad de Hoeffding y los valores p en estadística. Explica que la Desigualdad de Hoeffding está relacionada con la estimación de la confiabilidad y la probabilidad de desviación de una muestra. También señala que existen otras leyes de los grandes números en estadística, pero se centra en esta fórmula como la más útil para comprender la teoría de la generalización. El profesor menciona que si bien es útil estudiar las diferentes manifestaciones de dentro de la muestra que están cerca de fuera de la muestra y las probabilidades de error, no es un tema central del curso. La conferencia concluye y los estudiantes son despedidos hasta la próxima semana.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Clase 3 - El Modelo Lineal I




Curso de aprendizaje automático de Caltech - CS 156. Clase 03 - El modelo lineal I

Esta lección cubre los temas de los modelos lineales en el aprendizaje automático, la representación de entrada, el algoritmo perceptrón, el algoritmo de bolsillo y la regresión lineal, incluido su uso en la clasificación. El profesor enfatiza la importancia de usar datos reales para probar diferentes ideas e introduce el concepto de características para simplificar la vida del algoritmo de aprendizaje. La conferencia también analiza los aspectos computacionales de la pseudo-inversa en la regresión lineal y los problemas que pueden surgir al usar la regresión lineal para la clasificación de datos no separables. Finalmente, se presenta el concepto de usar transformaciones no lineales para hacer que los datos sean más lineales, con un ejemplo que demuestra cómo lograr datos separables usando la transformación x1² y x2² desde el origen.

Además, el profesor cubre varios temas relacionados con el modelo lineal en el aprendizaje automático. Analiza las transformaciones no lineales y las pautas para seleccionarlas, los errores dentro y fuera de la muestra en la clasificación binaria, el uso de la regresión lineal para el análisis de correlación y la obtención de características significativas a partir de la entrada. El profesor también enfatiza la importancia de comprender la distinción entre E_in y E_out y cómo afectan el rendimiento del modelo. Por último, aborda la relación entre la regresión lineal y la estimación de máxima verosimilitud, el uso de transformaciones no lineales y el papel de la teoría en la comprensión de los conceptos de aprendizaje automático.

  • 00:00:00 En esta sección, Yaser Abu-Mostafa profundiza en el tema de las múltiples hipótesis en un modelo. Como la probabilidad de que suceda algo malo podría acumularse a través de múltiples hipótesis, se puede aplicar el límite de unión, una regla matemática. Esta técnica permite que la probabilidad de un evento u otro evento sea menor o igual a la suma de las probabilidades individuales, proporcionando una herramienta útil para acotar la probabilidad de que suceda algo malo. Cuando un solo conjunto de hipótesis o contenedor corresponde a una sola hipótesis, la probabilidad de que la hipótesis final sea mala es pequeña. Sin embargo, un conjunto de hipótesis más grande dará como resultado un factor M grande, lo que hará que la probabilidad no tenga sentido.

  • 00:05:00 En esta sección, el disertante analiza la importancia de los modelos lineales en el aprendizaje automático y brinda una secuencia de temas tratados en la conferencia, que incluye el perceptrón y su generalización a datos no separables, una función de valor real, y eventualmente a un caso no lineal. También presenta un conjunto de datos prácticos de códigos postales en la oficina postal que se usará para probar diferentes ideas y enfatiza la importancia de probar ideas con datos reales. El disertante examina la cuestión de la representación de entrada, destacando el desafío de codificar los 256 números reales de la entrada sin procesar de 16 por 16 píxeles de nivel de gris, lo que podría conducir a demasiados parámetros, pero se resuelve con técnicas de extracción de características.

  • 00:10:00 En esta sección, el video analiza el concepto de representación de entrada y la idea de características para simplificar la vida del algoritmo de aprendizaje. El disertante da un ejemplo de extracción de descriptores de una imagen, como intensidad y simetría, para obtener una representación de mayor nivel de la información sin procesar. Al usar estas funciones, el algoritmo solo necesita determinar los valores de algunos parámetros en lugar de los 257 parámetros en el espacio original, lo que es mejor para la generalización. Luego, la conferencia presenta diagramas de dispersión de las coordenadas de intensidad y simetría para ilustrar cómo las características hacen que el problema sea linealmente separable e introduce el papel del algoritmo de aprendizaje del perceptrón en la determinación del límite de decisión.

  • 00:15:00 En esta sección, aprendemos sobre el comportamiento del algoritmo de aprendizaje del perceptrón cuando los datos no son linealmente separables. Debido a su naturaleza de corregir clasificaciones erróneas de una en una, a veces el error aumentará o disminuirá, y no puede garantizar la convergencia en tales casos. Para resolver esto, introducimos el algoritmo de bolsillo, lo que significa que medimos el error en la muestra de la hipótesis intermedia durante cada iteración, y solo guardamos la mejor en nuestro bolsillo. Al final, reportamos la hipótesis en nuestro bolsillo como la hipótesis final. El algoritmo de bolsillo proporciona mejores resultados ya que considera que el valor de bolsillo en cada iteración que se encontró es mejor que lo que siguió y, por lo tanto, los errores dentro y fuera de la muestra están mucho más cerca.

  • 00:20:00 En esta sección de la conferencia, el profesor Abu-Mostafa analiza el algoritmo de bolsillo, que es una versión modificada del algoritmo de aprendizaje del perceptrón que se puede usar para datos generales inseparables. El algoritmo termina en una determinada iteración e informa el valor del bolsillo. Explica que el límite de clasificación del algoritmo de bolsillo es mejor que el del algoritmo de aprendizaje del perceptrón, aunque los datos aún no son perfectamente separables. Luego se introduce la regresión lineal como un enfoque estadístico de uso común para encontrar una relación entre variables, particularmente para analizar la relación entre los GPA de diferentes cursos y las ganancias futuras. Finalmente, se revisa el ejemplo de aprobación de crédito para mostrar cómo se puede usar la regresión para predecir el límite de crédito de un cliente en función de sus datos.

  • 00:25:00 En esta sección, el profesor introduce el concepto de regresión lineal y explica que se utiliza para predecir valores de salida reales basados en variables de entrada. La salida es una hipótesis que toma una forma lineal en términos de las variables de entrada. Las variables se codifican como entradas y el algoritmo depende de la linealidad de la señal. El conjunto de datos para este ejemplo son datos históricos de clientes anteriores en los que un funcionario evaluó sus solicitudes de crédito y determinó una línea de crédito. El objetivo es replicar lo que hacen los expertos para automatizar el sistema de determinación de líneas de crédito. El algoritmo de regresión lineal mide el error y trata de encontrar los pesos óptimos para determinar la hipótesis que se aproxima bien a f. La función de error estándar utilizada en la regresión lineal es el error cuadrático.

  • 00:30:00 En esta sección, el disertante analiza cómo estimar una línea de crédito y la importancia de definir una medida de error, como el error cuadrático, que se usa comúnmente en la regresión lineal. El error en la muestra se usa para medir qué tan bien está funcionando la hipótesis en el conjunto de datos, donde cada ejemplo tiene una contribución al error. El algoritmo de regresión lineal busca minimizar este error al encontrar una línea que se ajuste a los datos de acuerdo con la regla del error cuadrático. El algoritmo se aplica a espacios de dimensiones superiores donde la línea es un hiperplano. La expresión para E_in se presenta como una norma al cuadrado de algo que consolida las diferentes x_n's.

  • 00:35:00 En esta sección, se introduce el concepto del modelo lineal, donde los datos de entrada se presentan como una matriz X con un vector de salidas y. El gradiente se toma para minimizar E_in con respecto al parámetro w. Esto conduce a una ecuación cuadrática sencilla de resolver, que involucra X traspuesto X, una matriz cuadrada invertible. La solución es simple debido a esto, y la fórmula para w es X^†, donde X^† es la pseudo-inversa de X, que es una forma abreviada de la inversa de X transpuesta X multiplicada por X transpuesta. Debido a que X no es invertible, no tiene un inverso tradicional, pero tiene un pseudo-inverso.

  • 00:40:00 En esta sección, el disertante explica los aspectos computacionales de la pseudo-inversa en la regresión lineal. La fórmula para la pseudo-inversa implica la inversión y la multiplicación de matrices, que pueden ser computacionalmente intensivas para matrices grandes. Sin embargo, el disertante señala que esto no es una preocupación para la mayoría de las aplicaciones prácticas, ya que hay muchos paquetes disponibles para calcular la pseudo-inversa o la solución para la regresión lineal. Para usar la regresión lineal, uno debe ingresar los datos en el formato correcto, construir la matriz X y el vector y, y luego insertarlos en la fórmula de la pseudo-inversa. La multiplicación resultante da los valores de w, los pesos para el modelo lineal.

  • 00:45:00 En esta sección, se introduce el concepto de usar la regresión lineal para la clasificación. Se explica que las funciones de clasificación con valores binarios también tienen valores reales y se puede usar la regresión lineal para aprender aproximadamente estas funciones. Los pesos obtenidos de la regresión lineal también se pueden usar como pesos iniciales para algoritmos de clasificación como el algoritmo de perceptrón, lo que proporciona un comienzo rápido y una convergencia potencialmente más rápida. Adicionalmente, se discute la idea de utilizar el signo de la señal obtenida de la regresión lineal para clasificarla como +1 o -1. Finalmente, el límite de regresión lineal se explica mediante un ejemplo.

  • 00:50:00 En esta sección de la conferencia, el profesor analiza los problemas que pueden surgir al utilizar la regresión lineal para la clasificación, particularmente cuando se trata de datos no separables. Demuestra que el algoritmo intentará forzar todos los valores a la misma clasificación, lo que a menudo resulta en errores en el proceso de clasificación. Luego introduce la idea de utilizar transformaciones no lineales para que los datos sean más lineales, como en el caso de determinar la estabilidad de la línea de crédito en función de los años de residencia. Sin embargo, enfatiza que es importante comprender qué se entiende por "lineal" en términos de estos modelos para un uso efectivo.

  • 00:55:00 En esta sección, el disertante analiza la importancia de la linealidad en los pesos al derivar algoritmos de aprendizaje como perceptrón y regresión lineal, ya que permite que los algoritmos funcionen independientemente de cuáles sean las x. Esto abre la posibilidad de realizar transformaciones no lineales a las entradas sin salir del ámbito de los modelos lineales porque los pesos dados a las características no lineales dependen linealmente de los parámetros. Se proporciona un ejemplo de una transformación no lineal, donde los datos se transforman utilizando medidas x1² y x2² desde el origen, lo que da como resultado datos separables. Sin embargo, la transformación no lineal es una pregunta cargada que es sensible a los problemas de generalización, por lo que las pautas se discutirán más a fondo en la próxima lección.
  • 01:00:00 En esta sección, el profesor analiza las transformaciones no lineales y las pautas sobre hasta dónde se puede llegar al elegirlas. Enfatiza la importancia de la generalización y el conocimiento teórico al seleccionar transformaciones no lineales. Luego, la discusión pasa a los errores dentro y fuera de la muestra, específicamente en el contexto de la clasificación binaria. El profesor aclara que en el aprendizaje solo se trata el error dentro de la muestra, mientras que el error fuera de la muestra se maneja implícitamente con la garantía de que hacerlo bien dentro de la muestra se traducirá en hacerlo bien fuera de la muestra. También se explica la distinción entre probabilidad de error y frecuencia de error en la clasificación. Luego, la conferencia aborda el uso de la regresión lineal para determinar la correlación entre el GPA y los ingresos futuros. También se analizan brevemente la disponibilidad de datos y la inclusión de w_0 en la regresión lineal.

  • 01:05:00 En esta sección, el profesor explica que el umbral es necesario para la regresión lineal, ya que compensa el desplazamiento en función de los valores de las variables, lo que permite un modelo adecuado. En el caso binario, cuando se usa +1 o -1 como resultados, la hipótesis de la regresión lineal tiene el error de mínimos cuadrados de los objetivos de los ejemplos, y el resultado de la hipótesis es el más cercano al valor +1 o -1 con un error medio cuadrado. Si bien esta técnica puede funcionar, es posible que no clasifique los puntos correctamente, ya que la regresión lineal intenta ajustar puntos irrelevantes que pueden estropear la clasificación. El profesor sugiere usar la regresión lineal como ponderación inicial y luego usar un algoritmo de clasificación adecuado para ajustarla aún más. Al derivar características, no existe un algoritmo general, y el mejor enfoque es mirar la entrada sin procesar e intentar inferir características significativas basadas en la declaración del problema. Sin embargo, si hay demasiadas funciones, puede convertirse en un problema, y ahí es donde las transformaciones no lineales pueden ayudar a simplificar el espacio de funciones.

  • 01:10:00 En esta sección, el profesor analiza el concepto de características, que son representaciones de nivel superior de una entrada sin procesar. El modelo lineal es un bloque de construcción para numerosos modelos en el aprendizaje automático, y otros modelos pueden brindar un mejor rendimiento incremental en algunos casos, pero enfatiza que el modelo lineal hace el trabajo. El profesor también destaca la diferencia entre E_in y E_out, donde E_in se evalúa fácilmente, mientras que E_out requiere garantías teóricas de que el error dentro de la muestra rastrea el error fuera de la muestra. Además, explica que la regresión lineal todavía se puede usar para ajustar un polinomio transformando la variable de entrada a través de una transformación no lineal. Finalmente, habla brevemente sobre la relación entre los mínimos cuadrados de regresión lineal y la estimación de máxima verosimilitud en la literatura estadística, que implica más suposiciones sobre probabilidades y ruido.

  • 01:15:00 En esta sección, el profesor habla sobre la relación entre el modelo de regresión lineal y la máxima verosimilitud, pero prefiere presentar la regresión lineal en el contexto del aprendizaje automático sin hacer demasiadas suposiciones sobre las distribuciones. El profesor también analiza las transformaciones no lineales y cómo se utilizan en el aprendizaje automático, incluidos los polinomios y las funciones de base radial. También aborda preguntas sobre cómo encontrar patrones en generadores de números pseudoaleatorios y los diferentes tratamientos para respuestas continuas versus discretas, que dependen del problema en cuestión. Finalmente, el profesor enfatiza la importancia de la teoría para comprender más profundamente las técnicas de aprendizaje automático.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Clase 4 - Error y Ruido




Curso de aprendizaje automático de Caltech - CS 156. Clase 04 - Error y ruido

En la lección 04 del curso de aprendizaje automático, el profesor Abu-Mostafa analiza la importancia del error y el ruido en los problemas de aprendizaje automático de la vida real. Explica el concepto de transformación no lineal utilizando el espacio de características Z, que es esencial para preservar la linealidad en el aprendizaje. La conferencia también cubre los componentes del diagrama de aprendizaje supervisado, enfatizando la importancia de las medidas de error en la cuantificación del desempeño de la hipótesis. Los objetivos ruidosos se introducen como un componente típico de los problemas de aprendizaje del mundo real, que deben tenerse en cuenta al minimizar el error en la muestra. La conferencia termina con una discusión sobre la teoría del aprendizaje y su relevancia en la evaluación del error dentro de la muestra, el error fuera de la muestra y la complejidad del modelo.

El profesor explica cómo los cambios en la distribución de probabilidad pueden afectar el algoritmo de aprendizaje y cómo las medidas de error pueden diferir para diferentes aplicaciones. También analiza el algoritmo para la regresión lineal, el uso del error cuadrático frente al valor absoluto para las medidas de error en la optimización y la compensación entre complejidad y rendimiento en los modelos de aprendizaje automático. El profesor aclara la diferencia entre el espacio de entrada y la extracción de características y señala que la teoría sobre cómo mejorar la generalización y minimizar el error simultáneamente se tratará en las próximas conferencias.

  • 00:00:00 En esta sección, el profesor Abu-Mostafa analiza la importancia del error y el ruido al considerar problemas de la vida real en el aprendizaje automático. Primero revisa el concepto de transformación no lineal y cómo ayuda a transformar variables y preservar la linealidad en w, el vector de peso, que es esencial para el proceso de aprendizaje. Luego introduce el concepto de error y ruido en el diagrama de aprendizaje, reconociendo las consideraciones prácticas que surgen en situaciones de la vida real. La lección también incluye un ejemplo de datos no separables que se pueden separar a través de una transformación no lineal.

  • 00:05:00 En esta sección, se analiza una transformación no lineal llamada phi donde cada punto en el espacio muestral x_n se somete a la transformación y el punto z_n correspondiente se obtiene en el espacio de características Z, que puede ser un espacio altamente no lineal. Esto permite que el conjunto de datos se vuelva linealmente separable en el nuevo espacio de características, que luego se aplica mediante algoritmos de modelo lineal simple como regresión lineal o clasificación para obtener un límite de separación. Sin embargo, cuando se proporciona un punto de prueba, está en el espacio de entrada, por lo que este punto debe transformarse mediante una transformación inversa para ubicar dónde se encuentra en el espacio de características para clasificarlo en consecuencia. Este procedimiento funciona bien en cualquier tamaño de dimensiones para cualquier transformación no lineal, pero es importante tener cuidado con la transformación para evitar problemas de generalización.

  • 00:10:00 En esta sección, el instructor analiza los componentes del diagrama de aprendizaje supervisado e introduce el concepto de medidas de error y objetivos ruidosos. Explica que el objetivo de las medidas de error es cuantificar qué tan bien o qué tan mal se aproxima una hipótesis a una función objetivo desconocida. La medida del error se define como E de dos funciones, y enfatiza que es una medida cuantitativa. Además, afirma que los objetivos ruidosos son un componente práctico de los problemas de aprendizaje de la vida real que deben tenerse en cuenta.

  • 00:15:00 En esta sección, el orador explica cómo se usa la función de error para medir qué tan bien una función de hipótesis se aproxima a una función objetivo en algoritmos de aprendizaje automático. La función de error devuelve un número que se calcula comparando el valor de dos funciones en el mismo punto. La definición puntual se usa comúnmente, y el promedio de errores puntuales se usa para definir la función de error en todo el espacio. El error dentro de la muestra de la función de error es el promedio de errores puntuales en el conjunto de entrenamiento, mientras que el error fuera de la muestra requiere dividir los datos en conjuntos de entrenamiento y prueba. El disertante enfatiza la importancia de minimizar la función de error para desarrollar una función de hipótesis precisa.

  • 00:20:00 En esta sección, el disertante analiza el error fuera de muestra, que es la versión fuera de muestra de una medida de error. El valor esperado se obtiene promediando todos los puntos en el espacio de entrada X. El error binario es la probabilidad de error general, que se calcula usando la distribución de probabilidad sobre el espacio de entrada X. El diagrama de aprendizaje se actualiza con la adición de la medida de error , que se define punto por punto. La medida de error se define en el contexto de la verificación de huellas dactilares con dos tipos de errores: aceptación falsa y rechazo falso. Al definir una medida de error, se penaliza cada tipo de error para obtener una mejor hipótesis.

  • 00:25:00 En esta sección, el orador analiza el concepto de error y ruido en los sistemas de verificación de huellas dactilares y cómo se puede usar el aprendizaje automático para crear una hipótesis para aceptar o rechazar personas en función de sus huellas dactilares. El orador señala que no hay ningún mérito inherente en elegir una función de error sobre otra y que depende del dominio de la aplicación. Por ejemplo, en el caso de los supermercados, los falsos rechazos son costosos, ya que pueden frustrar a los clientes y llevar su negocio a otra parte, mientras que las falsas aceptaciones no son tan importantes. Sin embargo, en el caso de la CIA, las aceptaciones falsas podrían generar brechas de seguridad, lo que las hace más costosas que los rechazos falsos. Por lo tanto, la matriz de error debe ajustarse en función de la aplicación específica.

  • 00:30:00 En esta sección, el orador analiza la importancia de las medidas de error en los problemas prácticos de aprendizaje y explica que la medida de error utilizada debe especificarla el usuario que utilizará el sistema imperfecto. Él sugiere que si el usuario puede articular una función de error cuantitativa, entonces esa es la función de error con la que trabajar. Sin embargo, cuando los usuarios no brindan funciones de error específicas, se pueden usar otras medidas plausibles o amigables. Las medidas plausibles tienen méritos analíticos, mientras que las medidas amigables son fáciles de usar. El hablante modifica el diagrama de aprendizaje para introducir la medida del error, que es crucial para dejar claro lo que se supone que debe aprender el sistema.

  • 00:35:00 En esta sección, la atención se centra en la medida del error y su función en el algoritmo de aprendizaje. La medida de error tiene dos funciones principales: evaluar la hipótesis final y aproximar la función objetivo, y alimentar la medida de error al algoritmo de aprendizaje para minimizar el error en la muestra. Además, los objetivos ruidosos se introducen como norma para los problemas de la vida real. La función objetivo no siempre es una función y puede verse afectada por el ruido de información y circunstancias no contabilizadas, lo que la hace probabilística en lugar de determinista. Se utiliza una distribución de destino en lugar de una función de destino, donde y se genera mediante la distribución de probabilidad dada x, que representa la dependencia probabilística. El concepto de objetivos ruidosos se aborda introduciendo la idea de una función objetivo determinista más ruido, y este enfoque se utiliza para simplificar la noción de una distribución objetivo.

  • 00:40:00 En esta sección, el orador analiza el concepto de ruido en el aprendizaje automático y cómo puede afectar el proceso de aprendizaje. La función objetivo se define como el valor esperado de y dado x, con la parte restante llamada ruido. Si la función objetivo no está bien definida, puede plantearse como una distribución de probabilidad y los objetivos ruidosos pueden representarse como una distribución de probabilidad condicional de y dada x. El diagrama de aprendizaje para el aprendizaje supervisado incluye los objetivos ruidosos y la distinción se hace entre las probabilidades de x e y dado x. A pesar de las complejidades involucradas, el orador señala que cada componente del diagrama de aprendizaje tiene una razón para estar ahí.

  • 00:45:00 En esta sección, el orador explica el concepto de distribución objetivo, que es la distribución de probabilidad de solvencia dada la entrada, y enfatiza que es lo que está tratando de aprender a través del aprendizaje supervisado. La distribución de entrada, por otro lado, juega el papel de cuantificar la importancia relativa de la entrada en la distribución de destino, pero no es lo que está tratando de aprender. El orador también advierte que mezclar las dos distribuciones, lo que se puede hacer en teoría, puede causar confusión sobre la verdadera distribución objetivo. Por último, el disertante introduce la teoría del aprendizaje, cuyo objetivo es aproximar la distribución objetivo y enfatiza su importancia para ganar conocimiento y adquirir herramientas secundarias.

  • 00:50:00 En esta sección, el disertante explica que el error fuera de muestra para una función g debe ser cercano a cero, ya que esto significa una buena generalización. Sin embargo, dado que esta cantidad es imposible de conocer, podemos usar el error dentro de la muestra como un proxy para el error fuera de la muestra, siempre que tengamos las comprobaciones correctas en su lugar. La historia completa del aprendizaje involucra dos preguntas: ¿podemos asegurarnos de que el desempeño fuera de la muestra sea lo suficientemente cercano al desempeño dentro de la muestra (una pregunta teórica) y podemos hacer que el error dentro de la muestra sea lo suficientemente pequeño (una pregunta práctica )? El disertante señala que en algunas aplicaciones es imposible obtener un rendimiento fuera de la muestra cercano a cero, como en el pronóstico financiero donde hay datos puramente ruidosos. A pesar de esto, los fondos de cobertura aún pueden ganar dinero explotando un poco de ineficiencia.

  • 00:55:00 En esta sección de la conferencia, el profesor discute la importancia del error fuera de muestra y la teoría que se tratará en las próximas dos semanas. La teoría trata de comprender el error dentro de la muestra, el error fuera de la muestra y la complejidad del modelo, y se darán definiciones formales para evaluar estos factores. El objetivo principal de la teoría es caracterizar la factibilidad de aprendizaje para casos donde el conjunto de hipótesis es infinito, como los modelos de perceptrón y regresión lineal. La teoría medirá el modelo por un solo parámetro que refleja la sofisticación del modelo, lo que ayudará a marcar una gran diferencia en el aprendizaje práctico. El profesor también responde una pregunta, discutiendo el impacto relativo de P de x en el algoritmo de aprendizaje.
  • 01:00:00 En esta sección, el profesor analiza cómo los cambios en la distribución de probabilidad pueden afectar el algoritmo de aprendizaje, particularmente en la elección de ejemplos de aprendizaje. El profesor explica que la distribución de probabilidad de la entrada juega un papel técnico, pero su énfasis en ciertas partes del espacio sobre otras puede afectar las elecciones realizadas por el algoritmo. En cuanto a la mejor manera de elegir entre N pares de xey o N y por x, el profesor sugiere obtenerlos de forma independiente en lugar de la misma entrada para evitar tratar con una parte muy específica del espacio de entrada y mejorar la generalización. Finalmente, el profesor señala que existe una forma de medir la mala generalización o la buena generalización, que formará parte de la teoría.

  • 01:05:00 En esta sección, el profesor explica que las medidas de error pueden ser diferentes para diferentes dominios de aplicación, incluso para el mismo sistema y los mismos datos de entrenamiento. Da ejemplos de cómo el equilibrio correcto entre aceptación falsa y rechazo falso puede diferir para un supermercado y la CIA. El profesor también aclara que la estructura de la probabilidad de x (P(x)) no es una preocupación en el aprendizaje supervisado, siempre que se use la misma distribución para el entrenamiento y la prueba. Explica además que cualquier distribución de probabilidad será suficiente para invocar el enfoque probabilístico del problema de aprendizaje. Finalmente, el profesor reconoce una solicitud para simplificar el caso de una medida de error cuadrático y una solución de forma cerrada, que cubrirá en la revisión.

  • 01:10:00 En esta sección, el profesor analiza cómo se derivó el algoritmo para la regresión lineal basado en la minimización del error cuadrático, lo que resultó en una solución simple de forma cerrada. También explica cómo un desequilibrio en la probabilidad de y afecta el proceso de aprendizaje y que las recompensas y los costos son equivalentes. Además, aclara que cuando se refiere al espacio de entrada en el aprendizaje automático, incluye todos los puntos posibles solo en términos de sus partes de entrada, mientras que la extracción de características implica procesar la entrada para eliminar información irrelevante. El análisis de componentes principales es otro método para detectar direcciones informativas en el espacio de representación de entrada.

  • 01:15:00 En esta sección de la conferencia, el profesor analiza el uso de la medida del error cuadrático frente al valor absoluto para las medidas de error en la optimización. Explica que el error cuadrático es una función suave y tiene muchas propiedades deseables, mientras que el valor absoluto no es suave y puede resultar en una optimización combinatoria. Sin embargo, si es necesario usar el valor absoluto para un mérito específico, aún se puede usar. Además, aclara que el objetivo es la función f de x, no w traspuesto x, y que el ruido es la diferencia entre y y el valor esperado de y dada una x específica. Por último, el profesor señala que existe una compensación entre la complejidad y el rendimiento en los modelos de aprendizaje automático, pero las respuestas a cómo mejorar la generalización y minimizar el error simultáneamente se tratarán en las próximas cuatro conferencias.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Clase 5 - Entrenamiento Versus Pruebas



Curso de aprendizaje automático de Caltech - CS 156. Clase 05 - Entrenamiento versus pruebas

En la Lección 5 de su curso sobre Aprendizaje a partir de datos, el profesor Abu-Mostafa analiza los conceptos de error y ruido en el aprendizaje automático, la diferencia entre entrenamiento y prueba, y la función de crecimiento, que mide el número máximo de dicotomías que puede producir un un conjunto de hipótesis para un número dado de puntos. También presenta el punto de quiebre, que corresponde a la complejidad de un conjunto de hipótesis y garantiza una tasa de crecimiento polinomial en N si existe, y analiza varios ejemplos de conjuntos de hipótesis, como rayos positivos, intervalos y conjuntos convexos. La conferencia enfatiza la importancia de comprender estos conceptos y sus marcos matemáticos para comprender completamente la complejidad de los conjuntos de hipótesis y su potencial para un aprendizaje factible.

El profesor abarcó varios temas relacionados con el entrenamiento frente a las pruebas. Abordó las preguntas de la audiencia sobre el objetivo no binario y las funciones de hipótesis y la compensación de los puntos de ruptura. El profesor explicó la importancia de encontrar una función de crecimiento y por qué se prefiere usar 2 elevado a N para medir la probabilidad de que la generalización sea alta. Además, discutió la relación entre el punto de quiebre y la situación de aprendizaje, señalando que la existencia del punto de quiebre significa que el aprendizaje es factible, mientras que el valor del punto de quiebre nos dice los recursos necesarios para lograr un determinado desempeño. Finalmente, el profesor explicó las alternativas a Hoeffding y por qué se apega a él para asegurarse de que la gente se familiarice con él.

  • 00:00:00 En esta sección, el profesor Abu-Mostafa analiza los conceptos de error y ruido y cómo se relacionan con el aprendizaje automático en situaciones prácticas. Explica la importancia de definir medidas de error y cómo se utilizan para determinar el rendimiento de una hipótesis frente a una función objetivo. Además, analiza el concepto de objetivos ruidosos, donde el objetivo no es una función determinista, sino que se ve afectado por x y se distribuye de acuerdo con una distribución de probabilidad. El profesor Abu-Mostafa también presenta la pista teórica que durará las próximas tres conferencias, enfocándose en el entrenamiento versus las pruebas y el marco matemático que lo describe de una manera realista.

  • 00:05:00 En esta sección, el disertante explora la diferencia entre entrenar y evaluar en el contexto de un examen final. Los problemas de práctica y las soluciones proporcionadas antes del examen final sirven como conjunto de entrenamiento. El examen final sirve como conjunto de pruebas. El disertante enfatiza que el objetivo no es tener un buen desempeño en el examen final, sino comprender el material, lo cual se refleja en un pequeño E_out. La descripción matemática de las pruebas implica qué tan bien se realizó en el examen final, mientras que la descripción matemática del entrenamiento implica cómo se realizó uno en los problemas de práctica. La contaminación del conjunto de práctica da como resultado un rendimiento degradado en la métrica E_in. El disertante enfatiza la necesidad de reemplazar la cantidad M por una más amigable en la medición de la complejidad de los conjuntos de hipótesis.

  • 00:10:00 En esta sección, el orador analiza la importancia de comprender de dónde proviene una hipótesis, M, y el contexto que la rodea para poder reemplazarla. El orador explica que hay eventos malos que se denominan B, y el objetivo es evitar la situación en la que el rendimiento dentro de la muestra no sigue el rendimiento fuera de la muestra. El objetivo es garantizar que la probabilidad de cualquiera de los malos eventos sea pequeña, independientemente de las correlaciones entre eventos. Luego, el orador continúa explicando el ejemplo del perceptrón y cómo definir el evento malo en términos de una imagen para asegurar un mejor límite.

  • 00:15:00 En esta sección, el disertante analiza los conceptos de E_in y E_out, que representan los errores dentro y fuera de la muestra para una hipótesis, respectivamente. Luego examina cómo se comparan los cambios en E_in y E_out al pasar de una hipótesis a otra, argumentando que son pequeños y se mueven en la misma dirección debido al área de superposición entre las hipótesis. El disertante sugiere que M, la medida anterior de complejidad, se puede reemplazar con una nueva cantidad que caracterice la complejidad de cualquier modelo, pero esto requerirá una demostración en la próxima clase. Introduce la cantidad y enfatiza la necesidad de entenderla bien antes de proceder a la demostración.

  • 00:20:00 En esta sección, el disertante explica qué son las dicotomías y cómo se relacionan con las hipótesis. Las dicotomías son hipótesis múltiples definidas solo en un subconjunto de puntos y representan los diferentes patrones posibles de rojo y azul en un conjunto finito de puntos de datos. Por ejemplo, si solo hay unas pocas dicotomías, el conjunto de hipótesis no es poderoso, pero si hay muchas, el conjunto de hipótesis es fuerte. El disertante describe las dicotomías como una hoja de papel opaca con agujeros, colocada encima del espacio de entrada, que muestra solo el patrón de puntos rojos y azules. Las dicotomías son una forma formal de expresar hipótesis, donde la función produce -1 o +1 para las regiones azul y roja.

  • 00:25:00 En esta sección, el disertante discute la cantidad de hipótesis y dicotomías en el caso del perceptrón. Explica que puede haber un número infinito de hipótesis debido a que el perceptrón tiene valores infinitos. Sin embargo, el número de dicotomías es limitado ya que solo hay una cantidad finita de puntos para devolver +1 o -1. La función de crecimiento, denotada por "m", reemplaza el número de hipótesis contando la mayor cantidad de dicotomías que uno puede obtener usando su conjunto de hipótesis en cualquier N puntos. El disertante menciona que la función de crecimiento se calcula maximizando el número de dicotomías con respecto a cualquier elección de N puntos del espacio de entrada.

  • 00:30:00 En esta sección, el disertante explica la noción de función de crecimiento y cómo se aplica a los perceptrones. La función de crecimiento de un conjunto de hipótesis es una función que indica el número máximo de dicotomías que se pueden producir para un número determinado de puntos. Para los perceptrones, obtener la función de crecimiento es un desafío porque requiere encontrar la función de crecimiento para cada número de puntos, comenzando desde uno. Además, por cada número de puntos, hay ciertas constelaciones de puntos que un perceptrón no puede generar. No obstante, se esperan estas limitaciones porque los perceptrones son modelos simples con un algoritmo simple.

  • 00:35:00 En esta sección, el disertante analiza el concepto de funciones de crecimiento usando ejemplos de diferentes modelos que incluyen rayos positivos e intervalos positivos. Explica que la función de crecimiento de los rayos positivos es N+1, lo que significa que el número de dicotomías depende del número de segmentos de línea posibles entre N puntos. Por su parte, los intervalos positivos tienen una función de crecimiento mayor debido a que se pueden variar dos parámetros, el inicio y el final del intervalo, para obtener diferentes dicotomías.

  • 00:40:00 En esta sección, el disertante analiza las funciones de crecimiento para conjuntos de hipótesis con diversos grados de complejidad. Para el conjunto de hipótesis más simple de dicotomías en una línea, la fórmula de la función de crecimiento es simplemente el número de formas de elegir 2 segmentos de los N+1 segmentos, lo que equivale a (N+1) elegir 2. Para el siguiente conjunto de hipótesis de regiones convexas en un plano, el disertante observa que algunas regiones no son válidas porque no son convexas. La fórmula de la función de crecimiento para este conjunto requiere un conteo más complicado ya que no todas las dicotomías son válidas. Luego, el disertante propone una opción óptima para la ubicación de los puntos, que está en el perímetro de un círculo, para maximizar la función de crecimiento para este conjunto de hipótesis.

  • 00:45:00 En esta sección, el disertante analiza la función de crecimiento para conjuntos convexos y cómo no es tan poderosa como la función de crecimiento para intervalos positivos. El disertante muestra cómo funciona la función de crecimiento para cada una de las hipótesis. También discuten cómo reemplazar el máximo M con un número finito m, que puede ser la función de crecimiento. El disertante concluye que si la función de crecimiento es un polinomio, entonces el aprendizaje es factible usando esa hipótesis. Sin embargo, el disertante admite que no es fácil evaluar la función de crecimiento de manera explícita.

  • 00:50:00 En esta sección, se introduce el concepto de punto de quiebre para definir el punto en el que un conjunto de hipótesis no logra obtener todas las dicotomías posibles. El punto de quiebre corresponde a la complejidad del conjunto de hipótesis, y si el conjunto de hipótesis no puede romper ningún conjunto de datos de tamaño k, entonces k es un punto de quiebre para él. Se encuentra que el punto de quiebre para el perceptrón 2D es 4. La lección también cubre los ejemplos de rayos positivos, intervalos y conjuntos convexos para explicar cómo encontrar el punto de quiebre para cada conjunto de hipótesis. Adicionalmente, se establece que si un conjunto de hipótesis no tiene un punto de quiebre, entonces tendrá un crecimiento infinito.

  • 00:55:00 En esta sección, el profesor explica el concepto de la función de crecimiento y cómo garantiza una tasa de crecimiento polinomial en N si existe un punto de ruptura. Con la restricción de un punto de quiebre, existe una enorme restricción combinatoria que elimina posibles dicotomías en masa, reduciendo la función de crecimiento 2 a N sin restricciones a polinomio. El profesor da un ejemplo de un conjunto de hipótesis de tres puntos con un punto de quiebre de dos, donde se limitan las dicotomías y se eliminan los infractores hasta que solo queda una dicotomía, que satisface la restricción.
  • 01:00:00 En esta sección, el profesor responde a las preguntas de la audiencia sobre las funciones objetivo e hipótesis no binarias y la compensación de los puntos de ruptura. Explica que la teoría que está desarrollando es manejable para funciones binarias, pero hay una contraparte para funciones de valores reales que es más técnica, que cubrirá a través del método de compensación de sesgo-varianza. En cuanto a los puntos críticos, afirma que es bueno para ajustar los datos pero malo para la generalización, y encontrar el equilibrio adecuado entre la aproximación y la generalización es clave. Además, aclara la importancia del crecimiento polinomial y cómo garantiza pequeñas probabilidades de que algo malo suceda.

  • 01:05:00 En esta sección, el profesor analiza un rompecabezas en el que se colocan 3 bits en cada fila y se intenta obtener tantas filas diferentes como sea posible con la restricción de que no se pueden romper dos puntos. El profesor realiza el ejercicio de agregar filas y vigilar todas las combinaciones posibles para evitar violar la restricción. Al final, el profesor concluye que solo se pueden lograr cuatro patrones posibles bajo esta restricción y no se pueden agregar más filas. Esta limitación se debe al hecho de que el número de hipótesis es infinito para los perceptrones, y la función de crecimiento es idénticamente 2 a N o polinomial, sin nada en el medio.

  • 01:10:00 En esta sección de la conferencia, el profesor analiza la importancia de encontrar una función de crecimiento y por qué se prefiere usar 2 elevado a N para medir la probabilidad de que la generalización sea alta. El profesor explica que encontrar una función de crecimiento polinomial produciría un lado derecho manejable y conduciría a que la probabilidad de generalización sea alta. El profesor también responde preguntas de los estudiantes sobre la cantidad de puntos de prueba y entrenamiento, el error fuera de muestra para diferentes hipótesis y por qué se llama función de crecimiento. El profesor señala que existen diferentes métodos para encontrar una función de crecimiento y, a veces, la estimación del punto de quiebre será solo una estimación y no un valor exacto.

  • 01:15:00 En esta sección, el profesor analiza la relación entre el punto de quiebre y la situación de aprendizaje. Explica que la existencia del punto de quiebre significa que el aprendizaje es factible, mientras que el valor del punto de quiebre nos dice los recursos necesarios para lograr un determinado rendimiento. También se refiere a las alternativas a Hoeffding y por qué se apega a él. El objetivo es que las personas se familiaricen tanto con Hoeffding que lo conozcan bien, para que cuando se introduzcan modificaciones, no se pierdan.
Lecture 05 - Training Versus Testing
Lecture 05 - Training Versus Testing
  • 2012.04.19
  • www.youtube.com
Training versus Testing - The difference between training and testing in mathematical terms. What makes a learning model able to generalize? Lecture 5 of 18 ...