Redes Neurais em IA e Deep Learning - página 24

 

MIT 6.S192 - Clase 8: "Cómo el aprendizaje automático puede beneficiar a los creadores humanos" por Rebecca Fiebrink



MIT 6.S192 - Clase 8: "Cómo el aprendizaje automático puede beneficiar a los creadores humanos" por Rebecca Fiebrink

Rebecca Fiebrink, investigadora en el área de la música y la IA, enfatiza la importancia de la interacción humana y mantener a los humanos informados sobre el uso y desarrollo del aprendizaje automático con fines creativos. Habla sobre su herramienta, Wekinator, que permite el uso del aprendizaje automático en música en tiempo real para la creación humana. Ella demuestra cómo construir varios instrumentos controlados por gestos, como una caja de ritmos, un algoritmo de síntesis de sonido llamado Blotar y un instrumento de viento llamado blowtar. Ella destaca cómo el aprendizaje automático puede ser beneficioso para los creadores, permitiéndoles explorar paletas de sonido complejas y matizadas y facilitar el análisis de datos para sensores y datos en tiempo real. También aborda los beneficios de la manipulación interactiva de datos de entrenamiento y explica cómo el aprendizaje automático nos permite comunicarnos con las computadoras de una manera más natural, además de agregar sorpresas y desafíos al proceso de trabajo creativo.

  • 00:00:00 En esta sección del video, Rebecca Fiebrink, investigadora en el área de la música y la inteligencia artificial (IA), analiza la importancia de la interacción humana y mantener a los humanos al tanto en el desarrollo y uso del aprendizaje automático para fines creativos. Ella cuestiona la suposición de que usar el aprendizaje automático para generar de forma autónoma resultados creativos similares a los humanos es en sí mismo un apoyo para los creadores humanos. La investigación de Fiebrink se ha expandido a otras áreas como la práctica del arte y los juegos, y enfatiza la necesidad de pensar en la utilidad teórica y práctica del aprendizaje automático para los creadores humanos.

  • 00:05:00 En esta sección, el orador analiza la brecha en el conjunto de herramientas disponible para los creadores que desean trabajar con datos o aprendizaje automático en los campos de la música y el arte. Si bien varias personas usaban bibliotecas c plus o Python, apenas había herramientas disponibles para usar en tiempo real o para trabajar con datos multimedia, especialmente datos de sonido. Muchos creadores ya habían obtenido doctorados en informática o ingeniería eléctrica, y había espacio para herramientas más accesibles para los creadores que querían trabajar con datos. El aprendizaje automático puede ser una gran herramienta para los creadores que desean dar sentido a los diversos tipos de datos que los rodean, como repositorios en línea o fuentes en línea como imágenes de Google, biosensores o datos de redes sociales.

  • 00:10:00 En esta sección, Rebecca Fiebrink explica su trabajo en la creación de un software llamado Wekinator que permite el uso del aprendizaje automático en música en tiempo real en creaciones humanas. Ella destaca que construir un nuevo instrumento que responda a los gestos es diferente de trabajar con conjuntos de entrenamiento de verdad de campo listos para usar. Para facilitar las cosas, Wekinator permite a los usuarios demostrar ejemplos de entrenamiento en tiempo real y luego probar el modelo para ver dónde comete errores. Wekinator también permite a los usuarios modificar los ejemplos de entrenamiento en el acto. Luego demostró cómo construir una caja de ritmos muy simple controlada por gestos usando el software Wekinator que usa una cámara web para capturar el movimiento y reduce la entrada de muestras a una cuadrícula de color de 10 por 10 que da 100 números para que sea más fácil predecir los gestos o el movimiento.

  • 00:15:00 En esta sección, el orador demuestra cómo usar Wekinator con regresión para crear un instrumento musical que controle un algoritmo de síntesis de sonido llamado Blotar. Este instrumento permite al usuario controlar un gran espacio de sonidos, incluidos muchos preajustes diferentes, cambiando nueve parámetros de control. El orador muestra cómo el aprendizaje automático puede beneficiar a los compositores profesionales al permitirles explorar paletas de sonido complejas y matizadas.

  • 00:20:00 En esta sección, Rebecca Fiebrink demuestra cómo usa el aprendizaje automático para controlar un instrumento de viento llamado blowtar usando un controlador de juego. Ella explica que encontrar manualmente buenas posiciones en el espacio de nueve dimensiones del instrumento sería un desafío para un programador experto, pero el aprendizaje automático permite escribir fácilmente funciones complejas. Ella muestra cómo a través del entrenamiento del sistema, el instrumento se puede refinar hasta que produzca el resultado deseado, y se puede guardar y usar durante las interpretaciones o en el trabajo de composición. Como investigador de la herramienta, Fiebrink analiza las diversas formas en que los creadores han utilizado el aprendizaje automático para mejorar su trabajo y lo que esto enseña.

  • 00:25:00 En esta sección, el orador analiza cómo el aprendizaje automático puede beneficiar a los creadores y permitir que más personas trabajen con datos de manera efectiva, especialmente con sensores y análisis de datos en tiempo real, utilizando ejemplos como la composición de Anne Hege a través de Wekinator y Michelle Nagai. instrumento musical. También destacan cómo el aprendizaje automático puede hacer que las interacciones de construcción sean creativas y más fáciles con los usos de Wekinator en campos como el arte, los espectáculos de marionetas, las tecnologías para personas con discapacidades y el diseño de prototipos interactivos. El autor explica que construir interacciones de manera creativa a través del aprendizaje automático generalmente requiere un enfoque diferente al del aprendizaje automático convencional debido a sus objetivos de construir un modelo que genera resultados creíbles, y cómo se comporta el modelo cuando no cumple con los propósitos se convierte en un desafío.

  • 00:30:00 En esta sección, Fiebrink explora las diferencias entre construir un modelo de aprendizaje automático con el objetivo de hacer predicciones precisas y construir un modelo de aprendizaje automático interactivo con el objetivo de crear algo útil o divertido. Al construir un modelo de aprendizaje automático interactivo, los datos se consideran una interfaz para la comunicación entre un creador y la computadora, lo que significa que los datos se eligen de manera subjetiva y es poco probable que sean independientes y estén distribuidos de manera idéntica (iid), lo cual es una suposición común. en el aprendizaje automático. Esto puede llevar a aprender de muy pocos ejemplos colocados estratégicamente. Fiebrink demuestra cómo un algoritmo simple como k vecino más cercano, cuando se usa de forma interactiva, aún puede producir buenos límites de decisión con una pequeña cantidad de datos, lo que permite la experimentación práctica y la curación de datos.

  • 00:35:00 En esta sección, Rebecca Fiebrink analiza los beneficios de manipular de forma interactiva los datos de entrenamiento en dominios creativos. Ella explica que permitir que las personas exploren muchas ideas alternativas es esencial para crear algo que satisfaga los requisitos de diseño. Fiebrink descubrió que el uso de algoritmos de aprendizaje automático, como Wekinator, permite a las personas volver a entrenar modelos muy rápidamente y ver los resultados de inmediato, lo que hace posible admitir la creación rápida de prototipos de manera muy efectiva. También señala que es un desafío capturar prácticas o acciones humanas en código, incluso para programadores expertos, en dominios como pintar o tocar instrumentos musicales.

  • 00:40:00 En esta sección, Rebecca Fiebrink explica cómo el aprendizaje automático nos permite comunicarnos con las computadoras de una manera más natural, ya que permite a las personas comunicar sus ideas en términos de ejemplos, que es similar a cómo nos comunicamos cuando hablamos de actividades creativas entre sí. El aprendizaje automático también facilita la creación de los principiantes al aprovechar grandes conjuntos de datos para cumplir con un estándar. Sin embargo, el proyecto reciente de Fiebrink, llamado Sound Control, muestra la posibilidad de permitir que más personas personalicen las interfaces y hagan cosas para ellos y para otros con el aprendizaje automático. En colaboración con profesores de música y terapeutas, Sound Control les permite crear instrumentos personalizados para niños, pero también los llevó a hacer otras cosas inesperadas y útiles, como hacer juegos de escucha, juegos de improvisación y actividades de interpretación.

  • 00:45:00 En esta sección, Rebecca Fiebrink analiza cómo el aprendizaje automático puede brindar sorpresas productivas y desafíos en el proceso de trabajo creativo. Usando herramientas como Wekinator, enfatiza la importancia de tener herramientas creativas que agreguen ideas inesperadas al proceso de trabajo. Por lo tanto, advierte que no se deben pasar por alto otros tipos de aprendizaje automático o incluso métodos de trabajo con datos que no sean de aprendizaje automático. Ella sugiere que construir con datos y aprendizaje automático puede permitir que las personas hagan cosas que antes no podían y explora cómo las aplicaciones creativas pueden servir como estudios de casos para hacer que las otras experiencias de las personas con datos y aprendizaje automático sean más enriquecedoras.

  • 00:50:00 En esta sección, el orador responde una pregunta de la audiencia sobre los desafíos de usar el aprendizaje automático con sonido. El orador reconoce que el sonido presenta algunos desafíos únicos en términos de subjetividad cultural, pero en general, el sonido se puede abordar utilizando procesos típicos de aprendizaje automático con resultados similares a otros medios. El orador enfatiza que los datos y cómo se utilizan para abordar los dominios problemáticos son más importantes que el medio en sí. El orador también analiza cómo se puede usar el aprendizaje automático como una interfaz para crear cosas y la importancia de discutir la alineación humana con las máquinas y quién debe definir los objetivos.

  • 00:55:00 En esta sección, el orador analiza la dificultad de definir un objetivo para el aprendizaje automático y cuánto de este es un proceso experimental en el que el creador crea un conjunto de datos, prueba algo y luego usa los datos para dirigir el modelo. hacia una dirección determinada. El aspecto experiencial del proceso le permite al creador aprender sobre el aprendizaje automático en un contexto específico a través de prueba y error, y este aspecto puede ser una herramienta poderosa para que las personas aprendan sobre el aprendizaje automático. La investigación reciente de Carrie Cai y otros también muestra que procedimientos exploratorios experimentales similares pueden ayudar a las personas a generar confianza y comprender lo que se está modelando, incluso en aplicaciones en las que es posible que esas personas no tengan experiencia previa en aprendizaje automático.
 

MIT 6.S192 - Clase 9: "Abstracciones neuronales" por Tom White



MIT 6.S192 - Clase 9: "Abstracciones neuronales" por Tom White

En este video, el artista y profesor Tom White analiza su enfoque para incorporar la percepción de las máquinas y las redes neuronales en su práctica artística. White comparte su experiencia en el estudio de matemáticas y diseño gráfico en el MIT y su trabajo actual enseñando codificación creativa en la Universidad de Victoria. También analiza su investigación sobre la construcción de herramientas para ayudar a otros a usar el medio de manera creativa y su propia obra de arte que explora la percepción de la máquina. White muestra sus bocetos y grabados, creados con algoritmos de inteligencia artificial, y habla sobre sus colaboraciones con grupos musicales y sus exposiciones de arte recientes. También analiza los desafíos de la colaboración con redes neuronales y las consecuencias no deseadas de poner el arte generado por IA en la naturaleza.

  • 00:00:00 En esta sección del video, el artista y profesor Tom White se presenta y habla sobre su experiencia, que incluye estudiar matemáticas y diseño gráfico en el Media Lab del MIT. Habla sobre su interés en explorar la programación como una disciplina creativa y cómo ahora enseña programación creativa en la Universidad Victoria en Wellington. White también menciona su investigación, que se enfoca en construir herramientas prácticas para ayudar a otros a usar el medio de manera creativa. Además, habla sobre su propia práctica artística separada, que dice que discutirá más en su charla, y espera inspirar a los estudiantes interesados en seguir caminos similares.

  • 00:05:00 En esta sección, el orador proporciona un resumen de su charla sobre abstracciones neuronales y su obra de arte que explora la percepción de la máquina. Explica que las máquinas tienen sus propias formas únicas de ver el mundo, y su obra de arte tiene como objetivo exponer esto a un público más amplio. El orador también aborda el tema de la representación y abstracción de la IA, y cómo investiga las representaciones de los sistemas de visión de red neuronal para transmitirlos en un contexto artístico. Ejemplifica esto al mostrar algunas de sus obras de arte basadas en conjuntos de datos de imágenes reales, como ojos, rostros y pollos, y cómo introduce diagnósticos en el proceso para comprender el mundo interno del sistema. La charla concluye con las implicaciones de explorar la percepción de las máquinas en el arte y cómo puede ayudarnos a apreciar las diferentes formas en que las máquinas perciben el mundo.

  • 00:10:00 En esta sección, Tom White analiza algunos de sus proyectos iniciales durante su tiempo en el MIT, incluida su exploración de técnicas de aprendizaje automático para crear filtros de video en tiempo real, su creación de una interfaz manual personalizada para la interacción multitáctil , y su proyecto de arte Stream of Consciousness, que incorporó técnicas de inteligencia artificial como WordNet para encontrar palabras relacionadas. White también habla sobre su participación en la creación de la biblioteca de software central Acu, que luego sirvió como base para sistemas como Processing y OpenFrameworks, y cómo su trabajo actual consiste en crear bocetos y dibujos para procesos de aprendizaje automático.

  • 00:15:00 En esta sección, el disertante discute la precedencia en el arte que ha inspirado su trabajo, comenzando con el artista Stuart Davis, quien tomó objetos comunes y se obligó a pintarlos una y otra vez hasta encontrar algo nuevo en ellos. Harold Cohen fue otro artista que experimentó con sistemas de dibujo generativo codificando sus ideas sobre la creación de marcas de manera formal a través de la inteligencia artificial. Trabajando más como colaborador con estos sistemas más adelante en la vida, la pregunta central de Cohen siguió siendo "¿qué es una imagen?" Luego, el orador habla sobre el lado técnico del trabajo de Andy Warhol y Roy Lichtenstein en serigrafía como una técnica que comparten en la ejecución de sus obras de arte.

  • 00:20:00 En esta sección, el artista y conferencista Tom White habla sobre su técnica artística para crear impresiones utilizando serigrafía en lugar de una técnica de pincel, que crea utilizando un sistema de visión por computadora que optimiza la percepción para crear imágenes que parecen ventiladores eléctricos. o binoculares utilizando algoritmos de inteligencia artificial. White habla sobre cómo Stuart Davis aprendió a percibir y representar objetos familiares de nuevas maneras al mirar los mismos objetos todos los días. De manera similar, White busca usar sistemas de visión por computadora para introducir nuevas formas de percibir y representar objetos familiares.

  • 00:25:00 En esta sección del video, el orador analiza sus demostraciones del uso de un sistema de red neuronal para crear bocetos simples con muy pocos trazos que se pueden manipular para crear diferentes imágenes. Explica cómo creó bocetos de un tiburón martillo y una plancha utilizando el mismo número de trazos, y luego muestra que al cambiar la posición de los trazos puede engañar a las redes neuronales para ver una plancha como un tiburón y viceversa. El orador demuestra cómo la red neuronal puede crear bocetos de diferentes objetos y muestra cómo el sistema no se ve afectado por la orientación hacia la izquierda o hacia la derecha, sino por los colores en el conjunto de datos de entrenamiento proporcionado.

  • 00:30:00 En esta sección, Tom White habla sobre diferentes ejemplos de aprendizaje automático y cómo funcionan. Un ejemplo es un sistema de visión por computadora que utiliza una muestra de vasos medidores que son predominantemente verdes, lo que hace que el sistema crea que los vasos medidores verdes son más comunes de lo que realmente son. White también analiza una impresión que hizo de una garrapata que se registró más fuerte que todos los ejemplos de validación, que compara con el arte y el diseño donde se utiliza la amplificación a través de la simplificación para crear una mejor abstracción de conceptos. Finalmente, White presenta su serie de abstracciones sintéticas, que consiste en estampados abstractos que imitan imágenes explícitas o inseguras para el trabajo que activan los filtros en los motores de búsqueda.

  • 00:35:00 En esta sección, el orador comparte ejemplos de cómo funcionan sus sistemas con API en línea, incluidos conjuntos de datos para ballenas, pingüinos y ojos. También habla sobre su colaboración con un grupo de música donde creó conjuntos de datos personalizados, así como sus exposiciones de arte recientes que presentan grupos de imágenes que la computadora cree que son nudos, hormigas u otros objetos. El orador continúa hablando sobre diferentes enfoques de las técnicas generativas y cómo su obra de arte impacta en el mundo real. Menciona su interés en las redes de género y cómo creó una obra de arte usando salidas de redes neuronales de rostros.

  • 00:40:00 En esta sección, Tom White habla sobre su exploración de redes generativas y su trabajo con estudiantes de posgrado para crear una herramienta de hoja de cálculo que utiliza muestras de un modelo generativo como herramienta de creatividad a través de la interfaz de una hoja de cálculo. También se mencionan otros artistas como Lena Sarin, Mario Klingemann, Robbie Barrett y Edmund Bellamy. White también analiza los desafíos de la colaboración con estos sistemas para la creación de arte, enfatizando el papel tanto del artista como del sistema en el proceso de creación conjunta. Finalmente, habla sobre las consecuencias no deseadas de poner arte generado por IA en la naturaleza y cómo podemos entenderlo a través de técnicas de visualización y preguntándole al sistema qué ve.

  • 00:45:00 En esta sección, el orador habla sobre técnicas similares al sueño profundo donde una imagen se introduce en un sistema para visualizar cómo se relaciona. El orador menciona cómo sus obras de arte chocan con sistemas del mundo real como el filtro de contenido para adultos de Tumblr, la API de Amazon y las oficinas académicas de Sloan Kettering. También discuten ejemplos de cómo estos sistemas de visión colapsan al categorizar piezas de arte bajo la misma etiqueta que tienen para los objetos del mundo real. El orador explica que la idea central de su obra de arte es entenderla a través de los ojos de las máquinas, lo que crea arte para y por las máquinas, lo que permite que las personas lo aprecien independientemente de su experiencia en aprendizaje automático.

  • 00:50:00 En esta sección, Tom White explica por qué eligió la serigrafía como su medio preferido para sus piezas de arte físico. Destaca que el trabajo físico permite que las personas se relacionen con él de manera diferente a las instalaciones interactivas con pantallas y cámaras. También explica que la serigrafía le permite crear un trabajo más preciso y tiene un precedente para los artistas pop en el mundo del arte. Tom explica además que hacer trabajo físico es más difícil de lograr, ya que es un desafío lidiar con posibles fotos, pero es una forma interesante de llevar los ataques del adversario al mundo físico. Además, habla sobre cómo el arte puede ayudar a comprender mejor el sesgo algorítmico u otros aspectos de la IA y la ciberseguridad.

  • 00:55:00 En esta sección, Tom White analiza cómo el sesgo en el conjunto de datos de Celeb-A, en el que es más probable que las mujeres sean etiquetadas como sonrientes que los hombres, puede generar sesgo en las redes generativas destinadas a modificar las expresiones faciales. Señala que su trabajo no se centra en ejemplos contradictorios, sino en visualizar y comprender los estímulos que activan las redes neuronales. White también habla de experimentar con representaciones simples, como trazos mínimos, para facilitar la generación de resultados visuales. Señala que las personas pueden reconocer imágenes en formatos de baja resolución, inspirándose en la investigación psicológica que probó esta capacidad.

  • 01:00:00 En esta sección, Tom White alienta a los espectadores a revisar la investigación en el espacio de abstracciones neuronales y los dirige a los videos del taller del año anterior para obtener más información. Él enfatiza el valor de la investigación y agradece cualquier pregunta que los espectadores puedan tener.
 

MIT 6.S192 - Clase 10: "Magenta: Empoderar a la agencia creativa con el aprendizaje automático" por Jesse Engel



MIT 6.S192 - Clase 10: "Magenta: Empoderar a la agencia creativa con el aprendizaje automático" por Jesse Engel

Jesse Engel, científico investigador principal de Google Brain, habla sobre Magenta, un grupo de investigación que analiza el papel de la IA y el aprendizaje automático en la creatividad y la música. El grupo se enfoca principalmente en modelos de aprendizaje automático que generan medios y los hacen accesibles a través de código abierto y un marco llamado magenta.js, que permite la creación de modelos creativos interactivos en Javascript. Engel enfatiza la importancia de ver la música como una plataforma social y evolutiva para la identidad y la conexión cultural en lugar de una mercancía que se produce y consume a bajo costo. Exploran cómo el aprendizaje automático puede empoderar a las personas con nuevas formas de agencia creativa a través de la expresividad, la interactividad y la adaptabilidad. La conferencia cubre varios temas, incluido el diseño de modelos de aprendizaje automático para música, el uso de convolución dilatada para resultados predictivos, el procesamiento de señales digitales diferenciables y la creación de sistemas de aprendizaje automático que producen fallas hermosas. Además, habla sobre los desafíos colaborativos con los artistas y el gran desafío de salir de la distribución y la composicionalidad en los modelos de aprendizaje.

  • 00:00:00 En esta sección, Jesse Engel, científico investigador principal de Google Brain, habla sobre Magenta, un grupo de investigación que analiza el papel de la IA y el aprendizaje automático en la creatividad y la música. El grupo se enfoca principalmente en modelos de aprendizaje automático que generan medios y los hacen accesibles a través de código abierto y un marco llamado magenta.js, que permite la creación de modelos creativos interactivos en Javascript. Engel enfatiza la importancia de ver la música como una plataforma social y evolutiva para la identidad y la conexión cultural en lugar de una mercancía que se produce y consume a bajo costo. Exploran cómo el aprendizaje automático puede empoderar a las personas con nuevas formas de agencia creativa a través de la expresividad, la interactividad y la adaptabilidad.

  • 00:05:00 En esta sección, Jesse Engel habla sobre el diseño de modelos de aprendizaje automático que son más pirateables y requieren menos datos para entrenar, específicamente en el contexto de la música. Analiza las compensaciones entre las diferentes facetas del diseño de algoritmos, como hacerlos de baja latencia con controles causales intuitivos, sin dejar de ser expresivos y adaptables. Compara dos modelos de aprendizaje automático: el openai Jukenbox que modela la forma de onda de audio sin procesar de manera muy realista a expensas de requerir toneladas y toneladas de datos y garabatos que modelan la música como datos estructurados pero con sonidos poco realistas. Termina discutiendo el enfoque que está adoptando el grupo, que consiste en utilizar la estructura dentro del modelo para llegar a un compromiso entre la interpretabilidad y la expresividad.

  • 00:10:00 En esta sección, Jesse Engel analiza el estado del arte anterior de los modelos de transcripción de audio y cómo se limitaban a la hora de predecir notas con precisión de una manera que coincidiera con la percepción humana. Demuestra cómo los errores en fotogramas individuales no importan tanto como cuando las notas realmente comienzan, y cómo se creó una nueva arquitectura de red neuronal para adaptar mejor la función de pérdida a lo que nos importa: cómo suena la música cuando la tocamos. atrás. El nuevo modelo de vanguardia pudo lograr una transcripción precisa incluso cuando el audio estaba "en la naturaleza", como lo demostró un pianista tocando en su teléfono celular.

  • 00:15:00 En esta sección del video, Jesse Engel de Google Brain explica la importancia de los conjuntos de datos en las redes neuronales, usando el ejemplo de un gran conjunto de datos de la competencia internacional de piano electrónico. Analiza el uso de redes neuronales, como las redes neuronales recurrentes (RNN) y la arquitectura de transformadores, para modelar secuencias musicales y el desafío de tokenizar notas musicales. Para abordar este desafío, crearon un vocabulario para reconocer eventos musicales individuales y marcas de tiempo. Al representar con precisión microtiempo, velocidad y variaciones en los datos, los modelos pueden producir música con un sonido más natural.

  • 00:20:00 En esta sección de la conferencia, Jesse Engel explica cómo el equipo de Magenta comenzó con solo un motivo original y usó un modelo autorregresivo llamado LSTM para predecir el próximo token dado los tokens anteriores. Sin embargo, debido a la coherencia limitada a largo plazo del LSTM, implementaron el transformador para realizar un seguimiento de todos los datos anteriores para mejorar la coherencia. Con esto, pudieron transcribir audio sin procesar para obtener miles de horas de música simbólica, lo que les permitió entrenar modelos que tienen mucha más coherencia a largo plazo. Para dar un control más intuitivo, el equipo también extrajo la melodía y la usó como un control del que depende la generación. Luego, podrían usar este modelo como un sintetizador neuronal para diferentes sonidos, y los parámetros podrían ajustarse a conjuntos de sonidos específicos.

  • 00:25:00 En esta sección del video, Jesse Engel explica los aspectos técnicos de los procesos de convolución dilatada de Magenta para una red neuronal para predecir resultados basados en controles de alto nivel. Mediante el uso de la convolución dilatada, el sistema es capaz de observar una gran cantidad de tiempo sin reducir el muestreo y evita perder información mientras es expresivo. Sin embargo, el proceso es lento y requiere un acondicionamiento a largo plazo para una estructura a largo plazo. Mediante el uso del condicionamiento de notas, el sistema puede generar actuaciones realistas con representaciones intermedias interpretables.

  • 00:30:00 En esta sección, aprendemos sobre DDSP, o procesamiento de señal digital diferenciable. Jesse Engel propone integrar métodos tradicionales de procesamiento de señales, como osciladores, filtros y sintetizadores, con aprendizaje profundo para crear un sistema más eficiente, realista y receptivo. En lugar de que una red neuronal cree audio directamente, se utilizan elementos de procesamiento de señales conocidos y una red neuronal los controla para producir salidas expresivas. Los módulos DDSP son interpretables y eficientes, y estos osciladores sinusoidales de frecuencia variable pueden modelar el sonido. DDSP utiliza oscilación armónica y ecuaciones diferenciales de segundo orden para una mayor flexibilidad con el modelado de audio. DDSP no es solo componentes periódicos, sino que también incluye elementos de ruido, que pueden tener formas aleatorias con diferentes filtros. Al controlar estos elementos de síntesis mediante un decodificador de red neuronal, se puede generar un audio que se compara favorablemente con el audio original.

  • 00:35:00 En esta sección de la conferencia, el orador explica cómo pueden entrenar al decodificador para crear síntesis de alta calidad con menos datos ejecutando espectrogramas a través del modelo y luego resintetizándolo. Esto permite que el modelo convierta el tono y el volumen en un sonido de flauta, un sonido de violín e incluso transfiera tonos de timbre de estilos de canto. También pueden desactivar diferentes componentes del modelo, como reverberación y armónicos, para inspeccionar atributos individuales. El modelo se puede comprimir a modelos de menos de un megabyte para la implementación de operaciones en tiempo real en un navegador. El modelo DDSP se puede aplicar a una amplia gama de culturas, lo que le permite preservar cambios y variaciones microtonales.

  • 00:40:00 En esta sección, Jesse Engel analiza el proyecto Magenta y su objetivo de potenciar la agencia creativa mediante el aprendizaje automático. Explica que han recibido respuestas positivas de músicos que consideran que la herramienta es útil en su proceso creativo en lugar de reemplazarla. El equipo de Magenta se centra en crear un ecosistema más amplio, incluida una interfaz web para modelos de entrenamiento, implementación de aplicaciones web y complementos en tiempo real para software de música. Engel señala que el sistema es más interactivo, en tiempo real y adaptativo, pero aún hay espacio para mejorar en términos de expresividad y diversos modelos interactivos. El equipo está explorando modelos no supervisados para aprender la estructura y las etiquetas de los datos. Tienen varias demostraciones, software y herramientas profesionales disponibles en su sitio web para que cualquiera pueda probar.

  • 00:45:00 En esta sección, Jesse Engel explica que crear sistemas de aprendizaje automático que produzcan hermosos errores es una forma de pensar en la creación de sistemas que los artistas puedan usar. Por ejemplo, las limitaciones diseñadas en las cajas de ritmos originales resultaron ser su característica definitoria, lo que hizo que los músicos electrónicos y de hip-hop usaran los sonidos de manera divertida y artística. Además, Engel analiza la relación entre la interpretabilidad y la interactividad y sugiere que el lenguaje y las suposiciones utilizadas por los modelos de aprendizaje automático podrían ser la solución para crear API que actúen como intermediarios entre el software y el usuario para lograr la máxima interpretabilidad.

  • 00:50:00 En esta sección del video, Jesse Engel analiza los desafíos de hacer cumplir la estructura para la generalización mientras se diseñan modelos que pueden adaptarse a la audiencia objetivo. Explica cómo las redes neuronales pueden emular la mecánica newtoniana en un conjunto específico de imágenes, pero tienen dificultades para extrapolar cuando cambia un aspecto de la imagen. También habla de cómo construir modelos que puedan adaptarse a la intensidad de la música o al volumen del bombo puede ser una idea fascinante. También se menciona la discusión sobre colaboraciones con artistas, pero Jesse explica que es un desafío debido a las limitaciones y su sistema de promoción basado en la investigación. La discusión se relaciona con el gran desafío de salir de la distribución y la composicionalidad en los modelos de aprendizaje.
 

MIT 6.S192 - Clase 11: "Biodiversidad artificial", Sofia Crespo y Feileacan McCormick



MIT 6.S192 - Clase 11: "Biodiversidad artificial", Sofia Crespo y Feileacan McCormick

En esta conferencia sobre "Biodiversidad artificial", Sofia Crespo y Feileacan McCormick exploran la intersección de la tecnología y la naturaleza para producir formas de arte únicas. El dúo habla sobre su interés y uso del aprendizaje automático y su conexión con la belleza y destaca las limitaciones de la percepción humana. También discuten sus proyectos de colaboración, incluido "Otros enredados", donde abogan por representar tanto especies individuales como sus enredos complejos para crear una mejor comprensión de los sistemas ecológicos. Los ponentes enfatizan la importancia de la sostenibilidad y la colaboración en la práctica artística y la relación entre las herramientas y el arte, afirmando que los algoritmos no pueden reemplazar a los artistas humanos.

  • 00:00:00 En esta sección, Sofia Crespo y Feileacan McCormick discuten el concepto de biodiversidad artificial y exploran la cuestión de qué hace que algo sea hermoso en el ámbito del aprendizaje automático. El dúo considera si la belleza se encuentra en el conjunto de datos utilizado para entrenar redes neuronales, el proceso de entrenamiento del modelo o la interacción entre capas de neuronas virtuales en el cerebro. También establecen paralelismos entre el acto de entrenar una red neuronal y la meditación, ya que ambos implican la curación de un conjunto de datos y la exploración de patrones. En general, la discusión destaca las formas en que la tecnología y la naturaleza pueden cruzarse para producir formas de arte únicas.

  • 00:05:00 En esta sección, Sofia Crespo habla sobre su fascinación por las medusas y las limitaciones de la percepción humana en términos de color. Ella explica que su interés en las medusas la llevó a explorar las medusas sintéticas a través de algoritmos de aprendizaje automático. Ella reflexiona sobre la cuestión de qué pueden enseñarnos las redes neuronales artificiales sobre nuestros procesos cognitivos y el concepto de "naturaleza" y cómo visualizarlo. Crespo también analiza el artículo de Aaron Hertzmann sobre la indeterminación visual en el arte gan, que explora cómo los estímulos visuales significativos pueden ser visualmente indeterminados y desencadenar respuestas cognitivas.

  • 00:10:00 En esta sección, los oradores discuten su interés y uso del aprendizaje automático y su conexión con la belleza. Explican que cuando trabajan con el aprendizaje automático, trabajan dentro de una esfera muy humana, utilizando conjuntos de datos creados por humanos y, por lo tanto, abordando las suposiciones visuales humanas de la naturaleza. Los oradores sugieren que la tecnología es parte de la naturaleza ya que los humanos son parte de la naturaleza, y esta idea de que la tecnología es una entidad separada de la naturaleza es errónea. Además, los disertantes discuten la definición de vida artificial y destacan que se puede entender en varias disciplinas como el software, el arte o incluso el wetware, el hardware y la genética. Utilizan el trabajo de Karl Sim sobre criaturas artificiales evolucionadas para demostrar la capacidad de los primitivos para incorporar cualidades similares a las de la vida y, junto con su comportamiento, emerge un sentido de competitividad y acciones orientadas a objetivos.

  • 00:15:00 En esta sección, aprendemos cómo las redes neuronales artificiales pueden crear criaturas y lenguajes fantásticos, muy parecido al Codex Seraphinianus de Luigi Serafini. Estas creaciones son una recombinación remezclada del conocimiento humano de botánica, zoología, lenguaje y arquitectura. A pesar de su artificialidad, muestran una notable diversidad en la diversidad. La conferencia también habla de Anna Atkins, una fotógrafa y botánica del siglo XIX que creó la técnica de cianotipia. El orador combinó la técnica de Atkins con la red neuronal convolucional para generar criaturas similares a la vida, que se imprimieron utilizando la técnica de cianotipia. Este proyecto se llama Historia natural artificial, un libro que muestra cómo los humanos veían la naturaleza antes de la existencia de las cámaras.

  • 00:20:00 En esta sección, Sofia Crespo y Feileacan McCormick discuten su proyecto colaborativo, "Otros enredados", donde abogan por representar no solo especies individuales, sino también sus complejos enredos para crear una mejor comprensión de los sistemas ecológicos. Explican su primer proyecto, "Remanentes artificiales", donde generaron modelos 3D de insectos y crearon una experiencia de realidad aumentada para que las personas interactúen con las criaturas digitales. El éxito de este proyecto condujo a su último esfuerzo, que involucró la construcción de un ecosistema y la exploración del concepto abstracto de existir en una relación. Sin embargo, debido al COVID-19, sus planes de exhibición se vieron alterados.

  • 00:25:00 En esta sección, los oradores discuten su proyecto sobre una "biodiversidad artificial" y cómo recurrieron a los arrecifes de coral como un ejemplo de la interconexión de los ecosistemas. Sin embargo, debido a la falta de datos, tuvieron que trabajar con un artista para crear coral sintético con el fin de imitar la diversidad de morfologías de coral. Reconocen que esta es una representación subjetiva, ya que no es un reflejo exacto del complejo sistema de un arrecife de coral, pero aun así nos recuerda sus cualidades. También hablan sobre el aspecto fascinante de poner la naturaleza en el centro de atención a través de una representación abstracta de los patrones de la naturaleza y trabajar con biomateriales fue un desafío de aprendizaje.

  • 00:30:00 En esta sección, los ponentes comentan cómo se esforzaron por priorizar la sostenibilidad colaborando con un estudio que se especializa en crear bioplástico a partir de huesos de aceituna desechados. Este material se puede derretir y reutilizar una y otra vez, lo que les permite crear exhibiciones y luego reutilizar el material para proyectos futuros. Enfatizan que es crucial que los artistas que trabajan con la naturaleza piensen de manera sostenible y consideren las consecuencias físicas de las capas digitales, especialmente el uso del aprendizaje automático en la práctica artística. También enfatizan la importancia de la colaboración y las interacciones interdisciplinarias para fortalecer las conexiones y crear otras nuevas, lo que los llevó a tener una convocatoria abierta para que otros se comuniquen con ellos para colaborar, conversar y más. La discusión también toca la filosofía y hace referencia a Platón, Deleuze y Guattari.

  • 00:35:00 En esta sección, las artistas Sofia Crespo y Feileacan McCormick discuten la relación entre las herramientas y el arte. Explican que al igual que un lápiz da forma a la forma en que dibujamos, las herramientas digitales también tienen cualidades de modelado. También abordan la importancia de no olvidar la perspectiva artística al crear arte generativo y digital, y por qué es necesario cuestionar no solo las soluciones técnicas sino también el por qué, el cómo y el qué. Afirman que es esencial recordarnos que el arte está hecho para que los humanos lo consuman y que los algoritmos no pueden reemplazar a los artistas humanos.
 

MIT 6.S192 - Clase 12: "IA+Creatividad, la perspectiva de un nerd del arte" por Jason Bailey



MIT 6.S192 - Clase 12: "IA+Creatividad, la perspectiva de un nerd del arte" por Jason Bailey

Jason Bailey analiza cómo el aprendizaje automático está impactando en el campo del arte, desde la detección de falsificaciones hasta la predicción de precios. Insta a los artistas a ser conscientes de los sesgos inherentes al arte basado en datos e insta a la necesidad de entrenar datos que incluyan todas las perspectivas.

  • 00:00:00 Jason Bailey es un profesor del MIT que hablará sobre IA y creatividad. Proviene de una formación en ingeniería y marketing, y trae esta experiencia a su charla sobre la intersección del arte y la tecnología. Bailey se centrará en tres áreas clave: historia del arte, predicción de precios en el mercado del arte y uso de IA y ML en las artes creativas.

  • 00:05:00 Jason Bailey describe cómo se interesó en el problema de la falsificación en el arte y cómo pasó tres años escaneando libros de gran formato para crear una base de datos de las obras completas del artista. Habla de lo raros y difíciles de encontrar que son estos currículos de catálogo, y de lo reciente que alguien ha reeditado una versión popular por alrededor de $2,000.

  • 00:10:00 El blog de Jason Bailey "artnome.com" explora formas de usar datos para comprender y criticar mejor el arte. En 2017, su blog recibió la atención de 538, que publicó una historia sobre su proyecto "Ai for Art Scholarship: What Does That Look Like?" Después de compartir enlaces a sus proyectos y publicaciones en su conferencia, Bailey proporciona un resumen de 1 párrafo de su charla.

  • 00:15:00 Jason Bailey analiza cómo el aprendizaje automático es útil en la historia del arte, particularmente en el análisis de pinturas y la comprensión de la historia del arte. También habla sobre su proyecto reciente, que implicó entrenar un modelo de aprendizaje automático para identificar pinturas icónicas del mismo artista en diferentes museos.

  • 00:20:00 La conferencia de Jason Bailey explora las relaciones entre los precios de las pinturas y los píxeles individuales que componen las pinturas, así como las tendencias en el mercado del arte. Su plataforma de aprendizaje automático pudo predecir los precios de las pinturas del pintor español Pablo Picasso con una correlación de 0,58.

  • 00:25:00 Jason Bailey analiza el estado actual del aprendizaje automático y su impacto en el mundo del arte. Habla sobre cómo se utiliza el aprendizaje automático para crear arte más realista y surrealista, y cómo esta innovación ha despertado recientemente un interés renovado en el campo.

  • 00:30:00 Jason Bailey da una conferencia sobre inteligencia artificial y creatividad, y describe cómo se pueden usar los sueños profundos y la transferencia de estilo para crear arte. Habla sobre sus propias experiencias con estas tecnologías y cómo no han sido tan emocionantes para él como cuando las descubrió por primera vez. Termina la conferencia discutiendo el trabajo del artista francés Robbie Barrett.

  • 00:35:00 Jason Bailey da una conferencia sobre IA y creatividad, discutiendo cómo la formación artística tradicional es insuficiente para lidiar con el presente, cuando la IA y el arte generativo prevalecen. Habla de cómo su experiencia en el arte le permite conectarse con artistas y promotores del arte generativo, y cómo su propio trabajo ha sido influenciado por estos artistas.

  • 00:40:00 Jason Bailey analiza cómo la tecnología y el arte se cruzaron en el pasado y cómo el análisis de datos puede ayudar a los artistas a medir la abstracción. También menciona un proyecto en el que participó donde calcularon la abstracción en la carrera de un pintor.

  • 00:45:00 Jason Bailey explica cómo se puede usar el algoritmo de su equipo para predecir los precios de las pinturas, según una serie de factores, como la popularidad histórica del artista, la complejidad de la pintura y el material utilizado en la pintura. También señala que el algoritmo aún se encuentra en sus primeras etapas y que se necesita más investigación para mejorarlo.

  • 00:50:00 En esta conferencia, Jason Bailey explica cómo utiliza los datos de las subastas para estudiar la creatividad y cómo ha incorporado otros campos, como el arte y la naturaleza, en sus modelos.

  • 00:55:00 Jason Bailey analiza el impacto de la IA en la creatividad, enfatizando la necesidad de datos de entrenamiento que incluyan todas las perspectivas. También analiza las posibles consecuencias de los algoritmos de IA sesgados. Finalmente, insta a los artistas a ser conscientes de los sesgos inherentes al arte basado en datos.
 

MIT 6.S192 - Clase 13: "Superficies, objetos, procedimientos: integración de aprendizaje y gráficos para la comprensión de escenas 3D" por Jiajun Wu



MIT 6.S192 - Clase 13: "Superficies, objetos, procedimientos: integración de aprendizaje y gráficos para la comprensión de escenas 3D" por Jiajun Wu

Jiajun Wu, profesor asistente en Stanford, analiza su investigación sobre la comprensión de escenas en máquinas a través de la integración del aprendizaje profundo y el conocimiento del dominio de los gráficos por computadora. Wu propone un enfoque de dos pasos para recuperar la geometría de un objeto 3D a partir de una sola imagen estimando la superficie visible a través del mapa de profundidad y completando la forma en función del conocimiento previo de un gran conjunto de datos de otras formas similares. Wu también propone usar mapas esféricos como una representación sustituta de superficies en 3D para capturar mejor las características de la superficie, lo que permite que el sistema complete formas en una salida más detallada y fluida. Además, Wu analiza cómo la reconstrucción de formas en programas de formas puede mejorar significativamente el modelado y la reconstrucción, especialmente para objetos abstractos y hechos por el hombre. Finalmente, Wu analiza cómo el conocimiento del dominio de los gráficos por computadora se puede integrar con el aprendizaje automático para mejorar la reconstrucción de formas, la síntesis de texturas y la comprensión de escenas.

  • 00:00:00 En esta sección del video, Jiajun Wu, profesor asistente en Stanford, analiza su investigación sobre la comprensión de escenas en máquinas a través de la integración del aprendizaje profundo y el conocimiento del dominio de los gráficos por computadora. Al replicar la cognición humana, su objetivo es construir máquinas que tengan una comprensión integral de las escenas, incluidas las categorías de objetos, la geometría 3D, las propiedades físicas y las predicciones futuras. La investigación de Wu también tiene como objetivo cerrar la brecha entre el aprendizaje automático y el arte mediante la creación de un modelo híbrido que integra el conocimiento del dominio de los gráficos por computadora con el aprendizaje profundo. Este enfoque permite nuevas posibilidades en la edición y generación de imágenes, así como creatividad en la aplicación del aprendizaje profundo.

  • 00:05:00 En esta sección de la conferencia, Jiajun Wu analiza el problema de recuperar la geometría de un objeto 3D a partir de una sola imagen, que puede verse como el inverso del problema clásico en gráficos por computadora de generar una imagen 2D a partir de una forma 3D. , textura, iluminación, material y punto de vista. Si bien se puede entrenar una red neuronal para realizar la tarea, Wu sugiere que la integración del conocimiento previo de los gráficos por computadora podría mejorar el rendimiento, la eficiencia y la generalización. Propone un enfoque de dos pasos para resolver el problema: primero, estimar la superficie visible a través del mapa de profundidad y, segundo, completar la forma en función del conocimiento previo de un gran conjunto de datos de otras formas similares.

  • 00:10:00 En esta sección, Jiajun Wu analiza la importancia de usar la profundidad como una representación intermedia para capturar las superficies de los objetos y los detalles en las formas. Al entrenar un modelo en el conjunto de datos de ShapeNet y tomar muestras aleatorias de él, Wu demuestra que este enfoque mejora en gran medida la precisión de la salida. Sin embargo, reconoce que generalizar a objetos que el modelo nunca antes ha visto puede ser un desafío, lo que lleva a malas interpretaciones de los datos. Para abordar esto, Wu propone construir una capa diferencial que proyecte una representación 2D en una representación 3D, lo que permite que el sistema determine un proceso determinista y completamente diferenciable para completar formas.

  • 00:15:00 En esta sección, el orador analiza las limitaciones de usar una superficie parcial para objetos en 3D, específicamente que muchas áreas del espacio 3D están vacías, lo que dificulta que la red de terminación capture las características de la superficie. Para abordar esto, el orador propone utilizar mapas esféricos como una representación sustituta de las superficies en 3D, donde cada píxel corresponde a un punto en la superficie y no se desperdicia ninguna representación. La tubería toma una profundidad estimada y la proyecta en un mapa esférico parcial, que luego se puede completar usando una red de terminación en un espacio de mapa esférico. Este nuevo método da como resultado resultados mucho más fluidos y detallados, y se puede generalizar a categorías de objetos que no se vieron durante el entrenamiento.

  • 00:20:00 En esta sección, Jiajun Wu analiza cómo las representaciones intermedias y la retroproyección pueden ayudar a construir un mejor sistema de reconstrucción de formas que sea más generalizable. Usando ejemplos de pruebas en humanos y caballos, Wu señala que el sistema puede reconstruir objetos de una manera relativamente razonable desde una sola vista, sin ver previamente objetos deformables, lo que indica que el sistema puede usarse para construir mejores sistemas de visión. Wu también explica cómo las representaciones intermedias de superficies y la proyección hacia adelante pueden ayudar a mejorar la representación, lo que permite la síntesis de nuevas formas y texturas de objetos con más control sobre los factores independientes.

  • 00:25:00 En esta sección, Jiajun Wu analiza el proceso de combinar técnicas anteriores para extenderlas a las escenas. En primer lugar, utiliza sistemas de inversión para obtener representaciones de la geometría, la pose y las texturas de los objetos, incluidas representaciones latentes de segmentos de fondo que no son similares a objetos, como los árboles o el cielo. Luego, edita estas representaciones para ver cómo los diferentes cambios en la escena, como acercar un automóvil o cambiar su textura, afectan la imagen general. Wu enfatiza la importancia de comprender que los objetos tienen geometría 3D, ya que esto permite que el método produzca resultados completos y precisos. Finalmente, analiza el desafío de la abstracción de formas al reconstruir objetos hechos por el hombre, como mesas, y cómo la incorporación de representaciones abstractas y similares a programas puede conducir a mejores resultados.

  • 00:30:00 En esta sección, Wu analiza cómo la reconstrucción de formas en programas de forma puede mejorar significativamente el modelado y la reconstrucción, especialmente para objetos como muebles. Además, explica cómo se pueden aprovechar las estructuras de procedimiento, como la replicación y la simetría, para la creación de contenido, por ejemplo, a través de un algoritmo que puede guiar la proyección 3D para el diseño de edificios. Para conectar imágenes 2D sin procesar y espacio 3D, el equipo de Wu se inspiró en una búsqueda estocástica para detectar primitivas como líneas y triángulos en datos visuales, y ahora intenta sintetizar formas de primitivas 3D para guiar la detección de imágenes.

  • 00:35:00 En esta sección, Jiajun Wu analiza cómo se puede usar el aprendizaje interno para aprender todo a partir de una sola imagen a partir de estadísticas de imágenes, observando que dentro de una sola imagen los parches pueden repetirse, y esta repetición puede ocurrir a través de escalas. Mediante el uso de activaciones neuronales para identificar objetos repetidos en una sola imagen, las primitivas encontradas pueden ser líneas, rectángulos, esferas o cilindros, y las redes neuronales pueden aprender características para identificar y sintetizar programas sobre los centroides de estos objetos repetidos. Esto puede ayudar a resolver una serie de problemas, como la finalización o extrapolación de imágenes y la edición de regularidad para hacer que las escenas sean más irregulares.

  • 00:40:00 En esta sección, el orador analiza cómo aplicar su programa a imágenes en 3D, que es más complejo que un solo plano. El problema aquí es dividir la imagen en varios planos teniendo en cuenta la orientación y los niveles de superficie de cada plano. El orador sugiere usar señales visuales, como puntos de fuga y estructuras alámbricas, para abordar esto. Sin embargo, las entidades de estructura alámbrica pueden ser ruidosas y puede haber varias particiones de plano candidatas posibles. Al usar el conocimiento de arriba hacia abajo de su programa, pueden rectificar los planos candidatos a imágenes 2D y realizar la síntesis del programa para encontrar la partición correcta de la imagen. Hacerlo puede ayudarlos a encontrar los mejores resultados de operación conjunta y síntesis de imágenes, que los métodos tradicionales no pueden lograr.

  • 00:45:00 En esta sección, Jiajun Wu discutió cómo el conocimiento del dominio de los gráficos por computadora se puede integrar con el aprendizaje automático para mejorar la reconstrucción de formas, la síntesis de texturas y la comprensión de escenas. Wu enfatizó que la comprensión de las escenas se basa en la estructura causal mínima pero universal detrás de los datos visuales: objetos, superficies, proyecciones y oclusiones. Al integrar el aprendizaje y el aprendizaje automático, Wu cree que existe un mayor potencial en la creación de modelos 3D más mejorados que van más allá de las imágenes 2D tradicionales. Si bien Wu y su equipo no han profundizado en la impresión 3D, están interesados en el modelado de formas 3D y la posibilidad de utilizar procedimientos inferidos detrás de esos modelos.
 

MIT 6.S192 - Clase 14: "Hacia la creación de motores de innovación abiertos infinitamente creativos" por Jeff Clune



MIT 6.S192 - Clase 14: "Hacia la creación de motores de innovación abiertos infinitamente creativos" por Jeff Clune

Jeff Clune, investigador de OpenAI, analiza su trabajo en la creación de motores de innovación abiertos infinitamente creativos en esta conferencia del MIT. Busca crear algoritmos que puedan realizar la evolución natural y la receta de la cultura humana de comenzar con un conjunto de cosas, generar cosas nuevas, evaluar para mantener lo interesante y modificarlo para mantener la novedad interesante. Clune explora el uso de redes neuronales para reconocer cosas nuevas, habla sobre el algoritmo Map Elites e introduce las redes de producción de patrones de composición para la codificación. Muestra cómo se pueden combinar estas herramientas para generar imágenes complejas y diversas, resolver problemas difíciles y crear algoritmos abiertos que pueden innovar constantemente sus soluciones a los desafíos.

  • 00:00:00 En esta sección, Jeff Clune, profesor asociado de informática en la Universidad de Columbia Británica y líder del equipo de investigación en OpenAI, analiza su investigación sobre la creación de motores de innovación abiertos infinitamente creativos. Reflexiona sobre su viaje personal, comenzando con la filosofía y luego cambiando hacia la construcción de sistemas computacionales para enfrentar el gran desafío de la IA. Clune está interesado en crear algoritmos abiertos, que innovan sin cesar y se ven en las creaciones interminables de la naturaleza, como los complejos diseños de ingeniería de jaguares y halcones.

  • 00:05:00 En este apartado, el ponente aborda el concepto de motores de innovación que define como la receta que sigue tanto la evolución natural como la cultura humana que les permite ser creativos. Esta receta implica partir de un conjunto de cosas, generar algo nuevo, evaluar si es interesante y retener y modificar resultados interesantes. El orador tiene como objetivo crear un algoritmo que pueda realizar este proceso automáticamente sin intervención humana a largo plazo. Sin embargo, el mayor desafío es evitar generar novedades poco interesantes y generar solo novedades interesantes. El orador sugiere usar redes neuronales para reconocer una gran cantidad de clases para reconocer nuevos tipos de cosas y producir resultados interesantes.

  • 00:10:00 En esta sección, Jeff Clune analiza un algoritmo llamado Map Elites y su lugar en el campo de la búsqueda algorítmica. Explica que muchos problemas difíciles requieren explorar y descubrir cosas nuevas en lugar de solo optimizar para un objetivo, y que esto debería reflejarse en los algoritmos. Clune y sus colegas han estado trabajando en un nuevo subcampo llamado Algoritmos de diversidad de calidad, cuyo objetivo es encontrar un conjunto amplio y diverso de soluciones que sean lo mejor posible para ese tipo de solución. El algoritmo busca cambiar entre objetivos cuando avanza en otra tarea, creyendo que esta puede ser la única forma de resolver problemas realmente difíciles.

  • 00:15:00 En esta sección, Jeff Clune, un investigador que trabaja en la intersección de la biología y la inteligencia artificial, describe el algoritmo Map Elites, que se utiliza para optimizar soluciones de acuerdo con algunos criterios. Clune explica que él y sus colegas aplicaron Map Elites a un problema de robótica, generando morfologías de robots blandos con un algoritmo genético, lo que resultó en una amplia gama de criaturas. Sin embargo, el equipo no quedó satisfecho porque se dieron cuenta de que cada criatura era casi idéntica y el algoritmo solo producía una diversidad de diseños al iniciar una nueva búsqueda. Para remediar esto, Clune aplicó el algoritmo Map Elites al mismo problema, esta vez eligiendo el número de vóxeles y la cantidad de un material en particular como dimensiones de interés, en lugar de usar el algoritmo de optimización canónica. Descubrió que el algoritmo exploró un espacio mucho más amplio de posibilidades y, en última instancia, produjo resultados mucho mejores. Además, Clune describió cómo la codificación que utilizan, llamada Red de producción de patrones de composición (CPPN), es fundamental para resolver el problema en el que estaban trabajando en una sección posterior.

  • 00:20:00 En esta sección de la conferencia, Jeff Clune analiza la elección de codificación en aprendizaje profundo y algoritmos evolutivos. En la codificación directa, cada característica del artefacto final está representada por un número en el vector de parámetros, mientras que en la codificación generativa, la información del vector de parámetros se reutiliza para producir el producto final, lo que da como resultado productos más regulares o con patrones. La naturaleza utiliza la codificación generativa mediante el uso de patrones geométricos para determinar el destino de la célula, que es el tipo de célula en la que se convierte cada célula, en función de la ubicación de la célula en el cuerpo. Este enfoque se considera una lingua franca en biología del desarrollo, donde los patrones preexistentes se combinan para crear nuevos patrones en el producto final.

  • 00:25:00 En esta sección, Jeff Clune, investigador de OpenAI, analiza cómo usar de manera eficiente el poder de la biología del desarrollo para crear sistemas de IA abiertos. Sugiere el uso de redes de producción de patrones composicionales (CPPN), que abstraen gran parte del poder de los sistemas naturales sin ninguna de las químicas subyacentes, para codificar ubicaciones geométricas en función de elementos fenotípicos. Al proporcionar coordenadas a un artefacto para optimizar los elementos fenotípicos, como una red neuronal o la morfología de un robot, las CPPN pueden producir una complejidad arbitraria a través de la mezcla y combinación de temas asimétricos, simétricos y repetitivos. Clune y su equipo expresaron esta idea en tres dimensiones, creando un sitio web llamado infiniteforms.com, donde los usuarios pueden elegir las formas evolucionadas de los demás para producir un archivo cada vez mayor de peldaños.

  • 00:30:00 En esta sección de la conferencia, Jeff Clune analiza el uso de CPPN para automatizar el diseño e imprimir en 3D imágenes complejas arbitrarias, demostrando el poder de estas herramientas para eliminar las barreras técnicas y generar diseños creativos con facilidad. Luego aplica los CPPN a la tarea de crear un algoritmo abierto y los optimiza para clasificar cada uno de los miles de contenedores en ImageNet. Clune describe cómo se probó la hipótesis de un mejor rendimiento, lo que resultó en imágenes que con frecuencia se parecían a la categoría con la que estaban asociadas o evocaban una interpretación artística del concepto. A pesar de generar algunas "imágenes engañosas", este proceso de generación permitió al equipo explorar un espacio estético completamente nuevo mientras demostraba las fallas inherentes en las redes neuronales profundas que han llevado a imágenes antagónicas.

  • 00:35:00 En esta sección, Jeff Clune analiza las cualidades del algoritmo de diversidad que él y su equipo desarrollaron, que es capaz de generar imágenes diversas de alta calidad. El algoritmo produce un conjunto diverso de imágenes, algunas de las cuales son estéticamente interesantes y se pueden usar con fines prácticos, como logotipos comerciales. También explica cómo la capacidad de cambio de objetivos del algoritmo permite que se produzcan radiaciones adaptativas, de forma similar a lo que ocurre en los campos de la biología y la tecnología. Brinda información sobre los procesos evolutivos que tienen lugar dentro del algoritmo, mostrando gráficos y árboles filogenéticos que demuestran el nacimiento y la evolución de ideas innovadoras. Además, comparte que el algoritmo y sus resultados pasaron la prueba artística de Turing, siendo confundidos con arte creado por humanos en lugar de IA.

  • 00:40:00 En esta sección, Jeff Clune presenta la idea de los algoritmos de diversidad de calidad (QD), que pueden producir diversas soluciones que funcionan bien y tienen la capacidad de cambiar de objetivo. Habla sobre su uso para resolver desafíos, como robots que pueden adaptarse al daño y explorar desafíos de exploración difíciles como Montezuma's Revenge y Pitfall. Señala que si bien los algoritmos QD tienen el potencial de innovar, aún no son abiertos y están limitados por el entorno. Luego, Jeff Clune propone la idea de crear algoritmos abiertos, como el algoritmo Paired Open-Ended Trailblazer (POET), que puede generar infinitamente entornos de aprendizaje interesantes, complejos y diversos y sus soluciones. El algoritmo POET está diseñado para generar nuevos entornos de aprendizaje que no son ni demasiado fáciles ni demasiado difíciles para la población actual de agentes, optimizando a los agentes para resolver mejor cada uno de los desafíos y permitiendo el cambio de objetivos entre ellos.

  • 00:45:00 En esta sección, Jeff Clune analiza el concepto de "cambio de objetivos": la capacidad de un sistema para competir en un entorno, progresar y luego pasar a otro entorno. Muestra un algoritmo RL que atraviesa terrenos que crean automáticamente entornos cada vez más difíciles. Clune explica que esta es una forma de medir el progreso y superar los óptimos locales. Presenta el algoritmo del 'poeta' y muestra cómo es la única manera de resolver problemas difíciles. Demuestra que la poesía es esencial para superar los óptimos locales, como se ve en una tarea en la que un robot recién optimizado invade un entorno antiguo, reemplazando a la encarnación anterior. Clune señala que este tipo de innovación compleja podría allanar el camino para simulaciones más avanzadas.

  • 00:50:00 En esta sección de la conferencia, Jeff Clune analiza el potencial de combinar la optimización del cuerpo con la generación del entorno para crear criaturas optimizadas para entornos particulares de la misma manera que las arañas cavernícolas. También sugiere emparejar motores de innovación como Dali con algoritmos que inventen el desafío y la solución, y luego detecten qué hay de nuevo interesante en las imágenes, videos, música o poesía producida. Clune menciona que su equipo de investigación también ha explorado la neurociencia ai, un campo que estudia cuánto entienden las redes neuronales profundas sobre las imágenes que clasifican. Lo hicieron sintetizando imágenes que activan al máximo neuronas particulares y pudieron explorar la noción de una estrella de mar de cinco patas en la red.

  • 00:55:00 En esta sección de la conferencia, Jeff Clune analiza la evolución de la generación de imágenes de aprendizaje profundo desde la adición de restricciones a la generación de imágenes naturales hasta el uso del aprendizaje profundo para conocer los antecedentes de imágenes naturales. Con ligeros ajustes a los algoritmos, cada generador produce estilos artísticos muy diferentes. Las redes neuronales entienden lo que significa cada objeto en un espacio particular, como el espacio de las imágenes naturales, y pueden producir imágenes de una calidad fotorrealista superior. Sin embargo, se genera poca diversidad en estos espacios de imagen natural. Para superar este problema, se introdujeron redes generativas plug-and-play que producen una gama mucho más amplia de imágenes diversas que las vistas anteriormente en el aprendizaje profundo.

  • 01:00:00 En esta sección de la conferencia, Jeff Clune analiza el progreso realizado en la neurociencia de la IA y la creación de procesos creativos abiertos. Destaca cómo la IA puede reconocer y aprender sobre conceptos de nuestro mundo, como volcanes o una cortadora de césped, pero es susceptible de producir y reconocer imágenes antagónicas. Clune recomienda el trabajo de Chris Ola y habla sobre el trabajo de su equipo en la exploración de diferentes modos, como voz y video. También comparte su entusiasmo por el progreso realizado y el potencial futuro en el campo, incluida la generación de imágenes sintéticas que activan las neuronas dentro de un cerebro de mono real. Clune sugiere que la ciencia a menudo produce artefactos estéticos y cómo las herramientas modernas de aprendizaje automático permiten la fusión del arte y la ciencia. Finalmente, recomienda la lectura de los trabajos de Ken Stanley y Joel Lehman para los estudiantes interesados en unirse a la misión de crear procesos abiertos infinitamente creativos.

  • 01:05:00 En esta sección, Jeff Clune explica que los algoritmos abiertos tienen el potencial de respaldar los avances en inteligencia artificial general. Recomienda leer su artículo AI Generating Algorithms, que explora cómo estos algoritmos podrían ser el camino para producir IA general. Jeff también alienta a los investigadores a aplicar estas ideas en varios dominios y utilizar herramientas como GPT-3 o Dolly para hacerlo. Sugiere que explorar la fruta al alcance de la mano en diferentes áreas, como la poesía o la arquitectura, podría conducir a avances emocionantes. Jeff también aborda la pregunta de Joseph sobre el uso del algoritmo Poet en un entorno de múltiples agentes y analiza los desafíos que surgen, como la dificultad para medir el rendimiento del agente en dicho entorno.
 

MIT 6.S192 - Clase 15: "Creative-Networks" por Joel Simon



MIT 6.S192 - Clase 15: "Creative-Networks" por Joel Simon

En esta conferencia, Joel Simon explora sus inspiraciones y enfoques hacia las redes creativas que se basan en ecosistemas naturales. Demuestra el potencial de las habilidades computacionales en el proceso creativo, describiendo cómo técnicas como la optimización topológica, los morfógenos y los algoritmos evolutivos pueden permitir la aparición de formas y texturas increíbles. Simon también comparte detalles sobre su proyecto GANBreeder, una herramienta en línea para descubrir y mutar imágenes mediante un CPPN y un GAN, y analiza el potencial de los sistemas de recomendación cruzada en el proceso creativo. Simon es optimista sobre el futuro de la tecnología y la creatividad, y cree que los humanos pueden colaborar y optimizar las funciones de los edificios y crear algo más grande.

  • 00:00:00 En esta sección, Joel Simon explica sus antecedentes e inspiraciones hacia su trabajo creativo en red. Destaca la crítica de Brian Eno sobre la noción de genios solitarios y describe cómo la creatividad puede cuantificarse como un producto emergente de varias fuerzas que trabajan juntas. Simon también habla sobre su viaje hacia la escultura, que lo llevó a aprender y explorar formas computacionales de crear, enfatizando la diferencia entre ser digital y ser computacional.

  • 00:05:00 En esta sección, Joel Simon describe su inspiración para su trabajo en diseño computacional y optimización de topología, que descubrió durante sus años universitarios. Fascinado por la capacidad de optimización de la topología para producir nuevas formas que nunca podrían haberse creado en un sentido tradicional, Simon buscó explorar más su potencial. Sin embargo, se dio cuenta de que necesitaba ir más allá de las simples técnicas de optimización e incorporar elementos de la naturaleza real, como la adaptabilidad y el entorno, que podrían permitir que un edificio crezca como un árbol, lo que lo llevó a realizar experimentos sobre arquitectura generativa. Su trabajo no solo se basó en el diseño arquitectónico, sino que también utilizó métodos de simulación de gráficos y criaturas virtuales evolucionadas como inspiración para una mayor complejidad e innovación en el diseño computacional.

  • 00:10:00 En esta sección, el disertante analiza el uso de información de patrones y morfógenos en el proceso de crecimiento, específicamente en lo que respecta a la reacción de difusión. Explica que estos patrones se pueden usar en el arte para producir texturas y analiza los CPPN de Jeff, que se usan para mapear una red simple desde la posición hasta el color y convertirla en una imagen. Para llevar más allá estas ideas de crecimiento, el orador creó el proyecto "Corales alienígenas en evolución", que utiliza morfógenos en los vértices de una malla 3D para controlar la dirección en que se mueven y emiten los vértices. Esto permitió efectos compuestos que dieron lugar a formas increíbles. Los colores de los corales son los morfógenos que se optimizan y no solo generan patrones bonitos. Este proyecto también muestra la idea de poder esculpir con fuerzas u objetivos para impulsar formas, donde la forma sigue a la función de aptitud. El disertante también toca brevemente la idea de los ecosistemas y la hipótesis de la perturbación intermedia, donde la diversidad óptima se alcanza con una cantidad de perturbación en el medio.

  • 00:15:00 En esta sección, Joel Simon habla sobre su fascinación por las redes creativas que se basan en ecosistemas naturales y explora cómo estos paisajes son propicios para esculpir y manipular patrones. Plantea la pregunta de cómo sería ver un colapso ecológico o cómo las perturbaciones como las especies invasoras o la fusión de diferentes islas afectarían al ecosistema. Simon se inspiró en la escritura cuneiforme y en la idea de la caligrafía como solución a un problema multiobjetivo. Para experimentar con diferentes métodos, Simon creó una arquitectura neuronal personalizada que generaba reconocimiento de patrones para la comunicación a través de un medio ruidoso, en el que cada forma era reconocible y mutuamente distintiva, lo que resultó en la aparición de diferentes lenguajes. Más tarde, modificó este sistema para que fuera tanto cooperativo como de confrontación, produciendo conjuntos de caligrafía únicos que se parecen entre sí pero siguen siendo funcionales de una manera diferente.

  • 00:20:00 En esta sección, Joel Simon analiza algunos de sus proyectos de arte generativo inspirados en diversas fuentes, como los autorretratos de Matisse y el Juego de la vida de Conways. Creó retratos usando algoritmos genéticos y exploró el concepto de una arquitectura generativa para la vida artificial. Simon también habla sobre cómo se inspiró en el proyecto Pick Breeder, que implicaba el uso de una red neuronal para generar imágenes de criaturas que luego se criaban selectivamente para crear diseños nuevos e interesantes.

  • 00:25:00 En esta sección, el orador habla sobre su inspiración para crear GANBreeder, una herramienta en línea para descubrir y mutar imágenes usando un CPPN y un GAN. Se inspiró en la idea de que la grandeza no se puede planificar e intrigó por el sentido innato de interés en los humanos que podría ayudar a aumentar los algoritmos utilizados en esta herramienta. Profundiza en las GAN y reconoce que los vectores latentes de las GAN tienen la propiedad necesaria para usarse en el cruce, lo que permite que las imágenes de los niños se parezcan a ambos padres. El orador habla sobre los diferentes tipos de creatividad y afirma que su herramienta era algo combinatorio donde combinó BigGAN con Picbreeder para crear GANBreeder. También analiza las tres formas en que GANBreeder permite a los usuarios crear imágenes, es decir, obtener niños al azar, mezclar dos imágenes y editar los genes de una imagen.

  • 00:30:00 En esta sección de la conferencia, Joel Simon analiza el proceso creativo en términos de fases exploratorias que van desde abiertas hasta intencionales con un gradiente intermedio. Se mencionan paralelos biológicos, como la reproducción asexual, la reproducción sexual y crispr, como diferentes formas de crear y hacer imágenes. Luego, Simon proporciona un ejemplo de una imagen que hizo, junto con los genes que la componen, enfatizando la importancia de la exploración interactiva y colaborativa, ya que los humanos no pueden pensar en 128 dimensiones. Simon concluye con la idea de que ArtBreeder puede usarse como una herramienta para encontrar ideas e inspiración, y menciona una característica reciente que permite a los usuarios crear sus propios genes, relevante para aquellos interesados en el aprendizaje automático.

  • 00:35:00 En esta sección, Simon describe cómo su proyecto, Ganbreeder, aprovecha el ecosistema de fuentes colectivas de etiquetado de imágenes. Al recolectar muestras de una propiedad sutil en imágenes, los usuarios pueden convertirla en una herramienta o filtro que permita crear genes más poderosos. El proyecto comenzó como una simple cuadrícula de imágenes con un indicador de qué imagen es más interesante. Sin embargo, los usuarios han estado usando Ganbreeder de formas inesperadas, como subir fotos para colorear figuras históricas, hacer vestidos o incluso pintar sobre personajes. Simon enfatiza que el experimento fue en realidad la interfaz, no el gan, ya que los dos realmente tenían que ir juntos para que funcionara.

  • 00:40:00 En esta sección del video, Joel Simon analiza el poder potencial de crear una herramienta de sistema de recomendación cruzada que utilice dimensiones latentes de variación que no se utilizan actualmente en los motores de recomendación existentes. Utiliza el ejemplo de no poder especificar si las letras están presentes o no en las canciones cuando está trabajando, lo que sugiere que si los motores de recomendación pudieran ayudar a los usuarios como él a crear una herramienta que considere estas dimensiones de variación, podrían hacer recomendaciones mucho más sólidas. . Simon también explora la idea de la propiedad y la colaboración en herramientas creativas, describiendo una muestra de arte interactivo que curó donde nadie era "propietario" del arte porque había sido creado en colaboración por muchas personas.

  • 00:45:00 En esta sección, Joel Simon discute las limitaciones del pensamiento humano en contraste con el potencial de las habilidades computacionales en el proceso creativo. Los humanos tenemos ciertos sesgos en nuestro pensamiento, incluido el pensar en jerarquías claras, tener rutinas y no pensar en superposiciones complejas. Simon analiza cómo facilitar la colaboración, la exploración, permitir nuevos medios y metáforas puede conducir a nuevos procesos creativos. Los diálogos entre un director creativo y un artista son esenciales en este proceso, con el director guiando la creatividad del artista. Simon es optimista sobre el futuro de la computación y la creatividad y cree que el uso de la herramienta será impulsado por las personas para crear nuevas obras de arte que compartimos con otras personas en lugar de ser un reemplazo para los artistas y creativos.

  • 00:50:00 En esta sección, Joel Simon analiza la creatividad y la idea errónea de que los avances tecnológicos reemplazarán a los artistas. Él cree que tales avances solo hacen que la expresión creativa sea más accesible para todos y afirma que la creatividad es una necesidad humana innata y un fin en sí misma. Simon termina proponiendo un concepto de diseño morfogénico que adapta el proceso natural de reproducción y utiliza la biomímesis para crear procesos de colaboración para diseñar más allá de las capacidades cognitivas humanas. Él enfatiza que los humanos son parte de un tejido conectivo creativo más grande y que la inspiración para los proyectos se obtiene de este sistema más grande.

  • 00:55:00 En esta sección, Joel Simon habla sobre su visión optimista del futuro de la tecnología en la construcción de un ecosistema de edificios que son mutuamente armoniosos como un ecosistema complejo. Él cree que con nuevas metáforas y técnicas, las personas pueden colaborar y optimizar las funciones de estos edificios de maneras que van más allá de la comprensión. Si bien la tecnología tiene sus pros y sus contras, la perspectiva positiva de Simon sobre el diálogo entre las máquinas y los humanos brinda una idea de un futuro en el que la tecnología puede unir a las personas para crear algo más grande.
 

MIT 6.S192 - Clase 16: "Percepción visual humana del arte como computación" Aaron Hertzmann



MIT 6.S192 - Clase 16: "Percepción visual humana del arte como computación" Aaron Hertzmann

La conferencia explora la ambigüedad perceptiva y la indeterminación en el arte y el uso de redes generativas antagónicas (GAN) en la creación de imágenes ambiguas. Discute el impacto de la duración de la visualización en la percepción y la relación entre la entropía de la imagen y las preferencias humanas. El disertante sugiere una teoría evolutiva del arte, donde el arte es creado por agentes capaces de relacionarse socialmente. También se analiza el uso de la IA en el arte, con la conclusión de que, si bien los algoritmos pueden ser herramientas útiles, no pueden reemplazar a los artistas humanos. La conferencia concluye con algunas observaciones sobre conceptos como el valor.

  • 00:00:00 En esta sección, el orador analiza la ambigüedad y la indeterminación de la percepción, que son temas importantes en el arte moderno. Él explica que las imágenes con varias interpretaciones pueden hacer que la duración de la visualización cambie y puede alternar entre diferentes percepciones, lo que afecta las elecciones que hacen las personas. La indeterminación visual es un término que se usa para describir imágenes que parecen producir una interpretación coherente simple pero que no se resuelven de una forma coherente, y este tema se hizo popular en la era moderna, especialmente con el cubismo. La literatura de psicología ha discutido y estudiado la ambigüedad perceptiva y las formas de describir este espacio de ambigüedad, pero ha habido dificultades para encontrar estímulos comparables y medir la ambigüedad hasta la aparición de adversarios generativos en los últimos años.

  • 00:05:00 En esta sección, el orador analiza el uso de GAN en la creación de arte y la ambigüedad visual natural que pueden exhibir este tipo de imágenes. El equipo utilizó estas imágenes en un estudio en el que a los participantes se les mostró una imagen durante un breve período de tiempo y se les pidió que la describieran. Los resultados demostraron que las imágenes con niveles más altos de incertidumbre y ambigüedad perceptual dieron como resultado una mayor variedad de descripciones de los participantes. Además, la duración del período de visualización tuvo un impacto en la cantidad y variedad de palabras utilizadas para describir una imagen, y los participantes convergieron hacia interpretaciones más coherentes con una exposición más prolongada.

  • 00:10:00 En esta sección, el disertante analiza la relación entre la entropía de la imagen y las preferencias humanas por las imágenes ambiguas. El equipo descubrió que hay dos categorías de usuarios, una que prefiere imágenes de baja entropía y otra que prefiere imágenes de alta entropía. Sin embargo, agrupar a los usuarios en estas categorías solo ha tenido éxito en la predicción de preferencias para ciertos tipos de imágenes y requiere un procesamiento de lenguaje más natural para extraer la información correcta. Continuando, se explora la definición de arte y si las computadoras pueden crear arte. Se considera que la definición actual de arte es inadecuada, ya que no generaliza para considerar nuevas formas de arte, como las que pueden ser creadas por extraterrestres. En cambio, el orador sugiere una teoría evolutiva del arte, según la cual el arte es creado por agentes capaces de tener relaciones sociales y, como tal, actividad social. Esto lleva a la conclusión de que las computadoras pueden ser artistas, pero este diálogo es erróneo ya que puede dar a los no expertos una comprensión equivocada.

  • 00:15:00 En esta sección, el orador discute el uso de ideas de la computación para comprender la percepción humana del arte y cómo se hace el arte. Argumenta que las computadoras no pueden ser artistas hasta que posean personalidad o una relación social. Sin embargo, las computadoras son herramientas poderosas para la creatividad artística y brindan nuevas herramientas para la creación artística. El orador también refuta la idea de que el arte de la IA perderá su valor a medida que se vuelva más accesible, señalando que los mejores artistas de la IA están experimentando con la codificación y seleccionando cuidadosamente los resultados.

  • 00:20:00 En esta sección, Hertzmann analiza el uso de la inteligencia artificial (IA) en el arte y cuestiona si las máquinas que pueden generar arte en función de las preferencias humanas pueden considerarse artistas. Argumenta que los algoritmos de IA actuales simplemente siguen instrucciones y no poseen la creatividad de un artista humano. Sin embargo, está entusiasmado con el potencial de los algoritmos para modelar el proceso artístico y las preferencias, permitiéndoles ser herramientas útiles para crear y curar arte. En última instancia, Hertzmann no cree que los algoritmos puedan reemplazar a los artistas humanos, ya que el arte es un producto de la cultura y el tiempo.

  • 00:25:00 En esta sección, se realizan algunos comentarios finales después de una discusión sobre conceptos como el valor. No se aporta información significativa sobre estos conceptos ni sobre nuevos temas de discusión. Se agradece al orador por una charla esclarecedora e inspiradora.
 

MIT 6.S192 - Clase 17: "Uso de la IA al servicio del diseño gráfico" por Zoya Bylinskii



MIT 6.S192 - Clase 17: "Uso de la IA al servicio del diseño gráfico" por Zoya Bylinskii

Zoya Bylinskii, científica investigadora de Adobe, explora la intersección del diseño gráfico y la inteligencia artificial (IA) en esta conferencia. Bylinskii enfatiza que la IA está destinada a ayudar en lugar de reemplazar a los diseñadores mediante la automatización de tareas tediosas y la generación de variaciones de diseño. Bylinskii brinda ejemplos de herramientas asistidas por IA, incluidas herramientas de diseño interactivo e ideación de íconos generados por IA. Bylinskii también analiza los desafíos y el potencial de aplicar IA al diseño gráfico, incluida la necesidad de pensamiento creativo, curación y trabajo con profesionales de diferentes campos. Ella asesora a los candidatos interesados en IA y aprendizaje automático para diseño gráfico para mostrar la experiencia del proyecto y buscar oportunidades de investigación.

  • 00:00:00 En esta sección, Zoya Bylinskii, científica investigadora de Adobe, explica cómo se puede utilizar la IA al servicio del diseño gráfico. Bylinskii habla sobre la intersección del diseño gráfico y la IA y cómo las diversas formas estilísticas de los diseños gráficos se pueden deconstruir en módulos computacionales de los que se puede aprender y automatizar. Ella enfatiza que la IA no está destinada a reemplazar a los diseñadores, sino a habilitar a los diseñadores con automatización para tareas tediosas y exploración rápida para generar variantes de diseño automáticamente mientras mantiene al diseñador en el centro del proceso de diseño y curación. Bylinskii da dos ejemplos de estos objetivos: cambiar el tamaño y diseñar un diseño para diferentes factores de forma y relaciones de aspecto, y recorrer muchas representaciones visuales posibles al crear un ícono, logotipo o un activo de diseño similar.

  • 00:05:00 En esta sección, Zoya Bylinskii analiza cómo la automatización del diseño puede aumentar la velocidad del proceso de diseño al minimizar el tedio y facilitar un proceso de iteración más eficiente. Bylinskii continúa explicando cómo el aprendizaje automático puede predecir la importancia visual en el diseño, creando una guía más efectiva para los diseñadores gráficos al aprender qué es visualmente llamativo y llamativo en diferentes diseños. Al utilizar una herramienta de anotación, Bylinskii y sus colegas seleccionaron un conjunto de datos de mil pares de anotaciones de imagen para entrenar a su modelo en este concepto de importancia, que utilizó módulos de clasificación para predecir las regiones más destacadas de un diseño en el momento de la prueba, guiando a los diseñadores en dónde colocar otros elementos de diseño.

  • 00:10:00 En esta sección, Zoya Bylinskii analiza dos aplicaciones para usar la inteligencia artificial (IA) en el diseño gráfico. La primera aplicación implica una herramienta de diseño interactivo que utiliza una pequeña red neuronal para volver a calcular continuamente la importancia prevista de varios elementos de diseño en tiempo real. La herramienta también presenta un histograma y permite a los usuarios ajustar el nivel de importancia de cada elemento para manipular el diseño. La segunda aplicación involucra la ideación de generación de íconos, donde la IA se usa para crear nuevos íconos que corresponden a conceptos visuales comunes. Bylinskii explica que ambas aplicaciones ofrecen nuevas direcciones prometedoras para usar modelos de importancia en herramientas de diseño gráfico asistidas por IA.

  • 00:15:00 En esta sección, el ponente explica el desafío al que se enfrentan los diseñadores cuando intentan crear una nueva iconografía para un concepto que no tiene iconos existentes, como es la entrega de sushi. Este proceso requiere trabajo manual, busca conceptos relacionados para inspirarse, así como recombinar y editar íconos existentes. Para simplificar este proceso, el orador presenta una nueva canalización impulsada por IA para la generación de íconos compuestos. Este sistema combina espacio, estilo y semántica para generar íconos compuestos que son estilísticamente compatibles y semánticamente relevantes para el concepto consultado. La canalización impulsada por IA implica dividir la consulta en palabras relacionadas, encontrar iconos estilísticamente compatibles y combinarlos para transmitir el mensaje deseado.

  • 00:20:00 En esta sección, Bylinskii analiza un proyecto llamado Iconate, que usa IA para sugerir combinaciones de íconos compatibles y diseños para crear nuevos diseños. El sistema aprende un espacio de incrustación para sugerir iconos estilísticamente compatibles y un enfoque basado en plantillas para definir el diseño de los iconos constituyentes. Iconate se entrenó con el conjunto de datos CompyCon1k de 1000 íconos compuestos con componentes individuales anotados. Bylinskii explica que el sistema permite a los usuarios crear íconos compuestos mucho más rápido que con herramientas de diseño independientes, y podría usarse para generar rápidamente íconos para cualquier concepto que se le ocurra a un usuario. También destaca otras herramientas de diseño impulsadas por IA, como la síntesis de logotipos y los sistemas de refinamiento de diseño, que tienen como objetivo facilitar el proceso de diseño en lugar de reemplazar la creatividad humana.

  • 00:25:00 En esta sección, el orador analiza el uso de la IA en la creación de infografías, incluidos texto, estadísticas y pequeñas visualizaciones. También señala que este trabajo se extiende a través de diferentes comunidades y conferencias, y proporciona ejemplos de visión por computadora, como la generación de diseños de GUI utilizando GAN. Señala que hay muchos recursos disponibles, incluidos conjuntos de datos para diseño gráfico computacional y creatividad, y menciona brevemente el conjunto de datos de medios artísticos de Behance y el conjunto de datos de comprensión automática de anuncios de imágenes y videos.

  • 00:30:00 En esta sección, el orador habla sobre los modelos y herramientas disponibles para automatizar componentes dentro del flujo de trabajo de diseño, señalando que muchas de las herramientas automáticas no son muy creativas, pero aún hay mucho potencial para el descubrimiento futuro en el espacio de flujos de trabajo automatizados pero altamente creativos. Ella alienta a los estudiantes a explorar este espacio por sí mismos y generar pensamientos interdisciplinarios, que pueden conducir a aplicaciones interesantes en la interfaz de la computación y el diseño. La discusión también toca las limitaciones de los modelos actuales de texto a visual en el diseño gráfico y el potencial de nuevos modelos que pueden generar gráficos vectoriales.

  • 00:35:00 En esta sección, el orador analiza un proyecto cuyo objetivo era producir un título a partir de una determinada infografía para buscar infografías en la web y anotarlas para personas con discapacidad visual. Sin embargo, se encontraron con un problema, ya que no podían usar los detectores de objetos existentes para extraer imágenes e íconos de las infografías. Esto condujo al desarrollo de una forma de entrenar un detector de íconos utilizando datos sintéticos, lo que eventualmente permitió la detección de íconos. Posteriormente, los estudiantes exploraron la posibilidad de aprender incrustaciones conjuntas entre los íconos y el texto cercano, que podrían usarse para comprender cómo se visualizaban los conceptos abstractos en diseños gráficos complejos. El orador enfatiza que la IA no está destinada a reemplazar a los diseñadores sino a ayudarlos, y que la curación seguirá siendo un aspecto importante del trabajo.

  • 00:40:00 En esta sección, el orador analiza el papel de los diseñadores en el ámbito del diseño gráfico generado por IA. Si bien es posible entrenar modelos para generar diseños, es difícil entrenarlos para crear diseños completamente nuevos. Por lo tanto, los diseñadores pueden introducir nuevos activos y componentes que están más allá de la variedad actual, que luego se pueden usar para manipular y generar nuevos diseños automáticamente. El orador también enfatiza la necesidad de curación, ya que los diseñadores pueden ayudar a identificar pares basura y no basura para mejorar el proceso de capacitación. Además, el ponente señala que adaptar los diseños a diferentes culturas sigue siendo un desafío debido a la falta de datos suficientes. Finalmente, el orador explica el papel de los científicos de investigación en empresas como Adobe, que tienen como objetivo presentar grandes ideas de investigación que se pueden incorporar a los equipos de productos existentes para un mayor desarrollo.

  • 00:45:00 En esta sección, Zoya Bylinskii analiza los desafíos de aplicar la IA en el diseño gráfico para crear productos prácticos. Ella destaca la necesidad de conceptualizar los problemas de una manera que los haga portátiles a diferentes productos tecnológicos, presentando ideas de investigación a las empresas y trabajando junto a profesionales de diferentes campos para obtener experiencia. Bylisnkii aconseja a los estudiantes y pasantes que desarrollen un sólido conjunto de herramientas computacionales para mejorar sus posibilidades de obtener un puesto como pasante de ingeniería, investigación o producto.

  • 00:50:00 En esta sección, el orador se enfoca en las habilidades que busca en un candidato interesado en IA y aprendizaje automático para diseño gráfico. Destacan la necesidad de competencia en herramientas de software y aprendizaje automático. Recomiendan mostrar la experiencia no solo en forma de curso sino también en forma de proyecto con ejemplos en Github. Sugieren que los candidatos deben mostrar creatividad e innovación, yendo más allá de los modelos y bibliotecas existentes para conceptualizar nuevas ideas y aplicarlas de nuevas maneras. Los candidatos deben buscar experiencia en investigación o puestos técnicos en un laboratorio universitario. Recomiendan acercarse a los profesores y ofrecerse a trabajar durante un tiempo determinado en determinados problemas. Finalmente, enfatizan la importancia de las referencias de otros investigadores, que acrediten la creatividad, la fortaleza técnica y la idoneidad para la investigación del candidato.
Razón de la queja: