Redes Neurais em IA e Deep Learning - página 23

 

Aprendizaje automático para patología - Clase 19



Machine Learning for Pathology - Clase 19 - MIT Deep Learning in the Life Sciences (primavera de 2021)

La conferencia cubre varios aspectos de la aplicación del aprendizaje profundo en patología computacional, incluidos los desafíos y limitaciones de la tecnología. El orador analiza la necesidad de tener precaución al confiar ciegamente en los algoritmos y enfatiza la importancia de comprender lo que una red está aprendiendo. La conferencia explora varios ejemplos de cómo se utiliza el aprendizaje profundo en el diagnóstico del cáncer, el pronóstico y la evaluación de la respuesta al tratamiento para desarrollar herramientas de pronóstico y predicción para la medicina de precisión. El orador también analiza los desafíos del desarrollo de tratamientos multimedicamentosos para la tuberculosis y propone varios proyectos de laboratorio para abordar el problema. En general, la conferencia subraya el potencial del aprendizaje profundo en patología, al tiempo que reconoce sus limitaciones y la necesidad de un enfoque multidisciplinario para garantizar su implementación efectiva en entornos clínicos.

En este video de YouTube titulado "Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (primavera de 2021)", el orador analiza los intentos de su equipo de abordar la heterogeneidad de lote a lote y de célula a célula en el aprendizaje automático para patología utilizando normalización de variación (TVN) y un enfoque de k-vecino más cercano. También describen el uso de perfiles morfológicos para clasificar los medicamentos en función de sus efectos sobre las bacterias y el desarrollo de un enfoque basado en datos para diseñar y priorizar combinaciones de medicamentos mediante el aprendizaje supervisado y no supervisado. Además, la oradora agradece a los miembros de su laboratorio por sus contribuciones a los estudios de sinergia versus antagonismo de fármacos, y destaca la importancia de considerar el contexto más amplio para comprender y avanzar en la investigación en el campo.

  • 00:00:00 En esta sección, Anand Madabhushi analiza el impacto del aprendizaje profundo en el campo de la patología computacional, específicamente en lo que respecta al análisis de imágenes médicas. Si bien la digitalización de la patología la ha convertido en un semillero para la aplicación del aprendizaje profundo debido a la gran cantidad de datos disponibles, Madabhushi advierte que las metodologías especializadas que involucran características artesanales a lo largo de décadas de experiencia pueden no haber sido superadas por los métodos de aprendizaje profundo. . También proporciona algunas estadísticas sobre el diagnóstico de cáncer y las tasas de mortalidad para subrayar la importancia de diagnosticar con precisión el cáncer en una etapa temprana mediante el uso de imágenes. Madabhushi espera compartir sus lecciones aprendidas y pensamientos sobre dónde y cómo el aprendizaje profundo puede ser más útil en este campo.

  • 00:05:00 En esta sección, el orador analiza el tema del sobrediagnóstico y el sobretratamiento de los cánceres, en particular de los indolentes como el cáncer de próstata. A pesar de los avances en biomarcadores y tratamientos, el sobrediagnóstico y el sobretratamiento siguen siendo problemáticos y contribuyen a la toxicidad financiera para los pacientes. Luego, el orador explora el potencial del aprendizaje automático en el contexto del diagnóstico del cáncer, el pronóstico y la evaluación de la respuesta al tratamiento para ayudar a desarrollar herramientas de pronóstico y predicción para la medicina de precisión. Si bien ya existen herramientas como los ensayos basados en la expresión génica, tienen limitaciones y no tienen en cuenta la heterogeneidad intratumoral. El aprendizaje automático presenta una oportunidad para mejorar estas limitaciones y manejar y tratar mejor los cánceres.

  • 00:10:00 En esta sección, el disertante analiza el uso de diapositivas de patología digitalizadas y análisis de imágenes de aprendizaje automático avanzado para identificar características y patrones que los patólogos humanos no pueden discernir visualmente. Al identificar células individuales, linfocitos y células cancerosas, los científicos de datos pueden usar la teoría de redes para examinar la arquitectura espacial de las células individuales y analizar diferentes métricas cuantitativas de la disposición espacial de las células individuales para comprender mejor el diagnóstico, el pronóstico y la respuesta al tratamiento de los pacientes. . Este proceso permite un enfoque no invasivo y basado en la nube para el análisis de patologías.

  • 00:15:00 En esta sección, el orador analiza el impacto del aprendizaje profundo en el campo de la patología computacional, donde la cantidad de datos en las diapositivas de patología ha superado a cualquier otro dominio de imágenes médicas. Hace seis años se publicó una red neuronal que usaba anotaciones de celdas individuales en el codificador automático disperso apilado, donde aprendía en función de las anotaciones de las celdas, lo que permitía que la red neuronal captara detalles más pequeños, como los gradientes y las formas elípticas aproximadas de la células. La red fue entrenada en parches que tenían celdas y no tenían celdas que fueron etiquetadas a mano por los estudiantes dividiendo la imagen en una serie de cuadros delimitadores. Aunque se pasaron por alto algunas celdas, la red pudo captar los matices de los diferentes tipos de celdas.

  • 00:20:00 En esta sección, el orador analiza las limitaciones del aprendizaje profundo en patología, específicamente en lo que respecta a la tinción y las anotaciones. La tinción puede tener un impacto significativo en la fidelidad de las segmentaciones, y la red no se entrenó de la manera más sólida debido a la discrepancia entre las celdas pequeñas y grandes. El orador también analiza su trabajo en el entrenamiento de un algoritmo CNN basado en la generación de características no supervisadas para distinguir entre corazones normales y aquellos con riesgo de insuficiencia cardíaca. El algoritmo de CNN superó a los patólogos, logrando un AUC de 0,97 en comparación con el AUC de los patólogos de solo 0,74.

  • 00:25:00 En esta sección, el orador analiza un sorprendente descubrimiento que hicieron mientras ejecutaban el mismo algoritmo en dos grupos de pacientes de la misma institución y escáner. A pesar de que no hubo diferencias en la patología de las imágenes, el AUC del segundo conjunto se redujo drásticamente debido a una pequeña actualización de software que cambió sutilmente las características de la imagen. Esto subrayó la necesidad de tener precaución al confiar ciegamente en los algoritmos, incluso en entornos aparentemente controlados. El panel en f también mostró que, si bien la generación de características no supervisadas con CNN aprendió principalmente convoluciones que eran sensibles a las fuentes de variación preanalíticas, también destacó la importancia de ciertos tipos de celdas y sus arreglos espaciales. Esto condujo a un enfoque posterior que generó un AUC comparable al puntaje alto inicial pero con más resistencia a las variaciones entre sitios y lienzos.

  • 00:30:00 En esta sección, el disertante analiza la importancia de comprender lo que una red está aprendiendo y ser cauteloso acerca de confiar en los algoritmos de fuerza bruta en el diagnóstico médico. Comparte un ejemplo de una red que aprendió a distinguir entre perros esquimales y lobos basándose únicamente en la presencia de nieve en el fondo, lo que enfatiza la necesidad de precaución al interpretar los resultados de la red. A pesar de estas limitaciones, el orador identifica la utilidad del aprendizaje profundo en tareas de detección y segmentación en patología y comparte una herramienta interactiva llamada Quick Annotator, que permite a los usuarios segmentar algunos ejemplos representativos, entrenar una red en segundo plano y afinar los resultados en un modo de aprendizaje interactivo.

  • 00:35:00 En esta sección, el orador analiza los desafíos del proceso de anotación de imágenes de patología, en particular la falta de tiempo disponible para los patólogos. Para abordar este problema, el orador explica cómo las características artesanales pueden ayudar a mejorar la eficiencia del proceso de anotación. Dan ejemplos del uso del aprendizaje profundo para identificar diferentes compartimentos de tejido y tipos de células, y luego invocan redes de gráficos para observar estadísticas espaciales y la interacción de diferentes tipos de células dentro de los compartimentos de tejido. El orador también describe cómo se usó el aprendizaje profundo para segmentar las fibras de colágeno y asignar un vector a su orientación, que luego se usó para determinar la entropía y el valor pronóstico para los pacientes con cáncer de mama. Finalmente, el orador presenta un nuevo estudio sobre el cáncer de próstata que utiliza el aprendizaje profundo para realizar la segmentación de las glándulas y luego analiza la disposición espacial y la arquitectura de las glándulas para predecir qué pacientes tendrán recurrencia después de la cirugía.

  • 00:40:00 En esta sección, el orador analiza una comparación directa entre un ensayo molecular comercial para predecir los resultados del cáncer de próstata y un enfoque basado en imágenes que utiliza algoritmos de aprendizaje profundo. Los resultados mostraron que el enfoque basado en imágenes combinado con dos factores clínicos simples funcionó casi el doble que el costoso ensayo molecular. Además, el enfoque basado en imágenes que utiliza algoritmos de aprendizaje profundo produjo características interpretables y validadas, que podrían analizarse a un costo mucho menor en comparación con el ensayo molecular. El orador también destacó la necesidad de la interpretabilidad en las aplicaciones clínicas del aprendizaje profundo y enfatizó la importancia de la ingeniería de funciones artesanal junto con los enfoques de aprendizaje profundo.

  • 00:45:00 En esta sección, la atención se centra en los desafíos de la interpretabilidad en el aprendizaje automático para patología, particularmente en el contexto del diseño de terapias con múltiples medicamentos para la tuberculosis (TB). La falta de interpretabilidad plantea un desafío importante para los médicos, que necesitan comprender las representaciones que subyacen a los modelos para confiar en sus decisiones. El ponente enfatiza la necesidad de cuestionar constantemente la red y no dar nada por sentado. También discuten la importancia de comenzar primero con la metodología más simple y decidir cuándo usar el aprendizaje profundo. El trabajo del laboratorio sobre la TB destaca la dificultad para tratar la enfermedad, la necesidad de terapias con múltiples medicamentos y la importante heterogeneidad involucrada.

  • 00:50:00 En esta sección, el ponente analiza los desafíos de desarrollar tratamientos con múltiples fármacos para la tuberculosis debido a los diversos microambientes de las bacterias en el pulmón, que requieren diferentes fármacos para garantizar la susceptibilidad. El orador señala que, si bien actualmente hay muchos medicamentos disponibles para el tratamiento de la TB, el vasto espacio de combinación inexplorado hace que sea difícil probar cada combinación potencial. El orador propone dos proyectos de laboratorio para abordar este problema: primero, reducir el espacio de un solo fármaco a través de imágenes para identificar la vía de acción de nuevos fármacos y, segundo, usar el aprendizaje automático para realizar mediciones de combinación sistemáticas y desarrollar clasificadores para predecir el más efectivo. combinaciones novedosas. El laboratorio utiliza imágenes de lapso de tiempo para capturar los cambios en la morfología celular de la bacteria para evaluar los diferentes resultados del tratamiento.

  • 00:55:00 En esta sección, el orador describe un proyecto que usó aprendizaje no supervisado y agrupamiento para asociar perfiles de drogas similares en E.coli. Ellos plantearon la hipótesis de que cuando los perfiles se ven iguales, esos medicamentos tienen un mecanismo de acción similar. Aplicaron esta idea a la TB, pero las células no absorbieron la mancha como se esperaba y las características morfológicas no se diferenciaron mucho entre sí. Sin embargo, todavía encontraron diferencias estadísticamente significativas de las células no tratadas en algunos grupos de tratamiento. Se estableció la tubería típica para el perfil citológico, y esperaban hacer un ensayo de clasificación para tratar de averiguar qué grupos de tratamiento se parecían más entre sí. Descubrieron que los patógenos respondían a los medicamentos, pero eran diversos en su mecanismo de respuesta y tenían paredes celulares extremadamente gruesas que dificultaban la entrada de los medicamentos.

  • 01:00:00 En esta sección de la conferencia, el orador analiza los intentos de su equipo para abordar la heterogeneidad de lote a lote y de célula a célula de sus experimentos en aprendizaje automático para patología. Intentaron usar una red neuronal, que no funcionó debido a los datos variables. Luego utilizaron un método llamado normalización de variación típica (TVN), desarrollado por su colaborador Mike Ando en Google, para alinear las matrices de covarianza producidas por el análisis de componentes principales (PCA) de los controles no tratados de cada experimento para reducir las variaciones no biológicas. También incorporaron métricas de heterogeneidad de célula a célula y pasaron de usar PCA a un enfoque de k-vecino más cercano para capturar los cambios morfológicos sutiles. Utilizaron un enfoque estocástico para evitar la fragilidad y seleccionaron un nuevo conjunto de controles sin tratar para cada prueba de clasificación.

  • 01:05:00 En esta sección, el orador describe el proceso de uso de perfiles morfológicos para clasificar fármacos según sus efectos sobre las bacterias. El proceso implica el tratamiento de bacterias con una dosis alta y baja de un fármaco, la fijación y tinción de las bacterias, la extracción de características, la normalización de los datos y la realización de una simulación estocástica. La clasificación de consenso resultante tiene una precisión de alrededor del 75 % y se usa un diagrama de red para visualizar las conexiones entre las drogas. Sin embargo, el ponente señala que un fármaco, la bedaquilina, se clasificó erróneamente como un agente que actúa sobre la pared celular, lo que llevó a la hipótesis de que estaba induciendo una crisis de energía en la bacteria. Esta hipótesis se confirmó al hacer crecer la bacteria en ácidos grasos, lo que resultó en una clasificación diferente.

  • 01:10:00 En esta sección de la conferencia, el disertante discute el mecanismo de acción del fármaco Bedaquiline en la tuberculosis y cómo depende del estado metabólico de la bacteria. El orador también describe el uso de perfiles morfológicos para determinar los daños proximales y los efectos secundarios de los antibacterianos en la TB. Explican que este método proporciona un enfoque específico para ayudar a dirigir a los investigadores hacia el espacio de vía en el que deben centrarse para los estudios secundarios. El orador también se refiere a la medición de combinaciones de medicamentos utilizando un ensayo de tablero de ajedrez, que tradicionalmente es ineficiente para combinaciones de alto orden en el tratamiento de la TB.

  • 01:15:00 En esta sección, el orador analiza los desafíos asociados con la medición de combinaciones de fármacos de alto orden en la tuberculosis y presenta una solución llamada Diamond (mediciones diagonales de interacciones farmacológicas de n vías). Diamond es una optimización geométrica del ensayo de tablero de ajedrez que conserva la unidad de una curva de dosis-respuesta y mide las partes más ricas en información del tablero de ajedrez. Proyectando una línea, el orador explica cómo se puede cuantificar el grado de interacción farmacológica con la concentración inhibidora fraccional. Diamond se ha utilizado para medir de manera eficiente combinaciones de fármacos de hasta 10 vías. El orador analiza un gran conjunto de datos que se utilizó para abordar los dos problemas principales en el diseño de combinaciones de múltiples fármacos mediante estudios in vitro en la tuberculosis. El estudio midió in vitro todas las combinaciones de fármacos individuales, por parejas y de tres vías en ocho entornos de crecimiento diferentes para fusionarlos computacionalmente, modelando lo que sucede en diferentes modelos animales. El ponente concluye que los perfiles de interacción farmacológica dependen en gran medida del entorno de crecimiento y que no existe una combinación única que sea sinérgica en todas las condiciones.

  • 01:20:00 En esta sección, el orador discutió su enfoque basado en datos para diseñar y priorizar combinaciones de medicamentos utilizando el aprendizaje automático. Utilizaron el aprendizaje supervisado y no supervisado para ensamblar sus datos en un cubo de datos y encontraron una señal fuerte que delinea las combinaciones en función de si serían mejores que el estándar de atención o no. También encontraron una manera de limitar la cantidad de condiciones de crecimiento en las que realizan sus mediciones utilizando diferentes métodos de aprendizaje supervisado, como modelos de bosque aleatorio. El orador destacó que el enfoque más simple funcionó mejor para ellos para abrir un camino sobre la mejor manera de explorar el espacio de combinación de manera sistemática y eficiente utilizando modelos in vitro validados. En general, su enfoque podría ayudar a reducir la cantidad de experimentos in vitro y conducir a las mejores combinaciones de medicamentos.

  • 01:25:00 En esta sección, la ponente agradece a las personas de su laboratorio que han trabajado en varios proyectos difíciles y complicados, que incluyen estudios de sinergia frente a antagonismo de fármacos. En última instancia, estos estudios ayudan a proporcionar un contexto más amplio para el aprendizaje automático y el aprendizaje profundo en las ciencias de la vida, destacando que son una pequeña parte de una ecuación mucho más grande. Se enfatiza la importancia de considerar este contexto más amplio, ya que no siempre es el enfoque correcto, pero es necesario para comprender y avanzar en la investigación en el campo. En general, la charla del orador fue muy esclarecedora y proporcionó información valiosa sobre la intersección del aprendizaje automático y la patología.
 

Aprendizaje profundo para la segmentación de imágenes celulares - Clase 20



Aprendizaje profundo para la segmentación de imágenes celulares - Clase 20 - MIT ML in Life Sciences (primavera de 2021)

En este video, los oradores analizan el uso del aprendizaje profundo para el seguimiento de células, lo que implica determinar el movimiento de las células en imágenes de lapso de tiempo. Explican que los métodos tradicionales de seguimiento manual son costosos y requieren mucho tiempo, y que los métodos de aprendizaje profundo pueden acelerar significativamente el proceso y, al mismo tiempo, proporcionar una mayor precisión. Los oradores analizan varias arquitecturas de aprendizaje profundo para el seguimiento celular, incluidas U-Net, StarDist y DeepCell. También señalan que uno de los desafíos en el seguimiento de celdas es distinguir entre celdas que están muy juntas o se superponen, y que los métodos como el seguimiento de múltiples objetos o los enfoques basados en gráficos pueden ayudar a abordar este problema. Los oradores enfatizan la importancia de evaluar comparativamente diferentes métodos de aprendizaje profundo para el seguimiento de células y proporcionar conjuntos de datos de acceso abierto para reproducibilidad y comparación. También destacan las aplicaciones potenciales del seguimiento celular en varios campos, como la investigación del cáncer y el descubrimiento de fármacos.

  • 00:00:00 En esta sección, Juan Casado analiza el concepto de fenotipado basado en imágenes, que es un método para comprender los sistemas biológicos mediante el uso de microscopía y otras técnicas de imagen. Explica cómo las imágenes de estructuras biológicas, como las células, se pueden cuantificar para diferentes fenotipos, incluido el tamaño celular y el contenido de ADN, y se pueden usar para guiar las decisiones sobre tratamientos y descubrimiento de fármacos. Casado da un ejemplo de un candidato a fármaco exitoso para la leucemia que se descubrió a través de la medición precisa del tamaño de las células usando imágenes de microscopía, lo que llevó a su aprobación final por parte de la FDA. Destaca el impacto potencial de los perfiles basados en imágenes en el campo de la biología y el desarrollo de fármacos.

  • 00:05:00 En esta sección, la atención se centra en el desafío de comparar poblaciones de células que tienen diferentes características e identificar qué tratamientos son efectivos. Esto requiere más información y estrategias para extraer información de las imágenes celulares, que es donde entra en juego el perfilado basado en imágenes. Esto implica ampliar la morfología de las células o el estado de las células utilizando imágenes para extraer información cuantitativa para el descubrimiento de fármacos y la genómica funcional. Los dos problemas computacionales asociados con este enfoque son la segmentación de celdas y el aprendizaje de representación de celdas individuales, donde el objetivo es identificar dónde se encuentran las celdas individuales en las imágenes sin tener que gastar tiempo y energía ajustando algoritmos de segmentación para diferentes tipos de imágenes. En última instancia, el objetivo es crear algoritmos de segmentación para células que funcionen tan bien como detectores de fase en imágenes naturales.

  • 00:10:00 En esta sección, el ponente habla sobre el BioImage Challenge 2018, que tuvo como objetivo hacer que las tecnologías de visión artificial funcionen para la segmentación en biología. El desafío consistía en crear un conjunto de datos anotado, dividirlo en particiones de entrenamiento y prueba, definir una métrica de éxito y brindar retroalimentación a los participantes a través de un sistema de puntaje basado en la intersección sobre la unión. Se esperaba que los participantes utilizaran un modelo de aprendizaje automático supervisado para aprender las relaciones entre entradas y salidas y generar un mapa de segmentación de la imagen que proporcionaron como entrada. Los ganadores fueron aquellos que pudieron segmentar el conjunto de prueba final con mayor precisión de acuerdo con la métrica utilizada.

  • 00:15:00 En esta sección, el orador analiza los tres principales competidores en una competencia de segmentación de imágenes celulares y su uso de diferentes arquitecturas para sus modelos de aprendizaje automático. El equipo del tercer lugar usó la arquitectura Mask RCNN, que descompone una imagen en regiones y genera candidatos que son revisados por una red para determinar si son objetos reales o no, antes de identificar el cuadro delimitador exacto y la máscara para separar el objeto del objeto. fondo. El equipo del segundo lugar usó una red de pirámide de imágenes, que calcula múltiples mapas de características para generar resultados intermedios y agrega información de todas las resoluciones diferentes para generar el resultado final. El ponente señala que, aunque la arquitectura juega un papel en el logro de una alta precisión para la segmentación de células, la forma en que se ejecutan los experimentos regulares de calibración y validación cruzada también es crucial.

  • 00:20:00 En esta sección, el orador analiza un enfoque novedoso para la segmentación de imágenes. En lugar de usar máscaras binarias para determinar la ubicación de los objetos en una imagen, la solución consiste en predecir mapas de distancia o mapas de ángulos que miden distancias en diferentes direcciones desde el centro de la celda. Las salidas se diseñaron manualmente para proporcionar mediciones más precisas de la ubicación de objetos, lo que resultó en el segundo lugar en la competencia. Aunque esta idea era novedosa en ese momento, trabajos posteriores evaluaron su valor y encontraron que era sólida, especialmente para imágenes llenas de muchos objetos. La arquitectura de codificador-decodificador utilizada no fue innovadora, pero la novedad provino de replicar la arquitectura exacta en 32 modelos diferentes, formando un conjunto, lo que les ayudó a ganar la competencia.

  • 00:25:00 En esta sección, los oradores analizan el rendimiento de un enfoque de conjunto frente a modelos más simples para la segmentación de imágenes celulares. Explican que, si bien el enfoque de conjunto puede ser computacionalmente intensivo, los modelos más simples aún pueden ser efectivos en la práctica. También discuten las limitaciones de las competencias y señalan que sería útil analizar modelos individuales dentro de un conjunto para reducirlos a los más precisos. Luego, los oradores continúan evaluando las mejoras que se pueden realizar para facilitar la investigación biológica a través de la segmentación, lo que demuestra que la optimización de algoritmos para tipos de imágenes específicos puede llevar mucho tiempo y la precisión puede variar según el tipo de imagen. También señalan que los desequilibrios en las anotaciones y la dificultad para segmentar ciertos tipos de imágenes pueden presentar desafíos en situaciones del mundo real.

  • 00:30:00 En esta sección, el orador analiza los desafíos de analizar diferentes tipos de técnicas de imagen, desde imágenes fluorescentes pequeñas hasta imágenes rosadas y moradas que son más difíciles de segmentar. Existen diferentes enfoques para segmentar imágenes, como entrenar un modelo por tipo de imagen o usar algoritmos clásicos con parámetros ajustados. Además, ahora hay modelos preentrenados disponibles para la segmentación celular, como Nucleizer, CellPose y Mesmer. Sin embargo, aún existen desafíos abiertos en la segmentación, como recopilar conjuntos de datos más grandes y optimizar el tiempo que los expertos dedican a identificar objetos. El orador también aborda brevemente la importancia de medir el fenotipo de las células utilizando métodos de aprendizaje automático que pueden aprender características más allá de las mediciones de morfología clásicas.

  • 00:35:00 En esta sección, el orador analiza el uso de métodos de aprendizaje automático en la segmentación de imágenes celulares para el descubrimiento de fármacos. Los experimentos de perturbación se utilizan cuando las células se tratan con compuestos, pero los efectos por lotes pueden causar ruido y confundir la comprensión del fenotipo. Como no existe una verdad básica, se utiliza un método de aprendizaje débilmente supervisado, en el que se utiliza una red neuronal para clasificar el compuesto aplicado. El objetivo es obtener características para organizar las células de manera significativa, lo que puede informar si los compuestos son similares o no. La evaluación implica observar grupos de compuestos que comparten efectos biológicos similares, con el objetivo de reducir el espacio de búsqueda a compuestos útiles. La comparación de las funciones de aprendizaje profundo con las funciones clásicas muestra una diferencia significativa.

  • 00:40:00 En esta sección, el orador analiza el uso del aprendizaje profundo para la segmentación de imágenes celulares, específicamente para determinar conexiones biológicamente significativas entre compuestos e identificar el impacto de las mutaciones en el cáncer. Al comparar el tipo original de un gen con un mutante, los investigadores pueden medir la similitud fenotípica entre ellos para determinar si el mutante provoca el cáncer o no. Sin embargo, la corrección por lotes sigue siendo un desafío en el aprendizaje profundo, ya que puede influir en las funciones aprendidas de las imágenes. El orador sugiere usar la adaptación de dominio, donde se usa una red neuronal con dos cabezales para la clasificación de compuestos y la determinación de lotes. Luego, el gradiente negativo se usa para destruir la información potencial asociada con el lote, lo que da como resultado una determinación fenotípica más clara. En general, el orador concluye que las imágenes son una gran fuente de información para el descubrimiento biológico, pero también reconoce los desafíos abiertos en el aprendizaje de representaciones y modelos explicables.
 

Registro y análisis de imágenes de aprendizaje profundo - Clase 21



Registro y análisis de imágenes de aprendizaje profundo - Conferencia 21 - MIT ML en ciencias de la vida (primavera de 2021)

En esta conferencia, Adrian Dalock profundiza en el tema de la alineación de imágenes médicas y el problema de optimización que hay detrás. Propone un método novedoso llamado voxel morph, que implica el uso de conjuntos de datos sin etiquetar para entrenar redes neuronales para el registro de imágenes. El ponente también discute el desafío de la robustez a nuevos datos y secuencias que las redes neuronales no han visto antes y propone simular condiciones diversas y extremas para entrenar modelos robustos. El orador compara los modelos de registro clásicos con los modelos de morfología de vóxel y de síntesis, siendo este último notablemente sólido. Por último, el orador analiza el desarrollo de una función que genera plantillas basadas en las propiedades deseadas en lugar de aprender una plantilla directamente y el uso potencial de la videoendoscopia con cápsula para detectar anomalías del colon.

El orador de esta conferencia analiza varios enfoques de aprendizaje automático para superar la falta de datos médicos, específicamente en el contexto de los videos de colonoscopia para la detección de pólipos. Introducen una arquitectura de análisis y registro de imágenes de aprendizaje profundo que utiliza pesos previamente entrenados e inicialización aleatoria para abordar el cambio de dominio y mejorar el rendimiento. La conferencia también cubre el aprendizaje supervisado débilmente, el aprendizaje autosupervisado y la segmentación de video supervisada débilmente. El orador reconoce los desafíos que enfrenta el uso de enfoques de aprendizaje automático en el análisis de datos médicos y alienta a probar estos enfoques en procedimientos médicos reales para reducir la carga de trabajo.

  • 00:00:00 En esta sección de la conferencia, Adrian Dalock analiza la importancia de alinear las imágenes médicas y el problema de optimización que hay detrás. Él explica que alinear imágenes a un marco de referencia común es fundamental para analizar imágenes médicas, ya que permite la identificación de estructuras y enfermedades, así como la comparación entre sujetos. Sin embargo, el paso de alineación tradicional requería mucho tiempo, hasta dos horas por cerebro, lo que dificultaba el desarrollo de modelos sofisticados. Dalock presenta un método significativamente más rápido, que es menos de un minuto en una CPU y menos de un segundo en una GPU, y permite una investigación más rápida y eficiente en este campo. Él define la alineación o el registro como encontrar un campo de deformación que coincida con las imágenes y ha sido investigado extensamente en varios dominios, incluida la visión por computadora y la biología computacional.

  • 00:05:00 En esta sección, el ponente analiza la evolución de los métodos de registro de imágenes, comenzando con los modelos clásicos y progresando hacia los métodos basados en el aprendizaje que surgieron hace tres años. Sin embargo, los últimos métodos, aunque efectivos, se ven obstaculizados por la falta de un campo de deformación de la verdad del suelo para usar con datos supervisados. El ponente propone un método novedoso que implica el uso de conjuntos de datos sin etiquetar para entrenar redes neuronales, lo que da como resultado soluciones integrales más elegantes y eficientes para el registro de imágenes. El marco implica el uso de las funciones de pérdida de los modelos clásicos para optimizar una nueva red neuronal completa, lo que resulta en una mayor precisión y velocidades más rápidas.

  • 00:10:00 En esta sección, el orador describe un método para el registro de imágenes utilizando técnicas de aprendizaje profundo, que toma prestado de los métodos clásicos pero optimiza una red neuronal para generar campos de deformación en lugar de optimizar los campos directamente. El campo de deformación se aplica a todas las imágenes de un conjunto de datos y se utilizan técnicas de gradiente estocástico para optimizar la red. El ponente explica cómo se utilizan las pérdidas diferenciables para garantizar la suavidad del campo de deformación, y los resultados se evalúan comparando estructuras anatómicas antes y después del proceso de deformación, así como midiendo superposiciones de volumen. El método propuesto, llamado voxel morph, es capaz de estimar el resultado de un procedimiento de optimización y proporciona una aproximación para modelos probabilísticos, ofreciendo conexiones elegantes entre imágenes, campos de deformación y estimaciones de incertidumbre.

  • 00:15:00 En esta sección, el orador analiza su análisis del entrenamiento de una red neuronal de morfología vóxel con solo unas pocas imágenes, revelando que incluso con solo 10 imágenes, la salida del campo de deformación de la red está cerca del estado del arte . Además, el orador toca el tema de delinear áreas específicas de interés, como el hipocampo en un cerebro, y cómo pudieron enseñarle a la red a identificar esta área sin etiquetarla, haciendo que realizara una "segmentación suave" durante capacitación. Por último, el disertante aborda el desafío de las imágenes médicas diversas y cómo la formación de redes en una sola modalidad puede limitar su capacidad para trabajar con otras modalidades, presentando un proyecto que resuelve este problema.

  • 00:20:00 En esta sección, el orador analiza el desafío de crear redes neuronales que sean resistentes a nuevos datos y secuencias que no han visto antes. Proponen simular condiciones diversas y extremas para exponer la red a una variabilidad significativa para que decida ignorar algunos valores atípicos, lo que permite una mejor generalización a los datos del mundo real. Para lograr esto, deforman aleatoriamente las imágenes, agregan diferentes patrones de ruido, completan aleatoriamente valores e intensidades y simulan varios efectos para generar datos. Experimentaron con la simulación de diversos datos para registros y documentos de segmentación, y la simulación de formas aleatorias, lo que les dio un campo de deformación que podría usarse para probar la calidad de la información.

  • 00:25:00 En esta sección, el ponente analiza los resultados del entrenamiento de diferentes modelos para el registro y análisis de imágenes. Entrenaron modelos de morfología de vóxeles y dos versiones del modelo de morfología sintética usando diferentes métricas para el entrenamiento. Los modelos clásicos funcionan bien, pero los modelos de morfología de vóxeles con variabilidad y robustez funcionan incluso mejor. Los modelos que fueron entrenados con imágenes de cerebros simulados o blobs hacen más o menos lo mismo que los modelos de morfología de vóxel y mejor que los modelos clásicos. Sin embargo, cuando se trata de registrar entre modalidades, los modelos que fueron entrenados con métricas del mismo contraste colapsan. Mientras tanto, los modelos synthmorph son notablemente robustos, incluso con imágenes reales. Sin embargo, la capacidad del modelo podría generar un problema en el que es posible que no se capturen las características de las imágenes reales.

  • 00:30:00 En esta sección de la conferencia, el orador analiza la capacidad de los modelos de aprendizaje automático y cómo el campo se está moviendo hacia el uso de más parámetros. Simulan escaneos cerebrales con diferentes modalidades y comparan el rendimiento de los modelos clásicos, voxel morph, y su método, synthmorph. Descubrieron que su método es sólido, ya que puede ignorar por completo el contraste y solo extraer la anatomía necesaria, lo que se hace aprendiendo a ignorar la respuesta a la variación del contraste en las características de la red. También presentan su nuevo método, hypermorph, que aprende el efecto de los hiperparámetros en los campos de registro. El potencial de este método es que solo requiere entrenar un modelo y ajustarlo después, lo que elimina la necesidad de entrenar varios modelos.

  • 00:35:00 En esta sección, el orador analiza una técnica llamada hiperredes, que implica entrenar una pequeña red que toma un valor de hiperparámetro como entrada y genera los pesos de una red más grande que genera campos de deformación para el registro de imágenes. Al ajustar el valor del hiperparámetro, el campo de deformación se puede ajustar sin necesidad de volver a entrenar, y un solo modelo de hipermorfo puede capturar una amplia gama de variaciones del campo de deformación. Esta técnica se puede aplicar a varias configuraciones de aprendizaje automático más allá del registro de imágenes y puede ser útil para permitir el ajuste interactivo del modelo o ajustarlo en función de los datos de validación. El valor óptimo del hiperparámetro varía según el conjunto de datos, la edad de los pacientes y la tarea de registro, entre otros factores.

  • 00:40:00 En esta sección de la conferencia, el orador analiza la importancia de seleccionar diferentes valores de hiperparámetros para diferentes regiones del cerebro al realizar el registro de imágenes. También comparan un modelo entrenado con datos reales con uno que fue entrenado con datos aleatorios, explicando cómo el primero es más susceptible al ruido en diferentes regiones. Luego presentan un proyecto centrado en la idea de alinear los datos con un marco de referencia común sin construir un cerebro centroidal o usar una plantilla. En cambio, proponen estimar un atlas al mismo tiempo que se registran imágenes, y la herramienta resultante se muestra flexible y capaz de resolver muchos problemas que antes eran difíciles de resolver, como crear plantillas separadas para diferentes poblaciones.

  • 00:45:00 En esta sección, el orador analiza el concepto de "plantillas condicionales" en el registro y análisis de imágenes de aprendizaje profundo, lo que implica aprender una función que genera una plantilla basada en una propiedad deseada (como edad, sexo o genética). información) en lugar de aprender una plantilla directamente. Al alimentar los datos del paciente y la información sobre la edad, la red puede aprender un atlas dependiente de la edad que captura ciertos efectos entre diferentes cerebros, como cambios en el tamaño del ventrículo. El orador también analiza el potencial del análisis relacionado con la genética utilizando métodos similares, así como el uso de codificadores variacionales y otros conceptos de aprendizaje automático en este campo.

  • 00:50:00 En esta sección de la conferencia, el orador analiza la motivación detrás de su trabajo sobre la detección automática de patologías para la videoendoscopia con cápsula, que es una colaboración entre la Universidad Noruega de Ciencia y Tecnología y un hospital en Noruega. El colon humano es susceptible a enfermedades como el cáncer colorrectal y la colitis ulcerosa que erosionan la suavidad de las paredes del colon y pueden provocar hemorragias u otras complicaciones. Los médicos recomiendan colonoscopias para personas mayores de 50 años, pero es posible que los pacientes no las acepten. Las videoendoscopias con cápsula ofrecen una forma alternativa de visualizar las paredes del colon y detectar anomalías utilizando una pequeña cámara del tamaño de una pastilla que transmite casi 50 000 fotogramas para producir una gran cantidad de datos.

  • 00:55:00 En esta sección, los oradores analizan los desafíos de la obtención de imágenes con videoendoscopia de cápsula, en la que una cápsula ingerible captura imágenes a medida que viaja a través del tracto digestivo. La cápsula debe tomarse con el estómago vacío y puede pasar desapercibida en los pliegues del colon. Además, la cápsula puede atascarse o enfrentar obstáculos geométricos a medida que viaja a través del intestino delgado, lo que podría conducir a una cirugía. La calidad de video resultante no es tan buena como la calidad de imagen HD, con color limitado y transición fluida. A pesar de estas limitaciones, la videoendoscopia con cápsula puede ayudar a diagnosticar afecciones como la diverticulitis, y los médicos buscan anomalías en el video para guiar el tratamiento.

  • 01:00:00 En esta sección de la conferencia, el orador analiza los desafíos de usar enfoques de aprendizaje automático en el análisis de datos médicos, específicamente en el contexto de los videos de colonoscopia para la detección de pólipos. El principal problema es la falta de datos debido a la naturaleza costosa y lenta de la adquisición de datos médicos y la dificultad para obtener el etiquetado por parte de diversos patólogos. El orador describe varios enfoques de aprendizaje automático para superar la falta de datos, como el aprendizaje por transferencia y el aprendizaje supervisado, y explica los enfoques actuales de aprendizaje profundo utilizando imágenes RGB, características geométricas y circunvoluciones 3D. Por último, el ponente presenta el método wine it para la detección de pólipos, que implica el uso del registro para alinear las imágenes de la colonoscopia y mejorar el rendimiento de la detección de pólipos.

  • 01:05:00 En esta sección de la conferencia, el orador analiza una arquitectura de análisis y registro de imágenes de aprendizaje profundo que utiliza pesos preentrenados e inicialización aleatoria para abordar el cambio de dominio y mejorar el rendimiento en la detección de objetos y la segmentación de imágenes. La arquitectura consta de dos codificadores, uno preentrenado de ImageNet y el otro con pesos aleatorios, junto con el aumento de las imágenes de entrada. Las tasas de aprendizaje para cada codificador dependen de la capa en la que se entrenan, y se utilizan la entropía cruzada binaria y la función de pérdida de dados. La arquitectura se prueba en un conjunto de datos de videos que contienen pólipos y logra una puntuación F1 de 85,9 utilizando múltiples variaciones de la misma entrada. Finalmente, el orador presenta videos que muestran la efectividad de la arquitectura.

  • 01:10:00 En esta sección, el disertante analiza el desafío de recolectar datos etiquetados para un problema de registro de imágenes e introduce el concepto de aprendizaje de múltiples instancias con supervisión débil. La suposición es que hay una bolsa positiva con al menos una instancia de la patología de interés, mientras que la bolsa negativa siempre tiene instancias negativas. El problema se formula para encontrar qué cuadros contienen la patología y se pueden optimizar al predecir la contribución individual de cada cuadro y optimizar la pérdida en la etiqueta de video final de la agregación. Se observa que este problema es desafiante debido a los datos etiquetados limitados y la ausencia de datos sobre componentes individuales, lo que requiere un enfoque poco supervisado.

  • 01:15:00 En esta sección, el orador analiza cómo extrajeron las características de resonancia 50 de videos con patologías y videos normales, y las pasaron a través de bloques LSTM residuales que contienen LSTM bidireccional con una conexión de salto. Explican que el objetivo es encontrar los alfas que son la contribución de cada cuadro al problema final de clasificación de video. También discuten la explotación de marcos de alto valor de atención para identificar patologías y separarlas de las clases negativas. La función de pérdida final es una entropía cruzada de la clasificación de video y la separación de las bolsas entre bancos positivos y negativos. Luego, el orador comparte cómo realizaron un estudio de apelación para determinar dónde aprender la atención, y los mejores resultados se lograron al asistir a la representación oculta final y aplicarla al resultado final. El enfoque se probó con otros métodos que utilizan el aprendizaje métrico.

  • 01:20:00 En esta sección, el orador analiza el uso del aprendizaje autosupervisado en imágenes médicas y los desafíos que plantea. Mencionan que un enfoque que ha tenido cierto éxito es usar un problema de rompecabezas donde las imágenes se dividen en parches y se reconstruyen. Sin embargo, el problema con las imágenes médicas es que no hay rotación constante, lo que dificulta encontrar grupos significativos. El orador sugiere que mejorar la localización de cuadros de video a través del conocimiento del dominio, como comprender cómo se manifiestan diferentes enfermedades, podría ser un enfoque útil para mejorar la clasificación de patologías.

  • 01:25:00 En esta sección, el orador analiza la segmentación de video supervisada débilmente y la necesidad de detectar dónde se localizan los cuadros para brindar mejores explicaciones en entornos médicos. También mencionan el diseño de tareas previas a la prueba autosupervisadas y el aprendizaje contrastivo como enfoques nuevos y emocionantes en esta área, con nuevos trabajos que se publican todos los días. El ponente reconoce el proyecto icomet y anima a probar estos enfoques en procedimientos médicos reales para reducir la carga de trabajo. El anfitrión expresa su agradecimiento por los profesionales reales que resuelven problemas médicos y agradece al orador por la conferencia informativa.
 

Historia clínica electrónica - Clase 22



Registros de salud electrónicos - Clase 22 - Aprendizaje profundo en ciencias de la vida (primavera de 2021)

El surgimiento del aprendizaje automático en el cuidado de la salud se debe a la adopción de registros médicos electrónicos en los hospitales y la gran cantidad de datos de pacientes que se pueden utilizar para obtener información significativa sobre el cuidado de la salud. Se analiza el modelado de progresión de la enfermedad utilizando datos longitudinales que se encuentran en los registros de enfermedades, lo que puede plantear desafíos debido a los datos longitudinales de alta dimensión, la falta y la censura de izquierda y derecha. La conferencia explora el uso de modelos no lineales como los modelos profundos de Markov para manejar estos desafíos y modelar efectivamente la densidad no lineal de los biomarcadores longitudinales. Además, el orador analiza el uso del conocimiento del dominio para desarrollar nuevas arquitecturas neuronales para la función de transición y la importancia de incorporar el conocimiento del dominio en el diseño del modelo para una mejor generalización. También hay experimentación con la complejidad del modelo con respecto a las funciones del efecto del tratamiento, y el orador planea volver a examinar esta pregunta en una cohorte más grande para determinar más hallazgos.

  • 00:00:00 En esta sección, Rahul Krishnan, investigador sénior de Microsoft Research, explica el surgimiento del aprendizaje automático en el cuidado de la salud debido a la digitalización de los datos de registros médicos electrónicos. La adopción de sistemas de registros médicos electrónicos en los hospitales condujo a una gran cantidad de datos de pacientes que podrían utilizarse para obtener información significativa sobre el cuidado de la salud. Krishnan destaca el uso de registros de enfermedades, que son conjuntos de datos más enfocados en una sola enfermedad, publicados por organizaciones sin fines de lucro para que los investigadores estudien y respondan preguntas. Se están utilizando técnicas de aprendizaje automático, como el aprendizaje no supervisado, para investigar la subestructura de estos conjuntos de datos y crear herramientas para ayudar a los médicos. La presentación se centra en el modelado de la progresión de la enfermedad y parte del trabajo que están realizando los investigadores en este campo.

  • 00:05:00 En esta sección, el orador analiza el modelado de la progresión de la enfermedad utilizando datos longitudinales que se encuentran en los registros de enfermedades. El modelado de progresión de la enfermedad ha existido durante décadas e intenta construir modelos estadísticos que puedan capturar los datos complejos y desordenados que se encuentran en los registros de enfermedades, incluidas las covariables de referencia, los biomarcadores longitudinales y la información del tratamiento. Este problema a menudo se plantea como aprendizaje no supervisado, donde los modelos tienen como objetivo maximizar la probabilidad logarítmica de observar la secuencia de biomarcadores longitudinales de un paciente condicionada por su información de referencia y la secuencia de intervenciones. El orador presenta un nuevo enfoque para el modelado de la progresión de la enfermedad que se publicará en ICML este año.

  • 00:10:00 En esta sección, el orador analiza los desafíos de usar registros de salud electrónicos para modelar la progresión de la enfermedad en el contexto del mieloma múltiple, un cáncer raro de la médula ósea. Debido a que la enfermedad es tan rara, a menudo solo hay un pequeño número de pacientes de los que aprender, lo que dificulta hacer un buen modelo y estimación de la densidad. Además, los datos de atención médica presentan desafíos, como datos longitudinales de alta dimensión con variación no lineal, faltantes y censura de izquierda y derecha. El orador sugiere utilizar modelos no lineales como los modelos profundos de Markov para manejar estos desafíos y modelar efectivamente la densidad no lineal de los biomarcadores longitudinales.

  • 00:15:00 En esta sección, la conferencia describe un modelo de variables latentes para registros de salud electrónicos, donde los datos son generados por las variables latentes y las observaciones obtenidas a lo largo del tiempo. El modelo asume que la elección de la medicación prescrita por un médico depende de los valores de biomarcadores clínicos obtenidos de observaciones previas. El disertante también aborda el problema de los datos faltantes, que se puede solucionar marginando las variables faltantes durante la estimación de máxima verosimilitud. Sin embargo, para la inferencia variacional usando una red de inferencia, el modelo requiere aproximaciones para estimar los datos que faltan, y se necesita más investigación para comprender cómo la falta afecta el sesgo de la distribución posterior aproximada.

  • 00:20:00 En esta sección, el orador explica cómo se puede usar un modelo para predecir el historial médico de un paciente modelando sus interacciones con un médico a lo largo del tiempo. El modelo utiliza una representación latente, que cambia con el tiempo, para predecir el estado médico del paciente. El orador destaca los desafíos en el modelado de datos médicos debido a la no linealidad y la rareza de ciertas enfermedades. Exploran el uso del conocimiento del dominio para desarrollar una nueva arquitectura neuronal para la función de transición. El orador también analiza el uso de un reloj global y relojes locales para realizar un seguimiento de la duración del tratamiento y el tiempo transcurrido hasta un evento de progresión importante, respectivamente. Explican cómo aproximarse al efecto mecánico de las drogas e incorporar este conocimiento al modelo.

  • 00:25:00 En esta sección, el orador analiza el uso de la farmacocinética y la farmacodinámica para aproximar el efecto de los medicamentos recetados para el tratamiento del cáncer en el tumor de un paciente. Proponen tres nuevas arquitecturas neuronales para modelar el efecto de la administración conjunta de múltiples fármacos a los pacientes, combinándolos mediante un mecanismo de atención para crear una función única. El objetivo es hacer una estimación de densidad condicional, utilizando el conocimiento del dominio para combatir el sobreajuste. El modelo, llamado SSNPK, se aplica a una cohorte de pacientes con mieloma múltiple tratados según el estándar de atención actual, con 16 biomarcadores clínicos a lo largo del tiempo, nueve indicaciones de tratamientos y 16 características de referencia.

  • 00:30:00 En esta sección, el ponente analiza los resultados del uso de diferentes modelos para analizar datos clínicos, centrándose específicamente en el uso de modelos de espacio de estado y aprendizaje profundo. Comparan la efectividad de los diferentes modelos al generalizar a nuevos datos y encuentran que el uso de ssnpkpd da como resultado consistentemente un mejor rendimiento en las líneas de base lineales y no lineales. También realizan un análisis de ablación para identificar qué biomarcadores contribuyen más a las ganancias observadas en los modelos y encuentran que el uso de relojes locales y globales es útil para modelar la dinámica de los datos. Además, utilizan el espacio latente del modelo entrenado para explorar y comprender más a fondo el comportamiento de los datos a lo largo del tiempo.

  • 00:35:00 En esta sección de la conferencia, el orador analiza los resultados del uso del modelo SSNPKPD para pronosticar los biomarcadores clínicos futuros de un paciente en función de sus biomarcadores de referencia. El modelo muestra un mayor ajuste a los datos en comparación con una línea de base lineal, lo que indica que las representaciones latentes capturadas por SSNPKPD conservan el historial relevante del paciente para predecir futuros biomarcadores clínicos. El orador resume la conclusión principal de la charla, que es la importancia de incorporar el conocimiento del dominio en el diseño del modelo para una mejor generalización, y destaca las oportunidades para futuras investigaciones al combinar diferentes modalidades de datos en el cuidado de la salud. El orador también señala la validación en curso de los resultados en una cohorte más grande y la posibilidad de incorporar el modelo en herramientas de apoyo a la decisión clínica y marcos de aprendizaje de refuerzo basados en modelos.

  • 00:40:00 En esta sección, el orador analiza su experimentación con la complejidad del modelo con respecto a las funciones del efecto del tratamiento. Probaron variaciones del modelo mediante la creación de copias de las funciones de efecto de tratamiento, que iban de tres a doce, y descubrieron que había un punto en el que la complejidad adicional no mejoraba significativamente el rendimiento e incluso lo disminuía. Sin embargo, cuando eliminaron algunas de las funciones de efecto de tratamiento, encontraron una disminución en el rendimiento, pero aun así superaron al modelo lineal. El orador planea revisar esta cuestión de generalización en una cohorte más grande con el VA para determinar el alcance de estos hallazgos.
 

Aprendizaje Profundo y Neurociencia - Clase 23



Aprendizaje profundo y neurociencia - Clase 23 - Aprendizaje profundo en ciencias biológicas (primavera de 2021)

La conferencia analiza la interacción entre el aprendizaje profundo y la neurociencia, específicamente en el área de la ciencia visual. El objetivo es aplicar ingeniería inversa a la inteligencia visual humana, que se refiere a las capacidades de comportamiento que exhiben los humanos en respuesta a los fotones que golpean sus ojos. El ponente hace hincapié en explicar estas capacidades en el lenguaje de los mecanismos, como redes de neuronas simuladas, para habilitar sistemas construidos predictivos que pueden beneficiar tanto a las ciencias del cerebro como a la inteligencia artificial. La conferencia explora cómo los modelos de aprendizaje profundo son hipótesis sobre cómo el cerebro ejecuta los procesos del sistema sensorial y las aplicaciones potenciales más allá de simplemente imitar la evolución del cerebro. Además, la conferencia muestra ejemplos prácticos de cómo las redes neuronales pueden manipular los recuerdos y cambiar el significado de algo.

Este video analiza el potencial del aprendizaje profundo para comprender las funciones cognitivas del cerebro y aprovechar esta comprensión con fines de ingeniería. El ponente destaca la relevancia de las redes neuronales recurrentes con sus capacidades de memoria y dinámica interna en este ámbito. La conferencia explora la capacidad de los sistemas neuronales para aprender a través de la imitación y cómo se puede utilizar para aprender representaciones, cálculos y manipulaciones de la memoria de trabajo. El video también cubre la dificultad de encontrar evidencia de aprendizaje por retroalimentación como una condición de aprendizaje y el potencial de los mecanismos de corrección de errores para ajustar el sistema. La conferencia concluye reflexionando sobre la diversidad de temas tratados en el curso y cómo el aprendizaje profundo puede ayudar a interpretar los sistemas cognitivos en el futuro.

  • 00:00:00 En esta sección, el ponente analiza la interacción entre el aprendizaje profundo y la neurociencia, específicamente en el área de la ciencia visual. Explica cómo los modelos de aprendizaje profundo pueden verse como hipótesis científicas sobre cómo pueden funcionar los aspectos de la función cerebral y cómo los neurocientíficos y los científicos cognitivos evalúan la calidad de esas hipótesis con respecto a los datos. La charla de Carlo se centra en el objetivo de la ingeniería inversa de la inteligencia visual humana, que se refiere a las capacidades de comportamiento que exhiben los humanos en respuesta a los fotones que golpean sus ojos. Enfatiza la importancia de explicar estas capacidades en el lenguaje de los mecanismos, como redes de neuronas simuladas, para habilitar sistemas construidos predictivos que puedan beneficiar tanto a las ciencias del cerebro como a la inteligencia artificial.

  • 00:05:00 En esta sección, el disertante analiza la inteligencia visual y cómo el cerebro estima lo que hay en una escena, como identificar autos o personas; sin embargo, predecir lo que sucederá a continuación y otros problemas relacionados con la física siguen siendo un desafío para que los científicos los comprendan. A pesar de esto, los científicos han logrado un progreso significativo en el modelado de las imágenes fundamentales que procesamos en cada vistazo de 200 milisegundos de una escena, lo que también se conoce como reconocimiento de objetos centrales. El disertante proporciona ejemplos de pruebas que miden nuestra capacidad para reconocer objetos y compararlos con otras especies, como sistemas de visión por computadora y primates no humanos como los monos rhesus.

  • 00:10:00 En esta sección, el orador analiza la capacidad de humanos y primates para distinguir entre objetos. Señala que los humanos y los primates se desempeñan de manera similar en las tareas de reconocimiento visual, y que los humanos solo se desempeñan un poco mejor. Además, el orador analiza los sistemas de aprendizaje profundo y cómo se comparan con las habilidades de reconocimiento visual de humanos y primates. Luego, el orador pasa a discutir las áreas del cerebro del mono rhesus involucradas en las tareas de reconocimiento visual y destaca la corteza infratemporal como el área de más alto nivel. Finalmente, el orador señala las escalas de tiempo típicas para que surjan patrones de actividad neuronal en la corteza infratemporal y cómo coincide con el tiempo necesario para las habilidades de muestreo de comportamiento abierto.

  • 00:15:00 En esta sección de la videoconferencia, el orador explica cómo los investigadores estudian la respuesta de las neuronas individuales en la corteza visual de animales como los monos a las imágenes usando electrodos de grabación invasivos. Al medir los patrones de actividad eléctrica de las neuronas en respuesta a diferentes imágenes, los investigadores pueden cuantificar la respuesta utilizando tasas medias de picos. Estos patrones de actividad pueden agruparse por similitudes en su selectividad, y se han identificado áreas especiales de agrupación para ciertos tipos de objetos, como rostros, en la corteza visual. El uso de matrices de registro crónico permite a los investigadores registrar desde los mismos sitios neuronales durante semanas o meses y medir las respuestas a miles de imágenes.

  • 00:20:00 En esta sección, el ponente explica un experimento en el que se registraron datos neuronales mientras un animal se fijaba o realizaba una tarea u observaba imágenes. Al entrenar decodificadores lineales en pequeñas muestras de datos, surgieron patrones que eran indistinguibles de los observados en humanos y monos. Esto permitió el desarrollo de un poderoso conjunto de espacios de características que podrían usarse en aplicaciones de interfaz cerebro-máquina para visualizar ciertas percepciones. Luego, el orador analiza las transformaciones no lineales que ocurren entre la actividad neuronal y la imagen, lo que sugiere que esta área es donde el aprendizaje profundo y la ciencia de la visión se unen.

  • 00:25:00 En esta sección, el orador explica cómo se construyeron inicialmente las redes convolucionales profundas en base a principios conocidos en la neurociencia, como el concepto de detección de bordes, filtrado, no linealidades de salida y control de ganancia. Sin embargo, como estos modelos se probaron con datos neuronales en áreas visuales del cerebro, se quedaron cortos y no pudieron predecir los patrones de respuesta de las neuronas individuales en V4. Si bien estos modelos eran construcciones de hipótesis para los neurocientíficos, eran inadecuados para explicar cómo funciona el sistema visual. A pesar del fracaso de estos primeros modelos, sirvieron de inspiración para el trabajo en curso para separar los filtros aprendidos en redes profundas de los observados en V1.

  • 00:30:00 En esta sección, el ponente analiza cómo la colaboración entre la neurociencia y el aprendizaje profundo ha permitido la optimización de parámetros desconocidos en redes neuronales artificiales, dando como resultado modelos que imitan fielmente los patrones de respuesta neuronal del cerebro de los primates. El orador señala que el avance se produjo al implementar un bucle que permitió a los ingenieros optimizar los microparámetros de los filtros en redes neuronales convolucionales profundas. Al hacer esto, los modelos que se produjeron se vieron como nuevas hipótesis sobre lo que podría estar sucediendo en el sistema visual, lo que permitió la comparación con las redes neuronales biológicas en el cerebro. El orador pasa a mostrar ejemplos de cómo se han realizado estas comparaciones, lo que ha dado lugar a las primeras hipótesis mecanicistas sobre la función cerebral. En general, esta colaboración ha permitido el desarrollo de neuronas de flujo ventral in silico que imitan de cerca a las que se encuentran en el flujo ventral biológico, lo que lleva a una mayor comprensión de cómo el cerebro procesa la información visual.

  • 00:35:00 En esta sección, el ponente explica que los modelos de aprendizaje profundo que han desarrollado son hipótesis sobre cómo el cerebro ejecuta los procesos del sistema sensorial, específicamente en el dominio del reconocimiento visual de objetos. Señalan que estos modelos no son perfectos y tienen algunas discrepancias, que pretenden optimizar y mejorar en el futuro. El orador también analiza las aplicaciones más amplias del aprendizaje profundo en ingeniería e inteligencia artificial, y enfatiza que estos modelos pueden usarse como una herramienta para guiar una mayor comprensión científica y optimización. Concluyen afirmando la necesidad de más datos y modelos hacia representaciones más precisas de los procesos del cerebro.

  • 00:40:00 En esta sección, el orador analiza el potencial de innovación en el aprendizaje profundo y la inteligencia artificial más allá de simplemente imitar la evolución del cerebro. Sugieren que la mayor parte de la innovación provendrá de la elección de la arquitectura, y las herramientas de optimización estarán disponibles para permitir esa optimización. Las preguntas recurrentes pueden dar una idea de los elementos subconscientes de la cognición, y la anatomía del cerebro conecta las ideas de recurrencia, lo que puede conducir a áreas posteriores que involucran más la cognición. El orador también aborda las conexiones salteadas, las áreas grises y cómo el trabajo que se está realizando ahora intenta abordar este problema.

  • 00:45:00 En esta sección del video, el orador analiza el concepto de neotenia y cómo afecta la proporción de funciones codificadas y filtros en la corteza visual en diferentes especies. A medida que avanza en el sistema, hay más plasticidad en el cerebro, y los monos tienen áreas hasta cierto nivel, mientras que los humanos tienen más tejido cerebral, lo que les permite una mayor flexibilidad. El orador cree que hay mucho espacio para la flexibilidad en el cerebro, y aunque es parte de nuestro sistema de primates, parte del cerebro está más allá de eso, y eso está bien. Luego, el siguiente orador analiza su trabajo sobre pensar en los cerebros como redes neuronales recurrentes y cómo estudiar la intersección entre los sistemas neuronales artificiales y reales puede ayudarnos a comprender cómo funcionan.

  • 00:50:00 En esta sección, la atención se centra en cómo se puede utilizar la codificación eficiente y escasa para aprender una base de representación eficiente en sistemas neuronales artificiales y reales. Al estudiar comportamientos similares al cerebro en redes recurrentes, se pueden encontrar principios que amplían las capacidades de las redes recurrentes artificiales y ayudan a comprender cómo funcionan las reales. Las redes neuronales recurrentes aprenden a almacenar y modificar representaciones y memorias internas, lo que les permite separar las señales superpuestas de una manera similar al efecto de un cóctel. Los sistemas neuronales reales son excelentes para almacenar y manipular representaciones, como se ve en la región del cerebro llamada memoria de trabajo en redes recurrentes. El objetivo es encontrar principios que amplíen las capacidades de las redes recurrentes artificiales y ayuden a comprender cómo funcionan las reales.

  • 00:55:00 En esta sección de la conferencia, la posición de una rata se decodifica a partir de neuronas llamadas células de lugar, que rastrean el movimiento de la rata mientras se mueve en el espacio. La rata también puede manipular su representación neuronal para planificar futuras trayectorias incluso antes de moverse. Luego, la conferencia explora cómo las redes neuronales pueden manipular los recuerdos, como la capacidad del pájaro cantor para aprender a cantar imitando a los adultos. La conferencia analiza cómo las redes neuronales pueden aprender procesos complejos de manipulación de información mediante la observación de ejemplos, e introduce el concepto de un atractor caótico como modelo de memoria, y un sistema dinámico no lineal simple llamado reservorio como modelo de red neuronal. El parámetro de control del reservorio se usa para modificar la representación de la red de cualquier memoria que haya aprendido, y la conferencia brinda ejemplos prácticos de cómo este control puede cambiar el significado de algo.

  • 01:00:00 En esta sección, el orador analiza cómo la capacidad de modulación del contexto afecta el aprendizaje y la capacidad de la red neuronal. Explican que sesgar la red con variables de contexto significa que se necesitan más datos para entrenar para aprender parámetros comunes. El orador también habla sobre el uso del método de computación de reservorios para almacenar recuerdos en redes neuronales y cómo los esquemas simples de aprender a imitar las entradas observadas son suficientes para almacenar recuerdos. Luego discuten la modificación de los recuerdos dentro de las redes neuronales observando la traducción de los atractores en la dirección x1 y cambiando el valor del parámetro de contexto c para cada traducción.

  • 01:05:00 En esta sección, el orador analiza la capacidad de los reservorios para aprender a interpolar y extrapolar operaciones de transformación en su representación interna de variedades atractoras. El equipo proporcionó cuatro ejemplos de capacitación de un atractor de Lorenz apretado en la dirección x1 y realizó capacitación y retroalimentación. Se encontró que los yacimientos aprendieron a interpolar y extrapolar operaciones de transformación que pueden ser arbitrarias, incluido un estiramiento o una variación múltiple. El equipo también encontró que los reservorios pueden predecir la estructura de bifurcación global del atractor de Lorenz y predecir los diagramas de bifurcación de varias otras formas dinámicas normales, como el modo de silla de montar y las bifurcaciones de horquilla supercríticas. Las redes neuronales pueden incluso aprender a predecir trayectorias cinemáticas no dinámicas, como en el ejemplo de un enlace de Jansen modificado.

  • 01:10:00 En esta sección de la conferencia, el orador analiza un método llamado sincronización generalizada invertible, que es una forma de formalizar la idea de mapear estímulos a la neurodinámica en un sistema neuronal. El orador explica que para formar una representación, las neuronas deben formar una representación distribuida en lugar de codificar individualmente partes específicas de los estímulos de entrada. También deben poder conducirse a sí mismos con su propia representación, que es el mecanismo clave detrás del almacenamiento de entradas como memorias. Finalmente, el ponente demuestra que las redes neuronales recurrentes pueden sustentar recuerdos caóticos, permitiéndoles traducir y transformar recuerdos.

  • 01:15:00 En esta sección, el orador analiza la capacidad de los sistemas neuronales para aprender imitando ejemplos vistos y cómo se puede usar para aprender representaciones, cálculos y manipulaciones de la memoria de trabajo. Luego, la conversación cambia a la cuestión del aprendizaje por retroalimentación y cómo se aplica a los modelos presentados. Si bien hay evidencia de separabilidad lineal y reconstruibilidad de términos en ciertas partes de la corteza visual, el orador señala la dificultad de encontrar evidencia de aprendizaje por retroalimentación, ya que es una condición de aprendizaje bastante extrema. Hay una sugerencia de utilizar mecanismos de corrección de errores para ajustar el sistema, pero también se discute la idea de un conjunto fijo de parámetros en los que el resultado se juzga frente a las expectativas del mundo exterior y la formación de recuerdos destacados cuando las expectativas se desvían mucho.

  • 01:20:00 En esta sección, el disertante enfatiza el potencial del aprendizaje profundo para comprender las funciones cognitivas del cerebro y diseñarlas. Las redes neuronales recurrentes, con su capacidad de memoria y dinámica interna, son especialmente relevantes en este ámbito. El disertante alienta a pensar en estos sistemas como entidades vivas y que respiran, en lugar de simples aproximaciones de funciones. El núcleo de estos sistemas cognitivos se encuentra en la RNN, aunque se pueden aumentar con redes neuronales convolucionales para entradas y salidas. El hipocampo y las conexiones que establece con diferentes aspectos del sistema nervioso se citan como un ejemplo fascinante de cómo se codifican los recuerdos a través de un sistema interactivo de neuronas coactivas. La conferencia concluye reflexionando sobre la diversidad de temas tratados en el curso y cómo el aprendizaje profundo puede ayudar a interpretar los sistemas cognitivos en el futuro.
 

MIT 6.S192 - Clase 1: Estética computacional, diseño, arte | Aprender generando



MIT 6.S192 - Clase 1: Estética computacional, diseño, arte | Aprender generando

Esta conferencia cubre una variedad de temas relacionados con la estética computacional, el diseño y el arte. Se analiza el papel de la IA en la democratización del acceso a la creación de arte, la automatización del diseño y la ampliación de los límites del arte, así como los desafíos para cuantificar la estética y lograr el equilibrio visual en el diseño utilizando representaciones de alto y bajo nivel. El disertante también destaca el potencial del diseño computacional para descubrir patrones y transmitir mensajes de manera efectiva, con ejemplos relacionados con la semántica del color y el diseño de portadas de revistas. Los experimentos de crowdsourcing se utilizan para determinar las asociaciones de color con varios temas y se exploran las posibles aplicaciones de este método en diferentes áreas. En general, la conferencia presenta el papel de la IA en las aplicaciones creativas y el potencial para revolucionar la forma en que creamos arte, diseño y otras formas de expresión creativa.

El video analiza el uso de la estética computacional, el diseño y el arte para generar trabajos creativos utilizando modelos generativos, como StyleGAN y DALL-E. El disertante también enfatiza la importancia de aprender generando y alienta a los espectadores a desglosar problemas y usar datos para encontrar soluciones innovadoras y creativas. Sin embargo, el orador también aborda las limitaciones de los modelos generativos, como los datos sesgados y la capacidad de generalizar y pensar fuera de la caja. No obstante, el disertante asigna a los estudiantes a revisar el código proporcionado y experimentar con las diversas técnicas para generar imágenes estéticamente agradables mientras fomenta la participación en un debate socrático entre Berkeley y el MIT sobre estética y diseño computacional.

  • 00:00:00 En esta sección de la conferencia, el orador analiza las motivaciones para implementar la IA en el arte, la estética y la creatividad. Explican que el arte es un aspecto clave de la evolución y la comunicación humanas, y que la IA puede democratizar el acceso a la creación artística, fomentar la creatividad y ampliar los límites del arte. Con millones de fotos cargadas todos los días y 650 anuncios expuestos por día, la IA puede ayudar a diseñar buenos diseños automáticamente y comprender qué hace que un diseño sea bueno o malo. Finalmente, el orador argumenta que la IA desempeñará un papel fundamental en el futuro, donde la IA creará películas, obras de teatro y más cada segundo, lo que lleva a la pregunta de si queremos dar forma a ese futuro.

  • 00:05:00 En esta sección, el orador analiza el papel de la IA en el arte, la estética y la creatividad. Explica que las redes neuronales convolucionales (CNN) pueden estar sesgadas hacia las texturas, pero esto se puede eliminar generando diferentes estilos e incorporándolos a los datos. Además, menciona que en 2018 se vendió por medio millón de dólares una pintura realizada con un modelo generativo. También aborda la cuestión de si la estética se puede cuantificar, afirmando que filósofos y artistas han estado discutiendo este tema durante generaciones. Por último, toca los objetivos del curso, que implican aprender a aplicar algoritmos de IA a aplicaciones creativas y resolver problemas interesantes.

  • 00:10:00 En esta sección del video, el instructor responde a una pregunta sobre si el conocimiento previo de aprendizaje profundo es necesario para el curso. Explica que, si bien el curso abordará el aprendizaje profundo, no es el enfoque principal y que existen otros recursos para aprender el tema. Luego pasa a discutir su trabajo anterior sobre la cuantificación de la estética, señalando que medir la estética no es un concepto nuevo y que ya existen modelos establecidos, como el modelo de Birkhoff de principios del siglo XX, que se pueden usar para cuantificar la estética en varios contextos, como como diseño visual, poesía e incluso interfaces.

  • 00:15:00 En esta sección, el orador analiza la cuantificación de la estética y los desafíos para lograrla, utilizando el equilibrio visual como ejemplo. Son necesarias buenas representaciones, tanto de alto nivel como de bajo nivel. Las representaciones de alto nivel pueden incluir equilibrio visual y ritmo, mientras que las representaciones de bajo nivel se basan en características extraídas mediante redes neuronales. Los datos también son necesarios para cuantificar la estética, incluido qué tipo de datos se utilizan y de dónde provienen. El orador explica cómo el equilibrio a menudo se enseña a los diseñadores por intuición, pero los ingenieros quieren cuantificarlo y determinar su significado en el diseño.

  • 00:20:00 En esta sección, el orador analiza la noción de corrección visual y equilibrio en el diseño, también conocida como armonía. Habla sobre el trabajo de Arnheim, quien sugirió que colocar elementos de diseño en puntos calientes específicos puede crear un equilibrio visual. El orador explora si esta hipótesis puede confirmarse a través del análisis basado en datos y estudia las partes sobresalientes de una imagen utilizando un algoritmo de prominencia, superponiendo sus resultados en la red estructural. Utiliza un rastreador para recopilar más de 120 000 imágenes de un sitio web de fotografía para estudiar los patrones de prominencia en estas imágenes.

  • 00:25:00 En esta sección, se usó un conjunto de datos con un algoritmo de prominencia para ajustar una combinación de gaussianas con el fin de encontrar patrones en imágenes agregadas de diversas categorías, como retratos, arquitectura y moda. Se analizaron los puntos calientes de prominencia, con una similitud con la teoría de Arnheim sobre el centro de masa y la regla de los tercios. Sin embargo, los resultados pueden verse influenciados por la forma en que los fotógrafos recortan las imágenes, como se muestra en los estudios sobre la validez de la regla de los tercios.

  • 00:30:00 En esta sección, el disertante aborda el tema de la estética y el diseño computacional. Mencionan la disponibilidad del conjunto de datos AVA que contiene anotaciones sobre estética, semántica y estilo fotográfico. Luego, el disertante demuestra cómo los algoritmos de aprendizaje profundo pueden aprender y predecir las calificaciones estéticas y sugiere que esto se puede usar para mejorar y modificar las imágenes. Luego, la conferencia pasa a discutir el potencial del diseño computacional y su importancia para descubrir patrones en el diseño y expresarse mejor.

  • 00:35:00 En esta sección de la conferencia, el orador introduce el concepto de diseño computacional y analiza la diferencia entre diseño y arte. El problema en el diseño está dado, y el trabajo del diseñador es transmitir un mensaje para resolver ese problema, mientras que los artistas definen el problema por sí mismos y usan técnicas artísticas para resolverlo. Los principios del diseño, como la comunicación sobre la decoración, pueden ser difíciles de transmitir a una máquina, pero se pueden usar varias teorías, métricas y reglas, incluida la gestalt y la armonía del color, para crear y recomendar contenido automáticamente. El orador también brinda un ejemplo de software de diseño automatizado que puede distribuir texto y diseñar elementos sobre una imagen de fondo determinada.

  • 00:40:00 En esta sección del video, el orador explica cómo creó un diseño automático para portadas de revistas eligiendo colores complementarios y estudiando el trabajo realizado por Itten y Matsuda, junto con Kobiashi, quien estudió combinaciones de colores durante 30 años, y cómo los colores se pueden asociar con palabras como romántico, suave y ordenado. Con base en este trabajo, el ponente creó un sistema de diseño automático que puede dar recomendaciones a los usuarios en función de los colores que elijan y crear estilos para portadas de revistas. Además, el orador exploró si los datos de diseñadores profesionales podrían extraer patrones en paletas de colores para portadas de revistas.

  • 00:45:00 En esta sección del video, el orador analiza su proyecto, que involucró recopilar un conjunto de datos de portadas de revistas de 12 géneros diferentes para encontrar simultáneamente las combinaciones de texto, género y color utilizadas en las portadas. El orador usó el modelado de temas para extraer diferentes temas, que son una combinación de palabras y colores, y mostró cómo se pueden usar nubes de palabras y paletas de colores para visualizar estos temas. El ponente también discutió el uso del crowdsourcing para determinar si los resultados del proyecto eran universales o no.

  • 00:50:00 En esta sección, el orador analiza un experimento de crowdsourcing que realizaron para comprender si las diferentes culturas y grupos demográficos están de acuerdo en las asociaciones de color con varios temas. El experimento consistía en mostrar una paleta de colores elegida al azar de un tema y luego mostrar diferentes nubes de palabras y pedirles a los sujetos que las combinaran. Participaron más de 1.000 participantes de varios países, y la matriz de correlación o relevancia resultante reveló algunos patrones interesantes. El experimento mostró que, en su mayoría, los participantes estaban de acuerdo en las asociaciones de colores con varios temas, aunque hubo algunas excepciones. El ponente también destacó las posibles aplicaciones de este método en el diseño de paletas de colores para diferentes tipos de productos.

  • 00:55:00 En esta sección de la conferencia, el orador analiza varias aplicaciones de la semántica del color en tareas como la recomendación de la paleta de colores, la recuperación de imágenes, el cambio de color e incluso el diseño web. Demuestra cómo se pueden usar los algoritmos para recomendar colores y portadas de revistas en función de conceptos o temas específicos, así como para analizar y visualizar patrones en el diseño web a lo largo del tiempo. El uso de redes neuronales convolucionales también se demuestra en la identificación de paletas de colores y tendencias de diseño de sitios web de épocas específicas.
  • 01:00:00 En esta sección, el orador analiza el uso del diseño computacional y la estética para predecir el año de un diseño. Explican que el modelo no solo tiene en cuenta los colores, sino también características de alto nivel como la tipografía. No se mencionó la precisión de la clasificación, pero se observó que era superior al azar. El diseño computacional también se ha utilizado para analizar anuncios, crear logotipos e íconos y diseñar paletas de colores de moda.

  • 01:05:00 En esta sección, el orador analiza el uso de modelos generativos en la moda, el diseño de productos y el arte. Muestra ejemplos de conjuntos de datos que se utilizan para comprender elementos de moda, como colores y etiquetas, y menciona a colegas que utilizan conjuntos de datos similares para recomendar el diseño de productos. El orador también habla sobre modelos generativos que pueden tomar un boceto de entrada y generar un diseño de producto o alterar una imagen para que parezca un artículo de moda diferente. Además, toca temas relacionados con el arte computacional y la creatividad, incluidas las herramientas de transferencia de estilo y generación de contenido.

  • 01:10:00 En esta sección del video, el profesor analiza el uso del arte computacional y la inteligencia artificial para generar trabajos creativos, incluida la transferencia de imágenes y estilos, la generación de contenido y los modelos generativos para videos. La discusión incluye varios ejemplos de trabajos recientes en estas áreas, incluidos StyleGAN, DALL-E de OpenAI y modelos generativos para la modificación de poses de video. A pesar de estos avances, la pregunta sigue siendo si las máquinas pueden ser realmente artistas o si la creatividad y el arte pertenecen solo a los humanos.

  • 01:15:00 En esta sección, el orador habla sobre su entusiasmo en la dirección de aprender generando y comparte algunos resultados. Explican que aprender generando es interesante porque es una forma de entrenar a la IA para desarrollar algoritmos basados en cómo los humanos aprenden a resolver problemas. El orador también aborda una pregunta sobre la cuantificación de la estética y menciona que una forma de cerrar la brecha entre los términos de alto nivel en el lenguaje humano y los términos computacionales es usar datos y modelos, incorporar conceptos culturales e incluso pedir a las personas su opinión a través del crowdsourcing.

  • 01:20:00 En esta sección del video, el orador analiza la importancia de usar datos en el aprendizaje automático para evitar sesgos y generar resultados interesantes. Alienta a los oyentes a pensar en cómo diseñar algoritmos o representaciones que puedan conducir a soluciones innovadoras y creativas. El ponente cree que la creatividad y la innovación son componentes esenciales de la inteligencia artificial y cita ejemplos de cómo se han utilizado en el diseño de objetos y conceptos. Él enfatiza que aprender generando es una forma efectiva de desarrollar habilidades para resolver problemas y alienta a los oyentes a dividir los problemas más grandes en subconjuntos más pequeños y resolverlos uno a la vez.

  • 01:25:00 En esta sección del video, el orador analiza el concepto de generalización y pensamiento innovador en la creatividad y la IA. El orador plantea la cuestión de si los modelos generativos son capaces o no de generalización y pensamiento fuera de distribución. Para explorar este tema, el orador introduce el concepto de orientabilidad de las redes antagónicas generativas (GAN) y demuestra la capacidad de manipular imágenes al encontrar un camino en el espacio latente del generador. Muestran que los modelos GAN actuales pueden exhibir transformaciones como acercar y alejar, cambiar y rotar. El ponente explica el proceso de encontrar un vector latente para manipular la imagen y lo utiliza para mostrar el potencial de los modelos generativos en la creatividad y la innovación.

  • 01:30:00 En esta sección del video, el orador analiza las limitaciones de los modelos generativos como BigGAN y por qué los tienen. Explica que se pueden introducir sesgos en el modelo, que también están presentes en la semántica de las clases. Esto significa que un modelo puede generalizar, pero no tan bien como un ser humano. El orador continúa mostrando que el modelo puede salirse de la distribución del conjunto de datos y transformar la apariencia de las imágenes hasta cierto punto, pero solo si el conjunto de datos subyacente es diverso. El documento sugiere que una forma de superar las limitaciones de los datos sesgados es aumentarlos, como acercar o rotar las imágenes.

  • 01:35:00 En esta sección del video, el disertante analiza el uso del espacio latente para generar imágenes estéticamente agradables a través de transformaciones. Las transformaciones se pueden lograr caminando o conduciendo en el espacio latente para cambiar el color de la imagen, el zoom, la rotación, los cambios similares a los de una cámara y más. El disertante también discute el uso de una red neuronal para detectar la estética de la imagen, brindando retroalimentación sobre si una dirección de caminar o una transformación genera imágenes más agradables estéticamente. La conferencia anima a los estudiantes a participar en un próximo debate socrático entre Berkeley y el MIT sobre estética y diseño computacional. Además, el disertante asigna a los estudiantes a revisar el código proporcionado y experimentar con las diversas técnicas para generar imágenes estéticamente agradables.

  • 01:40:00 En esta sección del video, el orador analiza el repositorio de su trabajo y alienta a los espectadores a usar PyTorch en lugar de TensorFlow para ejecutar los cuadernos proporcionados. También explican el sistema Colab utilizado para visualizar los resultados del código y enfatizan la importancia de generar imágenes y reportar los resultados. El orador también les recuerda a los espectadores que pueden enviarles un correo electrónico con cualquier pregunta y les agradece por participar en el curso.
 

MIT 6.S192 - Clase 2: Un debate socrático, Alyosha Efros y Phillip Isola



MIT 6.S192 - Clase 2: Un debate socrático, Alyosha Efros y Phillip Isola

En este video, Alyosha Efros y Phillip Isola discuten la idea de usar imágenes para crear experiencias compartidas. Argumentan que esto puede ayudar a traer recuerdos y crear una sensación de nostalgia.

Este vídeo es un debate entre dos profesores del MIT sobre el papel de los datos en la inteligencia artificial. Efros argumenta que los datos son esenciales para la IA, mientras que Isola responde que los datos pueden ser un obstáculo para el desarrollo de la IA.

  • 00:00:00 En esta conferencia, Alyosha Efros y Phillip Isola analizan la visión de los modelos generativos como un nuevo tipo de datos. Efros argumenta que la era actual de los modelos generativos es como los datos, pero mejor. Isola describe cómo funcionan los modelos generativos y cómo se pueden usar para crear contenido interesante.

  • 00:05:00 En esta conferencia, Alyosha Efros y Phillip Isola discuten el poder de los modelos generativos. Los modelos generativos nos permiten crear puntos de datos que están decorados con funcionalidad adicional, como una variable latente que se puede usar para modificar la imagen. Esto abre muchas posibilidades para la creatividad y la visualización científica.

  • 00:10:00 El video discute la idea de manipular imágenes a través del espacio latente. Explican cómo se puede hacer esto buscando una dirección que se traduzca en una transformación significativa en el espacio de la imagen. Dan el ejemplo de hacer que una imagen sea más memorable acercándola. Finalmente, discuten cómo se puede utilizar esta técnica.
    para visualizar el concepto de lo que significa que algo sea memorable.

  • 00:15:00 Este video analiza el concepto de modelos generativos, que son un tipo de datos que se pueden manipular para crear nuevas imágenes. El video muestra la capacidad de estos modelos para crear nuevas imágenes compositivas al agregar diferentes partes de diferentes imágenes juntas. El video también analiza las limitaciones de los modelos generativos, como su sesgo hacia ciertos objetos o su incapacidad para representar con precisión ciertas escenas.

  • 00:20:00 Alyosha Efros y Phillip Isola analizan el concepto de datos más más, que es una forma de pensar sobre los datos que incluye tanto los datos en sí como los métodos utilizados para generarlos. Efros argumenta que esta perspectiva es útil porque permite una interpolación más significativa entre puntos de datos. Isola pregunta cómo se elige el camino entre dos puntos de datos, y Efros explica que el modelo elige el camino más corto, que a menudo parece el más natural.

  • 00:25:00 En este video, Phillip Isola y Alyosha Efros debaten los méritos del algoritmo "Dall-E". Efros argumenta que el algoritmo es impresionante porque es capaz de entender el lenguaje. Isola responde que el algoritmo en realidad no comprende el lenguaje, sino que comprende palabras y gramas.

  • 00:30:00 El orador argumenta que los GAN no son realmente creativos porque solo están capacitados en datos altamente seleccionados. Sugiere que el mapeo bidireccional es la mejor manera de hacerlo si se lo puede permitir.

  • 00:35:00 En esta conferencia, Alyosha Efros y Phillip Isola debaten los méritos de los enfoques basados en datos versus modelos para la investigación de inteligencia artificial. Efros argumenta que, cada vez más, los modelos se convertirán en la interfaz principal para los datos, y que los científicos de datos deberán aprender a trabajar con modelos en lugar de conjuntos de datos. Isola está de acuerdo y agrega que los conjuntos de datos utilizados para entrenar estos modelos son cada vez más grandes y complejos.

  • 00:40:00 Este video es una conferencia de Alyosha Efros y Phillip Isola sobre el tema del contexto en el arte. Efros habla sobre cómo una fotografía de una obra de arte de Michael Galinsky llamada Malls Across America le causó una profunda impresión y cómo el contexto en el que se ve la fotografía puede afectar su significado. Isola habla de cómo la fotografía de una niña mirando al mar puede traer recuerdos y sensaciones a quienes estaban vivos en el momento en que fue tomada.

  • 00:45:00 Este video es una discusión entre dos profesores sobre el concepto de nostalgia y cómo se puede utilizar para apreciar el arte. Usan el ejemplo de una foto de dos amigos frente a una puerta, que solo es significativa para los dos debido a sus recuerdos compartidos. Argumentan que este tipo de nostalgia se puede encontrar en muchas formas diferentes y que puede ser una experiencia placentera para aquellos que pueden recordar recuerdos.

  • 00:50:00 En este video, Alyosha Efros y Phillip Isola discuten la idea de usar imágenes para evocar experiencias compartidas entre personas de una ciudad determinada. Argumentan que esto puede ayudar a traer recuerdos y crear una sensación de nostalgia.

  • 00:55:00 La pintura "Olympia" de Edouard Monet fue un gran escándalo cuando se estrenó en 1865 debido a su desnudez y tono de piel aplastado. Algunos creen que la colocación de la mano en la pintura fue lo que volvió loca a la gente.

  • 01:00:00 Esta conferencia trata sobre cómo el arte puede interpretarse de diferentes maneras, según el contexto en el que se mire. El ejemplo utilizado es la pintura "Venus reclinada" de Amedeo Modigliani, que causó indignación cuando se exhibió por primera vez porque se consideraba una parodia de una famosa pintura de una mujer desnuda. Sin embargo, cuando se ve en el contexto de otras pinturas de mujeres desnudas, puede verse como una obra de arte válida.

  • 01:05:00 En el video de YouTube "MIT 6.S192 - Conferencia 2: Un debate socrático, Alyosha Efros y Phillip Isola", los dos discuten el significado detrás de las pinturas del pintor ruso Zlotnikov y el pintor estadounidense Hurst. Efros argumenta que la dirección de las pinturas está determinada por los sentimientos de libertad y hacinamiento que evocan. Isola responde que la dirección está determinada por la pintura cuadrada negra de Malevich, que él ve como la resolución final de una dirección particular.

  • 01:10:00 Phillip Isola y Alyosha Efros debaten el significado del arte, específicamente una pintura cuadrada negra de Malevich. Isola argumenta que la pintura es un significante de nada, mientras que Efros argumenta que es una progresión natural para Malevich.

  • 01:15:00 El punto de este video es que podemos estar sobreestimando la complejidad de las máquinas, y que lo que nos parece magia puede ser solo el resultado de procesos simples. El libro de Braiterberg "Vehículos" se utiliza como ejemplo de cómo los comportamientos complejos pueden surgir de interacciones simples.

  • 01:20:00 En esta conferencia, Efros e Isola debaten sobre la naturaleza de la creatividad y la novedad. Efros argumenta que ambos son el resultado de cambios incrementales y que el proceso creativo suele ser muy fluido. Isola responde que la novedad es a menudo el resultado de la aleatoriedad y la suerte.

  • 01:25:00 Este es un debate entre dos personas sobre el papel del contexto en el arte y la ciencia. Una persona argumenta que el contexto es necesario para que el arte tenga sentido, mientras que la otra argumenta que el contexto no es necesario y que el arte puede ser novedoso sin él.

  • 01:30:00 En esta conferencia, Efros e Isola debaten sobre el papel de la suerte en el éxito científico. Efros argumenta que la suerte juega un papel importante, mientras que Isola argumenta que hay formas de planificar la grandeza.

  • 01:35:00 En esta conferencia, Alyosha Efros y Phillip Isola debaten el papel de la suerte en la creatividad, y Efros argumenta que debe haber algo más que suerte. Isola argumenta que data plus plus (la combinación de datos y operaciones) es la clave de la creatividad, y que una vez que tienes los datos correctos, las posibilidades son infinitas.

  • 01:40:00 Este video de YouTube es un debate entre Alyosha Efros y Phillip Isola sobre las diferencias entre trabajar con datos y modelos, y si los datos se volverán obsoletos o no. Efros argumenta que los datos ya se están volviendo menos importantes a medida que los modelos se vuelven más avanzados y que eventualmente los modelos superarán a los humanos en inteligencia. Isola argumenta que los datos siguen siendo el estándar de oro y que los modelos nunca pueden hacer más que los datos en los que se basan.

  • 01:45:00 En este debate, los profesores del MIT Alyosha Efros y Phillip Isola discuten la relación entre el arte y la IA. Efros argumenta que la computación es la mejor manera de pensar en la relación y que existe una fuerte conexión entre el arte y la evolución. Isola está de acuerdo en que existe una conexión entre los dos, pero argumenta que los modelos actuales no son capaces de extrapolar nueva información de los datos y que esta es la clave para una IA verdaderamente creativa.

  • 01:50:00 Fue genial charlar con Phillip y Alyosha sobre arte y computación. Ambos piensan que el arte está a la vanguardia de un nuevo paradigma de pensamiento y que la computación puede usarse para ayudar a explorar nuevas ideas.

  • 01:55:00 En esta conferencia, Alyosha Efros y Phillip Isola participan en un debate socrático sobre el papel de los datos en la inteligencia artificial. Efros argumenta que los datos son esenciales para la IA, mientras que Isola responde que los datos pueden ser un obstáculo para el desarrollo de la IA.
 

MIT 6.S192 - Conferencia 3: "GAN eficientes" por Jun-Yan Zhu



MIT 6.S192 - Conferencia 3: "GAN eficientes" por Jun-Yan Zhu

La conferencia cubre los desafíos de entrenar modelos GAN, incluida la necesidad de un alto cálculo, grandes cantidades de datos y algoritmos complicados que requieren extensas sesiones de entrenamiento. Sin embargo, el disertante presenta nuevos métodos que hacen que las GAN aprendan más rápido y se capaciten con menos conjuntos de datos, como la compresión de modelos docentes utilizando el marco de uso general de la compresión de GAN, el aumento diferenciable y el aumento de datos. La conferencia también demuestra la edición de imágenes interactivas con GAN y enfatiza la importancia de conjuntos de datos grandes y diversos para el entrenamiento exitoso de GAN. Los códigos para ejecutar el modelo están disponibles en GitHub con instrucciones paso a paso para ejecutar el modelo en diferentes tipos de datos. La conferencia concluye discutiendo la importancia de la compresión del modelo para fines prácticos.

  • 00:00:00 En esta sección, el orador presenta el concepto de GAN eficientes y lo caras que son las GAN. Si bien las GAN se han utilizado para diversas tareas creativas y de creación de contenido, el desarrollo de nuevos algoritmos o el rendimiento en tiempo real requieren GPU de alta gama. Para el desarrollo del proyecto GauGAN, el investigador necesitó cientos de GPU de alta gama para la capacitación, e incluso después de un año de desarrollo, el equipo tuvo que comprar una computadora portátil costosa para llevar a cabo el proyecto. El costo de entrenar GAN y desarrollar algoritmos es alto y, actualmente, es un desafío para las universidades competir con grandes empresas como NVIDIA o DeepMind.

  • 00:05:00 En esta sección, el orador explica los tres obstáculos principales para que más usuarios utilicen las GAN de manera efectiva, a saber, la necesidad de un alto cálculo, grandes cantidades de datos y un algoritmo complicado que requiere muchas sesiones de capacitación. Explica que las GAN son computacionalmente costosas debido a las imágenes de alta calidad y los pasos de preprocesamiento necesarios para entrenar el modelo. Además, los grandes conjuntos de datos y la necesidad de etiquetas hacen que el entrenamiento de las GAN sea más desafiante. Sin embargo, presenta nuevos métodos que pueden hacer que las GAN aprendan más rápido y entrenen en menos conjuntos de datos, lo que puede ayudar a los creadores de contenido y artistas con acceso limitado a recursos a entrenar y probar sus propios modelos.

  • 00:10:00 En esta sección de la conferencia, Jun-Yan Zhu presenta un método para comprimir modelos de maestros utilizando el marco de propósito general de la compresión GAN. El objetivo es encontrar un modelo de estudiante con menos filtros que pueda producir el mismo tipo de salida que el modelo de profesor. El método consiste en crear una función de pérdida para garantizar que la distribución de la salida de cebra del estudiante se vea muy similar a la salida del maestro, la representación de características intermedias del estudiante sea muy similar a la del maestro y la salida del estudiante se vea como una cebra de acuerdo con una pérdida adversaria. . El proceso también implica una búsqueda del número óptimo de canales, lo que puede producir los mismos resultados y reducir el tamaño del modelo y el tiempo de entrenamiento. El proceso de compartir pesos entre diferentes configuraciones hace posible entrenar múltiples configuraciones sin entrenarlas individualmente, reduciendo así el tiempo de entrenamiento.

  • 00:15:00 En esta sección, Jun-Yan Zhu analiza el proceso de entrenamiento y evaluación de modelos GAN a través de diferentes configuraciones, junto con el uso de varias funciones de pérdida para imitar modelos docentes y compartir ponderaciones entre diferentes configuraciones. Se presentaron resultados para modelos de diferentes tamaños y costos computacionales, junto con la idea de comprimir modelos para lograr desempeño en tiempo real en dispositivos móviles. También se presentó la aplicación de esta idea a StyleGAN2, mostrando cómo se pueden usar modelos de bajo costo para la edición de imágenes antes de aplicar el resultado final del modelo original.

  • 00:20:00 En esta sección, el orador muestra una demostración de edición de imágenes interactiva con GAN. El objetivo de la demostración es permitir a los usuarios editar una imagen en varios atributos, como agregar una sonrisa o cambiar el color del cabello, y obtener comentarios inmediatos basados en sus cambios. El sistema emplea un modelo más pequeño que produce una salida consistente con el modelo grande para garantizar que la vista previa siga siendo informativa. Una vez finalizadas las ediciones, se puede ejecutar el modelo original para generar un resultado de alta calidad. La edición interactiva es más rápida y proporciona resultados de alta calidad en comparación con el software de creación de contenido de aprendizaje no profundo existente.

  • 00:25:00 En esta sección de la conferencia, el profesor Jun-Yan Zhu analiza los desafíos de entrenar modelos GAN y menciona la necesidad de grandes cantidades de datos de alta calidad para un rendimiento eficaz. Si bien es posible utilizar software de renderizado u otras herramientas para acelerar el proceso y generar vistas previas, el entrenamiento de modelos personalizados requiere la recopilación de cantidades significativas de datos anotados. Zhu da el ejemplo de entrenar un modelo stylegan2 en un conjunto de datos de solo 50 o 100 caras, lo que resultó en imágenes distorsionadas. La conferencia destaca la importancia de conjuntos de datos grandes y diversos para una capacitación GAN exitosa.

  • 00:30:00 En esta sección, el orador analiza la importancia de tener una cantidad suficiente de datos de entrenamiento en los modelos GAN. Demuestran que cuando se entrena en conjuntos de datos más pequeños, el discriminador puede sobreajustar fácilmente y clasificar correctamente todas las imágenes, pero tendrá problemas para generalizar a imágenes reales. Esto lleva a que el generador produzca muchas imágenes basura o se colapse. El orador enfatiza que si uno usara GAN para sus propios fines o en pequeños conjuntos de datos, el sobreajuste se vuelve mucho más severo y obtener suficientes datos es crucial para crear GAN eficientes.

  • 00:35:00 En esta sección, el profesor analiza la idea del aumento de datos para combatir el sobreajuste en el aprendizaje automático, que implica la creación de múltiples versiones de una sola imagen para aumentar el conjunto de datos sin recopilar nuevas muestras. Sin embargo, aplicar este método al entrenamiento de GAN es más complicado porque las imágenes generadas también tienen el efecto de la misma transformación o aumento aplicado a las imágenes reales, lo que puede dar lugar a artefactos replicados. Para evitar este problema, el profesor sugiere aumentar tanto las imágenes reales como las falsas y hacerlo solo para el entrenamiento del discriminador para equilibrar las diferencias en los datos aumentados entre el generador y el discriminador.

  • 00:40:00 En esta sección, el orador analiza el concepto de aumento diferenciable como un enfoque para cerrar la brecha entre los objetivos del generador y del discriminador en las GAN. La idea principal es aumentar tanto las imágenes falsas como las reales de una manera diferenciable para que los gradientes del discriminador puedan propagarse hacia atrás al generador. El orador demuestra a través de ejemplos que el aumento diferenciable permite obtener mejores resultados con datos de entrenamiento mínimos, lo que reduce la necesidad de conjuntos de datos a gran escala. El orador concluye que el aumento diferenciable es una técnica crucial para recordar al entrenar GAN.

  • 00:45:00 En esta sección, el disertante explica que todos los códigos para ejecutar el modelo están disponibles en GitHub con instrucciones paso a paso para ejecutar el modelo en diferentes tipos de datos, incluso en imágenes faciales personales. También se habla de las herramientas específicas disponibles para diseñadores y artistas, y el disertante menciona que David Bau hablará sobre herramientas en línea para visualizar y monitorear unidades internas. También se analiza el proceso de compresión del modelo, con el objetivo de desarrollar la capacidad de comprimir un modelo una vez e implementarlo en varios dispositivos, lo cual es importante a efectos prácticos, ya que ahorra tiempo a los desarrolladores y reduce el tiempo necesario para que los usuarios accedan al modelo. .
 

MIT 6.S192 - Clase 5: "Pintar con las neuronas de una GAN" de David Bau



MIT 6.S192 - Clase 5: "Pintar con las neuronas de una GAN" de David Bau

David Bau analiza la evolución del aprendizaje automático y el potencial para crear sistemas de autoprogramación. Presenta redes antagónicas generativas (GAN) y explica cómo se pueden entrenar para generar imágenes realistas. Bau analiza su proceso para identificar correlaciones entre neuronas específicas en una GAN progresiva y ciertas características semánticas en las imágenes generadas. Demuestra cómo puede agregar varios elementos a una imagen, como puertas, césped y árboles, con la ayuda de una GAN. Además, analiza el desafío de agregar nuevos elementos a una GAN y las preocupaciones éticas que rodean las representaciones realistas del mundo.

  • 00:00:00 En esta sección, David Bau analiza la evolución del aprendizaje automático, desde sus raíces en el análisis estadístico hasta su potencial para crear sistemas de autoprogramación. Como investigador académico, cree que ahora es un momento interesante para hacer preguntas sobre la dirección del campo y las implicaciones de los modelos de aprendizaje automático. El problema principal que abordará en su charla es la generación de imágenes, y presenta el proceso de recopilar un conjunto de datos de imágenes reales y entrenar una red generadora para recrearlas.

  • 00:05:00 En esta sección, David Bau presenta las redes antagónicas generativas (GAN) y explica cómo se pueden entrenar para generar imágenes realistas. Él describe cómo el truco con las GAN consiste en entrenar primero a un discriminador para clasificar si una imagen es real o falsa, y luego conectar este discriminador al generador para crear imágenes que engañen al discriminador. Sin embargo, señala que el generador puede aprender a engañar al discriminador con patrones simples que no se parecen a imágenes realistas, por lo que el truco con las GAN es iterar el proceso e ir y venir entre el generador y el discriminador para producir más y más. imágenes realistas Finalmente, muestra ejemplos de imágenes generadas por GAN, que a menudo son difíciles de distinguir de las imágenes reales.

  • 00:10:00 En esta sección, el orador analiza algunos de los artefactos que se ven en las imágenes generadas por GAN, como las marcas de agua, y los orígenes de las mismas que provienen del conjunto de entrenamiento. El orador continuó explicando cómo encontró las neuronas conectadas a las impresiones de la marca de agua y cómo puede apagarlas. Al apagar las neuronas de la marca de agua, la salida obtenida del generador se libera de cualquier marca de agua o artefactos relacionados, lo que lo convierte en un hallazgo emocionante que demuestra que hay interruptores dentro de las redes que controlan diferentes características de las imágenes generadas.

  • 00:15:00 En esta sección, David Bau analiza su proceso para identificar correlaciones entre neuronas específicas en una GAN progresiva y ciertas características semánticas en las imágenes generadas. Él explica que esto se logró probando cada neurona individualmente para ver dónde se activaba más, indicando ciertas características con las que estaba asociada. A través de este proceso, pudo identificar neuronas que se correlacionaban con los árboles, construyendo partes como ventanas y puertas, sillas e incluso cúpulas. Bau señala que esto se logró sin ninguna capacitación supervisada ni etiquetas y muestra cómo la red ha aprendido a diferenciar entre diversos ejemplos de estas características, representándolas en distintos componentes.

  • 00:20:00 En esta sección, David Bau analiza el objetivo de mapear todas las diferentes neuronas en un modelo para generar cocinas, lo que resultó en catálogos de diferentes tipos de neuronas correlacionadas. Bau descubrió que las capas intermedias del modelo tenían neuronas que se correlacionaban mucho con los objetos semánticos, mientras que las capas posteriores tenían más correlaciones físicas. Bau descubrió que las correlaciones eran tan sorprendentes que dieron lugar a aplicaciones interesantes, incluida la activación y desactivación de diferentes objetos en una generación de imágenes. Bau demostró cómo apagar algunas neuronas de árboles eliminaba los árboles de la escena y el generador rellenaba lo que había detrás de los árboles. Por el contrario, encender las neuronas hizo que apareciera una puerta en la escena, donde el generador llenó el tamaño, la orientación y el estilo apropiados de la puerta.

  • 00:25:00 En esta sección del video, David Bau muestra cómo puede agregar varios elementos a una imagen, como puertas, césped y árboles, con la ayuda de una GAN. Al activar solo neuronas específicas que se correlacionan con un objeto o elemento en particular, puede manipular la semántica de la imagen. También analiza las limitaciones de las GAN, como que solo se pueden editar imágenes generadas aleatoriamente, lo que se puede resolver con un problema de inversión que requiere aprender a ejecutar el modelo hacia atrás.

  • 00:30:00 En esta sección, David Bau analiza las limitaciones del uso de una red adversa generativa (GAN) para generar imágenes, ya que puede revelar cosas que la red no puede hacer. Sin embargo, es posible ajustar con precisión los pesos de la red para generar una red muy cercana que llegue exactamente a una imagen de destino, mientras mantiene la red relativamente sin cambios, lo que hace posible la edición. Bau demuestra el uso de esta técnica para modificar fotos reales invirtiendo la foto a través de la red, obteniendo una imagen inicial, ajustando la red para generar la imagen de destino y luego editando la imagen. El proceso permite agregar o eliminar objetos, como cúpulas y puertas, que coincidan con el estilo arquitectónico de la imagen.

  • 00:35:00 En esta sección del video, David Bau explica cómo usó la tecnología GAN para modificar imágenes usando una red ajustada para sobreajustar una imagen específica. Al cambiar los pesos previamente entrenados de la red de una manera que intenta no cambiar demasiado las capas de la pantalla central, Bau pudo editar imágenes y crear una aproximación aproximada para la imagen de destino. Sin embargo, la red no generaliza este conocimiento, lo que significa que no puede generar cambios significativos para ninguna imagen que no sea la imagen de destino.

  • 00:40:00 En esta sección, David Bau analiza el desafío de agregar nuevos elementos a una red antagónica generativa (GAN). Aunque el sistema se puede entrenar para generar imágenes de un objeto específico, es difícil enseñarle nuevos conceptos si no hay un conjunto de datos previo o una regla codificada. Bau, por lo tanto, desarrolló una técnica para modificar los pesos de un modelo previamente entrenado para adaptarse a nuevas reglas, como agregar árboles en la parte superior de las torres o dibujar Cadillacs frente a edificios, sin volver a entrenar el modelo. Demuestra la aplicación en StyleGAN2, donde los usuarios pueden especificar una regla y manipular la salida según sus preferencias.

  • 00:45:00 En esta sección, David Bau explica cómo puede seleccionar algunos ejemplos de sus imágenes generadas y encontrar las neuronas compartidas responsables de su forma usando la GAN. Una vez seleccionado, puede redefinir su representación y generar nuevas imágenes calculando los cambios correctos en el modelo de GAN para convertir, por ejemplo, la parte superior de las torres puntiagudas en árboles. Bau muestra que este proceso se ve afectado por todas las imágenes de torres puntiagudas en sus resultados de búsqueda, lo que lleva a una representación completamente nueva de las imágenes de torres puntiagudas. Además, Bau explica que se puede pensar que cada capa de la GAN resuelve un problema simple de emparejar pares clave-valor utilizados como memoria para la representación del contexto. Señala que la matriz de peso es la solución al problema de los mínimos cuadrados, y cambiar una regla en el par clave-valor de una capa también es un problema de mínimos cuadrados, que se puede escribir de la misma manera para comparar.

  • 00:50:00 En esta sección, David Bau analiza un método para cambiar una cosa que una red ha memorizado sin cambiar la regla completa, lo que permite la creación de modelos que representan cosas que aún no existen. Esto se logra encontrando una clave y escribiendo un nuevo valor, utilizando actualizaciones de rango uno en direcciones específicas para cambiar solo los valores de la clave. Esto permite a los usuarios cambiar las reglas dentro de una GAN y usarlas para crear cosas basadas en su imaginación en lugar de solo en los datos de entrenamiento. Este método también se puede emplear cuando no hay suficientes datos, lo que proporciona un camino potencial para crear nuevos mundos utilizando el aprendizaje automático.

  • 00:55:00 En esta sección, David Bau analiza el potencial de su método para cambiar las reglas del mundo haciéndolas más visibles y manipulables por los humanos, y permitiendo que las personas construyan un mundo mejor. También aborda una pregunta sobre si este método puede funcionar con múltiples modelos diferentes o solo tiene éxito cuando se toma un sombrero de este modelo y se lo pone en un cuerno. Explica que actualmente, el método solo puede volver a cablear un modelo, pero es un objetivo obvio poder mover una parte de la computación de una red neuronal a otra. Por último, habla sobre las preocupaciones éticas que rodean las representaciones realistas del mundo y cómo ya se está haciendo un mal uso, citando el fenómeno de las falsificaciones profundas y la creación de millones de perfiles de Facebook falsos utilizando generadores de rostros.

  • 01:00:00 En esta sección, David Bau analiza las implicaciones y las posibles consecuencias de generar imágenes realistas utilizando redes neuronales profundas. Si bien es necesario el trabajo forense para detectar imágenes falsas, enfatiza que es más emocionante comprender la estructura interna y aprender cómo funcionan estos modelos por dentro. La transparencia en la comprensión de la red profunda es esencial, ya que estas redes neuronales no son buenas para responder a la pregunta de por qué toman ciertas decisiones. El objetivo de Bau es desmontar las reglas aplicadas dentro de la red para tomar su decisión y desarrollar una forma de preguntar por qué, ayudando a definir la transparencia como un aspecto ético crucial de las redes neuronales profundas. Además, el trabajo de Bau sobre disección de escaneo muestra que se pueden identificar neuronas que contribuyen a artefactos de mal aspecto, lo que puede mejorar la calidad de la salida en estas redes.

  • 01:05:00 En esta sección, David Bau analiza cómo algunas GAN tienen artefactos o distorsiones en sus imágenes generadas que a veces se pueden eliminar o reducir con ciertos métodos de aprendizaje. Él sugiere que, si bien la generación actual de GAN puede ser más avanzada que con la que experimentó, aún valdría la pena investigar si este fenómeno todavía ocurre. David señala que hacer las preguntas correctas y aprender a hacerlo es esencial en este campo e invita a cualquier persona interesada en su trabajo a comunicarse con él.
 

MIT 6.S192 - Clase 7: "La forma de la historia del arte a los ojos de la máquina" por Ahmed Elgemal



MIT 6.S192 - Clase 7: "La forma de la historia del arte a los ojos de la máquina" por Ahmed Elgemal

Ahmed Elgamal, profesor de Ciencias de la Computación y fundador del Laboratorio de Arte e Inteligencia Artificial, analiza el uso de la IA para comprender y generar productos creativos a nivel humano. Elgamal analiza el enfoque científico de la historia del arte y la importancia de hacer avanzar la IA para comprender el arte como lo hacen los humanos. También analiza el uso del aprendizaje automático para clasificar los estilos artísticos, analizando las representaciones internas, identificando las diferencias entre los estilos artísticos y cuantificando la creatividad en el arte a través de la IA. Elgamal también propone el concepto de objetos primarios en la historia del arte y explora el potencial de la IA para generar arte, reconociendo las limitaciones de los enfoques actuales de la IA en las actividades creativas. Sin embargo, Elgamal también analiza los experimentos en curso para ampliar los límites de la red de IA para crear arte abstracto e interesante.

Ahmed Elgammal también analiza los resultados de una prueba de ajuste para determinar si los humanos pueden distinguir el arte creado por una GAN del de los humanos, utilizando obras de arte como referencia. Los humanos pensaron que el arte creado por máquinas GAN fue producido por humanos el 75 % de las veces, lo que enfatiza el concepto de ambigüedad de estilo y su importancia para conectar la visión por computadora y el aprendizaje automático con la historia del arte y los intereses artísticos.

  • 00:00:00 En esta sección, el profesor Ahmed Elgammal, profesor del Departamento de Informática de la Universidad de Rutgers y fundador del Laboratorio de Arte e Inteligencia Artificial, habla sobre su pasión por el arte y cómo se dio cuenta de la importancia de combinar la IA y el arte. . Explica que el arte es mucho más que el reconocimiento de objetos e involucra capas de contexto, comprensión de emociones y contextos históricos y sociales que requieren habilidades cognitivas e intelectuales similares a las de los humanos. Él cree que comprender y generar productos creativos a nivel humano es fundamental para demostrar que los algoritmos de IA son inteligentes y discute la cuestión de combinar la estética y la subjetividad con la objetividad y la ciencia. El profesor Elgammal aboga por un enfoque científico de la historia del arte y destaca la importancia de hacer avanzar la IA para comprender el arte como lo hacen los humanos.

  • 00:05:00 En esta sección, Ahmed Elgemal analiza la idea de que cualquier aspecto del arte, incluso los elementos creativos y subjetivos, pueden estudiarse objetivamente a través de los ojos de una máquina. Explica que su objetivo es comprender las implicaciones de mirar el arte a través de la IA y cómo puede hacer avanzar la IA y la comprensión de la historia del arte. Elgemal habla sobre su trabajo en la cuantificación de los diferentes elementos y principios del arte y el estilo, incluyendo cómo caracterizar la secuencia y evolución del cambio de estilo artístico a lo largo del tiempo y qué factores influyen en estos cambios. También analiza las limitaciones de los enfoques actuales de IA para comprender el concepto de estilo en el arte.

  • 00:10:00 En esta sección, el orador analiza un problema de aprendizaje automático supervisado para clasificar diferentes estilos de arte, usando codificaciones visuales para capturar diferentes niveles de funciones. Se compara el progreso de este tipo de investigación desde los años de los años del cerdo hasta el aprendizaje profundo. La máquina puede clasificar estilos de arte al mismo nivel que un estudiante de historia del arte de primer año. El orador argumenta que clasificar el arte por la máquina es importante para comprender las características del estilo y lo que impulsa los cambios de estilo. Las representaciones internas de la máquina de estos estilos son difíciles de interpretar, pero estudiar la relación entre cómo la máquina identifica el estilo y cómo los historiadores del arte piensan sobre el estilo puede proporcionar información útil. Por ejemplo, la teoría del estilo de Heinrich Wolfflin sugiere esquemas visuales que diferencian los elementos de diferentes estilos.

  • 00:15:00 En esta sección, Elgemal analiza el uso del aprendizaje automático para clasificar estilos artísticos y analizar la representación interna de la clasificación de la máquina. Capacitaron a varios modelos de CNN, incluidos VGGNet y ResNet, para realizar la clasificación de estilo de manera supervisada. Al analizar la representación interna, encontraron que una pequeña cantidad de factores pueden explicar la mayoría de las variaciones en la historia del arte occidental, y los dos primeros modos de variación explican hasta el 74% de la variación, independientemente de la red utilizada. También encontraron que no hay nada sobre el objeto o la composición que importe cuando se trata de clasificar los estilos artísticos. Este enfoque proporciona una forma basada en datos de comprender cómo la máquina clasifica el arte y proporciona información sobre la estructura de la historia del arte.

  • 00:20:00 En esta sección, el disertante analiza cómo, aunque las máquinas no están informadas sobre las líneas de tiempo de varios estilos artísticos, pueden aprender a clasificar estos estilos por sí mismas a través de las imágenes proporcionadas. Esto lo confirma el hecho de que la máquina pone el arte en orden histórico ya que existe una correlación de 0,7 entre la progresión de los estilos y el tiempo. El disertante profundiza en los dos factores que ayudan a explicar el 75% de la historia del arte, que son planar versus recesional y lineal versus pictórico. Señala que la historia del arte pasó por un ciclo de 360 grados durante los últimos 500 años en la civilización occidental y esto se captura en un diagrama creado a partir de la representación que la máquina aprendió al observar los estilos artísticos.

  • 00:25:00 En esta sección, el orador analiza el uso de la IA para determinar las diferencias entre los estilos artísticos. Si bien algunos estilos, como el Renacimiento y el Barroco, pueden distinguirse mediante factores específicos, como el color y la textura, otros estilos, como el impresionismo, no pueden identificarse mediante estos factores. Los múltiples de activación de las redes de IA muestran cómo los movimientos artísticos han cambiado con el tiempo, con especial énfasis en las obras de Cezanne, quien actuó como puente entre el impresionismo y los estilos de principios del siglo XX, como el cubismo y la abstracción. Además, ciertas obras de arte del Renacimiento se alejan de la nube del Renacimiento, con artistas particulares como El Greco y Durer que influyen en el arte moderno. Luego, la charla pasa a una discusión sobre la cuantificación de la creatividad en el arte a través de la IA.

  • 00:30:00 En esta sección, Elgemal analiza el desarrollo de un algoritmo para evaluar la creatividad de una pintura dado su contexto e historia del arte. Argumenta que la capacidad de evaluar la creatividad es fundamental para las máquinas que crean arte, y que el algoritmo debe definir la creatividad de manera cuantificable. Elgemal sugiere que hay dos condiciones principales para que un producto se llame creativo: debe ser novedoso en comparación con el trabajo anterior y debe tener algún valor, lo que significa que se volverá influyente. Analiza diferentes formas de describir la creatividad y explora las limitaciones de los algoritmos que evalúan la creatividad, argumentando que deben considerar el contexto de la historia del arte.

  • 00:35:00 En esta sección, Ahmed Elgamal discute las limitaciones de los algoritmos en la historia del arte, incluyendo lo que él llama la "limitación del mundo cerrado" de los datos disponibles y la "limitación de la cuantificación del concepto artístico" de la codificación visual utilizada. Sugiere que los parámetros del algoritmo se pueden usar para interpretar las puntuaciones de creatividad y comprender cómo afectan los resultados. Elgamal propone un gráfico dirigido entre pinturas con un peso que refleja su similitud visual, y utiliza esto para crear una formulación para la creatividad basada en la influencia y la novedad. La fórmula resultante es una instancia de un problema de centralidad de red y puede interpretarse como un paseo aleatorio en una cadena de Markov con alfa establecido en uno.

  • 00:40:00 En esta sección, el disertante analiza cómo se puede usar la centralidad del vector propio para medir la centralidad de la red en las redes sociales al invertir la variante ponderada del rango de página. Esto incluso se puede extender para separar la originalidad de la influencia, y la precisión del algoritmo se puede evaluar utilizando conjuntos como wikiart y archive que no fueron supervisados. El profesor explica que cuando se probó, los resultados mostraron que la máquina fue capaz de identificar varias obras de arte creativas, como las Damas de Argel de Picasso, como el comienzo del cubismo.

  • 00:45:00 En esta sección, Ahmed Elgemal analiza la evaluación de la creatividad artística utilizando una máquina de archivo, que surgió debido a un error en la datación de la obra de arte de Mondrian. El método consistía en tomar obras de arte del período renacentista o barroco y trasladarlas a un período posterior, al mismo tiempo que tomaba obras de arte modernas y las trasladaba al período renacentista. Los resultados mostraron una caída constante en la creatividad al hacer avanzar las obras de arte del Renacimiento y el Barroco en el tiempo, y un aumento de la creatividad al hacer retroceder las obras de arte modernas al período del Renacimiento. El algoritmo utilizado fue capaz de cuantificar la creatividad y otorgar una puntuación que capturó la novedad y la influencia, lo que validó la capacidad del algoritmo para evaluar la creatividad de las obras de arte.

  • 00:50:00 En esta sección, Ahmed Elgemal analiza el concepto de objetos primarios en la historia del arte y cómo pueden dar lugar a nuevos estilos. Compara los objetos primos con los números primos en matemáticas, estableciendo paralelismos entre su naturaleza impredecible y su capacidad para influir en el trabajo posterior. Elgemal también explora el potencial de la IA para generar arte, discutiendo las Redes adversarias creativas y su capacidad para aprender sobre el estilo y desviarse de las normas. Sin embargo, Elgemal reconoce que el generador en las GAN es limitado ya que está capacitado para crear muestras que engañan al discriminador, sin ninguna motivación para la creatividad.

  • 00:55:00 En esta sección, el orador analiza cómo los artistas tienen que innovar todo el tiempo para luchar contra la habituación, pero si innovan demasiado, será difícil que la gente lo disfrute. Su objetivo es impulsar la red para que sea innovadora, pero mantenerla dentro de la misma distribución para ampliar los límites. El orador explica que han agregado la pérdida de ambigüedad de estilo al discriminador para ver si el arte que crea el generador se ajusta a los estilos o es ambiguo en términos de clasificación, lo que ayudará a la máquina a explorar diferentes límites. Realizaron experimentos y concluyeron que al agregar ambigüedad de estilo, la máquina generó interesantes obras de arte abstractas con nuevas composiciones y combinaciones de colores que estaban en la distribución de lo atractivo.

  • 01:00:00 En esta sección, Ahmed Elgammal explora los resultados de una prueba de sintonización para determinar si un humano puede distinguir entre el arte creado por una GAN y el de un humano. Las obras de arte de una exposición famosa sirven como referencia, y se descubrió que los humanos pensaban que el arte creado por máquinas GAN era producido por humanos el 75 por ciento de las veces, en comparación con el 85 por ciento del arte abstracto y solo el 48 por ciento del arte. colección de Basilea. Elgammal también analiza el concepto de ambigüedad de estilo y su capacidad para permitir la creación de arte que pertenece al arte sin un estilo específico. Enfatiza la importancia de conectar la visión artificial y el aprendizaje automático con la historia del arte y los intereses artísticos.
Razón de la queja: