Aprendizado de máquina e redes neurais - página 24

 

MIT 6.S192 - Aula 5: "Pintando com os neurônios de um GAN" por David Bau



MIT 6.S192 - Aula 5: "Pintando com os neurônios de um GAN" por David Bau

David Bau discute a evolução do aprendizado de máquina e o potencial para criar sistemas de autoprogramação. Ele apresenta redes adversárias generativas (GANs) e explica como elas podem ser treinadas para gerar imagens realistas. Bau discute seu processo de identificação de correlações entre neurônios específicos em uma GAN progressiva e certas características semânticas em imagens geradas. Ele demonstra como pode adicionar vários elementos a uma imagem, como portas, grama e árvores, com a ajuda de uma GAN. Além disso, ele discute o desafio de adicionar novos elementos a um GAN e as preocupações éticas em torno das renderizações realistas do mundo.

  • 00:00:00 Nesta seção, David Bau discute a evolução do aprendizado de máquina, desde suas raízes na análise estatística até seu potencial para criar sistemas de autoprogramação. Como pesquisador acadêmico, ele acredita que agora é um momento interessante para fazer perguntas sobre a direção do campo e as implicações dos modelos de aprendizado de máquina. O principal problema que ele abordará em sua palestra é a geração de imagens, e ele apresenta o processo de coleta de um conjunto de dados de imagens reais e o treinamento de uma rede geradora para recriá-los.

  • 00:05:00 Nesta seção, David Bau apresenta as redes adversárias generativas (GANs) e explica como elas podem ser treinadas para gerar imagens realistas. Ele descreve como o truque com GANs é primeiro treinar um discriminador para classificar se uma imagem é real ou falsa e, em seguida, conectar esse discriminador ao gerador para criar imagens que enganam o discriminador. No entanto, ele observa que o gerador pode aprender a enganar o discriminador com padrões simples que não se assemelham a imagens realistas e, portanto, o truque com GANs é repetir o processo e ir e voltar entre o gerador e o discriminador para produzir mais e mais imagens realistas. Por fim, ele mostra exemplos de imagens geradas por GANs, que muitas vezes são difíceis de distinguir das imagens reais.

  • 00:10:00 Nesta seção, o palestrante discute alguns dos artefatos vistos em imagens geradas por GAN, como marcas d'água, e suas origens provenientes do conjunto de treinamento. O palestrante explicou como encontrou os neurônios conectados às impressões de marca d'água e como pode desligá-los. Ao desligar os neurônios da marca d'água, a saída obtida do gerador fica livre de qualquer marca d'água ou artefatos relacionados, tornando-a uma descoberta empolgante, provando que existem interruptores nas redes que controlam diferentes recursos das imagens geradas.

  • 00:15:00 Nesta seção, David Bau discute seu processo de identificação de correlações entre neurônios específicos em uma GAN progressiva e certas características semânticas em imagens geradas. Ele explica que isso foi conseguido testando cada neurônio individualmente para ver onde ele estava mais ativado, indicando certos recursos aos quais estava associado. Por meio desse processo, ele conseguiu identificar neurônios que se correlacionavam com árvores, construindo peças como janelas e portas, cadeiras e até cúpulas. Bau observa que isso foi alcançado sem nenhum treinamento supervisionado ou rótulos e mostra como a rede aprendeu a diferenciar entre diversos exemplos desses recursos, representando-os em componentes distintos.

  • 00:20:00 Nesta seção, David Bau discute o objetivo de mapear todos os diferentes neurônios em um modelo para geração de cozinhas, que resultou em catálogos de diferentes tipos de neurônios correlacionados. Bau descobriu que as camadas intermediárias do modelo tinham neurônios altamente correlacionados com objetos semânticos, enquanto as camadas posteriores tinham mais correlações físicas. Bau descobriu que as correlações eram tão impressionantes que levavam a aplicações interessantes, incluindo ligar e desligar diferentes objetos na geração de uma imagem. Bau demonstrou como desligar alguns neurônios de árvores removeu as árvores da cena e o gerador preencheu o que estava atrás das árvores. Por outro lado, ativar os neurônios fez com que uma porta aparecesse na cena, onde o gerador preencheu o tamanho, a orientação e o estilo apropriados da porta.

  • 00:25:00 Nesta seção do vídeo, David Bau mostra como ele pode adicionar vários elementos a uma imagem, como portas, grama e árvores, com a ajuda de um GAN. Ao ativar apenas neurônios específicos que se correlacionam com um determinado objeto ou elemento, ele pode manipular a semântica da imagem. Ele também discute as limitações das GANs, como apenas poder editar imagens geradas aleatoriamente, o que pode ser resolvido com um problema de inversão que exige aprender a executar o modelo de trás para frente.

  • 00:30:00 Nesta seção, David Bau discute as limitações de usar uma Generative Adversarial Network (GAN) para gerar imagens, pois pode revelar coisas que a rede não pode fazer. No entanto, é possível ajustar os pesos da rede para gerar uma rede muito próxima que atinja exatamente uma imagem de destino, mantendo a rede relativamente inalterada, tornando a edição ainda possível. Bau demonstra o uso dessa técnica para modificar fotos reais, invertendo a foto por meio da rede, obtendo uma imagem inicial, ajustando a rede para produzir a imagem de destino e, em seguida, editando a imagem. O processo permite adicionar ou remover objetos, como cúpulas e portas, que combinam com o estilo arquitetônico da imagem.

  • 00:35:00 Nesta seção do vídeo, David Bau explica como ele usou a tecnologia GAN para modificar imagens usando uma rede ajustada para overfit em uma imagem específica. Ao alterar os pesos pré-treinados da rede de uma forma que tenta não alterar muito as camadas da tela principal, Bau foi capaz de editar imagens e criar uma aproximação aproximada da imagem de destino. No entanto, a rede não generaliza esse conhecimento, o que significa que não pode gerar mudanças significativas para nenhuma imagem que não seja a imagem de destino.

  • 00:40:00 Nesta seção, David Bau discute o desafio de adicionar novos elementos a uma rede adversária generativa (GAN). Embora o sistema possa ser treinado para gerar imagens de um objeto específico, é difícil ensinar novos conceitos a ele se não houver um conjunto de dados anterior ou uma regra codificada. Bau, portanto, desenvolveu uma técnica para modificar os pesos de um modelo pré-treinado para acomodar novas regras, como adicionar árvores ao topo de torres ou desenhar Cadillacs na frente de prédios, sem retreinar o modelo. Ele demonstra o aplicativo no StyleGAN2, onde os usuários podem especificar uma regra e manipular a saída de acordo com suas preferências.

  • 00:45:00 Nesta seção, David Bau discute como ele pode selecionar alguns exemplos de suas imagens geradas e encontrar os neurônios compartilhados responsáveis por sua forma usando o GAN. Uma vez selecionado, ele pode redefinir sua representação e gerar novas imagens computando as mudanças certas no modelo do GAN para transformar, por exemplo, o topo de torres pontiagudas em árvores. Bau mostra que esse processo é afetado por todas as imagens de torres pontiagudas em seus resultados de pesquisa, levando a uma representação completamente nova das imagens de torres pontiagudas. Além disso, Bau explica que cada camada da GAN pode ser considerada como a solução de um problema simples de correspondência de pares chave-valor usados como uma memória para representação de contexto. Ele observa que a matriz de peso é a solução para o problema de mínimos quadrados, e alterar uma regra no par chave-valor de uma camada também é um problema de mínimos quadrados, que pode ser escrito da mesma maneira para comparação.

  • 00:50:00 Nesta seção, David Bau discute um método para alterar uma coisa que uma rede memorizou sem alterar toda a regra, permitindo a criação de modelos que representam coisas que ainda não existem. Isso é feito encontrando uma chave e escrevendo um novo valor, usando atualizações de classificação um em direções específicas para alterar apenas os valores da chave. Isso permite que os usuários alterem as regras dentro de uma GAN e as usem para criar coisas com base em sua imaginação, e não apenas nos dados de treinamento. Esse método também pode ser empregado onde não há dados suficientes, fornecendo um caminho potencial para a criação de novos mundos usando aprendizado de máquina.

  • 00:55:00 Nesta seção, David Bau discute o potencial de seu método para mudar as regras do mundo, tornando-as mais visíveis e manipuláveis pelos humanos e permitindo que as pessoas construam um mundo melhor. Ele também questiona se esse método pode funcionar com vários modelos diferentes ou só é bem-sucedido ao tirar um chapéu de dentro desse modelo e colocá-lo em um chifre. Ele explica que, atualmente, o método só é capaz de reconectar um modelo, mas é um objetivo óbvio ser capaz de mover um pedaço de computação de uma rede neural para outra. Por fim, ele fala sobre as preocupações éticas em torno das representações realistas do mundo e como ele já está sendo mal utilizado, citando o fenômeno deep fakes e a criação de milhões de perfis falsos no Facebook usando geradores de rosto.

  • 01:00:00 Nesta seção, David Bau discute as implicações e possíveis consequências da geração de imagens realistas usando redes neurais profundas. Embora o trabalho forense na detecção de imagens falsas seja necessário, ele enfatiza que é mais emocionante entender a estrutura interna e aprender como esses modelos funcionam por dentro. A transparência na compreensão da rede profunda é essencial, pois essas redes neurais não são boas para responder à pergunta de por que tomam certas decisões. O objetivo de Bau é desmontar as regras aplicadas dentro da rede para tomar sua decisão e desenvolver uma forma de perguntar o porquê, ajudando a definir a transparência como um aspecto ético crucial das redes neurais profundas. Além disso, o trabalho de Bau na dissecação por varredura mostra que você pode identificar neurônios que contribuem para artefatos de aparência ruim, o que pode melhorar a qualidade da saída nessas redes.

  • 01:05:00 Nesta seção, David Bau discute como alguns GANs têm artefatos ou distorções em suas imagens geradas que às vezes podem ser removidos ou reduzidos com certos métodos de aprendizado. Ele sugere que, embora a geração atual de GANs possa ser mais avançada do que a que ele experimentou, ainda valeria a pena investigar se esse fenômeno ainda ocorre. David observa que fazer as perguntas certas e aprender a fazê-lo é essencial nesse campo e convida qualquer pessoa interessada em seu trabalho a procurá-lo.
 

MIT 6.S192 - Palestra 7: "A Forma da História da Arte aos Olhos da Máquina" por Ahmed Elgemal



MIT 6.S192 - Palestra 7: "A Forma da História da Arte aos Olhos da Máquina" por Ahmed Elgemal

Ahmed Elgamal, professor de Ciência da Computação e fundador do Laboratório de Arte e Inteligência Artificial, discute o uso da IA para entender e gerar produtos criativos em nível humano. Elgamal discute a abordagem científica da história da arte e a importância do avanço da IA para entender a arte como os humanos. Ele também discute o uso do aprendizado de máquina para classificar estilos de arte, analisando as representações internas, identificando diferenças entre estilos de arte e quantificando a criatividade na arte por meio da IA. Elgamal também propõe o conceito de objetos primários na história da arte e explora o potencial da IA para gerar arte, reconhecendo as limitações das atuais abordagens de IA em buscas criativas. No entanto, Elgamal também discute experimentos em andamento para expandir os limites da rede de IA para criar arte abstrata e interessante.

Ahmed Elgammal também discute os resultados de um teste de ajuste para determinar se os humanos podem distinguir a arte criada por um GAN da de humanos, usando obras de arte como linha de base. Os humanos pensavam que a arte feita por máquinas GAN era produzida por humanos 75% do tempo, enfatizando o conceito de ambiguidade de estilo e sua importância em conectar visão computacional e aprendizado de máquina com história da arte e interesses artísticos.

  • 00:00:00 Nesta seção, o professor Ahmed Elgammal, professor do Departamento de Ciência da Computação da Rutgers University e fundador do Laboratório de Arte e Inteligência Artificial, fala sobre sua paixão pela arte e como percebeu a importância de combinar IA e arte . Ele explica que a arte é muito mais do que o reconhecimento de objetos e envolve camadas de contexto, compreensão de emoções e contextos históricos e sociais que exigem habilidades cognitivas e intelectuais semelhantes às do ser humano. Ele acredita que entender e gerar produtos criativos em nível humano é fundamental para mostrar que os algoritmos de IA são inteligentes e discute a questão de combinar estética e subjetividade com objetividade e ciência. O professor Elgammal defende uma abordagem científica da história da arte e enfatiza a importância do avanço da IA para entender a arte como os humanos.

  • 00:05:00 Nesta seção, Ahmed Elgemal discute a ideia de que qualquer aspecto da arte, mesmo os elementos criativos e subjetivos, pode ser estudado objetivamente através dos olhos de uma máquina. Ele explica que seu objetivo é entender as implicações de olhar para a arte por meio da IA e como ela pode avançar a IA e a compreensão da história da arte. Elgemal fala sobre seu trabalho em quantificar os diferentes elementos e princípios de arte e estilo, incluindo como caracterizar a sequência e evolução da mudança de estilo de arte ao longo do tempo e quais fatores influenciam essas mudanças. Ele também discute as limitações das atuais abordagens de IA na compreensão do conceito de estilo na arte.

  • 00:10:00 Nesta seção, o palestrante discute um problema de aprendizado de máquina supervisionado para classificar diferentes estilos de arte, usando codificações visuais para capturar diferentes níveis de recursos. O progresso desse tipo de pesquisa é comparado desde os anos do porco até o aprendizado profundo. A máquina é capaz de classificar estilos de arte no mesmo nível de um estudante de história da arte do primeiro ano. O palestrante argumenta que classificar a arte pela máquina é importante para entender a característica do estilo e o que impulsiona as mudanças de estilo. As representações internas da máquina desses estilos são difíceis de interpretar, mas estudar a relação entre como a máquina identifica o estilo e como os historiadores da arte pensam sobre o estilo pode fornecer informações úteis. Por exemplo, a teoria de estilo de Heinrich Wolfflin sugere esquemas visuais que diferenciam os elementos de diferentes estilos.

  • 00:15:00 Nesta seção, Elgemal discute o uso de aprendizado de máquina para classificar estilos de arte e analisar a representação interna da classificação da máquina. Eles treinaram vários modelos de CNN, incluindo VGGNet e ResNet, para fazer classificação de estilo de maneira supervisionada. Ao analisar a representação interna, eles descobriram que um pequeno número de fatores pode explicar a maioria das variações na história da arte ocidental, com os dois primeiros modos de variação explicando até 74% da variação, independentemente da rede usada. Eles também descobriram que não há nada sobre objeto ou composição que importe quando se trata de classificar estilos de arte. Essa abordagem fornece uma maneira baseada em dados de entender como a máquina classifica a arte e fornece insights sobre a estrutura da história da arte.

  • 00:20:00 Nesta seção, o palestrante discute como, embora as máquinas não sejam informadas sobre os cronogramas de vários estilos de arte, elas podem aprender a classificar esses estilos por si mesmas por meio das imagens fornecidas. Isso é confirmado pelo fato de a máquina colocar a arte em ordem histórica, pois há uma correlação de 0,7 entre a progressão dos estilos e o tempo. O palestrante investiga os dois fatores que ajudam a explicar 75% da história da arte, que são planares versus recessivas e lineares versus pictóricas. Ele observa que a história da arte passou por um ciclo de 360 graus nos últimos 500 anos na civilização ocidental e isso é capturado em um diagrama criado a partir da representação que a máquina aprendeu ao observar os estilos de arte.

  • 00:25:00 Nesta seção, o palestrante discute o uso da IA para determinar as diferenças entre os estilos artísticos. Enquanto alguns estilos, como o Renascimento e o Barroco, podem ser distinguidos por meio de fatores específicos, como cor e textura, outros estilos, como o Impressionismo, não podem ser identificados por meio desses fatores. Os múltiplos de ativação das redes de IA mostram como os movimentos artísticos mudaram ao longo do tempo, com particular ênfase nas obras de Cézanne, que atuou como uma ponte entre o impressionismo e os estilos do início do século XX, como o cubismo e a abstração. Além disso, certas obras de arte renascentistas são afastadas da nuvem renascentista, com artistas específicos como El Greco e Durer influenciando a arte moderna. A palestra então transita para uma discussão sobre a quantificação da criatividade na arte por meio da IA.

  • 00:30:00 Nesta seção, Elgemal discute o desenvolvimento de um algoritmo para avaliar a criatividade de uma pintura dado seu contexto e história da arte. Ele argumenta que a capacidade de avaliar a criatividade é crítica para as máquinas que criam arte e que o algoritmo deve definir a criatividade de forma quantificável. Elgemal sugere que existem duas condições principais para um produto ser chamado de criativo: deve ser inovador em comparação com trabalhos anteriores e deve ter algum valor, o que significa que se tornará influente. Ele analisa diferentes maneiras de descrever a criatividade e explora as limitações dos algoritmos que avaliam a criatividade, argumentando que eles devem considerar o contexto da história da arte.

  • 00:35:00 Nesta seção, Ahmed Elgamal discute as limitações dos algoritmos na história da arte, incluindo o que ele chama de "limitação do mundo fechado" dos dados disponíveis e a "limitação da quantificação do conceito artístico" da codificação visual usada. Ele sugere que os parâmetros do algoritmo podem ser usados para interpretar as pontuações de criatividade e entender como elas afetam os resultados. Elgamal propõe um gráfico direcionado entre pinturas com um peso refletindo sua semelhança visual e usa isso para criar uma formulação para a criatividade baseada na influência e na novidade. A fórmula resultante é uma instância de um problema de centralidade de rede e pode ser interpretada como um passeio aleatório em uma cadeia de Markov com alfa definido como um.

  • 00:40:00 Nesta seção, o palestrante discute como a centralidade do autovetor pode ser usada para medir a centralidade da rede nas redes sociais, invertendo a variante ponderada do page rank. Isso pode até ser estendido para separar a originalidade da influência, e a precisão do algoritmo pode ser avaliada usando conjuntos como wikiart e arquivo que não foram supervisionados. O palestrante explica que, quando testado, os resultados mostraram que a máquina foi capaz de identificar várias peças criativas de arte, como as Damas de Argel, de Picasso, como o início do cubismo.

  • 00:45:00 Nesta seção, Ahmed Elgemal discute a avaliação da criatividade artística usando uma máquina de arquivo, que surgiu devido a um erro na datação da obra de arte de Mondrian. O método envolvia pegar obras de arte do período renascentista ou barroco e movê-las para um período posterior, ao mesmo tempo em que pegava obras de arte modernas e as movia de volta ao período renascentista. Os resultados mostraram uma queda consistente na criatividade ao mover a arte renascentista e barroca para frente no tempo, e um aumento na criatividade ao mover a arte moderna de volta ao período renascentista. O algoritmo usado foi capaz de quantificar a criatividade e dar uma pontuação que capturou a novidade e a influência, validando a capacidade do algoritmo de avaliar a criatividade da obra de arte.

  • 00:50:00 Nesta seção, Ahmed Elgemal discute o conceito de objetos primários na história da arte e como eles podem dar origem a novos estilos. Ele compara objetos primos a números primos na matemática, traçando paralelos entre sua natureza imprevisível e sua capacidade de influenciar o trabalho subsequente. Elgemal também explora o potencial da IA para gerar arte, discutindo Creative Adversarial Networks e sua capacidade de aprender sobre estilo e desviar-se das normas. No entanto, Elgemal reconhece que o gerador em GANs é limitado, pois é treinado para criar amostras que enganam o discriminador, sem nenhuma motivação para a criatividade.

  • 00:55:00 Nesta seção, o palestrante discute como os artistas precisam inovar o tempo todo para ir contra o hábito, mas se inovarem demais, será difícil para as pessoas gostarem. Eles visam impulsionar a rede a ser inovadora, mas mantê-la dentro da mesma distribuição para ultrapassar os limites. O palestrante explica que eles adicionaram perda de ambigüidade de estilo ao discriminador para ver se a arte que o gerador cria se encaixa nos estilos ou é ambígua em termos de classificação, o que ajudará a máquina a explorar diferentes limites. Eles realizaram experimentos e concluíram que, ao adicionar ambigüidade de estilo, a máquina gerou obras de arte abstratas interessantes com novas composições e combinações de cores que estavam na distribuição do que é atraente.

  • 01:00:00 Nesta seção, Ahmed Elgammal explora os resultados de um teste de ajuste para determinar se um humano pode distinguir entre a arte criada por um GAN e a de um humano. As obras de arte de uma exposição famosa servem como base, e descobriu-se que os humanos pensavam que a arte feita por máquinas GAN era produzida por humanos 75% do tempo, em comparação com 85% da arte abstrata e apenas 48% da arte do Art. Coleção Basileia. Elgammal também discute o conceito de ambiguidade de estilo e sua capacidade de permitir a criação de arte que pertence à arte sem um estilo específico. Ele enfatiza a importância de conectar visão computacional e aprendizado de máquina com história da arte e interesses artísticos.
 

MIT 6.S192 - Aula 8: "Como o aprendizado de máquina pode beneficiar criadores humanos" por Rebecca Fiebrink



MIT 6.S192 - Aula 8: "Como o aprendizado de máquina pode beneficiar criadores humanos" por Rebecca Fiebrink

Rebecca Fiebrink, pesquisadora na área de música e IA, enfatiza a importância da interação humana e de mantê-los informados sobre o uso e desenvolvimento do aprendizado de máquina para fins criativos. Ela fala sobre sua ferramenta, Wekinator, que permite o uso de aprendizado de máquina em música em tempo real para criação humana. Ela demonstra a construção de vários instrumentos controlados por gestos, como uma bateria eletrônica, um algoritmo de síntese de som chamado Blotar e um instrumento de sopro chamado blowtar. Ela destaca como o aprendizado de máquina pode ser benéfico para os criadores, permitindo que eles explorem paletas de som complexas e diferenciadas e tornem a análise de dados mais fácil para sensores e dados em tempo real. Ela também aborda os benefícios da manipulação interativa dos dados de treinamento e explica como o aprendizado de máquina permite que nos comuniquemos com os computadores de maneira mais natural, além de adicionar surpresas e desafios ao processo de trabalho criativo.

  • 00:00:00 Nesta seção do vídeo, Rebecca Fiebrink, pesquisadora na área de música e inteligência artificial (IA), discute a importância da interação humana e de mantê-los informados no desenvolvimento e uso do aprendizado de máquina para propósitos criativos. Ela questiona a suposição de que usar o aprendizado de máquina para gerar autonomamente resultados criativos semelhantes aos humanos é em si um suporte para criadores humanos. A pesquisa de Fiebrink se expandiu para outras áreas, como prática artística e jogos, e ela enfatiza a necessidade de pensar sobre a utilidade teórica e prática do aprendizado de máquina para criadores humanos.

  • 00:05:00 Nesta seção, o palestrante discute a lacuna no conjunto de ferramentas disponível para criadores que desejam trabalhar com dados ou aprendizado de máquina nas áreas de música e arte. Enquanto várias pessoas usavam bibliotecas c plus ou Python, quase não havia ferramentas disponíveis para usar em tempo real ou para trabalhar com dados de mídia, especialmente dados de som. Muitos criadores já tinham doutorado em ciência da computação ou engenharia elétrica, e havia espaço para ferramentas mais acessíveis para criadores que queriam trabalhar com dados. O aprendizado de máquina pode ser uma ótima ferramenta para criadores que desejam entender diversos tipos de dados que os cercam, como repositórios on-line ou fontes on-line, como imagens do Google, biossensores ou dados de mídia social.

  • 00:10:00 Nesta seção, Rebecca Fiebrink explica sobre seu trabalho na construção de um software chamado Wekinator que permite o uso de aprendizado de máquina em música em tempo real em criações humanas. Ela destaca que construir um novo instrumento que responda a gestos é diferente de trabalhar com conjuntos de treinamento de verdade disponíveis no mercado. Para facilitar as coisas, o Wekinator permite que os usuários demonstrem exemplos para treinamento em tempo real e depois testem o modelo para ver onde ele comete erros. O Wekinator também permite que os usuários modifiquem os exemplos de treinamento no local. Ela então demonstrou a construção de uma bateria eletrônica controlada por gestos muito simples usando o software Wekinator que usa uma webcam para capturar movimento e reduz a entrada para uma grade de cores de 10 por 10 que fornece 100 números para facilitar a previsão de gestos ou movimentos.

  • 00:15:00 Nesta seção, o palestrante demonstra como usar o Wekinator com regressão para criar um instrumento musical que controla um algoritmo de síntese de som chamado Blotar. Este instrumento permite ao usuário controlar uma grande variedade de sons, incluindo vários presets diferentes, alterando nove parâmetros de controle. O palestrante mostra como o aprendizado de máquina pode beneficiar compositores profissionais, permitindo que eles explorem paletas de som complexas e diferenciadas.

  • 00:20:00 Nesta seção, Rebecca Fiebrink demonstra como ela usa aprendizado de máquina para controlar um instrumento de sopro chamado blowtar usando um controlador de jogo. Ela explica que encontrar manualmente boas posições no espaço de nove dimensões do instrumento seria um desafio para um programador experiente, mas o aprendizado de máquina permite que funções complexas sejam escritas facilmente. Ela mostra como, por meio do treinamento do sistema, o instrumento pode ser refinado até produzir o resultado desejado, podendo ser salvo e utilizado durante apresentações ou na composição de obras. Como pesquisador da ferramenta, Fiebrink discute as várias maneiras pelas quais os criadores usaram o aprendizado de máquina para melhorar seu trabalho e o que isso ensina.

  • 00:25:00 Nesta seção, o palestrante discute como o aprendizado de máquina pode beneficiar os criadores e permitir que mais pessoas trabalhem com dados de maneira eficaz, especialmente com sensores e análise de dados em tempo real, usando exemplos como a composição de Anne Hege através do Wekinator e Michelle Nagai instrumento musical. Eles também destacam como o aprendizado de máquina pode tornar a construção de interações criativa e mais fácil com os usos do Wekinator em campos como arte, shows de marionetes, tecnologias para pessoas com deficiência e design de protótipos interativos. O autor explica que construir interações de forma criativa por meio do aprendizado de máquina geralmente requer uma abordagem diferente do aprendizado de máquina convencional devido a seus objetivos de construir um modelo que gere saídas críveis, e como o modelo se comporta quando não atende aos propósitos torna-se um desafio.

  • 00:30:00 Nesta seção, Fiebrink explora as diferenças entre construir um modelo de aprendizado de máquina com o objetivo de fazer previsões precisas e construir um modelo de aprendizado de máquina interativo com o objetivo de construir algo útil ou divertido. Ao construir um modelo de aprendizado de máquina interativo, os dados são pensados como uma interface para comunicação entre um criador e o computador, o que significa que os dados são escolhidos subjetivamente e é improvável que sejam independentes e identicamente distribuídos (iid), o que é uma suposição comum em aprendizado de máquina. Isso pode levar ao aprendizado de poucos exemplos estrategicamente colocados. Fiebrink demonstra como um algoritmo simples como k vizinho mais próximo, quando usado interativamente, ainda pode produzir bons limites de decisão com uma pequena quantidade de dados, permitindo experimentação prática e curadoria de dados.

  • 00:35:00 Nesta seção, Rebecca Fiebrink discute os benefícios da manipulação interativa dos dados de treinamento em domínios criativos. Ela explica que permitir que as pessoas explorem muitas ideias alternativas é essencial para criar algo que satisfaça os requisitos do projeto. Fiebrink descobriu que o uso de algoritmos de aprendizado de máquina, como o Wekinator, permite que as pessoas retreinem modelos muito rapidamente e vejam os resultados imediatamente, possibilitando o suporte à prototipagem rápida de maneira muito eficaz. Ela também observa que é um desafio capturar práticas ou ações humanas em código, mesmo para programadores experientes, em domínios como pintura ou tocar instrumentos musicais.

  • 00:40:00 Nesta seção, Rebecca Fiebrink explica como o aprendizado de máquina permite que nos comuniquemos com computadores de maneira mais natural, pois permite que as pessoas comuniquem suas ideias em termos de exemplos, semelhante à forma como nos comunicamos quando falamos sobre atividades criativas entre si. O aprendizado de máquina também facilita a criação para iniciantes, aproveitando os conjuntos de big data para se adequar a um padrão. No entanto, o projeto recente de Fiebrink, chamado Sound Control, mostra a possibilidade de permitir que mais pessoas personalizem interfaces e façam coisas para si e para os outros com aprendizado de máquina. Em colaboração com professores de música e terapeutas, o Sound Control permite que eles façam instrumentos sob medida para crianças, mas também os leva a fazer outras coisas inesperadas e úteis, como fazer jogos de audição, jogos de improvisação e atividades de performance.

  • 00:45:00 Nesta seção, Rebecca Fiebrink discute como o aprendizado de máquina pode fornecer surpresas produtivas e desafios no processo de trabalho criativo. Usando ferramentas como o Wekinator, ela enfatiza a importância de ter ferramentas criativas que adicionam ideias inesperadas ao processo de trabalho. Assim, ela adverte contra a negligência de outros tipos de aprendizado de máquina ou mesmo de métodos não-aprendizado de máquina para trabalhar com dados. Ela sugere que construir com dados e aprendizado de máquina pode permitir que as pessoas façam coisas que não podiam antes e explora como aplicativos criativos podem servir como estudos de caso para tornar as outras experiências das pessoas com dados e aprendizado de máquina mais empoderadoras.

  • 00:50:00 Nesta seção, o palestrante aborda uma pergunta do público sobre os desafios de usar aprendizado de máquina com som. O palestrante reconhece que o som apresenta alguns desafios únicos em termos de subjetividade cultural, mas, em geral, o som pode ser abordado usando processos típicos de aprendizado de máquina com resultados semelhantes a outras mídias. O palestrante enfatiza que os dados e como eles são usados para abordar domínios de problemas são mais importantes do que o próprio meio. O palestrante também discute como o aprendizado de máquina pode ser usado como uma interface para criar coisas e a importância de discutir o alinhamento humano com as máquinas e quem deve definir os objetivos.

  • 00:55:00 Nesta seção, o palestrante discute a dificuldade em definir um objetivo para aprendizado de máquina e quanto disso é um processo experimental em que o criador cria um conjunto de dados, tenta algo e usa os dados para orientar o modelo para uma determinada direção. O aspecto experiencial do processo permite que o criador aprenda sobre aprendizado de máquina em um contexto específico por meio de tentativa e erro, e esse aspecto pode ser uma ferramenta poderosa para as pessoas aprenderem sobre aprendizado de máquina. Pesquisas recentes de Carrie Cai e outros também mostram que procedimentos exploratórios experimentais semelhantes podem ajudar as pessoas a criar confiança e entender o que está sendo modelado, mesmo em aplicativos em que essas pessoas podem não ter experiência anterior em aprendizado de máquina.
 

MIT 6.S192 - Aula 9: "Abstrações neurais" por Tom White



MIT 6.S192 - Aula 9: "Abstrações neurais" por Tom White

Neste vídeo, o artista e palestrante Tom White discute sua abordagem para incorporar a percepção de máquinas e redes neurais em sua prática artística. White compartilha sua experiência em estudar matemática e design gráfico no MIT e seu trabalho atual ensinando codificação criativa na Victoria University. Ele também discute sua pesquisa sobre a construção de ferramentas para ajudar outras pessoas a usar o meio de forma criativa e sua própria arte que explora a percepção da máquina. White mostra seus esboços e impressões, criados usando algoritmos de IA, e fala sobre suas colaborações com grupos musicais e suas recentes exposições de arte. Ele também discute os desafios da colaboração com redes neurais e as consequências não intencionais de colocar a arte gerada por IA na natureza.

  • 00:00:00 Nesta seção do vídeo, o artista e palestrante Tom White se apresenta e fala sobre sua formação, que inclui estudar matemática e design gráfico no Media Lab do MIT. Ele discute seu interesse em explorar a programação como uma disciplina criativa e como ele agora está ensinando codificação criativa na Victoria University em Wellington. White também menciona sua pesquisa, que se concentra na construção de ferramentas práticas para ajudar outras pessoas a usar o meio de forma criativa. Além disso, ele fala sobre sua própria prática artística separada, que ele diz que discutirá mais em sua palestra, e espera inspirar os alunos interessados em seguir caminhos semelhantes.

  • 00:05:00 Nesta seção, o palestrante fornece um esboço de sua palestra sobre abstrações neurais e sua obra de arte que explora a percepção da máquina. Ele explica que as máquinas têm suas próprias formas únicas de ver o mundo, e sua obra de arte visa expor isso a um público mais amplo. O palestrante também aborda o tema da representação e abstração da IA e como ele investiga as representações dos sistemas de visão da rede neural para transmiti-los em um contexto artístico. Ele exemplifica isso mostrando algumas de suas peças de arte com base em conjuntos de dados de imagens reais, como olhos, rostos e galinhas, e como ele introduz diagnósticos no processo para entender o mundo interno do sistema. A palestra termina com as implicações de explorar a percepção da máquina na arte e como ela pode nos ajudar a apreciar as diferentes maneiras pelas quais as máquinas percebem o mundo.

  • 00:10:00 Nesta seção, Tom White discute alguns de seus projetos iniciais durante seu tempo no MIT, incluindo sua exploração de técnicas de aprendizado de máquina para criar filtros de vídeo em tempo real, sua criação de uma interface de mão personalizada para interação multitoque , e seu projeto de arte Stream of Consciousness, que incorporou técnicas de IA, como o WordNet, para encontrar palavras relacionadas. White também fala sobre seu envolvimento na criação da biblioteca central de software Acu, que mais tarde serviu de base para sistemas como Processing e OpenFrameworks, e como seu trabalho atual envolve a criação de esboços e desenhos para processos de aprendizado de máquina.

  • 00:15:00 Nesta seção, o palestrante discute a precedência na arte que inspirou seu trabalho, começando com o artista Stuart Davis, que pegou objetos comuns e se obrigou a pintá-los repetidamente até encontrar algo novo neles. Harold Cohen foi outro artista que experimentou sistemas de desenho generativos, codificando suas ideias sobre a criação de marcas de maneira formal por meio da inteligência artificial. Trabalhando mais como um colaborador desses sistemas mais tarde na vida, a questão central de Cohen permaneceu "o que é uma imagem?" O orador então fala sobre o lado técnico do trabalho de Andy Warhol e Roy Lichtenstein na serigrafia como uma técnica que eles compartilham na execução de suas obras de arte.

  • 00:20:00 Nesta seção, o artista e palestrante Tom White discute sua técnica artística para criar impressões usando serigrafia em vez de uma técnica de pincel, que ele cria usando um sistema de visão computacional que otimiza a percepção para criar imagens que se parecem com ventiladores elétricos ou binóculos usando algoritmos de inteligência artificial. White discute como Stuart Davis aprendeu a perceber e representar objetos familiares de novas maneiras, olhando para os mesmos objetos todos os dias. Na mesma linha, White procura usar sistemas de visão computacional para introduzir novas formas de perceber e representar objetos familiares.

  • 00:25:00 Nesta seção do vídeo, o palestrante discute suas demonstrações de uso de um sistema de rede neural para criar esboços simples usando poucos traços que podem ser manipulados para criar imagens diferentes. Ele explica como criou esboços de um tubarão-martelo e um ferro usando o mesmo número de golpes e, em seguida, mostra que, ao inverter a posição dos golpes, ele pode enganar as redes neurais para ver um ferro como um tubarão e vice-versa. O palestrante demonstra como a rede neural pode criar esboços de diferentes objetos e mostra como o sistema não é afetado pela orientação à esquerda ou à direita, mas é influenciado pelas cores no conjunto de dados de treinamento fornecido.

  • 00:30:00 Nesta seção, Tom White fala sobre diferentes exemplos de aprendizado de máquina e como eles funcionam. Um exemplo é um sistema de visão computacional que usa uma amostra de copos medidores predominantemente verdes, fazendo o sistema acreditar que os copos medidores verdes são mais comuns do que realmente são. White também discute uma impressão que ele fez de um carrapato que registrou mais forte do que todos os exemplos de validação, que ele compara à arte e ao design, onde a amplificação por meio da simplificação é usada para criar uma melhor abstração de conceitos. Por fim, White apresenta sua série de abstrações sintéticas, que consiste em estampas abstratas que imitam imagens explícitas ou inseguras para o trabalho que acionam filtros nos mecanismos de busca.

  • 00:35:00 Nesta seção, o palestrante compartilha exemplos de como seus sistemas funcionam com APIs online, incluindo conjuntos de dados para baleias, pinguins e olhos. Ele também discute sua colaboração com um grupo musical onde criou conjuntos de dados personalizados, bem como suas recentes exposições de arte apresentando grupos de imagens que o computador pensa serem nós, formigas ou outros objetos. O palestrante continua falando sobre diferentes abordagens de técnicas generativas e como sua obra de arte impacta o mundo real. Ele menciona seu interesse em redes de gênero e como criou uma obra de arte usando saídas de redes neurais de rostos.

  • 00:40:00 Nesta seção, Tom White fala sobre sua exploração de redes generativas e seu trabalho com alunos de pós-graduação para criar uma ferramenta de planilha que usa amostras de um modelo generativo como ferramenta de criatividade por meio da interface de uma planilha. Outros artistas como Lena Sarin, Mario Klingemann, Robbie Barrett e Edmund Bellamy também são mencionados. White também discute os desafios da colaboração com esses sistemas para fazer arte, enfatizando o papel tanto do artista quanto do sistema no processo de cocriação. Por fim, ele fala sobre as consequências não intencionais de colocar a arte gerada por IA à solta e como podemos entendê-la por meio de técnicas de visualização e perguntando ao sistema o que ele vê.

  • 00:45:00 Nesta seção, o palestrante fala sobre técnicas semelhantes ao sonho profundo, onde uma imagem é inserida em um sistema para visualizar como ele se relaciona. O palestrante menciona como suas obras de arte colidem com sistemas do mundo real, como o filtro de conteúdo adulto do Tumblr, a API da Amazon e os escritórios acadêmicos de Sloan Kettering. Eles também discutem exemplos de como esses sistemas de visão entram em colapso ao categorizar peças de arte sob o mesmo rótulo que eles têm para os objetos do mundo real. O palestrante explica que a ideia central de sua obra de arte é entendê-la através dos olhos das máquinas, o que cria arte para e por máquinas, permitindo que as pessoas apreciem independentemente de sua experiência em aprendizado de máquina.

  • 00:50:00 Nesta seção, Tom White explica por que escolheu a serigrafia como meio de escolha para suas obras de arte físicas. Ele destaca que o trabalho físico permite que as pessoas se relacionem com ele de forma diferente das instalações interativas com telas e câmeras. Ele também explica que a serigrafia permite que ele crie trabalhos mais precisos e tem um precedente para artistas pop no mundo da arte. Tom explica ainda que fazer trabalho físico é mais difícil de realizar, pois é desafiador lidar com possíveis fotos, mas é uma maneira interessante de levar ataques adversários ao mundo físico. Além disso, ele fala sobre como a arte pode ajudar a entender melhor o viés algorítmico ou outros aspectos da IA e da segurança cibernética.

  • 00:55:00 Nesta seção, Tom White discute como o viés no conjunto de dados Celeb-A, com as mulheres sendo mais propensas a serem rotuladas como sorridentes do que os homens, pode levar ao viés em redes generativas destinadas a modificar expressões faciais. Ele observa que seu trabalho não está focado em exemplos adversários, mas sim em visualizar e compreender os estímulos que acionam as redes neurais. White também fala sobre experimentar representações simples, como traços mínimos, para facilitar a geração de saídas visuais. Ele observa que as pessoas podem reconhecer imagens em formatos de baixa resolução, inspirando-se em pesquisas de psicologia que testaram essa habilidade.

  • 01:00:00 Nesta seção, Tom White incentiva os espectadores a conferir a pesquisa no espaço de abstrações neurais e os direciona para os vídeos do workshop do ano anterior para obter mais informações. Ele enfatiza o valor da pesquisa e agradece qualquer dúvida que os espectadores possam ter.
 

MIT 6.S192 - Aula 10: "Magenta: Empowering creative agency with machine learning" por Jesse Engel



MIT 6.S192 - Aula 10: "Magenta: Empowering creative agency with machine learning" por Jesse Engel

Jesse Engel, principal cientista de pesquisa do Google Brain, discute o Magenta, um grupo de pesquisa que analisa o papel da IA e do aprendizado de máquina na criatividade e na música. O grupo se concentra principalmente em modelos de aprendizado de máquina que geram mídia e os tornam acessíveis por meio de código-fonte aberto e uma estrutura chamada magenta.js, que permite a criação de modelos criativos interativos em Javascript. Engel enfatiza a importância de ver a música como uma plataforma social e evolutiva para a identidade e conexão cultural, em vez de uma mercadoria a ser produzida e consumida de forma barata. Eles exploram como o aprendizado de máquina pode capacitar indivíduos com novas formas de agência criativa por meio de expressividade, interatividade e adaptabilidade. A palestra abrange vários tópicos, incluindo a criação de modelos de aprendizado de máquina para música, usando convolução dilatada para saídas preditivas, processamento de sinal digital diferenciável e criação de sistemas de aprendizado de máquina que produzem belas falhas. Além disso, ele fala sobre os desafios colaborativos com artistas e o grande desafio de sair da distribuição e da composicionalidade em modelos de aprendizagem.

  • 00:00:00 Nesta seção, Jesse Engel, principal pesquisador do Google Brain, discute o Magenta, um grupo de pesquisa que analisa o papel da IA e do aprendizado de máquina na criatividade e na música. O grupo se concentra principalmente em modelos de aprendizado de máquina que geram mídia e os tornam acessíveis por meio de código-fonte aberto e uma estrutura chamada magenta.js, que permite a criação de modelos criativos interativos em Javascript. Engel enfatiza a importância de ver a música como uma plataforma social e evolutiva para a identidade e conexão cultural, em vez de uma mercadoria a ser produzida e consumida de forma barata. Eles exploram como o aprendizado de máquina pode capacitar indivíduos com novas formas de agência criativa por meio de expressividade, interatividade e adaptabilidade.

  • 00:05:00 Nesta seção, Jesse Engel fala sobre a criação de modelos de aprendizado de máquina que são mais hackáveis e requerem menos dados para treinar, especificamente no contexto da música. Ele discute as compensações entre as diferentes facetas do projeto de algoritmos, como torná-los de baixa latência com controles causais intuitivos, enquanto ainda são expressivos e adaptativos. Ele compara dois modelos de aprendizado de máquina - o Jukenbox openai que modela a forma de onda de áudio bruto de forma muito realista, exigindo toneladas e toneladas de dados e rabiscos que modelam a música como dados estruturados, mas com sons irrealistas. Ele termina discutindo a abordagem que o grupo está adotando, que é usar a estrutura dentro do modelo para conciliar interpretabilidade e expressividade.

  • 00:10:00 Nesta seção, Jesse Engel discute o estado da arte anterior dos modelos de transcrição de áudio e como eles eram limitados quando se tratava de prever notas com precisão de uma forma que correspondia à percepção humana. Ele demonstra como os erros em quadros individuais não importam tanto quanto quando as notas realmente começam, e como uma nova arquitetura de rede neural foi criada para combinar melhor a função de perda com o que nos interessa - como a música soa quando a tocamos voltar. O novo modelo de última geração foi capaz de obter uma transcrição precisa mesmo quando o áudio estava "à solta", como demonstrado por um pianista tocando em seu telefone celular.

  • 00:15:00 Nesta seção do vídeo, Jesse Engel, do Google Brain, explica a importância dos conjuntos de dados em redes neurais, usando o exemplo de um grande conjunto de dados da competição internacional de e-piano. Ele discute o uso de redes neurais, como redes neurais recorrentes (RNNs) e a arquitetura transformadora, para modelar sequências musicais e o desafio de tokenizar notas musicais. Para enfrentar esse desafio, eles criaram um vocabulário para reconhecer eventos musicais individuais e carimbos de data/hora. Ao representar com precisão micro temporização, velocidade e variações nos dados, os modelos são capazes de produzir música com som mais natural.

  • 00:20:00 Nesta seção da palestra, Jesse Engel explica como a equipe Magenta começou com apenas um motivo original e usou um modelo autorregressivo chamado LSTM para prever o próximo token dado os tokens anteriores. No entanto, devido à coerência de longo prazo limitada do LSTM, eles implementaram o transformador para acompanhar todos os dados anteriores para melhorar a coerência. Com isso, eles poderiam transcrever áudio bruto para obter milhares de horas de música simbólica, permitindo treinar modelos com muito mais coerência de longo prazo. Para dar um controle mais intuitivo, a equipe também extraiu a melodia e a usou como um controle do qual a geração depende. Eles poderiam então usar esse modelo como um sintetizador neural para sons diferentes, e os parâmetros poderiam ser ajustados para conjuntos de sons específicos.

  • 00:25:00 Nesta seção do vídeo, Jesse Engel explica os aspectos técnicos dos processos de convolução dilatada do Magenta para uma rede neural prever resultados com base em controles de alto nível. Ao usar a convolução dilatada, o sistema é capaz de olhar para um grande escopo de tempo sem reduzir a amostragem e evitar a perda de informações enquanto é expressivo. No entanto, o processo é lento e requer condicionamento de longo prazo para uma estrutura de longo prazo. Através do uso de condicionamento de notas, o sistema é capaz de gerar performances realistas com representações intermediárias interpretáveis.

  • 00:30:00 Nesta seção, aprenderemos sobre DDSP, ou processamento de sinal digital diferenciável. Jesse Engel propõe a integração de métodos tradicionais de processamento de sinal, como osciladores, filtros e sintetizadores, com aprendizado profundo para criar um sistema mais eficiente, realista e responsivo. Em vez de ter uma rede neural criando áudio diretamente, elementos de processamento de sinal conhecidos são usados e uma rede neural os controla para produzir saídas expressivas. Os módulos DDSP são interpretáveis e eficientes, e o som pode ser modelado por esses osciladores senoidais de frequência variável. O DDSP usa oscilação harmônica e equações diferenciais de segunda ordem para maior flexibilidade na modelagem de áudio. O DDSP não é apenas componentes periódicos, mas também inclui elementos de ruído, que podem ser modelados aleatoriamente com diferentes filtros. Ao controlar esses elementos de síntese usando um decodificador de rede neural, pode ser gerado um áudio que se compara favoravelmente ao áudio original.

  • 00:35:00 Nesta seção da palestra, o palestrante explica como eles podem treinar o decodificador para criar síntese de alta qualidade com menos dados executando espectrogramas através do modelo e, em seguida, ressintetizando-o. Isso permite que o modelo transforme o tom e o volume em um som de flauta, som de violino e até mesmo transfira tons de timbre de estilos de canto. Eles também podem desativar diferentes componentes do modelo, como reverberação e harmônicos, para inspecionar atributos individuais. O modelo pode ser compactado em modelos com menos de um megabyte para implementação de operação em tempo real em um navegador. O modelo DDSP pode ser aplicado a uma ampla gama de culturas, tornando-o capaz de preservar variações e mudanças microtonais.

  • 00:40:00 Nesta seção, Jesse Engel discute o projeto Magenta e seu objetivo de capacitar a agência criativa usando aprendizado de máquina. Ele explica que eles receberam respostas positivas de músicos que consideram a ferramenta útil em seu processo criativo, em vez de substituí-la. A equipe da Magenta está focada na criação de um ecossistema mais amplo, incluindo uma interface da web para modelos de treinamento, implantação em aplicativos da web e plug-ins em tempo real para software de música. Engel observa que o sistema é mais interativo, em tempo real e adaptativo, mas ainda há espaço para melhorias em termos de expressividade e diversos modelos interativos. A equipe está explorando modelos não supervisionados para aprender a estrutura e os rótulos dos dados. Eles têm várias demonstrações, software e ferramentas profissionais disponíveis em seu site para qualquer um experimentar.

  • 00:45:00 Nesta seção, Jesse Engel explica que a criação de sistemas de aprendizado de máquina que produzem belas falhas é uma maneira de pensar sobre a criação de sistemas que os artistas podem usar. Por exemplo, as limitações projetadas nas baterias eletrônicas originais acabaram sendo sua característica definidora, o que fez com que os músicos de hip-hop e eletrônicos usassem os sons de maneiras divertidas e artísticas. Além disso, Engel discute a relação entre interpretabilidade e interatividade e sugere que a linguagem e as suposições usadas pelos modelos de aprendizado de máquina podem ser a solução para a criação de APIs que atuam como intermediárias entre o software e o usuário para máxima interpretabilidade.

  • 00:50:00 Nesta seção do vídeo, Jesse Engel discute os desafios de impor uma estrutura para generalização ao projetar modelos que possam atender ao público-alvo. Ele explica como as redes neurais podem emular a mecânica newtoniana em um conjunto específico de imagens, mas lutam para extrapolar quando um aspecto da imagem muda. Ele também comenta como construir modelos que se adaptam à intensidade da música ou ao volume do bumbo pode ser uma ideia fascinante. A discussão sobre colaborações com artistas também é levantada, mas Jesse explica que é um desafio devido às limitações e seu sistema de promoção baseado em pesquisa. A discussão está ligada ao grande desafio de sair da distribuição e da composicionalidade nos modelos de aprendizagem.
 

MIT 6.S192 - Aula 11: "Biodiversidade Artificial", Sofia Crespo e Feileacan McCormick



MIT 6.S192 - Aula 11: "Biodiversidade Artificial", Sofia Crespo e Feileacan McCormick

Nesta palestra sobre "Biodiversidade Artificial", Sofia Crespo e Feileacan McCormick exploram a interseção entre tecnologia e natureza para produzir formas únicas de arte. A dupla discute seu interesse e uso do aprendizado de máquina e sua conexão com a beleza e destaca as limitações da percepção humana. Eles também discutem seus projetos colaborativos, incluindo "Entangled Others", onde defendem a representação de espécies individuais e seus complexos emaranhados para criar uma melhor compreensão dos sistemas ecológicos. Os palestrantes enfatizam a importância da sustentabilidade e colaboração na prática artística e a relação entre ferramentas e arte, afirmando que os algoritmos não podem substituir os artistas humanos.

  • 00:00:00 Nesta seção, Sofia Crespo e Feileacan McCormick discutem o conceito de biodiversidade artificial e exploram a questão do que torna algo bonito no domínio do aprendizado de máquina. A dupla considera se a beleza está no conjunto de dados usado para treinar redes neurais, no processo de treinamento do modelo ou na interação entre camadas de neurônios virtuais no cérebro. Eles também traçam paralelos entre o ato de treinar uma rede neural e a meditação, já que ambos envolvem a curadoria de um conjunto de dados e a exploração de padrões. No geral, a discussão destaca as maneiras pelas quais a tecnologia e a natureza podem se cruzar para produzir formas únicas de arte.

  • 00:05:00 Nesta secção, Sofia Crespo fala do seu fascínio pelas medusas e das limitações da percepção humana em termos de cor. Ela explica que seu interesse por águas-vivas a levou a explorar águas-vivas sintéticas por meio de algoritmos de aprendizado de máquina. Ela pondera sobre a questão do que as redes neurais artificiais podem nos ensinar sobre nossos processos cognitivos e o conceito de "natureza" e como visualizá-lo. Crespo também discute o artigo de Aaron Hertzmann sobre indeterminação visual na arte gan, que explora como estímulos visuais significativos podem ser visualmente indeterminados e desencadear respostas cognitivas.

  • 00:10:00 Nesta seção, os palestrantes discutem seu interesse e uso do aprendizado de máquina e sua conexão com a beleza. Eles explicam que, ao trabalhar com aprendizado de máquina, eles trabalham dentro de uma esfera muito humana, utilizando conjuntos de dados criados por humanos e, portanto, abordando suposições visuais humanas da natureza. Os palestrantes sugerem que a tecnologia é parte da natureza, já que os humanos são parte da natureza, e essa ideia de que a tecnologia é uma entidade separada da natureza é falha. Além disso, os palestrantes discutem a definição de vida artificial e destacam que ela pode ser compreendida em diversas disciplinas, como software, arte ou mesmo wetware, hardware e genética. Eles usam o trabalho de Karl Sim em criaturas artificiais evoluídas para demonstrar a capacidade dos primitivos de incorporar qualidades semelhantes à vida e, junto com seu comportamento, emergir um senso de competitividade e ações orientadas para objetivos.

  • 00:15:00 Nesta seção, aprendemos como as redes neurais artificiais podem criar criaturas e linguagens fantásticas, muito parecido com o Codex Seraphinianus de Luigi Serafini. Essas criações são uma recombinação remixada do conhecimento humano de botânica, zoologia, linguagem e arquitetura. Apesar de sua artificialidade, eles mostram uma diversidade notável na diversidade. A palestra também fala sobre Anna Atkins, fotógrafa e botânica do século 19 que criou a técnica do cianótipo. O palestrante combinou a técnica de Atkins com a rede neural convolucional para gerar criaturas semelhantes à vida, que foram impressas usando a técnica de cianotipia. Esse projeto se chama História Natural Artificial, um livro que mostra como os humanos viam a natureza antes da existência das câmeras.

  • 00:20:00 Nesta seção, Sofia Crespo e Feileacan McCormick discutem seu projeto colaborativo, "Entangled Others", onde defendem a representação não apenas de espécies individuais, mas também de seus complexos emaranhados para criar uma melhor compreensão dos sistemas ecológicos. Eles explicam seu primeiro projeto, "Remanescentes Artificiais", onde geraram modelos 3D de insetos e criaram uma experiência de realidade aumentada para as pessoas interagirem com as criaturas digitais. O sucesso deste projeto levou ao seu mais recente esforço, que envolveu a construção de um ecossistema e a exploração do conceito abstrato de existir em um relacionamento. No entanto, devido ao COVID-19, seus planos de exibição foram alterados.

  • 00:25:00 Nesta seção, os palestrantes discutem seu projeto sobre uma "biodiversidade artificial" e como eles se voltaram para os recifes de coral como um exemplo da interconectividade dos ecossistemas. No entanto, devido à falta de dados, eles tiveram que trabalhar com um artista para criar corais sintéticos a fim de imitar a diversidade de morfologias dos corais. Eles reconhecem que esta é uma representação subjetiva, pois não é um reflexo preciso do complexo sistema de um recife de coral, mas ainda nos lembra de suas qualidades. Eles também falam sobre o aspecto fascinante de colocar a natureza em destaque por meio de uma representação abstrata dos padrões da natureza e trabalhar com biomateriais foi um desafio de aprendizado.

  • 00:30:00 Nesta seção, os palestrantes discutem como se esforçaram para priorizar a sustentabilidade, colaborando com um estúdio especializado na criação de bioplástico a partir de caroços de azeitona descartados. Esse material pode ser derretido e reaproveitado várias vezes, permitindo que eles criem exposições e, em seguida, reaproveitem o material para projetos futuros. Eles enfatizam que é crucial para os artistas que trabalham com a natureza pensar de forma sustentável e considerar as consequências físicas das camadas digitais, especialmente usando aprendizado de máquina na prática artística. Eles também enfatizam a importância da colaboração e das interações interdisciplinares para fortalecer conexões e criar novas, o que os levou a abrir um chamado para que outras pessoas os procurassem para colaborações, conversas e muito mais. A discussão também toca na filosofia e nas referências Platão e Deleuze e Guattari.

  • 00:35:00 Nesta seção, as artistas Sofia Crespo e Feileacan McCormick discutem a relação entre ferramentas e arte. Eles explicam que, assim como um lápis molda a maneira como desenhamos, as ferramentas digitais também têm qualidades de modelagem. Eles também abordam a importância de não esquecer a perspectiva artística ao criar arte generativa e digital, e por que é necessário questionar não apenas as soluções técnicas, mas também o porquê, como e o quê. Eles afirmam que é essencial nos lembrarmos de que a arte é feita para o consumo humano e que os algoritmos não podem substituir os artistas humanos.
 

MIT 6.S192 - Aula 12: "IA + Criatividade, a perspectiva de um nerd da arte" por Jason Bailey



MIT 6.S192 - Aula 12: "IA + Criatividade, a perspectiva de um nerd da arte" por Jason Bailey

Jason Bailey discute como o aprendizado de máquina está impactando o campo da arte, desde a detecção de falsificações até a previsão de preços. Ele exorta os artistas a estarem cientes dos vieses inerentes à arte baseada em dados e insiste na necessidade de dados de treinamento que incluam todas as perspectivas.

  • 00:00:00 Jason Bailey é um palestrante do MIT que discutirá IA e criatividade. Ele tem formação em engenharia e marketing e traz essa experiência para sua palestra sobre a interseção entre arte e tecnologia. Bailey se concentrará em três áreas principais: história da arte, previsão de preços no mercado de arte e uso de IA e ML nas artes criativas.

  • 00:05:00 Jason Bailey descreve como se interessou pelo problema da falsificação na arte e como passou três anos digitalizando livros de grande formato para criar um banco de dados de obras completas de artistas. Ele fala sobre como é raro e difícil encontrar esses currículos de catálogo e como recentemente alguém relançou uma versão popular por cerca de US $ 2.000.

  • 00:10:00 O blog "artnome.com" de Jason Bailey explora maneiras de usar dados para entender e criticar melhor a arte. Em 2017, seu blog recebeu atenção do 538, que publicou uma reportagem sobre seu projeto "Ai for Art Scholarship: What Does That Look Like?" Depois de compartilhar links para seus projetos e publicações em sua palestra, Bailey fornece um resumo de 1 parágrafo de sua palestra.

  • 00:15:00 Jason Bailey discute como o aprendizado de máquina é útil na história da arte, particularmente na análise de pinturas e na compreensão da história da arte. Ele também fala sobre seu projeto recente, que envolveu o treinamento de um modelo de aprendizado de máquina para identificar pinturas icônicas do mesmo artista em diferentes museus.

  • 00:20:00 A palestra de Jason Bailey explora as relações entre os preços das pinturas e os pixels individuais que compõem as pinturas, bem como as tendências do mercado de arte. Sua plataforma de aprendizado de máquina foi capaz de prever preços de pinturas do pintor espanhol Pablo Picasso com uma correlação de 0,58.

  • 00:25:00 Jason Bailey discute o estado atual do aprendizado de máquina e seu impacto no mundo da arte. Ele fala sobre como o aprendizado de máquina está sendo usado para criar arte mais realista e surreal, e como essa inovação recentemente despertou um interesse renovado no campo.

  • 00:30:00 Jason Bailey dá uma palestra sobre inteligência artificial e criatividade, descrevendo como o sonho profundo e a transferência de estilo podem ser usados para criar arte. Ele fala sobre suas próprias experiências com essas tecnologias e como elas não foram tão empolgantes para ele quanto quando as descobriu. Ele termina a palestra discutindo a obra do artista francês Robbie Barrett.

  • 00:35:00 Jason Bailey dá uma palestra sobre IA e criatividade, discutindo como o treinamento em arte tradicional é insuficiente para lidar com os dias atuais, quando IA e arte generativa prevalecem. Ele discute como sua formação em arte permite que ele se conecte com artistas e promotores de arte generativa e como seu próprio trabalho foi influenciado por esses artistas.

  • 00:40:00 Jason Bailey discute como a tecnologia e a arte se cruzaram no passado e como a análise de dados pode ajudar os artistas a medir a abstração. Ele também menciona um projeto em que esteve envolvido em que calcularam a abstração na carreira de um pintor.

  • 00:45:00 Jason Bailey explica como o algoritmo de sua equipe pode ser usado para prever os preços das pinturas, com base em vários fatores, como a popularidade histórica do artista, a complexidade da pintura e o material usado na pintura. Ele também observa que o algoritmo ainda está em seus estágios iniciais e que mais pesquisas são necessárias para melhorá-lo.

  • 00:50:00 Nesta palestra, Jason Bailey discute como ele usa dados de leilões para estudar a criatividade, bem como incorporou outros campos, como arte e natureza, em seus modelos.

  • 00:55:00 Jason Bailey discute o impacto da IA na criatividade, enfatizando a necessidade de dados de treinamento que incluam todas as perspectivas. Ele também discute as possíveis consequências de algoritmos de IA tendenciosos. Por fim, ele exorta os artistas a estarem cientes dos preconceitos inerentes à arte baseada em dados.
 

MIT 6.S192 - Aula 13: "Superfícies, Objetos, Procedimentos: Integrando Aprendizagem e Gráficos para Entendimento de Cena 3D" por Jiajun Wu



MIT 6.S192 - Aula 13: "Superfícies, Objetos, Procedimentos: Integrando Aprendizagem e Gráficos para Entendimento de Cena 3D" por Jiajun Wu

Jiajun Wu, professor assistente em Stanford, discute sua pesquisa sobre compreensão de cena em máquinas por meio da integração de aprendizado profundo e conhecimento de domínio de gráficos de computador. Wu propõe uma abordagem em duas etapas para recuperar a geometria de um objeto 3D a partir de uma única imagem, estimando a superfície visível por meio do mapa de profundidade e completando a forma com base no conhecimento prévio de um grande conjunto de dados de outras formas semelhantes. Wu também propõe o uso de mapas esféricos como uma representação substituta para superfícies em 3D para capturar melhor os recursos da superfície, permitindo que o sistema complete formas em uma saída mais detalhada e suave. Além disso, Wu discute como a reconstrução de formas em programas de forma pode melhorar significativamente a modelagem e a reconstrução, especialmente para objetos abstratos e artificiais. Por fim, Wu discute como o conhecimento de domínio da computação gráfica pode ser integrado ao aprendizado de máquina para melhorar a reconstrução de formas, a síntese de texturas e a compreensão da cena.

  • 00:00:00 Nesta seção do vídeo, Jiajun Wu, professor assistente em Stanford, discute sua pesquisa sobre compreensão de cena em máquinas por meio da integração de aprendizado profundo e conhecimento de domínio de computação gráfica. Ao replicar a cognição humana, seu objetivo é construir máquinas que tenham uma compreensão abrangente das cenas, incluindo categorias de objetos, geometria 3D, propriedades físicas e previsões futuras. A pesquisa de Wu também visa preencher a lacuna entre aprendizado de máquina e arte, criando um modelo híbrido que integra conhecimento de domínio de gráficos de computador com aprendizado profundo. Essa abordagem permite novas possibilidades na edição e geração de imagens, bem como a criatividade na aplicação do aprendizado profundo.

  • 00:05:00 Nesta seção da palestra, Jiajun Wu discute o problema de recuperar a geometria de um objeto 3D a partir de uma única imagem, que pode ser visto como o inverso do problema clássico em computação gráfica de gerar uma imagem 2D a partir de uma forma 3D , textura, iluminação, material e ponto de vista. Embora uma rede neural possa ser treinada para executar a tarefa, Wu sugere que a integração do conhecimento prévio de gráficos de computador pode melhorar o desempenho, a eficiência e a capacidade de generalização. Ele propõe uma abordagem em duas etapas para resolver o problema: primeiro, estimar a superfície visível por meio do mapa de profundidade e, segundo, completar a forma com base no conhecimento prévio de um grande conjunto de dados de outras formas semelhantes.

  • 00:10:00 Nesta seção, Jiajun Wu discute a importância de usar a profundidade como uma representação intermediária para capturar superfícies de objetos e detalhes em formas. Ao treinar um modelo no conjunto de dados ShapeNet e obter amostras aleatórias de formas dele, Wu demonstra que essa abordagem melhora muito a precisão da saída. No entanto, ele reconhece que generalizar para objetos que o modelo nunca viu antes pode ser um desafio, levando a interpretações errôneas dos dados. Para resolver isso, Wu propõe a construção de uma camada diferencial que projeta uma representação 2D em uma representação 3D, permitindo que o sistema determine um processo determinístico e totalmente diferenciável para formas completas.

  • 00:15:00 Nesta seção, o palestrante discute as limitações de usar uma superfície parcial para objetos em 3D, especificamente que muitas áreas do espaço 3D estão vazias, o que torna difícil para a rede de conclusão capturar características de superfície. Para resolver isso, o palestrante propõe o uso de mapas esféricos como uma representação substituta para superfícies em 3D, onde cada pixel corresponde a um ponto na superfície, e nenhuma representação é desperdiçada. O pipeline pega uma profundidade estimada e a projeta em um mapa esférico parcial, que pode ser concluído usando uma rede de conclusão em um espaço de mapa esférico. Esse novo método resulta em uma saída muito mais suave e detalhada e é generalizável para categorias de objetos que não foram vistas durante o treinamento.

  • 00:20:00 Nesta seção, Jiajun Wu discute como representações intermediárias e retroprojeção podem ajudar a construir um melhor sistema de reconstrução de forma que seja mais generalizável. Usando exemplos de testes em humanos e cavalos, Wu observa que o sistema é capaz de reconstruir objetos de maneira relativamente razoável a partir de uma única visão, sem ver previamente objetos deformáveis, indicando que o sistema pode ser usado para construir sistemas de visão melhores. Wu também explica como as representações intermediárias de superfícies e a projeção frontal podem ajudar a melhorar a renderização, permitindo a síntese de novas formas e texturas de objetos com mais controle sobre os fatores independentes.

  • 00:25:00 Nesta seção, Jiajun Wu discute o processo de combinação de técnicas anteriores para estendê-las às cenas. Primeiro, ele usa sistemas de inversão para obter representações da geometria, pose e texturas dos objetos, incluindo representações latentes para segmentos de fundo não semelhantes a objetos, como árvores ou céu. Em seguida, ele edita essas representações para ver como diferentes mudanças na cena, como aproximar um carro ou alterar sua textura, afetam a imagem geral. Wu enfatiza a importância de entender que os objetos possuem geometria 3D, pois isso permite que o método produza resultados completos e precisos. Por fim, ele discute o desafio da abstração de formas ao reconstruir objetos feitos pelo homem, como tabelas, e como a incorporação de representações abstratas e semelhantes a programas pode levar a melhores resultados.

  • 00:30:00 Nesta seção, Wu discute como a reconstrução de formas em programas de formas pode melhorar significativamente a modelagem e a reconstrução, especialmente para objetos como móveis. Além disso, ele explica como estruturas processuais como replicação e simetria podem ser aproveitadas para a criação de conteúdo, por exemplo, por meio de um algoritmo que pode orientar a projeção 3D para o projeto de construção. Para conectar imagens 2D brutas e espaço 3D, a equipe de Wu se inspirou em uma busca estocástica para detectar primitivos como linhas e triângulos em dados visuais e agora está tentando sintetizar formas de primitivos 3D para guiar a detecção de imagens.

  • 00:35:00 Nesta seção, Jiajun Wu discute como o aprendizado interno pode ser usado para aprender tudo a partir de uma única imagem a partir de estatísticas de imagem, observando que dentro de uma única imagem os patches podem se repetir, e essa repetição pode ocorrer em escalas. Ao usar ativações neuronais para identificar objetos repetidos em uma única imagem, os primitivos encontrados podem ser linhas, retângulos, esferas ou cilindros, e as redes neurais podem aprender recursos para identificar e sintetizar programas no topo dos centróides desses objetos repetidos. Isso pode ajudar a resolver vários problemas, como conclusão ou extrapolação de imagem e edição de regularidade para tornar as cenas mais irregulares.

  • 00:40:00 Nesta seção, o palestrante discute como aplicar seu programa a imagens 3D, que são mais complexas do que um único plano. O problema aqui é particionar a imagem em vários planos considerando a orientação e os níveis de superfície de cada plano. O palestrante sugere o uso de dicas visuais, como pontos de fuga e wireframes, para resolver isso. No entanto, os recursos de wireframe podem ser ruidosos e pode haver várias partições de plano candidatas possíveis. Usando o conhecimento de cima para baixo de seu programa, eles podem retificar os planos candidatos para imagens 2D e executar a síntese do programa para encontrar a partição correta da imagem. Isso pode ajudá-los a encontrar os melhores resultados de operação conjunta e síntese de imagem, que os métodos tradicionais não conseguem.

  • 00:45:00 Nesta seção, Jiajun Wu discutiu como o conhecimento de domínio da computação gráfica pode ser integrado ao aprendizado de máquina para melhorar a reconstrução de formas, síntese de texturas e compreensão de cenas. Wu enfatizou que a compreensão das cenas é baseada na estrutura causal mínima, mas universal, por trás dos dados visuais: objetos, superfícies, projeções e oclusões. Ao integrar aprendizado e aprendizado de máquina, Wu acredita que há maior potencial na criação de modelos 3D mais aprimorados que vão além das imagens 2D tradicionais. Embora Wu e sua equipe não tenham se aprofundado na impressão 3D, eles estão interessados na modelagem de formas 3D e na possibilidade de usar procedimentos inferidos por trás desses modelos.
 

MIT 6.S192 - Aula 14: "Para criar mecanismos de inovação abertos infinitamente criativos" por Jeff Clune



MIT 6.S192 - Aula 14: "Para criar mecanismos de inovação abertos infinitamente criativos" por Jeff Clune

Jeff Clune, um pesquisador da OpenAI, discute seu trabalho na criação de mecanismos de inovação abertos infinitamente criativos nesta palestra do MIT. Ele busca criar algoritmos que possam realizar a evolução natural e a receita da cultura humana de começar com um conjunto de coisas, gerar coisas novas, avaliar para manter o que é interessante e modificá-lo para manter a novidade interessante. Clune explora o uso de redes neurais para reconhecer coisas novas, fala sobre o algoritmo Map Elites e apresenta redes de produção de padrões de composição para codificação. Ele mostra como essas ferramentas podem ser combinadas para gerar imagens complexas e diversificadas, resolver problemas difíceis e criar algoritmos abertos que podem inovar constantemente suas soluções para desafios.

  • 00:00:00 Nesta seção, Jeff Clune, professor associado de ciência da computação na University of British Columbia e líder da equipe de pesquisa da OpenAI, discute sua pesquisa sobre a criação de mecanismos de inovação abertos infinitamente criativos. Ele reflete sobre sua jornada pessoal, começando na filosofia e depois mudando para a construção de sistemas computacionais para enfrentar o grande desafio da IA. Clune está interessado em criar algoritmos abertos, que inovam incessantemente e são vistos nas infinitas criações da natureza, como os complexos projetos de engenharia de onças e falcões.

  • 00:05:00 Nesta seção, o palestrante discute o conceito de motores de inovação que ele define como a receita seguida pela evolução natural e pela cultura humana que permite que eles sejam criativos. Essa receita envolve começar com um conjunto de coisas, gerar algo novo, avaliar se é interessante e reter e modificar resultados interessantes. O palestrante pretende criar um algoritmo que possa realizar esse processo automaticamente sem intervenção humana a longo prazo. No entanto, o maior desafio é evitar gerar novidades desinteressantes e gerar apenas novidades interessantes. O palestrante sugere o uso de redes neurais para reconhecer um grande número de classes para reconhecer novos tipos de coisas e produzir resultados interessantes.

  • 00:10:00 Nesta seção, Jeff Clune discute um algoritmo chamado Map Elites e seu lugar no campo da busca algorítmica. Ele explica que muitos problemas difíceis exigem explorar e descobrir coisas novas, em vez de apenas otimizar para um objetivo, e que isso deve ser refletido nos algoritmos. Clune e seus colegas têm trabalhado em um novo subcampo chamado Quality Diversity Algorithms, que visa encontrar um conjunto amplo e diversificado de soluções que sejam as melhores possíveis para esse tipo de solução. O algoritmo procura alternar entre objetivos ao progredir em outra tarefa, acreditando que esta pode ser a única maneira de resolver problemas realmente difíceis.

  • 00:15:00 Nesta seção, Jeff Clune, um pesquisador que trabalha na interseção da biologia e da inteligência artificial, descreve o algoritmo Map Elites, que é usado para otimizar soluções de acordo com alguns critérios. Clune explica que ele e seus colegas aplicaram o Map Elites a um problema de robótica, gerando morfologias de robôs leves com um algoritmo genético, resultando em uma gama diversificada de criaturas. No entanto, a equipe não ficou satisfeita porque percebeu que cada criatura era quase idêntica, e o algoritmo só produziu uma diversidade de designs iniciando uma nova busca. Para remediar isso, Clune aplicou o algoritmo Map Elites ao mesmo problema, desta vez escolhendo o número de voxels e a quantidade de um determinado material como dimensões de interesse, em vez de usar o algoritmo de otimização canônica. Ele descobriu que o algoritmo explorava um espaço muito mais amplo de possibilidades e, finalmente, produzia resultados muito melhores. Além disso, Clune descreveu como a codificação que eles usam, chamada Rede de Produção de Padrões de Composição (CPPN), é crítica para resolver o problema em que eles estavam trabalhando em uma seção posterior.

  • 00:20:00 Nesta seção da palestra, Jeff Clune discute a escolha de codificação em aprendizado profundo e algoritmos evolutivos. Na codificação direta, cada recurso no artefato final é representado por um número no vetor de parâmetros, enquanto na codificação generativa, as informações no vetor de parâmetros são reutilizadas para produzir o produto final, resultando em produtos mais regulares ou padronizados. A Nature usa codificação generativa usando padrões geométricos para determinar o destino da célula, que é o tipo de célula em que cada célula se torna, com base na localização da célula no corpo. Essa abordagem é vista como uma língua franca na biologia do desenvolvimento, onde padrões pré-existentes são combinados para criar novos padrões no produto final.

  • 00:25:00 Nesta seção, Jeff Clune, pesquisador da OpenAI, discute como usar eficientemente o poder da biologia do desenvolvimento para criar sistemas de IA abertos. Ele sugere o uso de Redes de Produção de Padrões de Composição (CPPNs), que abstraem muito do poder dos sistemas naturais sem nenhuma das químicas subjacentes, para codificar localizações geométricas em função de elementos fenotípicos. Ao fornecer coordenadas a um artefato para otimizar elementos fenotípicos, como uma rede neural ou morfologia de robô, os CPPNs podem produzir complexidade arbitrária por meio da mistura e combinação de temas assimétricos e simétricos e repetitivos. Clune e sua equipe colocaram essa ideia em três dimensões, construindo um site chamado infinityforms.com, onde os usuários podem pegar as formas evoluídas uns dos outros para produzir um arquivo crescente de trampolins.

  • 00:30:00 Nesta seção da palestra, Jeff Clune discute o uso de CPPNs para automatizar o design e imprimir em 3D imagens complexas arbitrárias, demonstrando o poder dessas ferramentas para eliminar barreiras técnicas e gerar designs criativos facilmente. Ele então aplica CPPNs à tarefa de criar um algoritmo aberto e os otimiza para classificar cada um dos milhares de bins no ImageNet. Clune descreve como a hipótese de melhor desempenho foi testada, resultando em imagens que frequentemente se assemelhavam à categoria a que estavam associadas ou evocavam uma interpretação artística do conceito. Apesar de gerar algumas "imagens enganosas", esse processo de geração permitiu que a equipe explorasse um espaço estético totalmente novo, ao mesmo tempo em que demonstrava as falhas inerentes às redes neurais profundas que levaram a imagens adversárias.

  • 00:35:00 Nesta seção, Jeff Clune discute as qualidades do algoritmo de diversidade que ele e sua equipe desenvolveram, que é capaz de gerar diversas imagens de alta qualidade. O algoritmo produz um conjunto diversificado de imagens, algumas das quais são esteticamente interessantes e podem ser usadas para fins práticos, como logotipos de empresas. Ele também explica como a capacidade de troca de objetivos do algoritmo permite que ocorram radiações adaptativas, à semelhança do que ocorre na biologia e nos campos tecnológicos. Ele fornece informações sobre os processos evolutivos que ocorrem dentro do algoritmo, apresentando gráficos e árvores filogenéticas que demonstram o nascimento e a evolução de ideias inovadoras. Além disso, ele compartilha que o algoritmo e suas saídas passaram no teste artístico de Turing, sendo confundido com arte criada por humanos em vez de IA.

  • 00:40:00 Nesta seção, Jeff Clune apresenta a ideia de algoritmos de diversidade de qualidade (QD), que podem produzir diversas soluções com bom desempenho e capacidade de alternar objetivos. Ele discute seu uso na solução de desafios, como robôs que podem se adaptar a danos e explorar desafios de exploração difíceis, como Montezuma's Revenge and Pitfall. Ele observa que, embora os algoritmos QD tenham potencial para inovar, eles ainda não são abertos e são limitados pelo ambiente. Jeff Clune então propõe a ideia de criar algoritmos abertos, como o algoritmo Paired Open-Ended Trailblazer (POET), que pode gerar infinitamente ambientes de aprendizado interessantes, complexos e diversos e suas soluções. O algoritmo POET é projetado para gerar novos ambientes de aprendizagem que não sejam muito fáceis, nem muito difíceis para a população atual de agentes, otimizando os agentes para melhor resolver cada um dos desafios e permitindo a troca de objetivos entre eles.

  • 00:45:00 Nesta seção, Jeff Clune discute o conceito de "mudança de meta" - a capacidade de um sistema competir em um ambiente, progredir e depois passar para outro ambiente. Ele mostra um algoritmo RL atravessando terrenos que automaticamente criam ambientes cada vez mais difíceis. Clune explica que essa é uma forma de medir o progresso e superar os ótimos locais. Ele apresenta o algoritmo 'poeta' e mostra como é a única maneira de resolver problemas difíceis. Ele demonstra que a poesia é essencial para superar os ótimos locais, como visto em uma tarefa em que um robô recém-otimizado invade um ambiente antigo, substituindo a encarnação anterior. Clune observa que esse tipo de inovação complexa pode abrir caminho para simulações mais avançadas.

  • 00:50:00 Nesta seção da palestra, Jeff Clune discute o potencial de combinar a otimização corporal com a geração de ambiente para criar criaturas otimizadas para ambientes específicos da mesma forma que as aranhas que vivem em cavernas. Ele também sugere emparelhar mecanismos de inovação como Dali com algoritmos que inventam o desafio e a solução e, em seguida, detectam o que há de interessante nas imagens, vídeos, músicas ou poesias produzidas. Clune menciona que sua equipe de pesquisa também explorou a neurociência ai, um campo que estuda o quanto as redes neurais profundas entendem sobre as imagens que classificam. Eles fizeram isso sintetizando imagens que ativam ao máximo neurônios específicos e foram capazes de explorar a noção de uma estrela do mar de cinco pernas na rede.

  • 00:55:00 Nesta seção da palestra, Jeff Clune discute a evolução da geração de imagens com aprendizado profundo, desde a adição de restrições à geração de imagens naturais até o uso do aprendizado profundo para aprender as imagens anteriores. Com pequenos ajustes nos algoritmos, estilos artísticos extremamente diferentes são produzidos a partir de cada gerador. As redes neurais entendem o que cada objeto significa em um determinado espaço, como o espaço de imagens naturais, e podem produzir imagens de maior qualidade fotorrealista. No entanto, pouca diversidade é gerada nesses espaços de imagens naturais. Para superar esse problema, foram introduzidas redes generativas plug-and-play, que produzem uma gama muito mais ampla de imagens diversas do que as vistas anteriormente no aprendizado profundo.

  • 01:00:00 Nesta seção da palestra, Jeff Clune discute o progresso feito na neurociência da IA e a criação de processos criativos abertos. Ele destaca como a IA pode reconhecer e aprender sobre conceitos em nosso mundo, como vulcões ou um cortador de grama, mas é suscetível a produzir e reconhecer imagens adversárias. Clune recomenda o trabalho de Chris Ola e fala sobre o trabalho de sua equipe na exploração de diferentes modalidades, como fala e vídeo. Ele também compartilha sua empolgação com o progresso feito e o potencial futuro no campo, incluindo a geração de imagens sintéticas que ativam neurônios dentro de um cérebro de macaco real. Clune sugere que a ciência geralmente produz artefatos estéticos e como as ferramentas modernas de aprendizado de máquina permitem a fusão de arte e ciência. Por fim, ele recomenda a leitura das obras de Ken Stanley e Joel Lehman para alunos interessados em ingressar na missão de criar processos abertos infinitamente criativos.

  • 01:05:00 Nesta seção, Jeff Clune explica que os algoritmos abertos têm potencial para apoiar avanços na inteligência artificial geral. Ele recomenda a leitura de seu artigo AI Generating Algorithms, que explora como esses algoritmos podem ser o caminho para produzir IA geral. Jeff também incentiva os pesquisadores a aplicar essas ideias em vários domínios e a usar ferramentas como GPT-3 ou Dolly para fazer isso. Ele sugere que explorar frutas fáceis de encontrar em diferentes áreas, como poesia ou arquitetura, pode levar a avanços empolgantes. Jeff também aborda a questão de Joseph sobre o uso do algoritmo Poet em uma configuração multiagente e discute os desafios que surgem, como dificuldade em medir o desempenho do agente em tal ambiente.
 

MIT 6.S192 - Aula 15: "Redes Criativas" por Joel Simon



MIT 6.S192 - Aula 15: "Redes Criativas" por Joel Simon

Nesta palestra, Joel Simon explora suas inspirações e abordagens para redes criativas que se baseiam em ecossistemas naturais. Ele demonstra o potencial das habilidades computacionais no processo criativo, descrevendo como técnicas como otimização de topologia, morfogênios e algoritmos evolutivos podem possibilitar o surgimento de formas e texturas incríveis. Simon também compartilha detalhes sobre seu projeto GANBreeder, uma ferramenta online para descobrir e modificar imagens usando um CPPN e um GAN, e discute o potencial dos sistemas de recomendação cruzada no processo criativo. Simon está otimista sobre o futuro da tecnologia e da criatividade, acreditando que os humanos podem colaborar e otimizar as funções dos edifícios e criar algo maior.

  • 00:00:00 Nesta seção, Joel Simon explica sua formação e inspirações para seu trabalho criativo em rede. Ele destaca a crítica de Brian Eno sobre a noção de gênios solitários e descreve como a criatividade pode ser quantificada como um produto emergente de várias forças trabalhando juntas. Simon também fala sobre sua jornada rumo à escultura, que o levou a aprender e explorar formas computacionais de criar, enfatizando a diferença entre ser digital e ser computacional.

  • 00:05:00 Nesta seção, Joel Simon descreve sua inspiração para seu trabalho em design computacional e otimização de topologia, que ele descobriu durante seus anos de faculdade. Fascinado pela capacidade de otimização de topologia para produzir novas formas que nunca poderiam ter sido criadas no sentido tradicional, Simon procurou explorar ainda mais seu potencial. No entanto, ele percebeu que precisava ir além de simples técnicas de otimização e incorporar elementos da natureza real, como adaptabilidade e ambiente, que permitissem que um edifício crescesse como uma árvore, levando-o a realizar experimentos em arquitetura generativa. Seu trabalho não foi apenas baseado em projeto arquitetônico, mas também usou métodos de simulação de gráficos e desenvolveu criaturas virtuais como inspiração para maior complexidade e inovação em design computacional.

  • 00:10:00 Nesta seção, o palestrante discute o uso de informações de padrão e morfogênios no processo de crescimento, especificamente no que diz respeito à difusão da reação. Ele explica que esses padrões podem ser usados na arte para produzir textura e discute os CPPNs de Jeff, que são usados para mapear uma rede simples da posição à cor e convertê-la em uma imagem. Para levar essas ideias de crescimento adiante, o palestrante criou o projeto "Evolving Alien Corals", que usa morfogênios em vértices de uma malha 3D para controlar a direção em que os vértices se movem e emitem. Isso permitiu efeitos compostos que deram origem a formas incríveis. As cores dos corais são os morfogênios sendo otimizados e não apenas gerando padrões bonitos. Este projeto também mostra a ideia de poder esculpir com forças ou objetivos para conduzir formas, onde a forma segue a função de adequação. O palestrante também aborda brevemente a ideia de ecossistemas e a hipótese de perturbação intermediária, onde a diversidade ótima é alcançada com uma quantidade de perturbação no meio.

  • 00:15:00 Nesta seção, Joel Simon discute seu fascínio por redes criativas que se baseiam em ecossistemas naturais e explora como essas paisagens são propícias para esculpir e manipular padrões. Ele coloca a questão de como seria ver o colapso ecológico ou como distúrbios como espécies invasoras ou a fusão de diferentes ilhas afetariam o ecossistema. Simon foi inspirado pelo cuneiforme e pela ideia da caligrafia como solução para um problema multiobjetivo. Para experimentar diferentes métodos, Simon criou uma arquitetura neural personalizada que gerava reconhecimento de padrões para comunicação por meio de um meio ruidoso, sendo cada forma reconhecível e mutuamente distinta, o que resultou no surgimento de diferentes linguagens. Mais tarde, ele modificou esse sistema para ser cooperativo e adversário, produzindo conjuntos de caligrafia únicos que se assemelham, mas permanecem funcionais de uma maneira diferente.

  • 00:20:00 Nesta seção, Joel Simon discute alguns de seus projetos de arte generativa que foram inspirados por várias fontes, como os auto-retratos de Matisse e o Game of Life de Conways. Ele criou retratos usando algoritmos genéticos e explorou o conceito de uma arquitetura generativa para a vida artificial. Simon também fala sobre como ele foi inspirado pelo projeto pick criador, que envolveu o uso de uma rede neural para gerar imagens de criaturas que são então criadas seletivamente para criar designs novos e interessantes.

  • 00:25:00 Nesta seção, o palestrante discute sua inspiração para criar o GANBreeder, uma ferramenta online para descoberta e mutação de imagens usando um CPPN e um GAN. Ele foi inspirado pela ideia de que a grandeza não pode ser planejada e ficou intrigado com o senso inato de interesse nos humanos que poderia ajudar a aumentar os algoritmos usados nesta ferramenta. Ele se aprofunda nas GANs e reconhece que os vetores latentes de GANs têm a propriedade necessária para serem usados para cruzamento, o que permite que imagens de crianças se assemelhem a ambos os pais. O palestrante fala sobre os diferentes tipos de criatividade e afirma que sua ferramenta era uma coisa combinatória onde ele combinou o BigGAN com o Picbreeder para criar o GANBreeder. Ele também discute as três maneiras pelas quais o GANBreeder permite que os usuários criem imagens, ou seja, obtendo filhos aleatórios, misturando duas imagens e editando os genes de uma imagem.

  • 00:30:00 Nesta seção da palestra, Joel Simon discute o processo criativo em termos de fases exploratórias que variam de ser aberto a intencional com um gradiente intermediário. Paralelos biológicos são mencionados, como reprodução assexuada, reprodução sexual e crispr, como formas diferentes de criar e fazer imagens. Simon então fornece um exemplo de uma imagem que ele fez, junto com os genes que a compõem, enfatizando a importância da exploração interativa e colaborativa, já que os humanos não podem pensar em 128 dimensões. Simon conclui com a ideia de que o ArtBreeder pode ser usado como uma ferramenta para encontrar ideias e inspiração, e menciona um recurso recente que permite aos usuários criar seus próprios genes, relevantes para os interessados em aprendizado de máquina.

  • 00:35:00 Nesta seção, Simon descreve como seu projeto, Ganbreeder, tira proveito do ecossistema de fonte coletiva de marcação de imagens. Ao coletar amostras de uma propriedade sutil em imagens, os usuários podem transformá-la em uma ferramenta ou filtro que permite a criação de genes mais poderosos. O projeto começou como uma grade simples de imagens com um aviso de qual imagem é mais interessante. No entanto, os usuários têm usado o Ganbreeder de maneiras inesperadas, como upload de fotos para colorir figuras históricas, fazer vestidos ou até mesmo pintar personagens. Simon enfatiza que o experimento foi na verdade a interface, não o gan, já que os dois realmente tiveram que andar juntos para que funcionasse.

  • 00:40:00 Nesta seção do vídeo, Joel Simon discute o poder potencial de criar uma ferramenta de sistema de recomendação cruzada que utiliza dimensões latentes de variação não usadas atualmente em mecanismos de recomendação existentes. Ele usa o exemplo de não ser capaz de identificar se as letras estão ou não presentes nas músicas quando está trabalhando, sugerindo que, se os mecanismos de recomendação pudessem ajudar usuários como ele a criar uma ferramenta que considerasse essas dimensões de variação, eles poderiam fazer recomendações muito mais fortes . Simon também explora a ideia de propriedade e colaboração em ferramentas criativas, descrevendo uma mostra de arte interativa que ele organizou, onde ninguém "possuía" a arte porque ela havia sido criada em colaboração por muitas pessoas.

  • 00:45:00 Nesta seção, Joel Simon discute as limitações do pensamento humano em contraste com o potencial das habilidades computacionais no processo criativo. Os humanos têm certos preconceitos em nosso pensamento, incluindo pensar em hierarquias claras, ter rotinas e não pensar em sobreposições complexas. Simon discute como facilitar a colaboração, exploração, permitir novos meios e metáforas pode levar a novos processos criativos. Os diálogos entre um diretor criativo e um artista são essenciais nesse processo, com o diretor guiando a criatividade do artista. Simon está otimista sobre o futuro da computação e da criatividade e acredita que o uso da ferramenta será direcionado por pessoas para criar novas obras de arte que compartilhamos com outras pessoas, em vez de substituir artistas e criativos.

  • 00:50:00 Nesta seção, Joel Simon discute a criatividade e o equívoco de que os avanços tecnológicos substituirão os artistas. Ele acredita que tais avanços apenas tornam a expressão criativa mais acessível para todos e afirma que a criatividade é uma necessidade humana inata e um fim em si mesma. Simon termina propondo um conceito de design morfogênico que adapta o processo natural de reprodução e usa a biomimética para criar processos colaborativos para projetar além das habilidades cognitivas humanas. Ele enfatiza que os humanos fazem parte de um tecido conjuntivo criativo maior e a inspiração para projetos é obtida desse sistema maior.

  • 00:55:00 Nesta seção, Joel Simon fala sobre sua visão otimista do futuro da tecnologia na construção de um ecossistema de edifícios que são mutuamente harmoniosos como um ecossistema complexo. Ele acredita que, com novas metáforas e técnicas, as pessoas podem colaborar e otimizar as funções desses edifícios de maneiras que vão além da compreensão. Embora a tecnologia tenha seus prós e contras, a visão positiva de Simon sobre o diálogo entre máquinas e humanos fornece uma visão de um futuro em que a tecnologia pode unir as pessoas para criar algo maior.