Aprendizado de máquina e redes neurais - página 20

 

Mega-R1. Sistemas Baseados em Regras



Mega-R1. Sistemas Baseados em Regras

Este vídeo se concentra em Mega-Recitação, que é uma palestra em estilo tutorial para ajudar os alunos a trabalhar com o material abordado em palestras e recitações. O vídeo aborda vários tópicos relacionados a sistemas baseados em regras, incluindo encadeamento reverso, encadeamento direto, ordem de desempate para regras e o processo de correspondência. O processo de encadeamento reverso envolve observar o consequente de uma regra e adicionar os antecedentes conforme necessário para alcançar o objetivo principal, e o desempate e a desambiguação são cruciais para a árvore de objetivos. O vídeo também discute o encadeamento direto e as regras de correspondência para asserções usando uma série de asserções. O palestrante enfatiza a importância de verificar as afirmações antes de usar uma regra e evitar regras impotentes que não fazem nada. O processo de correspondência envolve o uso de encadeamento reverso para determinar quais regras correspondem às asserções fornecidas, e o sistema priorizará as regras de numeração inferior, independentemente de serem novas ou não.

  • 00:00:00 Nesta seção, Mark Seifter apresenta o conceito de Mega-Recitação, que é uma palestra em estilo tutorial projetada para ajudar os alunos a trabalhar com o material abordado em palestras e recitações. O objetivo é ajudar os alunos a entender e trabalhar com os algoritmos que são cruciais para a aula e demonstrar sua compreensão em questionários. O foco está em um problema de teste do ano passado que enganou muitos alunos, e Marx repassa os truques que os pegaram na esperança de evitar que esses erros sejam cometidos novamente. Por fim, ele explica a diferença entre duas notações, infix e prefix, para escrever regras e por que os alunos precisam estar cientes delas.

  • 00:05:00 Nesta seção, aprendemos sobre as seis regras rotuladas com P's, cada uma com uma instrução if-then correspondente. A primeira regra afirma que se X é ambicioso e X é um aborto, então X tem um termo ruim. O ponto de interrogação no X ou Y indica uma variável esperando para ser vinculada. O encadeamento para frente e para trás será usado para determinar a ligação dessas variáveis. Quatro afirmações também nos são dadas para trabalhar, incluindo Millicent vivendo na masmorra da Sonserina e Simas estando na Torre da Grifinória e marcando Millicent. A importância de verificar as afirmações antes de usar uma regra é enfatizada, pois foi um erro que enganou algumas pessoas no ano passado.

  • 00:10:00 Nesta seção, o apresentador explica o conceito de encadeamento reverso e destaca suas diferenças com o encadeamento direto. Trabalhando na hipótese, o encadeador reverso tenta encontrar uma asserção correspondente na lista de asserções e, se não houver correspondência, ele tentará encontrar uma regra com um consequente correspondente. O apresentador passa a fornecer exemplos de problemas fáceis e, em seguida, aborda um problema da vida real, onde Millicent se torna amiga de Hermione. Ao longo do exemplo, o apresentador enfatiza a importância do desempate e da desambiguação na árvore de gols.

  • 00:15:00 Nesta seção, o vídeo discute o processo de encadeamento reverso em sistemas baseados em regras. O encadeamento reverso envolve observar o consequente de uma regra e adicionar os antecedentes conforme necessário para alcançar o objetivo principal. O vídeo enfatiza a importância de buscar algo que tenha o objetivo atual em seu consequente e procurá-lo nas assertivas antes de verificar outras regras. O processo envolve uma pesquisa em profundidade, começando no nó esquerdo e descendo se houver algum filho, procurando uma regra que corresponda ao objetivo atual. O vídeo também explica como adicionar nós corretamente à árvore de objetivos, como um nó final com um nó ou na parte inferior.

  • 00:20:00 Nesta seção, o palestrante discute uma busca em profundidade enquanto usa um diagrama de árvore para identificar se Millicent é uma protagonista ou vilã, tentando provar que ela é uma vilã. Eles seguem o ramo esquerdo primeiro e tentam encontrar uma regra para saber se Millicent é uma protagonista. Como não há nenhuma regra que corresponda ao critério deles, eles voltam para o nó "ou" e voltam para Millicent como uma vilã. Mesmo não estando nas asserções, eles seguem o ramo para ver se existe alguma regra com aquela como consequente. Eventualmente, eles encontram uma regra afirmando que Millicent é uma vilã, mas deve continuar para encontrar a resposta final.

  • 00:25:00 Nesta seção, o orador explica o foco obstinado do encadeamento inverso e sua falta de preocupação com as outras afirmações ou antecedentes. O encadeamento reverso visa apenas provar a possibilidade de Millicent ser uma vilã, e não se importa com as outras consequências, como Millicent ser ambiciosa. Note-se que isso pode resultar em cálculos desnecessários, mas é uma maneira simples e eficiente de codificar o sistema. O uso potencial de uma tabela hash é discutido, mas conclui-se que pode não valer a pena o esforço extra.

  • 00:30:00 Nesta seção, a classe discute a implementação de uma tabela hash para aumentar a velocidade de execução do sistema baseado em regras. No entanto, existem alguns problemas potenciais com essa abordagem, pois ela perde a ordem em que as asserções na tabela são disparadas e algumas regras dependem da ordem dessas asserções. A palestra também aborda uma questão da multidão sobre a resolução de regras quando há uma afirmação que afirma o contrário do que foi afirmado anteriormente e como resolver esse problema. A classe conclui que é por isso que eles não têm instruções de exclusão nos questionários e que não adicionam afirmações, mas verificam todas as coisas na árvore de metas até serem comprovadas ou refutadas.

  • 00:35:00 Nesta seção, o orador passa rapidamente pelas partes restantes do exemplo de Millicent, a protagonista, e como usar sistemas baseados em regras para determinar se ela se torna amiga de Hermione ou não. Isso inclui responder a algumas perguntas, como determinar o número mínimo de afirmações adicionais necessárias para Millicent se tornar amiga de Hermione sem adicionar uma afirmação que corresponda ao consequente de uma regra. A seção também aborda uma situação incomum que surge devido à adição de uma asserção e à necessidade de corrigi-la removendo uma asserção contraditória. Por fim, o encadeamento reverso é brevemente mencionado, e o palestrante pede ao público para resolver um problema relacionado à vinculação de variáveis, onde o objetivo é determinar se Millicent tem um termo ruim.

  • 00:40:00 Nesta seção, o narrador discute o encadeamento para frente, que envolve a adição de novas asserções à medida que surgem e a ordem de desempate para as regras. A ordem de desempate para as regras é de 0 a 5 e, se a mesma regra puder ser acionada com várias asserções diferentes, as regras serão usadas em ordem numérica. O narrador demonstra como combinar regras com asserções usando uma série de asserções e como disparar uma regra. O narrador também nos diz que regras impotentes, ou regras que não fazem nada, não devem ser disparadas, mas sim ir para a próxima regra na ordem. Por fim, o narrador explica como eles combinaram regras e afirmações e como adicionaram novas afirmações.

  • 00:45:00 Nesta seção do vídeo, o palestrante discute o processo de correspondência para sistemas baseados em regras. O exemplo dado é o de uma pergunta de quiz, com regras numeradas e afirmações. O sistema usa encadeamento reverso para determinar quais regras correspondem às asserções fornecidas e, nesse caso, apenas as regras 1, 2, 3 e 5 correspondem. O palestrante também responde a uma pergunta sobre se novas asserções com um número de regra menor devem ser processadas primeiro, explicando que o sistema priorizará as regras de numeração menor, independentemente de serem novas ou não.
 

Mega-R2. Pesquisa básica, pesquisa ideal



Mega-R2. Pesquisa básica, pesquisa ideal

Este vídeo do YouTube abrange vários algoritmos e técnicas de pesquisa, incluindo pesquisa em profundidade, pesquisa em largura, pesquisa ideal e algoritmo A*. O vídeo usa um exemplo divertido de um Overlord do Mal, Mark Vader, em busca de uma nova fortaleza para ilustrar esses conceitos. O apresentador enfatiza a importância da admissibilidade e consistência na busca de grafos e explica o uso de listas estendidas para evitar a reavaliação de nós. O vídeo aborda erros e perguntas comuns do público e incentiva os espectadores a fazer mais perguntas. No geral, o vídeo fornece uma introdução completa a esses algoritmos e técnicas de pesquisa.

  • 00:00:00 Nesta seção, o vídeo apresenta o problema do Evil Overlord Mark Vader em busca de uma nova fortaleza, utilizando as técnicas de busca inicial que ele aprendeu na aula. Vader começa em sua fortaleza atual, estrela de busca em profundidade, e quer chegar à fortaleza 6:03, que não tem fraquezas e tem todas as características desejáveis, como lacaios escravizados, tubarões com raios laser e uma ótima rota de fuga. O vídeo apresenta um gráfico das escolhas de exploração, onde as bordas unem fortalezas que diferem por apenas um recurso, e os espectadores recebem vários métodos para fazer a pesquisa, incluindo a abordagem confiável, mas mais lenta, e a abordagem rápida, mas mais propensa a erros.

  • 00:05:00 Nesta seção, o apresentador do vídeo discute diferentes abordagens para resolver a busca em profundidade. Embora haja uma abordagem muito rápida, ela é mais propensa a erros e normalmente não é usada. Em vez disso, o apresentador recomenda usar a árvore de objetivos e começar no nó inicial e terminar no nó objetivo, o que é um pouco mais rápido do que desenhar toda a agenda. O apresentador também explica o conceito de lexicografia e como ela é utilizada para desempate em ordem alfabética durante uma busca. Além disso, o vídeo adverte contra morder o próprio rabo, o que é um erro comum ao implementar regras em um sistema. Por fim, o apresentador destaca a importância de não aparecer duas vezes o mesmo nó dentro do mesmo caminho, pois isso pode gerar erros.

  • 00:10:00 Nesta seção, o palestrante explica como resolver um problema com busca em profundidade usando uma árvore de objetivos em vez de uma fila. Eles começam no nodo s e pedem ajuda ao público para descobrir as escolhas naquele nodo. O palestrante enfatiza a importância de verificar a conectividade e ler as instruções. Eles usam o desempate lexicográfico para decidir para qual nó ir em seguida e retroceder quando chegam a um beco sem saída. Eles também advertem contra o erro de contagem dupla de retrocessos e lembram o público de prestar atenção em quantas vezes eles retrocedem.

  • 00:15:00 Nesta seção, o palestrante explica a importância do algoritmo ao realizar uma pesquisa, pois pode afetar o número de etapas necessárias para encontrar a solução. Eles também discutem a técnica de retrocesso e aconselham sobre como acompanhá-la durante a busca. O palestrante então passa a demonstrar como realizar uma pesquisa em profundidade e sugere uma maneira rápida de resolver a questão de pesquisa em largura. Eles destacam que o caminho encontrado durante uma busca em largura tem a garantia de ter o menor número de saltos e instruem a expandir o gráfico nível a nível da esquerda para a direita. Por fim, o palestrante esclarece o uso da ordem de classificação de tipo em uma pesquisa em largura.

  • 00:20:00 Nesta seção, o palestrante enfatiza a importância de não ordenar os caminhos na fila para o algoritmo de busca usado no vídeo. Eles explicam que a busca do melhor primeiro só desempatará quando chegar a um nó e que sempre adicionam tudo no final da fila, o que significa que não precisam voltar atrás. Eles também mencionam que, embora a ordem gráfica desempenhe um papel na pesquisa, ela o faz apenas de maneira sutil e sorrateira. Por fim, eles discutem a possibilidade de busca em largura com uma lista estendida, que pode ser usada para evitar que o programa reavalie os nós já visitados.

  • 00:25:00 Nesta seção do vídeo, o palestrante discute a busca ideal usando um exemplo de Mark tentando encontrar o caminho mais curto de seu universo atual para seu universo objetivo com custos de energia variáveis entre os universos. O gráfico inclui distâncias e valores heurísticos dados a cada nó, e o palestrante explica que o algoritmo usará os valores heurísticos para orientar a busca em direção ao nó objetivo, considerando também o custo real de alcançar cada nó. O algoritmo utilizado é o algoritmo A-star que expande nós com o menor custo real e heurístico combinado. O palestrante também explica a importância de usar uma lista estendida para evitar a repetição da busca e aborda uma questão sobre a ordem em que os nós são adicionados à busca.

  • 00:30:00 Nesta seção, Mark apresenta o conceito de programar o menor número de saltos do universo que o levará ao objetivo sem usar muita energia. Ele explica sua busca simples, que é como uma pizza de queijo, enquanto uma busca por estrelas é como a pizza de um amante de carne com coberturas extras. No entanto, eles podem afetar um ao outro, por isso é crucial escolher o caminho mais curto no momento. No exemplo, o computador adiciona o nó C à lista estendida, marcando-o como o único caminho com comprimento 0. O comprimento de SB é 3 e tem um custo de caminho de 103, enquanto f é 4 com um custo de 14. Apesar de ignorar os desempate em ordem lexicográfica, o caminho mais curto é escolhido e, uma vez que B é gasto, ele vai para D com um comprimento de 4 e, portanto, o comprimento do caminho atualizado para G é 7.

  • 00:35:00 Nesta seção, o locutor continua com o algoritmo de busca ideal, expandindo os caminhos S, B, F e D. O caminho E é então estendido para H e A, e o caminho mais curto é SFHIG . O palestrante também menciona o uso de A-star como um algoritmo de busca mais eficiente e aborda questões do público sobre os nós em expansão que já estão na lista estendida. A resposta correta é finalmente alcançada, apesar de alguma confusão inicial sobre se o caminho se conecta a C e D.

  • 00:40:00 Nesta seção, o palestrante discute alguns erros cometidos na seção anterior que fizeram com que alguns nós fossem excluídos da árvore final criada. Ele esclarece que o nó deveria ir para "e" também, e que faria diferença se perguntassem quantas vezes um nó foi executado por não entrar na lista estendida. Eles então passam a discutir o algoritmo A-star e o cálculo de valores heurísticos. É enfatizado que é importante não adicionar valores heurísticos para cada nó na lista, mas, em vez disso, adicionar o caminho até o valor heurístico final. Eles também esclarecem que a decisão de estender o nó "G" é uma questão de gosto e um detalhe de implementação que não perderá pontos no conjunto de problemas. Finalmente, eles resolvem a busca A-star e o vencedor final é determinado como o nó "D" com um valor de 57.

  • 00:45:00 Nesta seção, o vídeo resume um algoritmo de busca chamado A* e mostra como usá-lo de forma otimizada para encontrar o caminho mais curto em um grafo. O vídeo discute a importância de ter heurísticas admissíveis em todos os pontos do gráfico. Admissível significa que a estimativa de quanto trabalho resta é sempre uma subestimação ou uma previsão precisa. Uma heurística superestimada fará com que o algoritmo pense que precisa fazer mais trabalho do que o necessário e pode não explorar nós importantes. O vídeo também fala sobre consistência, o que significa que a distância entre nós adjacentes em um grafo é menor que a diferença na heurística entre esses nós. O vídeo enfatiza a importância de entender esses conceitos, pois eles provavelmente estarão no questionário.

  • 00:50:00 Nesta seção, o palestrante explica os conceitos de admissibilidade e consistência na busca de grafos. Admissibilidade é como consistência, mas requer consistência entre cada nó e o nó objetivo. Qualquer gráfico consistente é sempre admissível, mas nem todo gráfico admissível é consistente. Uma lista estendida funcionará em grafos admissíveis porque verifica as estimativas para cada nó até o nó objetivo. No entanto, se as estimativas dentro dos nós estiverem incorretas, passar por elas fora de ordem viola a suposição feita ao decidir usar a lista estendida. O grafo apresentado no vídeo foi habilmente elaborado para ser um nó de objetivo de gargalo e contém inconsistências entre os nós, incluindo I e H, que acabam sendo as únicas inconsistências que importam. Por fim, o palestrante incentiva os espectadores a fazerem quaisquer perguntas que possam ter sobre esse tópico.
 

Mega-R3. Jogos, Minimax, Alpha-Beta



Mega-R3. Jogos, Minimax, Alpha-Beta

Este vídeo aborda vários tópicos relacionados à teoria dos jogos e ao algoritmo minimax, incluindo minimax regular, adições alfa-beta, poda alfa-beta, avaliação estática, aprofundamento progressivo e reordenação de nós. O instrutor fornece explicações e demonstrações desses conceitos usando exemplos e pede ao público que participe da determinação dos valores em diferentes nós em uma árvore de jogo. O vídeo termina com uma discussão sobre as possíveis falhas nas funções heurísticas e conselhos para o próximo teste.

  • 00:00:00 Nesta seção, o palestrante apresenta o conceito de jogos e menciona que o foco será nos diferentes componentes dos jogos. Eles então explicam o algoritmo minimax regular e como descobrir o valor minimax em um ponto específico em uma árvore de jogo. Usando um exemplo de árvore de jogo, o palestrante orienta o público através do algoritmo e determina o valor minimax em vários nós. O princípio da Branca de Neve e a cláusula do avô também são brevemente mencionados.

  • 00:05:00 Nesta seção do vídeo, o palestrante explica as adições alfa e beta à fórmula minimax na teoria dos jogos. Ele compara a adição desses números à Guerra Fria, onde cada lado tentava encontrar o melhor resultado possível enquanto se preparava para o pior. Alfa e beta representam números que fornecem um cenário à prova de falhas ou o pior cenário para cada lado. O palestrante sugere que a busca alpha-beta é mais complicada do que minimax e pode ser um desafio para algumas pessoas. No entanto, ele também menciona que dominar a pesquisa alfa-beta pode ajudar a entender e resolver problemas minimax.

  • 00:10:00 Nesta seção, o palestrante explica o conceito de alfa e beta como opções nucleares para Maximizador e Minimizador, respectivamente. Definir alfa como infinito negativo e beta como infinito positivo cria uma proteção contra falhas que garante que tanto o Maximizador quanto o Minimizador olhem para o primeiro caminho que veem todas as vezes. À medida que o algoritmo progride, o valor de alfa e beta mudam dependendo do resultado potencial do jogo. Quando o beta fica abaixo do alfa ou o alfa fica abaixo do beta, o algoritmo poda o ramo, sinalizando que um dos jogadores não quer mais explorar aquele ramo. O palestrante também observa que existem diferentes métodos para desenhar números alfa e beta em diferentes nós da árvore do jogo.

  • 00:15:00 Nesta seção, o palestrante explica o princípio da Branca de Neve usado no algoritmo alfa-beta. O princípio envolve herdar os valores alfa e beta dos nós pais, mas obter o melhor valor para si mesmo ao subir para um nó pai. Os valores alfa e beta padrão também foram discutidos, sendo o alfa infinito negativo e o beta infinito positivo. O palestrante então mostra um exemplo de poda alfa-beta e pede ao público para determinar os valores alfa e beta em cada nó na árvore de pesquisa. Uma pergunta capciosa é lançada para enfatizar que o algoritmo alfa-beta pode evitar a busca de certos nós com base nos valores herdados dos nós pais.

  • 00:20:00 Nesta seção, o palestrante explica o princípio da poda alfa-beta, que envolve cortar ramos de uma árvore de decisão que provavelmente não levarão a um resultado melhor. O palestrante dá um exemplo envolvendo as opções de ataque nuclear de um inimigo e determina quais escolhas podar com base no princípio da poda alfa-beta. Além disso, o alto-falante fornece um teste de sanidade para determinar se uma ramificação pode ser podada ou não, e a capacidade do Maximizador de determinar se deve pular uma ramificação ou não, ao contrário do minimizador que começa com o infinito no jogo da árvore de decisão.

  • 00:25:00 Nesta seção do vídeo, o palestrante discute o processo de determinação dos valores alfa e beta em um algoritmo minimax analisando os valores em diferentes nós em uma árvore de jogo. O palestrante explica que, ao encontrar um nó minimizador, o valor beta é definido como infinito positivo e, ao encontrar um nó maximizador, o valor alfa é definido como infinito negativo. O palestrante então usa valores específicos em uma árvore de jogo para demonstrar como o algoritmo funciona e como os nós são podados quando o valor alfa é maior ou igual ao valor beta. Por fim, o palestrante discute a ordem em que os nós são avaliados em uma árvore de jogo usando o aprofundamento progressivo.

  • 00:30:00 Nesta seção, o palestrante explica o conceito de avaliação estática, que é essencialmente a função responsável por atribuir valores numéricos aos nós folha. O avaliador estático atribui esses valores ao fundo das folhas, e a ordem de avaliação refere-se apenas às folhas. O palestrante também explica o Princípio da Branca de Neve, segundo o qual cada nó começa tirando o valor do mesmo tipo de seu avô (alfa ou beta). O maximizador não tem controle sobre qual caminho seguir; é o minimizador quem seleciona qual caminho seguir. O conceito de avaliação estática é crucial para a técnica de poda alfa-beta, pois ajuda a determinar se um determinado caminho deve ser eliminado ou não. Em essência, a avaliação estática contribui para a eficiência do algoritmo, permitindo que a poda alfa-beta economize mais tempo, eliminando algumas avaliações estáticas.

  • 00:35:00 Nesta seção, o palestrante explica o conceito de avaliações estáticas, que são usadas para avaliar a posição do tabuleiro em jogos como o xadrez. A avaliação leva muito tempo e requer uma análise cuidadosa do estado do jogo. Os nós folha da árvore de busca são chamados de estáticos porque são suposições heurísticas do valor com base na análise do estado do jogo. O palestrante também apresenta o conceito de aprofundamento progressivo em uma árvore com apenas dois níveis de profundidade e pergunta como a árvore pode ser reordenada para permitir que o alfa-beta seja podado o máximo possível.

  • 00:40:00 Nesta seção, o instrutor explica como usar o algoritmo minimax para otimizar o processo de busca pelo melhor nó reordenando os ramos com base no vencedor em potencial, pois é mais fácil rejeitar todos os errados rapidamente quando o eventual vencedor é escolhido primeiro. O instrutor ilustra esse conceito atribuindo um valor binário a cada nó folha e usa os valores para calcular o vencedor final para cada subárvore, encontrando assim o movimento ideal. A combinação dessa abordagem com o aprofundamento progressivo reduziria significativamente o número de nós que precisam ser avaliados.

  • 00:45:00 Nesta seção, o palestrante discute o aprofundamento progressivo e a possibilidade de reordenar os nós para melhorar a poda alfa-beta. Embora o aprofundamento progressivo possa ser uma perda de tempo para árvores pequenas e não ramificadas, é essencial para árvores maiores e mais complexas. No entanto, o conceito de reordenamento de nós com base em resultados de aprofundamento progressivo depende da precisão da função heurística. O palestrante enfatiza que nenhuma função heurística é perfeita, e uma função heurística defeituosa pode levar a resultados piores ao reordenar os nós. Por fim, o palestrante explica como o cache de valores heurísticos pode ser feito para funções heurísticas consistentes, como nos casos em que o mesmo valor heurístico sempre estará associado a um determinado estado do jogo, independentemente de como o estado foi alcançado.

  • 00:50:00 Nesta seção do vídeo, o instrutor discute a possível desvantagem de usar uma heurística que sempre dá o pior movimento em vez do melhor movimento. Embora possa ajudar a minimizar os riscos, também pode resultar na pior poda possível, levando a uma falta de sucesso garantido. O instrutor menciona que o próximo quiz será interessante e envolverá desafios variados. No entanto, ele aconselha os alunos a não se estressarem muito com isso e aproveitarem o fim de semana.
 

Mega-R4. Redes Neurais



Mega-R4. Redes Neurais

O vídeo cobre vários aspectos das redes neurais, incluindo suas representações, confusão sobre entradas e saídas, funções sigmóides e de desempenho, pesos e vieses, retropropagação, alteração das funções sigmóides e de desempenho, pesos limite, visualização e o potencial das redes neurais. O instrutor explica várias fórmulas necessárias para o questionário e como calcular e ajustar deltas recursivamente. Ele também discute os tipos de redes neurais necessárias para resolver problemas simples e menciona uma aplicação recente de redes neurais no mundo real em uma competição de jogos na Universidade de Maryland. Por fim, ele menciona que, embora as redes neurais tenham caído em desuso devido às suas limitações e complexidades na pesquisa, elas ainda são úteis para questionários.

  • 00:00:00 Nesta seção, Patrick apresenta uma nova maneira de desenhar redes neurais para os problemas em 603. Ele mostra duas representações diferentes da mesma rede neural e explica por que a da direita é preferível. Ele também discute alguns problemas que os alunos geralmente encontram ao trabalhar com redes neurais, como confusão sobre entradas e saídas e a multiplicação implícita com pesos. Patrick fornece um guia de conversão para alunos que trabalham com questionários mais antigos e trabalha com as fórmulas necessárias para o questionário. Por fim, ele menciona a possibilidade de a função sigmóide ser alterada para uma função diferente e orienta os alunos a trocá-la por um plus, caso isso aconteça.

  • 00:05:00 Nesta seção, o instrutor explica a função sigmóide, que é 1 sobre 1 mais e elevado a menos x, e sua importante propriedade, onde a derivada de sigmóide é ela mesma. A função de desempenho, que diz às redes neurais quão errados são seus resultados, também é discutida. Eles escolheram sua função de preferência como 1/2 D, que é a saída desejada menos a saída real ao quadrado, e a razão para isso é que a derivada do desempenho é negativa, facilitando o cálculo. O instrutor então fala sobre mudar a função sigmoide para alguma outra função e analisar o que acontece com as funções de retropropagação, particularmente o novo cálculo de peso, que envolve mudar os pesos de forma incremental em direção ao resultado desejado.

  • 00:10:00 Nesta seção, o palestrante explica os pesos e bias usados nas redes neurais. Os pesos são representados por nomes como "w1I" e "w2B", onde "I" e "B" são nós da rede. Deslocamentos de tendência são sempre anexados a -1, e o valor de alfa, que determina o tamanho das etapas de subida, é fornecido em questionários. As entradas para os nós são representadas por "I" e são multiplicadas por delta, que é a mudança na saída da rede neural devido a uma mudança em um peso específico. Os deltas são calculados usando derivadas parciais para determinar o quanto os pesos contribuem para o desempenho da rede.

  • 00:15:00 Nesta seção, o palestrante discute o processo de uso de derivadas e a regra da cadeia para obter os pesos finais no último nível de redes neurais. A derivada da função sigmóide é usada, e os pesos nas camadas anteriores também precisam ser considerados para calcular os deltas para os novos pesos. O locutor propõe uma solução recursiva, que envolve a soma de todos os filhos de um determinado nó, o que, por sua vez, afeta a saída. Este processo é realizado recursivamente até que os deltas para os pesos finais sejam obtidos.

  • 00:20:00 Nesta seção, o instrutor discute como alterar a função sigmoide e a função de desempenho pode afetar as equações usadas na rede neural. Ele explica que se a função sigmóide for alterada, a única coisa que muda é a equação Delta F, que é substituída pela nova derivada da função sigmóide. Da mesma forma, se a função de desempenho for substituída, apenas a equação Delta F precisa ser ajustada. O instrutor passa a explicar a diferença entre os pesos limite e os pesos regulares em uma rede neural e como eles afetam a função geral da rede.

  • 00:25:00 Nesta seção, o palestrante fala sobre como visualizar redes neurais e como é importante ter uma representação que faça sentido para você resolver os problemas de forma eficaz. Ele explica como funciona um nó somador e que sua derivada é apenas uma. Ele fornece uma fórmula para Delta F e Delta a e explica o processo para a Parte B, que envolve o cálculo da saída para uma rede neural e a realização da propagação de um passo para trás para encontrar os novos pesos. Ele pede aos alunos que façam perguntas para esclarecer suas dúvidas, pois não poderá chamar todos para verificar se estão acompanhando.

  • 00:30:00 Nesta seção, o vídeo discute os novos pesos para a rede neural e qual seria a saída após uma etapa de retropropagação. Os novos pesos foram calculados usando os pesos antigos, a constante de taxa de aprendizado e os valores delta. A saída foi finalmente determinada como 3. O vídeo então levanta a questão do que aconteceria se a rede fosse treinada para aprender os dados fornecidos e passa a explicar como as redes neurais podem desenhar linhas em gráficos para cada um dos nós da rede. No entanto, nota-se que prever o que essa rede vai atrair é um pouco complicado.

  • 00:35:00 Nesta seção da transcrição, o palestrante discute uma rede neural que se resume a apenas um nó à medida que aumenta a cada vez e nunca atinge um limite, tornando-a analógica em vez de digital. A forma simplificada da rede neural contém nós representados por círculos onde cada círculo tem um sigmoide. Existe um problema em que ABCDEF precisa ser combinado com um a seis usando cada um apenas uma vez. O palestrante explica que cada nó sigmóide pode desenhar uma linha na imagem, que pode ser diagonal se receber ambas as entradas ou horizontal/vertical se uma entrada for recebida. Os nós de nível secundário podem fazer uma operação booleana lógica como e/ou nos dois primeiros. O falante então passa a identificar o problema mais fácil, que é o problema 6, e conclui que existe um mapeamento um-para-um de cada rede para um problema, que pode resolver todos os seis problemas juntos.

  • 00:40:00 Nesta seção, o palestrante discute como é desafiador criar um X ou rede neural porque é difícil distinguir entre as duas entradas que devem ser altas em um único nó. No entanto, existem muitas possibilidades, e o palestrante sugere usar o nó 3 e o nó 4 para fornecer valores e o nó 5 para fornecer uma combinação de limite que resulta em um XOR. O palestrante também explica que emparelhar duas linhas horizontais como B é impossível, mas como D precisa desenhar uma linha horizontal e uma vertical, eles devem usar B para criar duas linhas horizontais.

  • 00:45:00 Nesta seção, o palestrante explica o objetivo do exercício de desenho para redes neurais. Ao desenhar problemas simples, as pessoas podem ver os tipos de redes neurais que podem ser necessárias para resolvê-los. Isso pode ajudar as pessoas a evitar projetar redes neurais muito simples ou muito complexas para um determinado problema. O palestrante também fornece um exemplo de uma aplicação recente de redes neurais no mundo real em uma competição de jogos na Universidade de Maryland.

  • 00:50:00 Nesta seção do vídeo, o palestrante discute o potencial das redes neurais no aprendizado de diferentes tarefas e regras. Ele descreve um experimento em que uma rede neural foi treinada para aprender qualquer coisa de um conjunto de dados aleatórios e, embora os resultados do experimento não fossem claros, outros participantes do estudo tentaram encontrar propriedades fundamentais das regras por meio de testes experimentais. O palestrante continua explicando que as redes neurais têm sido usadas em muitas áreas de pesquisa, incluindo ciência cognitiva e inteligência artificial, no entanto, elas caíram em desuso devido às suas limitações e complexidades. Apesar disso, o palestrante menciona que eles criam redes simples para fins de questionários, embora esclareça que qualquer rede neural real usada em pesquisas hoje seria muito complicada para um questionário.
 

Mega-R5. Máquinas de vetores de suporte



Mega-R5. Máquinas de vetores de suporte

O vídeo explica as Support Vector Machines (SVMs), que determinam a linha divisória ou os limites de decisão nos dados, encontrando os vetores de suporte que não são iguais a qualquer outro ponto de dados. Também inclui o uso de funções do kernel que permitem ao kernel calcular o produto escalar sem manipular diretamente os vetores. O professor esclarece o objetivo de encontrar os Alphas que fornecem o melhor W para a estrada mais larga e como W é o limite de decisão para SVM. Os alunos perguntam sobre a intuição por trás do SVM, e a otimização baseada em Alphas cria o caminho mais amplo para uma melhor classificação de dados. O SVM Kernel também ajuda a otimizar o processo, tornando-o mais eficiente.

  • 00:00:00 Nesta seção, o palestrante apresenta as Support Vector Machines (SVMs) e afirma que são uma das coisas mais difíceis de aprender no curso. No entanto, ele explica que agora existem alguns atalhos disponíveis que podem ajudar a resolver alguns problemas sem ter que lidar com conjuntos de equações vastos e complexos. O problema em questão requer vetores de suporte circulando, desenhando as bordas da rua, ilustrando a linha pontilhada no meio e fornecendo W e B. O palestrante explica as equações importantes em SVMs e como encontrar a linha pontilhada usando dois coeficientes e uma equação linear, onde W1 e W2 são dois coeficientes e X1 e X2 são dois componentes do vetor X.

  • 00:05:00 Nesta seção, o vídeo discute a equação de uma linha em coordenadas cartesianas e como ela se relaciona com a equação W ponto X mais B igual a 0 em máquinas de vetores de suporte. O vídeo explica que os alfas são usados para determinar a importância de cada ponto para a criação do limite e que os alfas positivos são iguais aos alfas negativos. O vídeo também fornece equações para usar ao resolver para W e B e menciona que os vetores de suporte são importantes na determinação da solução. O apresentador esclarece que os vetores de suporte são vetores nas linhas de contorno, e o objetivo é circulá-los.

  • 00:10:00 Nesta seção, o palestrante aborda a questão do que é um vetor de suporte e esclarece que em problemas mais complexos, onde existem inúmeras dimensões, os vetores são usados para representar os pontos de dados quando eles não podem ser representados graficamente em duas -plano dimensional. O palestrante explica que os vetores de suporte são os pontos que ligam o hiperplano e são encontrados tentando ter o maior espaço possível entre os pontos de dados positivos e negativos. Além disso, o palestrante observa que às vezes o terceiro vetor de suporte pode não existir e ilustra seu ponto com um exemplo de um par de pontos em um plano.

  • 00:15:00 Nesta seção, o palestrante explica como encontrar W e B em uma máquina de vetores de suporte. Em vez de usar o antigo método de inserir pontos em uma equação, o palestrante introduz uma estratégia barata convertendo a equação na forma y = mx + b. Definindo y = x - 1, o palestrante mostra como isso pode ser usado para encontrar uma nova equação y = -w1/w2 - b/w2. Usando esta forma, o orador mostra que existem infinitas equações possíveis e que w1/w2 é algum múltiplo escalar de -1 e B/w2 é algum múltiplo escalar de 1.

  • 00:20:00 Nesta seção, o palestrante discute como determinar o valor de K para calcular W1, W2 e B para uma máquina de vetor de suporte. A magnitude de W pode ser calculada usando a raiz quadrada da soma dos componentes ao quadrado, que é igual à raiz de 2 sobre 4. Como a proporção de W1 e W2 é igual a 1 negativo, quando elevado ao quadrado, W1 ao quadrado é igual a W2 ao quadrado. Assim, usando esta fórmula, W1 é calculado como 1/4 negativo e, como W1 é negativo, W2 e B são iguais a 1/4 positivo. O palestrante também sugere que os valores alfa mais e alfa menos são iguais com base em uma equação.

  • 00:25:00 Nesta seção, o palestrante continua a trabalhar com exemplos de Support Vector Machines. O palestrante observa que no exemplo número dois, um sinal de menos extra foi adicionado. Eles explicam como determinar o vetor de suporte dado esse novo sinal negativo. Os cálculos para determinar a distância são mostrados e a magnitude de W é a raiz de 2 sobre 3. O locutor observa que os alfas demoram mais para calcular neste exemplo devido à adição de novos pontos, mas a resposta final é alcançada .

  • 00:30:00 Nesta seção, o foco está no uso de máquinas de vetores de suporte em um vetor unidimensional, o que torna uma linha de base linear inadequada para a classificação dos dados. Para resolver esse problema, uma função kernel é usada para trazer os dados para uma nova dimensão. A função é normalmente chamada de Phi e, quando aplicada ao vetor X, ela o traz para essa nova dimensão. Nesta nova dimensão, uma linha reta pode ser traçada para classificar os dados. O inventor dos SVMs percebeu que não há necessidade de trabalhar com a função Phi, mesmo que seja um monstro terrível, pois o kernel pode ser usado para calcular o produto escalar entre dois vetores na nova dimensão sem calcular Phi explicitamente.

  • 00:35:00 Nesta seção, o palestrante explica como usar uma função kernel para encontrar o produto escalar de dois vetores em um espaço regular, o que elimina a necessidade de usar diretamente os próprios vetores. Ao colocar os vetores X e Z no kernel, a função resultante retornará Phi de X pontilhado com Phi de Z, que substitui o produto escalar dos dois vetores. O palestrante dá um exemplo de função kernel e desafia o público a encontrar a função Phi correspondente para resolver o questionário. O palestrante também observa que, embora o cálculo de alfas para SVMs possa ser complicado, o uso da função kernel é um atalho útil para eliminar a necessidade de manipulação direta de vetores.

  • 00:40:00 Nesta seção, o palestrante discute a representação gráfica de pontos em uma nova dimensão usando seus valores de cosseno e seno. Os pontos positivos e negativos são mostrados, bem como seus respectivos valores de cosseno e seno. Existem três pontos no segundo quadrante e três pontos no terceiro quadrante. O palestrante então discute a distinção entre dois negativos e como localizar os vetores de suporte, que são os pontos negativos e positivos na bissetriz perpendicular. Os dois pontos negativos estão na mesma linha e são circulados em vez de estarem em lados opostos da bissetriz.

  • 00:45:00 Nesta seção, o professor explica a ideia por trás dos vetores de suporte e seu uso no SVM. Ele esclarece que um vetor de suporte não é o mesmo que qualquer outro ponto de dados, e a linha divisória ou os limites criados pelo SVM são determinados por esses vetores. Nos dados de teste, a linha pontilhada é o limite de decisão para SVM. O algoritmo otimiza os Alfas verificando matematicamente a combinação dos Alfas que fornecem o melhor W para a estrada mais larga. Os alunos questionam a intuição por trás do SVM, e o professor explica que W é o limite de decisão, e a otimização baseada em Alphas cria o caminho mais amplo para classificar os dados da melhor maneira. O SVM Kerne também ajuda a otimizar o processo de otimização, tornando-o mais fácil e eficiente.
 

Mega-R6. Impulsionando



Mega-R6. Impulsionando

No vídeo "Mega-R6. Boosting", o palestrante explica o conceito de boosting no aprendizado de máquina e demonstra o processo de seleção dos classificadores corretos para minimizar erros. Eles dão um exemplo de identificação de vampiros com base em certas qualidades e discutem como escolher os classificadores mais eficazes. Os classificadores selecionados são usados para criar um classificador final que é aplicado aos pontos de dados para determinar quantos são classificados corretamente. O palestrante também enfatiza que a escolha de quando interromper o processo é importante e reconhece que nem sempre é possível atingir a precisão total.

  • 00:00:00 Nesta seção, o palestrante discute o conceito de boosting no aprendizado de máquina, que envolve uma série de diferentes classificadores. O problema usado como exemplo envolve a identificação de vampiros com base em várias qualidades, como maldade, emo, brilho e número de interesses românticos. A chave para aumentar é que, para qualquer classificador possível, desde que não seja uma divisão 50/50 dos dados, ele pode ser usado de alguma forma para criar um classificador superior. Além disso, o palestrante observa que na verdade existem mais classificadores do que os listados, pois muitos deles têm versões opostas que são ignoradas para esse problema específico.

  • 00:05:00 Nesta seção, o palestrante explica como uma divisão 50/50 para aumentar é inútil, pois é tão bom quanto jogar uma moeda. No entanto, em alguns casos, um classificador pior que 50/50 ainda é melhor que um classificador 50/50. As rodadas posteriores no aumento exigem a alteração dos pesos de cada ponto de dados, e o classificador com melhor desempenho será aquele que acertar mais peso. Embora os classificadores que acertam menos da metade do peso geralmente estejam bem, o palestrante recomenda usar seus inversos para acertar mais da metade do peso.

  • 00:10:00 Nesta seção, o palestrante analisa cada classificador e descobre quais pontos de dados estão classificados incorretamente. Com a suposição de que todas as coisas más são vampiros e todas as coisas não más não são vampiros, eles determinam que enganam os anjos, Edward Cullen, Saya Otonashi e Lestat de Lioncourt quando o mal é igual a não. Lógica semelhante é aplicada a personagens emo e personagens transformadores. No entanto, quando brilhante é igual a sim, eles erram um, dois, quatro, cinco, seis, sete e oito, e quando o número de interesses românticos é maior que dois, eles erram Searcy e Edward Cullen. Quando se trata de o número de interesses românticos ser maior que quatro, nenhum personagem se enquadra nessa categoria, portanto, nenhum é classificado incorretamente.

  • 00:15:00 Nesta seção do vídeo, o palestrante discute a classificação dos vampiros e quais classificadores provavelmente estão incorretos. O palestrante observa que existem certos classificadores positivos que inevitavelmente levarão a classificadores negativos incorretos. O palestrante então lista vários classificadores e afirma que em seus sonhos mais loucos, os indivíduos usariam apenas seis deles. O palestrante pede a opinião dos espectadores sobre quais classificadores eles acham que são úteis e circula aqueles que valem a pena usar. Os classificadores considerados úteis são aqueles que erram apenas alguns, como os classificadores E e F.

  • 00:20:00 Nesta seção, o palestrante explica o processo de seleção dos seis pontos de dados corretos para aumentar no Mega-R6. Um ponto-chave é que, embora haja muitos pontos de dados diferentes para escolher, alguns deles são estritamente melhores do que outros. Por exemplo, o ponto de dados F é sempre pior que E, portanto nunca deve ser escolhido. O palestrante também observa que, ao selecionar os seis pontos de dados, é importante escolher aqueles que não tenham um subconjunto estrito das mesmas respostas incorretas. O processo de seleção dos seis pontos de dados requer consideração cuidadosa do peso de cada ponto de dados para minimizar o erro.

  • 00:25:00 Nesta seção do vídeo, o apresentador discute o processo de boosting e como selecionar os melhores classificadores para a tarefa. Ele explica como riscar quaisquer classificadores inúteis e como escolher aqueles que minimizam o erro. O apresentador passa a demonstrar o processo de aumento, começando com a ponderação de todos os dez pontos de dados igualmente e selecionando o classificador E como o melhor. O erro é então calculado em um quinto, e o processo continua a partir daí.

  • 00:30:00 Nesta seção do vídeo, o apresentador explica como tomar todas as decisões tomadas por um classificador certo. Esse processo envolve alterar os pesos de cada decisão para 1/2 para as corretas e 1/2 para as incorretas. O apresentador descreve um método para automatizar esse processo, que envolve reescrever os pesos de forma que seja mais fácil somá-los e escolher a melhor decisão. Neste exemplo, a decisão com a menor quantidade de erro é escolhida.

  • 00:35:00 Nesta seção, o palestrante discute o processo de determinação do melhor classificador no jogo de boosting Mega-R6. A transcrição inclui cálculos envolvendo a soma dos números dentro e fora dos círculos e o processo de alteração dos números no círculo para facilitar a determinação do melhor classificador. O palestrante afirma que é importante ignorar as rodadas anteriores e considerar apenas os pesos atuais ao determinar um classificador. O palestrante também explica que os classificadores não podem ser usados duas vezes seguidas e discute o motivo desse recurso de design. O melhor classificador é determinado como A porque teve o menor número de respostas erradas.

  • 00:40:00 Nesta seção da transcrição, o palestrante discute como calcular o classificador final usando o método de reforço. O classificador final é uma combinação dos classificadores ponderados que foram usados para criá-lo. O locutor então aplica o classificador final a dez pontos de dados para determinar quantos são classificados corretamente, usando um simples voto para determinar a saída. Um ponto de dados, Edward Cullen de Crepúsculo, está incorreto porque dois dos três classificadores não o classificaram como um vampiro.

  • 00:45:00 Nesta seção do vídeo, o palestrante discute vários personagens como sendo maus, emo ou vampiros com base em suas características e interesses amorosos, e na precisão de um algoritmo de reforço para classificá-los. A discussão leva a uma questão sobre o uso de vários classificadores para tornar o processo de classificação mais rápido, o que o palestrante explica estar correto até certo ponto, mas requer passar por um número maior de classificadores. O palestrante também enfatiza que o processo de convergência para acertar tudo nem sempre é fácil e pode exigir a opção de parar após um determinado número de rodadas.
 

Mega-R7. Quase Acidentes, Arch Learning



Mega-R7. Quase Acidentes, Arch Learning

No vídeo, é apresentado o conceito de near miss learning, envolvendo o aprendizado sobre diferentes tipos de fontes de luz e suas características. A abordagem Arch Learning usa seis heurísticas para refinar um modelo, incluindo link obrigatório, link proibido, árvore de subida, conjunto de extensão, intervalo fechado e link de queda. O vídeo discute várias técnicas usadas no aprendizado de máquina, como estender conjunto, escalar árvore, intervalo fechado e soltar link. Os palestrantes também falam sobre questões relacionadas à fragilidade e vulnerabilidade do modelo Arch Learning à ordenação, levando a reações inconsistentes a informações contraditórias. O vídeo também discute o conceito de generalização do Mega-R7 e como ele difere dos modelos anteriores. Além disso, são discutidos os trade-offs entre o aprendizado irlandês e o aprendizado de rede em termos de sua capacidade de expressar subconjuntos de informações, bem como ensinar o sistema usando vários modelos com diferentes detalhes de implementação.

  • 00:00:00 Nesta seção, é apresentado o conceito de Árvore de Aprendizagem near-miss, que envolve aprender sobre diferentes tipos de fontes de luz e suas características. O modelo inicial é uma lâmpada incandescente de base plana e abajur, movida a eletricidade. A abordagem de aprendizado do arco envolve o uso de seis heurísticas, incluindo link obrigatório, link proibido, árvore de subida, conjunto estendido, intervalo fechado e link suspenso. Exigir link torna um recurso anteriormente irrelevante um requisito e proibir link proíbe um recurso. Essas heurísticas ajudam a refinar o modelo tornando certos recursos necessários ou desnecessários e podem ajudar a identificar cenários de quase falha.

  • 00:05:00 Nesta seção, o palestrante discute várias técnicas usadas no aprendizado de máquina, incluindo estender conjunto, escalar árvore, intervalo fechado e drop link. A técnica extend set envolve a criação de um conjunto de exemplos positivos, mas proibindo certos elementos para economizar espaço. A técnica de escalar árvore sobe na árvore para criar um modelo mais generalizado, enquanto o intervalo fechado cobre todo o intervalo para torná-lo aceitável. A técnica drop link permite que o sistema seja parcimonioso ao descartar um link se todos os elementos forem aceitáveis. O palestrante aborda o uso de cada técnica e destaca a importância do conhecimento em aprendizado de máquina para tornar o modelo mais receptivo a novos exemplos e acelerar o tempo do questionário.

  • 00:10:00 Nesta seção, o vídeo discute a ideia de um generalizador e como ele pode ser estendido para exemplos positivos ou ampliado para intervalos próximos. No entanto, se houver um exemplo negativo, pode complicar o sistema e a implementação pode ter que se ajustar. O vídeo fornece um exemplo de lâmpada e como o modelo pode ser adaptado usando a heurística do generalizador para generalizar o intervalo quando houver um exemplo positivo. Se houver um exemplo negativo, a implementação pode ter que usar a abordagem drop-link para fazer o sistema funcionar de forma eficaz.

  • 00:15:00 Nesta seção do vídeo, os palestrantes discutem algumas questões relacionadas ao modelo Arch Learning, que é um tipo de modelo de aprendizado de máquina desenvolvido na década de 1960. Eles descrevem como o sistema é frágil e particularmente vulnerável à ordenação, o que significa que a ordem em que os dados são apresentados pode afetar bastante a capacidade de aprendizado do sistema. Além disso, eles explicam como o sistema pode ser inconsistente e reagir mal a informações contraditórias. Os palestrantes também explicam um tipo alternativo de aprendizado chamado aprendizado em rede, que armazena todos os exemplos vistos e os compara e contrasta com novos exemplos, permitindo identificar padrões e refinar sua compreensão de um tópico.

  • 00:20:00 Nesta seção, o vídeo discute o conceito de arch learning, um sistema que intencionalmente não se lembra das coisas para buscar elegância e simplicidade. Esta seção compara a ideia a um bebê que não pode contar a você sobre um bloco com o qual brincou anteriormente, pois não armazena e não se lembra de tudo o que experimentou. No entanto, os humanos são bons professores e oferecem exemplos apropriados com os quais uma máquina pode aprender. O vídeo também fala sobre como generalizar o golpe subindo na árvore ao invés de definir a medida para ser mais parcimonioso, elegante e simples. Por fim, um exemplo de lâmpada fluorescente é discutido, e a heurística utilizada para generalização é subir a árvore de uma base plana até uma base suporte propriamente dita.

  • 00:25:00 Nesta seção, o palestrante discute um novo modelo para o Mega-R7 e como ele difere dos anteriores. Eles examinam alguns exemplos de quase-acidentes, que são instâncias em que o sistema encontra entradas semelhantes, mas não exatamente iguais às que ele viu antes. O palestrante explica que esses quase-acidentes não requerem nenhuma alteração no modelo e que é aceitável deixá-los como estão. Além disso, o palestrante aborda uma questão sobre se um exemplo negativo, como fluorescente, seria considerado um quase acidente, ao qual eles respondem que não, porque o sistema não tem memória e não sabe que a fluorescente costumava ser um exemplo positivo .

  • 00:30:00 Nesta seção, o palestrante discute as compensações no aprendizado irlandês e no aprendizado de rede em termos de sua capacidade de expressar subconjuntos de informações. A aprendizagem irlandesa, embora sem memória, não pode expressar um subconjunto como aceitável sem ver um exemplo positivo dele, o que pode levar à perda de alguma expressividade. No entanto, esse problema é corrigido no aprendizado de rede, mas tem seu próprio conjunto de problemas. O palestrante também destaca como ensinar o sistema, como apresentar vários modelos que cumprem o requisito de ter suporte de base enquanto utilizam diferentes lâmpadas e fontes de energia elétrica. Os detalhes da implementação precisam ser questionados e esclarecidos, pois a escolha de um em detrimento do outro pode levar a resultados diferentes.
 

AlphaGo - O Filme | Documentário premiado completo



AlphaGo - O Filme | Documentário premiado completo

Um documentário sobre o desenvolvimento do programa de computador AlphaGo, projetado para derrotar jogadores humanos no jogo de Go. O filme segue a vitória do programa sobre um jogador humano campeão mundial em uma partida de cinco jogos. Alguns espectadores acham que a vitória do AlphaGo pode anunciar o fim da raça humana como a conhecemos, à medida que as máquinas se tornam cada vez melhores na execução de tarefas cognitivas.

  • 00:00:00 Este vídeo é sobre o AlphaGo, um programa de computador que venceu um jogador humano campeão mundial no jogo de Go. O vídeo descreve o significado da vitória do AlphaGo e mostra imagens do computador jogando contra um jogador humano. A empresa por trás do AlphaGo, DeepMind, quer convidar o jogador Go mais forte do mundo, Demyster Harbis, para visitar seus escritórios em Londres para ver o projeto em ação. Se você estiver interessado em participar, eles ficarão muito gratos!

  • 00:05:00 AlphaGo, um programa de computador desenvolvido pela DeepMind, derrota o jogador profissional de Go Lee Sedol em uma partida de cinco jogos. O documentário acompanha os esforços da equipe para desenvolver e treinar o programa e a própria partida.

  • 00:10:00 AlphaGo, um programa de computador desenvolvido pelo Google, derrota o campeão europeu Go jogador Lee Sedol em uma partida de cinco jogos. O documentário acompanha o desenvolvimento do AlphaGo e os preparativos para a partida. Apesar do ceticismo inicial, o público está bastante impressionado com o desempenho do AlphaGo, com alguns até anunciando-o como um sinal do fim do domínio humano no campo da inteligência artificial.

  • 00:15:00 O AlphaGo, um programa de computador projetado para derrotar campeões humanos no jogo Go, foi derrotado publicamente por um jogador humano, Lee Sedol, em uma partida realizada na semana passada. O vídeo discute o significado da perda, bem como os esforços contínuos da equipe AlphaGo para melhorar seu sistema.

  • 00:20:00 AlphaGo, um programa de computador que é considerado "o melhor jogador de Go do mundo", é colocado contra um jogador humano profissional em uma partida de cinco jogos. Fanway é um conselheiro da equipe e ajuda a melhorar sua estratégia.

  • 00:25:00 AlphaGo enfrentará o go jogador profissional sul-coreano, Lee Sedol, amanhã em uma partida histórica. O documentário acompanha a equipe enquanto se prepara para o jogo e discute suas expectativas.

  • 00:30:00 AlphaGo, um programa de computador que derrotou um campeão humano em um jogo de tabuleiro, é o tema de um documentário premiado. O documentário acompanha o desenvolvimento do programa e seu confronto bem-sucedido contra um oponente humano.

  • 00:35:00 AlphaGo, um programa de computador desenvolvido pelo Google, derrota um jogador humano campeão mundial em uma partida de cinco jogos. O sucesso do programa é uma surpresa para muitos, assim como sua capacidade de aprender com sua experiência.

  • 00:40:00 AlphaGo, um programa de computador desenvolvido pela DeepMind, derrotou um jogador profissional de Go em uma partida de cinco partidas. O programa de computador foi desenvolvido por humanos e é considerado um avanço na pesquisa de inteligência artificial.

  • 00:45:00 AlphaGo, um programa de computador projetado para derrotar um jogador profissional humano em um jogo de Go, surpreendeu os observadores com seu desempenho no segundo jogo do Google DeepMind Challenge. A rede de políticas, a rede de valor e a pesquisa em árvore da IA foram altamente eficazes em prever a melhor jogada para a situação do jogo em questão, levando à vitória do AlphaGo.

  • 00:50:00 AlphaGo, um programa de computador desenvolvido pelo Google, venceu uma partida do campeonato contra um jogador humano de renome mundial. O documentário examina a partida e o significado da vitória do AlphaGo.

  • 00:55:00 AlphaGo venceu dois dos três jogos contra um jogador humano campeão mundial, mas a tristeza e sensação de perda entre o público é palpável. AlphaGo é apenas um programa de computador, mas os comentaristas se referem a ele como se fosse um ser consciente e se preocupam com as implicações de seu poder crescente.
 

Deepmind AlphaZero - Dominando jogos sem conhecimento humano



Deepmind AlphaZero - Dominando jogos sem conhecimento humano

O vídeo explora o desenvolvimento da arquitetura de aprendizado por reforço profundo da DeepMind, AlphaZero, que utiliza uma política unificada e uma rede de valor para obter sucesso em jogos com enormes espaços de estado sem nenhum dado humano prévio. O algoritmo do AlphaZero envolve o treinamento de uma rede neural para prever a ação escolhida por toda uma pesquisa em árvore de Monte Carlo, destilando conhecimento de forma iterativa para gerar jogadores mais fortes ao longo do tempo. O algoritmo mostrou curvas de aprendizado impressionantes, superando as versões anteriores em apenas algumas horas de treinamento e exibindo escalabilidade notável, apesar de avaliar menos posições do que os mecanismos de pesquisa anteriores. O vídeo também discute a capacidade do AlphaZero de combinar o melhor das abordagens humana e mecânica, ao mesmo tempo em que mostra potencial para aprendizado por reforço de uso geral.

  • 00:00:00 Nesta seção do vídeo, David discute o AlphaGo, a versão original da arquitetura de aprendizado por reforço profundo do DeepMind que foi capaz de derrotar um jogador profissional humano e campeão mundial. O AlphaGo utiliza duas redes neurais convolucionais: uma rede de política, que recomenda movimentos para jogar com base em uma distribuição de probabilidades, e uma rede de valor, que prevê o vencedor do jogo. As redes são treinadas por meio de aprendizado supervisionado e aprendizado por reforço em um conjunto de dados humano e jogos jogados contra si mesmo. O sucesso do AlphaGo no jogo de Go demonstra o potencial de aprendizado de máquina e abordagens baseadas em inteligência artificial para obter sucesso em jogos com enormes espaços de estado.

  • 00:05:00 Nesta seção, o palestrante discute o pipeline de treinamento do AlphaGo e como ele usa a rede de políticas e a rede de valor para tornar a pesquisa mais tratável, dada a vastidão da bacia de pesquisa no jogo de Go. A rede de políticas sugere movimentos para reduzir a largura da árvore de busca, enquanto a rede de valor prevê o vencedor do jogo de qualquer posição para reduzir a profundidade da busca. Isso permite que o algoritmo pesquise com eficiência partes importantes da árvore usando a pesquisa de árvore de Monte Carlo, que efetivamente expande uma grande árvore de pesquisa seletivamente, considerando apenas as partes mais relevantes. Isso levou ao desenvolvimento do AlphaGo Master, que foi treinado com redes mais profundas e mais iterações de aprendizado por reforço, vencendo 60 jogos a zero contra os jogadores humanos mais bem classificados do mundo.

  • 00:10:00 Nesta seção, o palestrante descreve o desenvolvimento do AlphaGo Zero, que aprende como jogar Go sem nenhum dado humano prévio, em vez de partir de jogos completamente aleatórios e usando apenas as regras do jogo. O AlphaGo Zero difere do AlphaGo original porque não usa recursos artesanais, unifica a rede de políticas e a rede de valor, usa uma pesquisa mais simples sem lançamentos aleatórios de Monte Carlo e tem uma abordagem mais simples para reduzir a complexidade, o que leva a uma maior generalidade, potencialmente aplicável em qualquer domínio. O algoritmo para AlphaGo Zero envolve a execução de uma busca em árvore de Monte Carlo usando a rede neural atual para cada posição e executando o movimento sugerido, treinando uma nova rede neural a partir dessas posições alcançadas no jogo concluído.

  • 00:15:00 Nesta seção, o palestrante explica o processo do algoritmo AlphaGo Zero, que envolve o treinamento de uma rede neural para prever diretamente a ação que foi escolhida por um Monte Carlo Tree Search (MCTS) inteiro para destilar todo o conhecimento em seu comportamento direto e treinando uma nova rede de valor para prever o vencedor do jogo. O procedimento é iterado para gerar um jogador mais forte a cada vez e gerar dados de maior qualidade, levando a um jogo cada vez mais forte. AlphaGo Zero usa melhoria de política baseada em pesquisa, incorporando sua pesquisa na avaliação de política, o que permite resultados de alta qualidade e sinais de treinamento precisos para redes neurais. A curva de aprendizado mostra que AlphaGo Zero superou as versões anteriores em apenas 72 horas e derrotou jogadores humanos por 60 após 21 dias.

  • 00:20:00 Nesta seção, o palestrante fala sobre as várias versões do AlphaGo que foram desenvolvidas, desde a versão original que derrotou o campeão europeu por cinco jogos a zero até o AlphaGo Zero, que foi treinado completamente com pesos aleatórios e foi cerca de 5.000 Elo, tornando-se a versão mais forte do AlphaGo. A nova versão, AlphaZero, aplica o mesmo algoritmo a três jogos diferentes: xadrez, shogi e go. O jogo de xadrez, em particular, tem sido um domínio altamente estudado em IA, sendo o xadrez computacional o domínio mais estudado na história da inteligência artificial, culminando em sistemas altamente especializados que atualmente são indiscutivelmente melhores que os humanos.

  • 00:25:00 Nesta seção, o palestrante discute a complexidade do jogo de shogi, que é mais difícil de computar e tem um espaço de ação maior e mais interessante do que o xadrez. Ele explica que os programas de computador mais fortes para shogi só recentemente alcançaram o nível de campeão mundial humano, tornando-o um estudo de caso interessante para o DeepMind prosseguir. Os mecanismos de última geração para xadrez e shogi são baseados na pesquisa alfa-beta, que foi aprimorada por uma função de avaliação artesanal que foi ajustada por grandes mestres humanos ao longo de muitos anos, bem como um grande número de funções altamente otimizadas extensões de pesquisa. O palestrante então compara os componentes do programa de xadrez top Stockfish com o AlphaZero, que literalmente não tem nenhum dos mesmos componentes, substituindo-os por ideias baseadas em princípios baseados em autojogo, aprendizado por reforço e pesquisa de Monte Carlo. O palestrante observa que o xadrez é diferente do Go, pois possui invariância translacional perfeita, carece de simetria, possui um espaço de ação mais interessante com ações compostas e contém empates.

  • 00:30:00 Nesta seção, o palestrante discute as curvas de aprendizado para os três jogos: xadrez, shogi e go. AlphaZero superou o campeão mundial Stockfish no jogo de xadrez em apenas quatro horas de treinamento do zero, usando sua mesma arquitetura de rede e configurações para todos os jogos. O AlphaZero derrotou as versões anteriores do AlphaGo Zero e o atual campeão mundial Shogi com facilidade após apenas algumas centenas de milhares de passos ou 8 horas de treinamento. A escalabilidade da busca em árvore de Monte Carlo do AlphaZero foi comparada com os buscadores alfa-beta usados em programas anteriores, incluindo o Stockfish, que avalia cerca de 70 milhões de posições por segundo, enquanto o AlphaZero avalia apenas cerca de 80 mil posições por segundo. O palestrante teoriza que a razão pela qual o MCTS é tão eficaz, apesar de avaliar ordens de magnitude menos posições, quando combinado com aproximadores de funções profundas como redes neurais é que ele ajuda a cancelar erros de aproximação que estão presentes na pesquisa, resultando assim em melhor desempenho e escalabilidade. Finalmente, o AlphaZero também descobriu o conhecimento do xadrez humano por si mesmo, escolhendo as 12 aberturas humanas mais comuns no jogo de xadrez.

  • 00:35:00 Nesta seção, o palestrante discute o uso do AlphaZero de aberturas de xadrez específicas e como ele as jogou durante o autojogo. AlphaZero passou uma quantidade significativa de tempo jogando essas variações, mas eventualmente começou a preferir aberturas diferentes, descartando algumas que eram tocadas com mais frequência. O palestrante também menciona o progresso feito no uso dos métodos do AlphaZero para aprendizado de reforço profundo de uso geral, que pode ser transferido para outros domínios. Quanto mais especializado um algoritmo, menos ele pode se adaptar a outros domínios. Embora o uso de humanos e máquinas juntos seja uma perspectiva interessante, o palestrante enfatiza que o AlphaZero joga de maneira mais humana do que os programas de xadrez anteriores, indicando sua capacidade de combinar o melhor dos dois mundos.

  • 00:40:00 Nesta seção, o palestrante explica que, embora eles apenas tenham incorporado as regras do jogo como conhecimento humano no AlphaGo Zero, isso inclui codificação e decodificação básicas de ações. Por exemplo, no xadrez, eles usaram a representação espacial para codificar a peça que está sendo apanhada e o plano que está sendo usado para colocá-la no chão. Eles excluem movimentos ilegais do espaço de ação. O palestrante explica ainda que eles não incluíram barras de erro em seus experimentos porque realizaram apenas uma corrida por jogo. No entanto, eles realizaram vários experimentos e os resultados são muito reprodutíveis.
 

AlphaGo - Como a IA dominou o jogo de tabuleiro mais difícil da história



AlphaGo - Como a IA dominou o jogo de tabuleiro mais difícil da história

O vídeo explora os detalhes técnicos do AlphaGo Zero, um sistema de IA que foi treinado inteiramente por meio de reprodução automática e sem o uso de conjuntos de dados humanos. O sistema usou uma arquitetura de rede residual e uma abordagem de duas pesquisas para prever valor e movimentos fortes. O vídeo destaca as melhorias feitas, incluindo a capacidade de prever os resultados do jogo e a descoberta do sistema e o afastamento de movimentos conhecidos no Go. No entanto, a aplicação do sistema no mundo real é limitada pela necessidade de um simulador perfeito, dificultando a aplicação da abordagem em outras áreas.

  • 00:00:00 Nesta seção, são discutidos os detalhes técnicos das melhorias do AlphaGo Zero em relação às versões anteriores. A primeira grande mudança foi que o AlphaGo Zero treina inteiramente a partir do autojogo e não usa conjuntos de dados de jogadores Go profissionais humanos. Ele também não usa nenhum dos recursos criados anteriormente para o jogo e, em vez disso, aprende inteiramente observando o estado do tabuleiro. A arquitetura de rede foi alterada para uma arquitetura completamente residual e, em vez de ter uma política separada e uma rede de avaliação, elas agora são combinadas em uma única grande rede que faz as duas coisas. Os lançamentos de Montecarlo foram substituídos por uma abordagem mais simples de duas pesquisas que usa a rede única para fazer a previsão de valor e criar movimentos fortes. No geral, isso resultou em uma representação de placa de 19 por 19 por 16 números binários, uma rede residual e uma representação de valor e vetor de política que são gerados a partir do vetor de recursos.

  • 00:05:00 Nesta seção, o vídeo explica como o AlphaGo foi treinado para executar boas jogadas usando uma arquitetura de rede que leva a altas probabilidades de boas jogadas e baixas probabilidades de más jogadas. A primeira versão do AlphaGo foi treinada usando aprendizado supervisionado em um conjunto de dados de movimentos Go profissionais, seguido por um estágio de ajuste fino usando jogo automático. No entanto, a nova versão, AlphaGo Zero, não usa nenhum conjunto de dados e aprende inteiramente por meio de autojogo usando uma pesquisa em árvore de Monte Carlo que estabiliza o processo de treinamento com peso próprio. Explodindo a árvore de busca e usando a busca em árvore de Monte Carlo, o sistema pode estimar quais movimentos são fortes e quais não são. Por fim, o vídeo destaca que o processo é específico para jogos como Go, onde você tem um simulador perfeito, tornando desafiadoras as aplicações no mundo real dessa abordagem.

  • 00:10:00 Nesta seção, o palestrante discute vários gráficos que descrevem as melhorias feitas na arquitetura de rede do AlphaGo. Um gráfico mostra a capacidade da rede AlphaGo Zero de prever o resultado de um jogo com base na posição atual do tabuleiro, com uma melhoria significativa em relação às versões anteriores. O palestrante também observa que a transição de uma arquitetura convolucional normal para uma rede residual resultou em uma grande melhoria. Além disso, um gráfico mostra como o AlphaGo Zero descobriu e passou de movimentos conhecidos no jogo de Go. No geral, o palestrante está impressionado com os resultados da equipe do Google DeepMind e incentiva os espectadores a fazerem perguntas na seção de comentários.
Razão: