Aprendizado de máquina e redes neurais - página 3

 

Arte de IA em evolução



Arte de IA em evolução

O vídeo discute o processo de evolução de imagens usando IA, começando com a seleção de uma imagem, dando um prompt e gerando variações por meio de um processo de evolução. O objetivo desse processo é a exploração, para encontrar obras de arte bonitas e inimagináveis ou gatos fofos utilizando um espaço de imagem inconcebivelmente enorme e insondável. A entrada para modelos de texto para imagem permite que os usuários insiram um prompt simples e recebam uma vasta gama de imagens possíveis que satisfaçam esse prompt, permitindo também a criação de imagens inteiramente novas e a organização e catalogação das existentes no espaço latente. O método Pick Breeder é uma maneira eficiente e natural de mutação, seleção e reprodução de genes com melhor desempenho para criar imagens, permitindo que as pessoas sigam os fios evolutivos e descubram belezas inesperadas por caminhos ramificados com poderosas ferramentas de IA.

  • 00:00:00 O criador discute um modelo de IA chamado Mid-Journey, que é um algoritmo de conversão de texto em imagem que usa redes neurais para gerar imagens com base em um determinado prompt de texto. O criador tem experimentado esse algoritmo em seu servidor Discord, permitindo que os usuários selecionem e transformem imagens e criem árvores evolutivas da vida. Embora a criatividade desse processo seja limitada pelo prompt e pelo conjunto de dados usados para treinar o modelo, as imagens resultantes são diferentes de qualquer obra de arte que o criador tenha visto antes, e o processo levou a criações interessantes e únicas. O criador também menciona outro modelo de código aberto chamado Stable Diffusion, que pode ser executado em sua própria GPU.

  • 00:05:00 Nesta seção, o criador explica o processo de evolução de uma imagem usando IA. O processo começa com a seleção de uma imagem, dando um prompt e, em seguida, gerando variações por meio de um processo evolutivo. O processo evolutivo pode ser reduzido para evitar o aspecto da comunidade ou pode ser executado por conta própria. O propósito de evoluir uma imagem é a exploração, explorando o espaço da imagem - um espaço matemático literal no qual cada imagem ocupa um ponto ou vetor - para encontrar obras de arte bonitas e inimagináveis ou gatos excepcionalmente fofos, algo além do ruído aleatório, pois o espaço da imagem é inconcebivelmente enorme e irremediavelmente insondável.

  • 00:10:00 O vídeo explica o processo de entrada para modelos de texto para imagem, que permite aos usuários inserir um prompt em linguagem simples e receber uma vasta gama de imagens possíveis que satisfaçam esse prompt. Esses mecanismos de pesquisa generativos podem criar imagens inteiramente novas, bem como descobrir imagens existentes organizadas, catalogadas e rotuladas no espaço latente. Ao fornecer valores aleatórios ao modelo, como um vetor latente, a saída da imagem tem mais variedade e pode ser alterada movendo-se pelo espaço latente. O método Pick Breeder é uma forma eficiente e natural de mutação, seleção e reprodução dos genes com melhor desempenho para criar imagens. As pessoas podem seguir um fio evolutivo de sugestões e imagens interessantes para descobrir a beleza inesperada através de caminhos ramificados com essas ferramentas poderosas.
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

A IA que cria qualquer imagem que você quiser, explicada



A revolução de texto para imagem, explicada

Este vídeo discute como os algoritmos de aprendizado de máquina podem ser usados para gerar imagens com base em descrições de texto e como essa tecnologia pode ser usada para criar obras de arte. O vídeo entrevista James Gurney, ilustrador americano, que discute as implicações dessa tecnologia na lei de direitos autorais e no mundo da arte.

  • 00:00:00 Esta parte explica como os algoritmos de aprendizado de máquina podem legendar imagens e como os desenvolvedores criaram geradores de conversão de texto em imagem usando esses algoritmos. O vídeo também discute como a engenharia imediata é necessária para se comunicar com esses modelos de forma eficaz.

  • 00:05:00 A IA que cria qualquer imagem que você deseja, explicou, começa com um conjunto de dados de treinamento de milhões de imagens e suas respectivas legendas. Os modelos aprendem a reconhecer padrões nessas imagens e, então, geram novas imagens com base nesse reconhecimento. As imagens geradas desta forma podem ser diferentes para diferentes pessoas e modelos, devido à aleatoriedade do processo de difusão.

  • 00:10:00 Este vídeo explica como o aprendizado profundo permite que os usuários criem imagens semelhantes às produzidas por artistas famosos sem precisar copiar suas imagens diretamente. O vídeo entrevista James Gurney, um ilustrador americano, que se tornou uma referência popular para usuários de modelos de texto para imagem. Gurney diz que, embora os artistas devam ter permissão para aceitar ou não que seu trabalho seja usado como um conjunto de dados para criar outras obras de arte, as questões de direitos autorais em torno das imagens que entram no treinamento dos modelos e as imagens que saem deles ainda não foram resolvidas. Além disso, o espaço latente desses modelos contém alguns cantos escuros que ficam mais assustadores à medida que as saídas se tornam fotorrealistas. No entanto, o que torna essa tecnologia tão única é que ela permite que qualquer um de nós direcione a máquina para imaginar o que queremos que ela veja.
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...
 

Guia para MidJourney AI Art - Como começar GRÁTIS!



Guia para MidJourney AI Art - Como começar GRÁTIS!

Neste vídeo, o palestrante apresenta o MidJourney, uma ferramenta que gera arte de IA com base em prompts e fornece instruções passo a passo sobre como começar a usá-la. Eles demonstram como usar comandos para alterar o estilo e a qualidade das imagens geradas, usando exemplos como "renderização 3D" ou "esboço de tinta pingando". Além disso, eles explicam a seção da comunidade do site MidJourney, onde os usuários podem encontrar inspiração e copiar prompts para experimentar. O palestrante também compartilha sua jornada com a arte da IA e fornece recursos e códigos adicionais para os interessados em aprender mais.

  • 00:00:00 Esta parte explica como começar a usar o MidJourney, uma ferramenta que gera arte de IA com base em prompts. Para se inscrever, acesse o site do MidJourney e siga as instruções para se registrar e aceitar o convite do Discord. Uma vez no Discord, digite o comando "/imagine" seguido de um prompt como "humano roxo com asas" para gerar uma imagem. O palestrante também mostra como aumentar a escala da imagem para obter mais detalhes e como alterar o estilo da imagem usando diferentes comandos, como "renderização 3D" ou "esboço de tinta pingando". Cada vez que um comando é inserido, a imagem resultante será única.

  • 00:05:00 Nesta seção, o narrador explora os diferentes estilos e opções de qualidade disponíveis na arte MidJourney AI. Eles demonstram o uso de palavras-chave e comandos para criar uma variedade de efeitos em uma renderização 3D, incluindo hiper-realismo e estilização. Eles também experimentam usar uma imagem de si mesmos como um prompt e ajustar o peso da imagem para produzir resultados diferentes.
    Além disso, eles discutem a seção da comunidade do site MidJourney, onde os usuários podem encontrar inspiração e copiar prompts para experimentar. O narrador também fornece dicas sobre como usar o MidJourney com responsabilidade, como adicionar um aviso ao compartilhar a arte gerada online.

  • 00:10:00 O narrador fornece links para o Discord e MidJourney AI Art, bem como outros recursos e códigos relacionados à sua jornada de AI Art. Eles incentivam os espectadores a conferir sua jornada por si mesmos e oferecem informações adicionais para os interessados em aprender mais.
Guide to MidJourney AI Art - How to get started FREE!
Guide to MidJourney AI Art - How to get started FREE!
  • 2022.08.18
  • www.youtube.com
Start for Free. This Guide to Midjourney AI Art will show you how to get started and show you a few tricks and give ean you an idea of how powerful this pla...
 

MidJourney -Getting Started [Novo e atualizado] Um tutorial rápido para você começar na geração de arte de IA



MidJourney -Getting Started [Novo e atualizado] Um tutorial rápido para você começar na geração de arte de IA

O tutorial em vídeo fornece uma visão geral abrangente de como usar a plataforma de geração de arte AI da MidJourney, que só pode ser acessada por meio do Discord. O palestrante explica os diferentes modos de assinatura disponíveis, como criar prompts usando artistas e várias condições, como usar interruptores para remover elementos indesejados de imagens geradas por IA e como aumentar e ajustar as proporções das imagens. Eles também fornecem dicas sobre como gerar arte de IA exclusiva usando prompts com apelo visual e usando o botão de variação antes do upscaling. No geral, MidJourney é apresentado como uma ferramenta para exploração e partida artística, em vez de um meio de criar obras de arte acabadas.

  • 00:00:00 Esta parte fornece uma visão geral do meio da jornada e do Discord, explicando que o meio da jornada só pode ser acessado por meio do Discord. Eles discutem como o Discord é uma plataforma usada para bate-papo por voz que também pode ser usada para criar bots, que é como funciona no meio da jornada. Eles também explicam a propriedade dos ativos criados no meio da jornada e as opções de preço disponíveis para usar o serviço. O palestrante então discute as diferentes salas e recursos do Discord e como começar no meio da jornada, incluindo o uso dos diferentes comandos disponíveis por meio da barra.

  • 00:05:00 Nesta seção do tutorial, o narrador discute os diferentes modos de assinatura disponíveis no MidJourney, incluindo o modo relaxado e o modo privado. Eles também explicam os vários modos de aumento de escala e alertam contra o uso de uma qualidade muito alta para evitar o uso de muitos créditos de imagem. O narrador também aborda brevemente o site da jornada, incluindo o feed da comunidade, onde os usuários podem ver as criações de outras pessoas e copiar seus prompts. Por fim, o narrador apresenta o comando "imaginar" e discute o processo de criação de uma imagem usando prompts e vários interruptores.

  • 00:10:00 Nesta seção do tutorial, o usuário explica como navegar na plataforma de geração de arte AI do MidJourney, incluindo como avaliar imagens para horas gratuitas de geração de imagens, como aumentar e acessar variações de imagens e como criar prompts usando artistas e outras condições. Eles alertam que, embora a engenharia imediata seja um aspecto importante da criação de arte com IA, os usuários devem estar preparados para resultados inesperados e ver a plataforma como um mecanismo de ideias, e não como um produto acabado.

  • 00:15:00 Esta parte do tutorial em vídeo explica como usar determinados interruptores para remover elementos indesejados de uma imagem gerada por IA, como o interruptor "no -- people". No entanto, a eficácia de tais mudanças depende do artista selecionado e da complexidade da imagem. O tutorial também aborda diretivas comuns que podem ser adicionadas a um prompt de arte de IA, como "altamente detalhado" ou "pintura a óleo", e a importância de manter os prompts concisos para evitar confundir o bot de IA. Por fim, o tutorial aborda como melhorar imagens e ajustar suas proporções usando o MidJourney.

  • 00:20:00 O autor explica como usar sinalizadores adicionais ao aumentar a escala de uma imagem para obter resultados diferentes. Os sinalizadores começam com "AR", que significa proporção, seguido pela largura e altura separadas por dois pontos. O palestrante observa que há limitações na tecnologia, como problemas com dedos, rostos e membros extras. Eles também exploram diferentes tipos de prompts, como cryengine e aquarela, e como remixá-los. Por fim, o palestrante recomenda começar com um prompt básico e aperfeiçoá-lo remixando e aprimorando-o. A imagem final pode ser salva e baixada do site MidJourney.

  • 00:25:00 Esta parte discute diferentes estratégias para gerar arte de IA exclusiva com MidJourney. Ele menciona que o uso de prompts com apelo visual ou visuais específicos, como "Blade Runner" ou "cyberpunk", pode ser útil para orientar a produção do MidJourney. Ele também sugere usar o botão de variação antes de se comprometer a aumentar a escala de uma imagem para obter o melhor resultado possível. Por fim, ele lembra aos espectadores que MidJourney é uma ferramenta para exploração e partida artística, não necessariamente para obras de arte acabadas.
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
MidJourney -Getting Started [New & Updated] A quick tutorial to get you started in AI art generation
  • 2022.10.26
  • www.youtube.com
There have been a lot of changes since the launch of MidJourney and it was about time I made an updated tutorial on how to get started. As more people disco...
 

ChatGPT, explicado: O que saber sobre o Chatbot da OpenAI | Podcast de resumo de notícias de tecnologia | Wall Street Journal



ChatGPT, explicado: O que saber sobre o Chatbot da OpenAI | Podcast de resumo de notícias de tecnologia | WSJ

Os chatbots já estão disponíveis ao público e podem ser usados para fazer perguntas e obter respostas. Há preocupações sobre como essas ferramentas podem ser usadas, mas especialistas dizem que as pessoas devem usá-las para aprimorar seu trabalho, não para substituir suas funções.

  • 00:00:00 O ChatGPT, um modelo de IA de conversação de última geração, é capaz de se envolver em conversas semelhantes às humanas e fornecer respostas a perguntas. Ele é construído com grandes quantidades de dados e está sendo usado pela OpenAI, uma empresa de inteligência artificial, para desenvolver a Dolly, uma plataforma de IA que cria imagens. Embora o ChatGPT tenha limitações, sua popularidade e sofisticação levantam questões sobre seus possíveis usos e usos indevidos.

  • 00:05:00 Chatbots já estão disponíveis ao público e podem ser usados para tirar dúvidas e obter respostas. Há preocupações sobre como essas ferramentas podem ser usadas, mas especialistas dizem que as pessoas devem usá-las para aprimorar seu trabalho, não para substituir suas funções.
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
ChatGPT, Explained: What to Know About OpenAI's Chatbot | Tech News Briefing Podcast | WSJ
  • 2022.12.07
  • www.youtube.com
ChatGPT, Lensa and DALL-E are giving more people without computing skills the chance to interact with artificial intelligence. These AI programs that can wri...
 

CS 156 Aula 01 - O Problema de Aprendizagem




Curso de Machine Learning da Caltech - CS 156. Aula 01 - O Problema de Aprendizagem

A primeira palestra do curso de aprendizado de máquina de Yaser Abu-Mostafa apresenta o problema de aprendizado, que é o processo de encontrar padrões em dados para fazer previsões sem intervenção humana. Ele explica a necessidade de formalização matemática para abstrair problemas práticos de aprendizado e apresenta o primeiro algoritmo para aprendizado de máquina do curso, o modelo perceptron, que usa um vetor de peso para classificar pontos de dados em categorias binárias. A palestra também aborda diferentes tipos de aprendizado, incluindo aprendizado supervisionado, não supervisionado e por reforço, e apresenta um problema de aprendizado supervisionado ao público para abordar a questão de determinar uma função de destino para aprendizado. O professor aborda vários tópicos relacionados ao aprendizado de máquina. Ele enfatiza a necessidade de evitar viés ao selecionar conjuntos de dados, bem como a importância de coletar uma quantidade suficiente de dados. O professor também discute o papel do conjunto de hipóteses no aprendizado de máquina e o impacto da escolha da função de erro na técnica de otimização. Ele também aborda os critérios para incluir métodos de aprendizado de máquina no curso e seu foco em fornecer conhecimento prático em vez de teoria pura.

  • 00:00:00 Nesta seção, Yaser Abu-Mostafa apresenta o esboço do curso para aprendizado de máquina e explica a importância dos aspectos matemáticos e práticos do assunto. Ele afirma que os tópicos do curso não devem ser separados, mas seguem um enredo lógico. Em seguida, ele investiga o problema de aprendizado dando um exemplo de como um espectador avaliaria um filme, o que é relevante para a Netflix, pois eles o usam para personalizar recomendações para seus clientes. Ele menciona a importância da formalização matemática na abstração de problemas práticos de aprendizado e apresenta o primeiro algoritmo para aprendizado de máquina do curso. Ele também fornece uma pesquisa sobre os tipos de aprendizagem e termina com um quebra-cabeça interessante.

  • 00:05:00 Nesta seção, o palestrante explica que a essência do aprendizado de máquina está na existência de padrões junto com a disponibilidade de dados. Além disso, ele descreve a necessidade de encontrar padrões, o que não é possível matematicamente sem dados adequados. Usando o exemplo da classificação de filmes, ele fala sobre a criação de um sistema para prever a classificação usando as preferências do espectador como um vetor de fatores e as compara com o conteúdo do filme. Embora esse sistema funcione, não é considerado aprendizado de máquina, pois requer intervenção humana. A ideia do aprendizado de máquina é que ele pode resolver o problema sem intervenção humana, encontrando padrões e tomando ações corretivas para melhorar o sistema por conta própria.

  • 00:10:00 Nesta seção, o palestrante discute a abordagem de aprendizado e como ela faz a engenharia reversa do processo de classificação para descobrir quais fatores seriam consistentes com essa classificação. O processo de aprendizado de máquina começa a partir de fatores aleatórios e os direciona para os valores de classificação, percorrendo 100 milhões de classificações repetidas vezes, eventualmente encontrando fatores significativos em termos de classificações. O palestrante então usa uma metáfora de uma aplicação financeira, aprovação de crédito, para explicar os componentes matemáticos que compõem o problema de aprendizagem, que incluem as informações do solicitante, o padrão de solvabilidade e a decisão de aprovar ou negar o crédito.

  • 00:15:00 Nesta seção, o instrutor discute o problema de aprendizagem e como ele se aplica à aprovação de crédito. A função alvo é a fórmula ideal de aprovação de crédito, que é desconhecida, e a hipótese é a fórmula criada para aproximar a função alvo. Os dados são usados para aprender a hipótese e um algoritmo de aprendizado é usado para criar a fórmula a partir de um conjunto de fórmulas candidatas conhecido como conjunto de hipóteses. O raciocínio por trás de restringir o algoritmo de aprendizado ao conjunto de hipóteses é evitar a desvantagem de ter uma fórmula irrestrita e se beneficiar de ter um conjunto predefinido de fórmulas para escolher.

  • 00:20:00 Nesta seção, o palestrante explica que mostrou o problema de aprendizagem como uma imagem para discutir os componentes da solução da figura. Ele observa que o conjunto de hipóteses desempenha um papel vital na teoria da aprendizagem, pois nos diz o quão bem aprendemos, entre outras coisas. Ele explica que o conjunto de hipóteses, o algoritmo de aprendizado e a hipótese final compõem um modelo de aprendizado, como o modelo perceptron e um algoritmo de aprendizado perceptron. Ele passa a dar um exemplo simples de modelo perceptron usando uma fórmula de pontuação de crédito com base em diferentes atributos de um cliente, que pode aprovar ou negar um pedido de cartão de crédito com base em um limite.

  • 00:25:00 Nesta seção, o professor discute como definir uma hipótese h e o conjunto de hipóteses que possui todas as hipóteses que possuem a mesma forma funcional. Usando o modelo perceptron, que separa os dados em duas regiões, o algoritmo de aprendizado brinca com parâmetros para mover a linha na esperança de chegar à solução correta. O professor também apresenta o algoritmo de aprendizado perceptron, que pega dados de treinamento e navega pelo espaço de hipóteses para trazer a hipótese final que dá ao cliente. O algoritmo começa com pesos aleatórios e se move até encontrar o peso correto, que é usado na hipótese final.

  • 00:30:00 Nesta seção, o palestrante explica o algoritmo de aprendizado perceptron (PLA), que é um modelo linear capaz de classificar pontos de dados em categorias binárias. O algoritmo usa um vetor de peso que leva em consideração todos os atributos no conjunto de dados e, se um ponto for classificado incorretamente, o algoritmo atualiza o vetor de peso para que ele se comporte melhor naquele ponto específico. O palestrante também discute como há problemas com essa abordagem e as iterações do PLA, mas ao escolher um ponto mal classificado e aplicar a iteração a ele, você acabará por chegar a uma solução correta se os dados forem originalmente separáveis linearmente.

  • 00:35:00 Nesta seção, o palestrante discute diferentes tipos de aprendizagem, começando com o tipo mais popular, a aprendizagem supervisionada. Esse tipo de aprendizado envolve o uso de dados com saídas fornecidas explicitamente, como comportamento de crédito do cliente, para ajudar a classificar instâncias futuras. O palestrante usa o exemplo de ensinar uma máquina a reconhecer diferentes moedas usando medidas físicas como tamanho e massa. As moedas podem ser agrupadas com base em suas medidas, o que pode ajudar a máquina a distingui-las. Outros tipos de aprendizado mencionados incluem o aprendizado não supervisionado, que será discutido em detalhes posteriormente no curso, e o aprendizado por reforço, que será brevemente apresentado.

  • 00:40:00 Nesta seção, o palestrante discute o aprendizado supervisionado e não supervisionado usando exemplos de classificação de moedas e aprendizado de idiomas. No aprendizado supervisionado, os dados de treinamento e a saída correta são fornecidos e, uma vez que o sistema é treinado, ele pode ser usado para classificar um exemplo futuro. No entanto, no aprendizado não supervisionado, apenas os dados de entrada são fornecidos e a função de destino não é conhecida. Apesar disso, o aprendizado não supervisionado ainda pode ser útil para agrupar dados em clusters e identificar padrões que podem auxiliar na classificação futura. O palestrante também explica como o aprendizado não supervisionado pode ser usado para o aprendizado de idiomas, imergindo-se no idioma e desenvolvendo um modelo do idioma por meio da exposição a ele.

  • 00:45:00 Nesta seção, o vídeo explica o conceito de aprendizado por reforço como um método que permite que um sistema aprenda por meio da experiência. O palestrante usa o exemplo de uma criança tocando uma xícara de chá quente para ilustrar como funciona o aprendizado por reforço. Ao permitir que o sistema faça qualquer saída (mesmo as malucas) e gradualmente confiando no condicionamento por meio de resultados recompensadores ou punitivos, o sistema pode eventualmente aprender a navegar em jogos como gamão. Essa abordagem é um método conveniente e fácil de produzir o sistema desejado em vez de escrever código e estudar a matemática por trás dele.

  • 00:50:00 Nesta seção da palestra, o professor apresenta um problema de aprendizado supervisionado para a turma e o público online. O problema envolve dados de treinamento com alguns pontos mapeados para +1 e outros mapeados para -1. O objetivo é aprender a função de destino e determinar o valor da função para um ponto de teste. O professor enfatiza que a função de destino é desconhecida e pode ser qualquer coisa, impossibilitando a determinação de um padrão que se aplique fora do conjunto de treinamento fornecido. Isso apresenta um difícil desafio para o aprendizado, exigindo métodos além da simples memorização de exemplos.

  • 00:55:00 Nesta seção da palestra, o professor discute questões da sessão de perguntas e respostas. Ele aborda a questão da separabilidade linear e explica que, embora seja uma suposição simplista, existem algoritmos que podem lidar com o caso de inseparabilidade linear, e uma técnica será estudada na próxima semana para tornar pontos não separáveis linearmente separáveis linearmente. O professor também menciona que a taxa de convergência do algoritmo perceptron muda com a dimensionalidade e pode construir casos patológicos que levarão uma eternidade. Além disso, ele discute que é difícil saber se existe um padrão específico a ser detectado, mas há uma separação entre a função alvo e se podemos aprendê-la, o que será explicado em uma palestra completa posteriormente.

  • 01:00:00 Nesta seção do vídeo, o professor discute como ele tenta evitar olhar para o conjunto de dados específico fornecido a ele ou adaptar seu sistema a ele para evitar desapontamento quando outro conjunto de dados aparecer. Ele explica que o aprendizado de máquina é uma disciplina que tenta cobrir o máximo de território com o mínimo de suposições e pode ser aplicado tanto na prática quanto cientificamente. Além disso, o professor menciona que a otimização é uma ferramenta para aprendizado de máquina, mas não é algo que as pessoas de aprendizado de máquina estudam por si só. Por fim, ele observa que a hipótese definida para o aprendizado de máquina pode ser qualquer coisa, contínua ou discreta.

  • 01:05:00 Nesta seção, o professor fala sobre viés de amostragem na aprovação de crédito e como isso afeta a qualidade dos dados utilizados. Ele explica que coletar uma amostra tendenciosa pode levar a resultados imprecisos, mas usar uma base de clientes para tomar decisões ainda pode funcionar porque a base de clientes está mais distante da região de classificação. Ele então discute os aspectos teóricos e práticos da coleta de dados e quantos dados são necessários para criar um sistema razoável. Por fim, ele aborda a questão da escolha do tamanho do conjunto de hipóteses e afirma que o objetivo do aprendizado é prever o uso de dados para chegar a um padrão razoável que generalize fora do conjunto de dados.

  • 01:10:00 Nesta seção da palestra sobre o problema de aprendizagem, o professor discute o papel da teoria no aprendizado de máquina, especificamente como ele mede a sofisticação de um conjunto de hipóteses e a quantidade de dados necessários para fazer afirmações sobre generalização. O professor também aborda questões do público online, incluindo como corrigir o feedback usando a validação e o uso de diferentes tipos de funções para hipóteses. Além disso, o papel do algoritmo de aprendizado e do conjunto de hipóteses é discutido, focando em como a escolha da função de erro afeta a escolha da técnica de otimização. Por fim, o professor esclarece o que acontece se uma saída estiver exatamente no limiar do algoritmo perceptron.

  • 01:15:00 Nesta seção da palestra, o professor discute a ideia de que precisa haver um padrão para que o aprendizado de máquina funcione. Se não há padrão, então não há nada para aprender. Ele também menciona a importância dos dados e como eles são fundamentais para o aprendizado. O professor enfatiza a importância de passar pelas seções de inclinação matemática do esboço para entender completamente os componentes que tornam o aprendizado possível. Ele também aborda brevemente a questão de por que o perceptron é frequentemente relacionado a um neurônio e menciona que a analogia com a biologia será discutida com mais detalhes posteriormente. Por fim, o professor menciona que a seleção de modelos e os princípios bayesianos serão discutidos posteriormente no curso.

  • 01:20:00 Nesta seção, o palestrante discute os critérios para incluir métodos de aprendizado de máquina no curso. Ele afirma que os métodos mais úteis na prática serão incluídos e que visa fornecer uma visão geral dos conceitos e ferramentas para usá-los na prática. Ele menciona que existem diferentes métodos hierárquicos com ramificações na generalização que ele pode abordar ao discutir máquinas de vetores de suporte, mas, no geral, seu foco é fornecer conhecimento prático em vez de teoria pura.
Lecture 01 - The Learning Problem
Lecture 01 - The Learning Problem
  • 2012.08.28
  • www.youtube.com
The Learning Problem - Introduction; supervised, unsupervised, and reinforcement learning. Components of the learning problem. Lecture 1 of 18 of Caltech's M...
 

Aula 2. O aprendizado é viável?



Curso de Machine Learning da Caltech - CS 156. Aula 02 - O aprendizado é viável?

A palestra discute a viabilidade do aprendizado, especificamente o uso do aprendizado de máquina na determinação de padrões a partir de dados fornecidos. O palestrante apresenta o conceito de nu e mu em probabilidade e como ele se relaciona com o problema de aprendizagem. A adição de probabilidade é explorada, possibilitando a viabilidade do aprendizado sem comprometer a função alvo, ou seja, não é necessário fazer suposições sobre a função que será aprendida. O conceito de overfitting e como ele se relaciona com a sofisticação do modelo é discutido, com um maior número de hipóteses levando a uma generalização mais pobre. Por fim, a palestra termina com um pedido para revisar o slide sobre a implicação de nu igual a mu.

  • 00:00:00 Nesta seção, Yaser Abu-Mostafa discute os três critérios para determinar se o aprendizado de máquina é a técnica certa para um aplicativo: se existe um padrão que pode ser aprendido, se o padrão não pode ser definido matematicamente e se existirem dados suficientes para representar o padrão. Além disso, ele explica que, se não houver padrão, o aprendizado de máquina ainda pode ser tentado, mas falhará, e se o padrão puder ser determinado matematicamente, o aprendizado de máquina pode não ser a técnica ideal. Abu-Mostafa explica ainda o aprendizado supervisionado, onde a função de destino é desconhecida, mas a entrada e a saída de dados são fornecidas, e como é chamado de "supervisionado" porque a saída atua como um supervisor do processo de aprendizado.

  • 00:05:00 Nesta seção, o palestrante discute a viabilidade do aprendizado e como é impossível aprender uma função desconhecida. Para abordar esta questão, a palestra se concentra em uma situação probabilística em que uma amostra é retirada de uma caixa de bolinhas que são vermelhas ou verdes com uma probabilidade de pegar uma vermelha representada por mu. A palestra traduz essa situação em aprendizado e, em seguida, encontra uma solução para o dilema, finalmente declarando que o aprendizado é viável em um sentido particular.

  • 00:10:00 Nesta seção do vídeo, o apresentador descreve um experimento com uma caixa opaca contendo bolinhas de gude, onde a probabilidade de pegar uma bolinha vermelha é mu e a probabilidade de pegar uma bolinha verde é 1 menos mu. O valor de mu é desconhecido e o objetivo é determinar se a frequência de amostragem nu (fração de bolinhas vermelhas em uma amostra de bolinhas) pode fornecer alguma informação sobre mu. A resposta é não para amostras pequenas, mas para amostras maiores, nu pode estar próximo de mu com maior probabilidade, abrindo possibilidades para inferência estatística. A distinção entre possível e provável é fundamental na ciência e na engenharia.

  • 00:15:00 Nesta seção, o palestrante apresenta a Desigualdade de Hoeffding, que é uma fórmula que será utilizada ao longo do curso para provar algo sobre a dimensão VC. A desigualdade afirma que a probabilidade de um evento, onde a frequência da amostra não se aproxima da frequência bin dentro de uma determinada tolerância, é pequena e diminui exponencialmente com um tamanho de amostra maior. No entanto, uma tolerância menor resulta em um expoente maior, o que atenua os benefícios do exponencial negativo. A fórmula com os 2 é preferível à fórmula original, pois é verdadeira.

  • 00:20:00 Nesta seção da palestra, a Desigualdade de Hoeffding é apresentada como uma ferramenta para limitar o desvio da frequência de amostra da frequência real. A desigualdade vale para todo N e epsilon, tornando-a uma proposição muito atraente, apesar de ter uma exponencial nela. A distribuição de probabilidade de nu depende explicitamente de mu, que é o valor desconhecido, mas a desigualdade não depende de mu, o que é uma vantagem. O trade-off entre N e epsilon também é discutido, pois quanto menor o epsilon, maior o N necessário para compensar o mesmo nível de limite de probabilidade. Finalmente, a lógica da afirmação de que nu é aproximadamente igual a mu é explicada, implicando que mu é aproximadamente igual a nu.

  • 00:25:00 Nesta seção do vídeo, o palestrante discute o conceito de mu e nu em probabilidade e como ele se relaciona com o problema de aprendizagem. Eles explicam que, enquanto na probabilidade o objetivo é inferir mu de nu por meio da geração de diferentes amostras e do cálculo da probabilidade, no problema de aprendizado a quantidade desconhecida é uma função completa com um domínio que pode ser um espaço euclidiano de 10ª ordem. O orador então introduz o conceito de codificação de cores neste cenário para indicar a concordância entre uma hipótese e a função alvo. Por meio desse mapeamento, o falante efetivamente adicionou probabilidade ao problema de aprendizagem.

  • 00:30:00 Nesta seção, a adição de probabilidade ao problema de aprendizado é explorada. A probabilidade é introduzida no espaço de entrada pela aplicação da distribuição de probabilidade sobre o espaço de entrada, que gera pontos independentemente. A distribuição de probabilidade introduzida não requer suposições, e o maquinário pode ser aplicado a qualquer distribuição de probabilidade. A adição de probabilidade permite a viabilidade do aprendizado sem comprometer a função de destino, o que significa que nenhuma suposição precisa ser feita sobre a função que será aprendida. No entanto, discute-se o problema da verificação, onde a situação descrita equivale a um banco buscando uma fórmula específica para aprovação de crédito com base em dados fornecidos.

  • 00:35:00 Nesta seção, o palestrante explica como transformar um simples problema de teste de hipóteses em um problema binário que pode ser aprendido. Começando com uma única caixa e um limite alto, ele escolhe um peso de 0,1 para anos de residência, pois contribui fracamente para o problema de aprendizado. No entanto, essa técnica não leva em conta várias hipóteses, o que significa que é mais inteligente escolher entre várias caixas. Isso requer a varredura de amostras diferentes, o que pode permitir um aprendizado eficaz. O palestrante introduz a notação que será utilizada ao longo do restante da palestra, chamando nu e mu com nomes descritivos, pois representam frequência na amostra e dentro do bin respectivamente, conseqüentemente introduzindo E_in como a taxa de erro dentro da amostra.

  • 00:40:00 Nesta seção da palestra, o professor apresenta a notação para desempenho dentro e fora da amostra. O desempenho fora da amostra refere-se a algo que não foi visto antes, e se um modelo funciona bem em dados fora da amostra, isso significa que ele aprendeu. A Desigualdade de Hoeffding, que é usada para medir as diferenças no desempenho dentro e fora da amostra, é então aplicada a várias caixas de hipóteses, mas o professor explica que não se aplica neste caso. A razão pela qual não se aplica é então discutida, e o público é solicitado a jogar uma moeda cinco vezes e registrar os resultados para ilustrar o ponto.

  • 00:45:00 Nesta seção, o professor descreve como a desigualdade de Hoeffding se aplica à situação de aprendizagem, onde os dados caem aleatoriamente em uma das duas categorias. Ele explica que vários bins dificultam o tratamento do problema e diluem a garantia da desigualdade de Hoeffding ao calcular a probabilidade de um bin dar cinco caras. Embora cada uma das caixas possa passar no teste de cinco caras, elas não são uma indicação da probabilidade real da caixa, pois obter uma probabilidade extremamente alta de que algo ruim acontecerá, em algum lugar, provavelmente ocorrerá. O professor termina esta seção afirmando que eles precisam encontrar algo que os faça lidar com várias lixeiras de forma eficiente.

  • 00:50:00 Nesta seção, o palestrante discute a probabilidade do erro dentro da amostra estar próximo do erro fora da amostra no Cenário de Aprendizagem Genuína, que envolve escolher uma hipótese de um conjunto baseado em uma amostra critério. A probabilidade desse evento é menor ou igual à probabilidade de que qualquer hipótese do conjunto finito seja ruim, que é calculada usando o Union Bound em probabilidade. Embora esse limite seja pessimista e não considere a sobreposição, ele pode ser usado para calcular o limite superior de todas as probabilidades. Cada termo neste limite corresponde a uma hipótese fixa, que pode ser substituída pelo limite de Hoeffding. Em última análise, a probabilidade do erro dentro da amostra estar próximo do erro fora da amostra ainda é limitada por um termo com uma exponencial, mas inclui um fator adicional que é incômodo.

  • 00:55:00 Nesta seção, o professor discute o problema do overfitting e como ele se relaciona com a sofisticação do modelo utilizado. Com um número maior de hipóteses, a probabilidade de algo ruim acontecer também aumenta. O professor explica que ter um modelo mais sofisticado pode levar à memorização in-sample e à má generalização fora da amostra. A sessão de perguntas e respostas discute a desigualdade de Hoeffding e suas implicações, incluindo o caso em que o resultado é trivial e como o número de hipóteses para modelos de aprendizado costuma ser infinito. A palestra termina com um pedido de revisão do slide 6 sobre a implicação de nu igual a mu.

  • 01:00:00 Nesta seção do vídeo, o professor explica o conceito de causa e efeito em estatística e como ele se relaciona com o aprendizado de máquina. Ele enfatiza que a frequência no sample é o efeito, enquanto o bin é a causa. Esse entendimento é crucial ao usar a Desigualdade de Hoeffding para inferir o bin com base na amostra enquanto trata mu como uma constante e nu como a causa. O professor também esclarece que cada h no aprendizado de máquina é uma hipótese, e o modelo é o conjunto de hipóteses disponíveis para seleção. A complexidade do modelo e as hipóteses individuais serão discutidas posteriormente no curso. Por fim, o professor discute como estender a equação para suportar uma gama de respostas e não apenas uma resposta binária, que pode ser obtida tomando o valor esperado de algo versus a média da amostra.

  • 01:05:00 Nesta seção, o professor explica que o aprendizado é viável, mas deve-se levar em consideração a variância da variável. Ele observa que o valor esperado e a média amostral de uma função estão relacionados à probabilidade e que é apenas um caso mais simples de probabilidade e média amostral. Além disso, ele esclarece que o uso de várias caixas é necessário para representar várias hipóteses na aprendizagem, pois diferentes hipóteses levarão a cores diferentes. O professor também explica como funciona a escolha dos melhores hiperplanos e como os algoritmos de aprendizado resolvem esse problema escolhendo a solução específica com a qual eles terminam. Por fim, ele aponta que a única invocação de probabilidade necessária no aprendizado é colocar uma distribuição de probabilidade em X para obter o benefício da análise probabilística no aprendizado, mas que a abordagem bayesiana colocará uma distribuição de probabilidade em H no final do curso.

  • 01:10:00 Nesta seção, a discussão gira em torno da flexibilidade do conjunto de hipóteses (H) usado em um algoritmo de aprendizado. O símbolo 'g' é usado para denotar a hipótese final escolhida por um algoritmo de H. No entanto, g pode ser diferente, uma vez que se refere a todo o processo de aprendizado que ocorreu para selecioná-lo a partir do conjunto de hipóteses de acordo com os dados e a regra de aprendizado. Além disso, é importante observar que, embora o algoritmo perceptron ou qualquer algoritmo de aprendizado linear escolha uma hipótese a cada etapa, é um processo oculto de uma perspectiva de análise, pois o objetivo é escolher uma hipótese final correta, g, de H. Finalmente, a Desigualdade de Hoeffding modificada é uma extensão da Desigualdade de Hoeffding simples que permite fazer declarações simultaneamente sobre várias hipóteses no conjunto de hipóteses para garantir um bom desempenho enquanto contabiliza a probabilidade de que coisas ruins possam acontecer.

  • 01:15:00 Nesta seção, o professor discute a relação entre a Desigualdade de Hoeffding e os valores-p em estatística. Ele explica que a Desigualdade de Hoeffding está relacionada à estimativa da confiabilidade e probabilidade de desvio de uma amostra. Ele também observa que existem outras leis de grandes números em estatística, mas ele se concentra nessa fórmula como a mais útil para entender a teoria da generalização. O professor menciona que, embora seja útil estudar diferentes manifestações de dentro da amostra e próximas de fora da amostra e probabilidades de erro, não é um assunto central do curso. A palestra termina e os alunos são dispensados até a próxima semana.
Lecture 02 - Is Learning Feasible?
Lecture 02 - Is Learning Feasible?
  • 2012.04.09
  • www.youtube.com
Is Learning Feasible? - Can we generalize from a limited sample to the entire space? Relationship between in-sample and out-of-sample. Lecture 2 of 18 of Cal...
 

Aula 3 - O Modelo Linear I




Curso de Machine Learning da Caltech - CS 156. Aula 03 - O Modelo Linear I

Esta palestra aborda os tópicos de modelos lineares em aprendizado de máquina, representação de entrada, algoritmo perceptron, algoritmo de bolso e regressão linear, incluindo seu uso na classificação. O professor enfatiza a importância de usar dados reais para experimentar diferentes ideias e apresenta o conceito de recursos para simplificar a vida do algoritmo de aprendizado. A palestra também discute os aspectos computacionais do pseudo-inverso na regressão linear e os problemas que podem surgir ao usar a regressão linear para classificação em dados não separáveis. Por fim, é apresentado o conceito de usar transformações não lineares para tornar os dados mais lineares, com um exemplo demonstrando como obter dados separáveis usando a transformação x1² e x2² da origem.

Além disso, o professor aborda vários tópicos relacionados ao modelo linear em aprendizado de máquina. Ele discute transformações não lineares e diretrizes para selecioná-las, erros dentro e fora da amostra na classificação binária, usando regressão linear para análise de correlação e derivando recursos significativos da entrada. O professor também enfatiza a importância de entender a distinção entre E_in e E_out e como eles afetam o desempenho do modelo. Por fim, ele aborda a relação entre regressão linear e estimativa de probabilidade máxima, o uso de transformações não lineares e o papel da teoria na compreensão dos conceitos de aprendizado de máquina.

  • 00:00:00 Nesta seção, Yaser Abu-Mostafa investiga o tópico de várias hipóteses em um modelo. Como a probabilidade de algo ruim acontecer pode se acumular em várias hipóteses, o limite de união - uma regra matemática - pode ser aplicado. Essa técnica permite que a probabilidade de um evento ou outro evento seja menor ou igual à soma das probabilidades individuais, fornecendo uma ferramenta útil para delimitar a probabilidade de algo ruim acontecer. Quando um único conjunto de hipóteses ou compartimento corresponde a uma única hipótese, a probabilidade de a hipótese final ser ruim é pequena. No entanto, um conjunto de hipóteses maior resultará em um grande fator M, tornando a probabilidade sem sentido.

  • 00:05:00 Nesta seção, o palestrante discute a importância dos modelos lineares no aprendizado de máquina e fornece uma sequência de tópicos abordados na palestra, que inclui o perceptron e sua generalização para dados não separáveis, uma função de valor real, e, eventualmente, para um caso não linear. Ele também apresenta um conjunto de dados práticos de CEPs no correio que serão usados para testar diferentes ideias e enfatiza a importância de testar ideias em dados reais. O palestrante examina a questão da representação de entrada, destacando o desafio de codificar os 256 números reais da entrada bruta de 16 por 16 pixels de nível de cinza, que pode levar a muitos parâmetros, mas é resolvido com técnicas de extração de recursos.

  • 00:10:00 Nesta seção, o vídeo discute o conceito de representação de entrada e a ideia de recursos para simplificar a vida do algoritmo de aprendizado. O palestrante dá um exemplo de extração de descritores de uma imagem, como intensidade e simetria, para obter uma representação de alto nível da informação bruta. Ao usar esses recursos, o algoritmo só precisa determinar os valores de alguns parâmetros em vez de todos os 257 parâmetros no espaço original, o que é melhor para generalização. A palestra então apresenta diagramas de dispersão das coordenadas de intensidade e simetria para ilustrar como os recursos tornam o problema linearmente separável e apresenta o papel do algoritmo de aprendizado perceptron na determinação do limite de decisão.

  • 00:15:00 Nesta seção, aprendemos sobre o comportamento do algoritmo de aprendizado perceptron quando os dados não são linearmente separáveis. Devido à sua natureza de corrigir erros de classificação um de cada vez, às vezes o erro aumenta ou diminui e não pode garantir a convergência para esses casos. Para resolver isso, introduzimos o algoritmo de bolso, o que significa que medimos o erro dentro da amostra da hipótese intermediária durante cada iteração e mantemos apenas o melhor em nosso bolso. No final, reportamos a hipótese que temos no bolso como hipótese final. O algoritmo de bolso fornece melhores resultados, pois considera o valor de bolso em cada iteração que foi encontrado como melhor do que o seguinte e, portanto, os erros dentro e fora da amostra são muito mais próximos.

  • 00:20:00 Nesta seção da palestra, o professor Abu-Mostafa discute o algoritmo de bolso, que é uma versão modificada do algoritmo de aprendizado perceptron que pode ser usado para dados gerais inseparáveis. O algoritmo termina em uma certa iteração e informa o valor do bolso. Ele explica que o limite de classificação do algoritmo de bolso é melhor do que o do algoritmo de aprendizado perceptron, embora os dados ainda não sejam perfeitamente separáveis. A regressão linear é então apresentada como uma abordagem estatística comumente usada para encontrar uma relação entre variáveis, particularmente para analisar a relação entre GPAs de diferentes cursos e ganhos futuros. Por fim, o exemplo de aprovação de crédito é revisitado para mostrar como a regressão pode ser usada para prever o limite de crédito de um cliente com base em seus dados.

  • 00:25:00 Nesta seção, o professor apresenta o conceito de regressão linear e explica que ela é usada para prever valores reais de saída com base em variáveis de entrada. A saída é uma hipótese que assume uma forma linear em termos das variáveis de entrada. As variáveis são codificadas como entradas e o algoritmo depende da linearidade do sinal. O conjunto de dados para este exemplo são dados históricos de clientes anteriores nos quais um oficial avaliou seus pedidos de crédito e determinou uma linha de crédito. O objetivo é replicar o que os especialistas fazem para automatizar o sistema de determinação de linhas de crédito. O algoritmo de regressão linear mede o erro e tenta encontrar os pesos ótimos para determinar a hipótese que se aproxima bem de f. A função de erro padrão usada na regressão linear é o erro quadrado.

  • 00:30:00 Nesta seção, o palestrante discute como estimar uma linha de crédito e a importância de definir uma medida de erro, como o erro quadrado, que é comumente usado em regressão linear. O erro dentro da amostra é usado para avaliar o desempenho da hipótese no conjunto de dados, onde cada exemplo tem uma contribuição para o erro. O algoritmo de regressão linear procura minimizar esse erro encontrando uma linha que se ajuste aos dados de acordo com a regra do erro ao quadrado. O algoritmo se aplica a espaços de dimensão superior onde a linha é um hiperplano. A expressão para E_in é apresentada como uma norma ao quadrado de algo que consolida os diferentes x_n's.

  • 00:35:00 Nesta seção é introduzido o conceito de modelo linear, onde os dados de entrada são apresentados como uma matriz X com um vetor de saídas y. O gradiente é levado para minimizar E_in em relação ao parâmetro w. Isso leva a uma equação quadrática direta para resolver, que envolve X transposto X, uma matriz quadrada invertível. A solução é simples devido a isso, e a fórmula para w é X^†, onde X^† é o pseudo-inverso de X, que é uma abreviação para o inverso de X transposto X multiplicado por X transposto. Como X não é invertível, ele não possui um inverso tradicional, mas possui um pseudo-inverso.

  • 00:40:00 Nesta seção, o palestrante explica os aspectos computacionais do pseudo-inverso em regressão linear. A fórmula para o pseudo-inverso envolve inversão de matriz e multiplicação, que pode ser computacionalmente intensiva para grandes matrizes. No entanto, o palestrante observa que isso não é uma preocupação para a maioria das aplicações práticas, pois existem muitos pacotes disponíveis para calcular o pseudo-inverso ou a solução para regressão linear. Para usar a regressão linear, deve-se inserir os dados no formato correto, construir a matriz X e o vetor y e, em seguida, inseri-los na fórmula do pseudo-inverso. A multiplicação resultante dá os valores para w, os pesos para o modelo linear.

  • 00:45:00 Nesta seção, é introduzido o conceito de usar regressão linear para classificação. É explicado que as funções de classificação de valor binário também são de valor real e a regressão linear pode ser usada para aprender aproximadamente essas funções. Os pesos obtidos da regressão linear também podem ser usados como pesos iniciais para algoritmos de classificação como o algoritmo perceptron, fornecendo um salto inicial e uma convergência potencialmente mais rápida. Adicionalmente, é discutida a ideia de usar o sinal do sinal obtido da regressão linear para classificar como +1 ou -1. Finalmente, o limite da regressão linear é explicado usando um exemplo.

  • 00:50:00 Nesta seção da palestra, o professor discute os problemas que podem surgir ao usar a regressão linear para classificação, principalmente ao lidar com dados não separáveis. Ele demonstra que o algoritmo tentará forçar todos os valores para a mesma classificação, muitas vezes resultando em erros no processo de classificação. Ele então introduz a ideia de usar transformações não lineares para tornar os dados mais lineares, como no caso de determinar a estabilidade da linha de crédito com base nos anos de residência. No entanto, ele enfatiza que é importante entender o que se entende por "linear" em relação a esses modelos para uso efetivo.

  • 00:55:00 Nesta seção, o palestrante discute a importância da linearidade nos pesos ao derivar algoritmos de aprendizado como perceptron e regressão linear, pois permite que os algoritmos funcionem independentemente de quais sejam os x. Isso abre a possibilidade de fazer transformações não lineares nas entradas sem sair do reino dos modelos lineares porque os pesos dados aos recursos não lineares dependem linearmente dos parâmetros. É dado um exemplo de transformação não linear, onde os dados são transformados usando medições x1² e x2² da origem, resultando em dados separáveis. No entanto, a transformação não linear é uma questão carregada que é sensível a questões de generalização, portanto, as diretrizes serão discutidas mais adiante na próxima aula.

  • 01:00:00 Nesta seção, o professor discute as transformações não lineares e orienta até onde se pode ir na hora de escolhê-las. Ele enfatiza a importância da generalização e do conhecimento teórico ao selecionar transformações não lineares. A discussão passa então para os erros dentro e fora da amostra, especificamente no contexto da classificação binária. O professor esclarece que na aprendizagem, apenas o erro dentro da amostra é tratado, enquanto o erro fora da amostra é tratado implicitamente com a garantia de que ir bem dentro da amostra se traduzirá em ir bem fora da amostra. A distinção entre probabilidade de erro e frequência de erro na classificação também é explicada. A palestra aborda o uso de regressão linear para determinar a correlação entre GPA e renda futura. A disponibilidade de dados e a inclusão de w_0 na regressão linear também são brevemente discutidas.

  • 01:05:00 Nesta seção, o professor explica que o limite é necessário para a regressão linear, pois compensa o deslocamento dependendo dos valores das variáveis, permitindo um modelo adequado. No caso binário, ao usar +1 ou -1 como saídas, a hipótese da regressão linear tem o menor erro quadrado dos alvos nos exemplos, e a saída da hipótese é a mais próxima do valor +1 ou -1 com um erro quadrático médio. Embora essa técnica possa funcionar, ela pode não classificar os pontos corretamente, pois a regressão linear tenta ajustar pontos irrelevantes que podem atrapalhar a classificação. O professor sugere usar a regressão linear como um peso inicial e, em seguida, usar um algoritmo de classificação adequado para ajustá-lo ainda mais. Ao derivar recursos, não há algoritmo geral, e a melhor abordagem é olhar para a entrada bruta e tentar inferir recursos significativos com base na declaração do problema. No entanto, se houver muitos recursos, isso pode se tornar um problema, e é aí que as transformações não lineares podem ajudar a simplificar o espaço de recursos.

  • 01:10:00 Nesta seção, o professor discute o conceito de recursos, que são quaisquer representações de nível superior de uma entrada bruta. O modelo linear é um bloco de construção para vários modelos em aprendizado de máquina, e outros modelos podem oferecer melhor desempenho incremental em alguns casos, mas ele enfatiza que o modelo linear faz o trabalho. O professor também destaca a diferença entre E_in e E_out, sendo E_in facilmente avaliada, enquanto E_out exige garantias teóricas de que o erro dentro da amostra rastreia o erro fora da amostra. Além disso, ele explica que a regressão linear ainda pode ser usada para ajustar um polinômio, transformando a variável de entrada por meio de uma transformação não linear. Finalmente, ele fala brevemente sobre a relação entre mínimos quadrados de regressão linear e estimativa de máxima verossimilhança na literatura estatística, que envolve mais suposições sobre probabilidades e ruído.

  • 01:15:00 Nesta seção, o professor fala sobre a relação entre o modelo de regressão linear e a verossimilhança máxima, mas prefere apresentar a regressão linear no contexto do aprendizado de máquina sem fazer muitas suposições sobre as distribuições. O professor também discute transformações não lineares e como elas são usadas no aprendizado de máquina, incluindo polinômios e funções de base radial. Ele também aborda questões sobre como encontrar padrões em geradores de números pseudo-aleatórios e os diferentes tratamentos para respostas contínuas versus discretas, que dependem do problema em questão. Por fim, o professor enfatiza a importância da teoria para entender mais profundamente as técnicas de aprendizado de máquina.
Lecture 03 -The Linear Model I
Lecture 03 -The Linear Model I
  • 2012.04.12
  • www.youtube.com
The Linear Model I - Linear classification and linear regression. Extending linear models through nonlinear transforms. Lecture 3 of 18 of Caltech's Machine ...
 

Aula 4 - Erro e Ruído



Curso de Machine Learning da Caltech - CS 156. Aula 04 - Erro e Ruído

Na Aula 04 do curso de aprendizado de máquina, o professor Abu-Mostafa discute a importância do erro e do ruído em problemas de aprendizado de máquina da vida real. Ele explica o conceito de transformação não linear usando o espaço de recursos Z, que é essencial para preservar a linearidade no aprendizado. A palestra também aborda os componentes do diagrama de aprendizado supervisionado, enfatizando a importância das medidas de erro na quantificação do desempenho da hipótese. Alvos ruidosos são introduzidos como um componente típico de problemas de aprendizado do mundo real, que devem ser considerados ao minimizar o erro dentro da amostra. A palestra termina com uma discussão sobre a teoria da aprendizagem e sua relevância na avaliação do erro dentro da amostra, erro fora da amostra e complexidade do modelo.

O professor explica como as mudanças na distribuição de probabilidade podem afetar o algoritmo de aprendizado e como as medidas de erro podem diferir para diferentes aplicações. Ele também discute o algoritmo para regressão linear, o uso de erro quadrado versus valor absoluto para medidas de erro na otimização e a compensação entre complexidade e desempenho em modelos de aprendizado de máquina. O professor esclarece a diferença entre o espaço de entrada e a extração de recursos e observa que a teoria de como melhorar simultaneamente a generalização e minimizar o erro será abordada nas próximas palestras.

  • 00:00:00 Nesta seção, o professor Abu-Mostafa discute a importância do erro e do ruído ao considerar problemas da vida real no aprendizado de máquina. Ele primeiro revisita o conceito de transformação não linear e como isso ajuda a transformar variáveis e preservar a linearidade em w, o vetor de peso, que é essencial para o processo de aprendizagem. Em seguida, ele apresenta o conceito de erro e ruído no diagrama de aprendizado, reconhecendo as considerações práticas que surgem em situações da vida real. A palestra também inclui um exemplo de dados não separáveis que podem ser separados por meio de uma transformação não linear.

  • 00:05:00 Nesta seção, uma transformação não linear chamada phi é discutida onde cada ponto no espaço amostral x_n é colocado na transformação e o ponto correspondente z_n é obtido no espaço de recursos Z, que pode ser um espaço altamente não linear. Isso permite que o conjunto de dados se torne separável linearmente no novo espaço de recursos, que é aplicado por algoritmos de modelo linear simples, como regressão linear ou classificação, para obter um limite de separação. No entanto, quando um ponto de teste é fornecido, ele está no espaço de entrada, portanto, esse ponto deve ser transformado usando uma transformação inversa para localizar onde ele se encontra no espaço de recursos a ser classificado de acordo. Este procedimento funciona bem em qualquer tamanho de dimensão para qualquer transformação não linear, mas é importante ter cuidado com a transformação para evitar problemas de generalização.

  • 00:10:00 Nesta seção, o instrutor discute os componentes do diagrama de aprendizado supervisionado e apresenta o conceito de medidas de erro e alvos ruidosos. Ele explica que o objetivo das medidas de erro é quantificar quão bem ou quão mal uma hipótese se aproxima de uma função alvo desconhecida. A medida de erro é definida como E de duas funções, e ele enfatiza que é uma medida quantitativa. Ele afirma ainda que os alvos ruidosos são um componente prático dos problemas de aprendizagem da vida real que devem ser levados em consideração.

  • 00:15:00 Nesta seção, o palestrante explica como a função de erro é usada para medir o quão bem uma função de hipótese se aproxima de uma função de destino em algoritmos de aprendizado de máquina. A função de erro retorna um número que é calculado comparando o valor de duas funções no mesmo ponto. A definição pontual é comumente usada, e a média de erros pontuais é usada para definir a função de erro em todo o espaço. O erro dentro da amostra da função de erro é a média dos erros pontuais no conjunto de treinamento, enquanto o erro fora da amostra requer a divisão dos dados em conjuntos de treinamento e teste. O palestrante enfatiza a importância de minimizar a função de erro para desenvolver uma função de hipótese precisa.

  • 00:20:00 Nesta seção, o palestrante discute o erro fora da amostra, que é a versão fora da amostra de uma medida de erro. O valor esperado é obtido pela média de todos os pontos no espaço de entrada X. O erro binário é a probabilidade de erro geral, que é calculada usando a distribuição de probabilidade sobre o espaço de entrada X. O diagrama de aprendizado é atualizado com a adição da medida de erro , que é definido ponto a ponto. A medida de erro é definida no contexto da verificação de impressões digitais com dois tipos de erros - falsa aceitação e falsa rejeição. Ao definir uma medida de erro, cada tipo de erro é penalizado para obter uma melhor hipótese.

  • 00:25:00 Nesta seção, o palestrante discute o conceito de erro e ruído em sistemas de verificação de impressões digitais e como o aprendizado de máquina pode ser usado para criar uma hipótese para aceitar ou rejeitar indivíduos com base em suas impressões digitais. O palestrante observa que não há mérito inerente em escolher uma função de erro em detrimento de outra e que isso depende do domínio da aplicação. Por exemplo, no caso de supermercados, as falsas rejeições são caras, pois podem deixar os clientes frustrados e levar seus negócios para outro lugar, enquanto as falsas aceitas não são tão importantes. No entanto, no caso da CIA, as falsas aceitações podem levar a violações de segurança, o que as torna mais caras do que as falsas rejeições. Portanto, a matriz de erro precisa ser ajustada com base na aplicação específica.

  • 00:30:00 Nesta seção, o palestrante discute a importância das medidas de erro em problemas práticos de aprendizagem e explica que a medida de erro utilizada deve ser especificada pelo usuário que utilizará o sistema imperfeito. Ele sugere que, se o usuário puder articular uma função de erro quantitativa, essa é a função de erro com a qual trabalhar. No entanto, quando os usuários não fornecem funções de erro específicas, outras medidas plausíveis ou amigáveis podem ser usadas. Medidas plausíveis têm méritos analíticos, enquanto medidas amigáveis são fáceis de usar. O falante modifica o diagrama de aprendizado para introduzir a medida de erro, que é crucial para deixar claro o que o sistema deve aprender.

  • 00:35:00 Nesta seção, o foco está na medida de erro e seu papel no algoritmo de aprendizado. A medida de erro tem duas funções principais: avaliar a hipótese final e aproximar a função de destino e alimentar a medida de erro para o algoritmo de aprendizado para minimizar o erro dentro da amostra. Além disso, alvos ruidosos são introduzidos como norma para problemas da vida real. A função de destino nem sempre é uma função e pode ser afetada pelo ruído de informações e circunstâncias não contabilizadas, o que a torna probabilística em vez de determinística. Uma distribuição de destino é usada em vez de uma função de destino, onde y é gerado pela distribuição de probabilidade dada x, representando a dependência probabilística. O conceito de alvos ruidosos é abordado introduzindo a ideia de uma função alvo determinística mais ruído, e essa abordagem é usada para simplificar a noção de uma distribuição alvo.

  • 00:40:00 Nesta seção, o palestrante discute o conceito de ruído no aprendizado de máquina e como isso pode afetar o processo de aprendizado. A função de destino é definida como o valor esperado de y dado x, com a parte restante chamada de ruído. Se a função de destino não estiver bem definida, ela pode ser apresentada como uma distribuição de probabilidade e os alvos com ruído podem ser representados como uma distribuição de probabilidade condicional de y dado x. O diagrama de aprendizado para aprendizado supervisionado inclui os alvos ruidosos, e a distinção é feita entre as probabilidades de x e y dado x. Apesar das complexidades envolvidas, o palestrante observa que cada componente do diagrama de aprendizado tem uma razão para estar ali.

  • 00:45:00 Nesta seção, o palestrante explica o conceito de distribuição de destino, que é a distribuição de probabilidade de solvência dada a entrada, e enfatiza que é o que você está tentando aprender por meio do aprendizado supervisionado. A distribuição de entrada, por outro lado, desempenha o papel de quantificar a importância relativa da entrada na distribuição de destino, mas não é o que você está tentando aprender. O palestrante também adverte que misturar as duas distribuições, o que pode ser feito em teoria, pode causar confusão sobre a verdadeira distribuição alvo. Por fim, o palestrante apresenta a teoria da aprendizagem, que visa aproximar a distribuição alvo e enfatiza sua importância na obtenção de insights e aquisição de ferramentas secundárias.

  • 00:50:00 Nesta seção, o palestrante explica que o erro fora da amostra para uma função g deve ser próximo de zero, pois isso significa uma boa generalização. No entanto, como essa quantidade é impossível de saber, podemos usar o erro dentro da amostra como um substituto para o erro fora da amostra, desde que tenhamos as verificações corretas. A história completa do aprendizado envolve duas questões: podemos garantir que o desempenho fora da amostra seja próximo o suficiente do desempenho dentro da amostra (uma questão teórica) e podemos tornar o erro dentro da amostra pequeno o suficiente (uma questão prática) )? O palestrante observa que em algumas aplicações é impossível obter um desempenho fora da amostra próximo de zero, como em previsões financeiras onde há dados puramente ruidosos. Apesar disso, os fundos de hedge ainda podem ganhar dinheiro explorando um pouco da ineficiência.

  • 00:55:00 Nesta seção da palestra, o professor discute a importância do erro fora da amostra e a teoria que será abordada nas próximas duas semanas. A teoria trata da compreensão do erro dentro da amostra, do erro fora da amostra e da complexidade do modelo, e definições formais serão dadas para avaliar esses fatores. O principal objetivo da teoria é caracterizar a viabilidade de aprendizado para casos onde o conjunto de hipóteses é infinito, como o perceptron e os modelos de regressão linear. A teoria medirá o modelo por um único parâmetro que reflete a sofisticação do modelo, o que ajudará a fazer muita diferença no aprendizado prático. O professor também responde a uma pergunta, discutindo o impacto relativo de P de x no algoritmo de aprendizado.

  • 01:00:00 Nesta seção, o professor discute como mudanças na distribuição de probabilidade podem afetar o algoritmo de aprendizado, principalmente na escolha de exemplos de aprendizado. O professor explica que a distribuição de probabilidade da entrada tem um papel técnico, mas sua ênfase em certas partes do espaço em detrimento de outras pode afetar as escolhas feitas pelo algoritmo. Em relação à melhor maneira de escolher entre N pares de x e y ou N y's por x, o professor sugere obtê-los independentemente, em vez de para a mesma entrada, para evitar lidar com uma parte muito específica do espaço de entrada e melhorar a generalização. Por fim, o professor observa que existe uma forma de medir a generalização ruim ou a generalização boa, que fará parte da teoria.

  • 01:05:00 Nesta seção, o professor explica que as medidas de erro podem ser diferentes para diferentes domínios de aplicação, mesmo para o mesmo sistema e os mesmos dados de treinamento. Ele dá exemplos de como o equilíbrio certo entre falsa aceitação e falsa rejeição pode diferir para um supermercado e a CIA. O professor também esclarece que a estrutura da probabilidade de x (P(x)) não é uma preocupação no aprendizado supervisionado, desde que seja utilizada a mesma distribuição para treinamento e teste. Ele explica ainda que qualquer distribuição de probabilidade será suficiente para invocar a abordagem probabilística para o problema de aprendizagem. Finalmente, o professor reconhece um pedido para simplificar o caso de uma medida de erro quadrático e solução de forma fechada, que ele abordará na revisão.

  • 01:10:00 Nesta seção, o professor discute como o algoritmo para regressão linear foi derivado com base na minimização do erro quadrático, resultando em uma solução simples de forma fechada. Ele também explica como um desequilíbrio na probabilidade de y afeta o processo de aprendizagem e que recompensas e custos são equivalentes. Além disso, ele esclarece que quando se refere ao espaço de entrada no aprendizado de máquina, inclui todos os pontos possíveis apenas em termos de suas partes de entrada, enquanto a extração de recursos envolve o processamento da entrada para remover informações irrelevantes. A análise de componentes principais é outro método para detectar direções informativas no espaço de representação de entrada.

  • 01:15:00 Nesta seção da palestra, o professor discute o uso da medida de erro ao quadrado versus o valor absoluto para medidas de erro na otimização. Ele explica que o erro quadrado é uma função suave e tem muitas propriedades desejáveis, enquanto o valor absoluto não é suave e pode resultar em otimização combinatória. No entanto, se o uso do valor absoluto for necessário para um mérito específico, ele ainda poderá ser usado. Além disso, ele esclarece que o alvo é a função f de x, não w transposto x, e que o ruído é a diferença entre y e o valor esperado de y dado um x específico. Por fim, o professor observa que há uma troca entre complexidade e desempenho em modelos de aprendizado de máquina, mas as respostas sobre como melhorar simultaneamente a generalização e minimizar o erro serão abordadas nas próximas quatro palestras.
Lecture 04 - Error and Noise
Lecture 04 - Error and Noise
  • 2012.04.15
  • www.youtube.com
Error and Noise - The principled choice of error measures. What happens when the target we want to learn is noisy. Lecture 4 of 18 of Caltech's Machine Learn...
 

Aula 5 - Treinamento versus Teste



Curso de Machine Learning da Caltech - CS 156. Aula 05 - Treinamento Versus Teste

Na Aula 5 de seu curso Learning From Data, o professor Abu-Mostafa discute os conceitos de erro e ruído no aprendizado de máquina, a diferença entre treinamento e teste e a função de crescimento, que mede o número máximo de dicotomias que podem ser produzidas por um conjunto de hipóteses para um determinado número de pontos. Ele também apresenta o ponto de quebra, que corresponde à complexidade de um conjunto de hipóteses e garante uma taxa de crescimento polinomial em N, se existir, e discute vários exemplos de conjuntos de hipóteses, como raios positivos, intervalos e conjuntos convexos. A palestra enfatiza a importância de entender esses conceitos e suas estruturas matemáticas, a fim de compreender totalmente a complexidade dos conjuntos de hipóteses e seu potencial de aprendizado viável.

O professor abordou vários tópicos relacionados a treinamento versus teste. Ele abordou questões do público sobre alvo não-binário e funções de hipóteses e a compensação de pontos de ruptura. O professor explicou a importância de encontrar uma função de crescimento e por que é preferível usar 2 à potência de N para medir a probabilidade de generalização ser alta. Além disso, ele discutiu a relação entre o ponto de quebra e a situação de aprendizagem, observando que a existência do ponto de quebra significa que a aprendizagem é viável, enquanto o valor do ponto de quebra nos diz os recursos necessários para alcançar um determinado desempenho. Por fim, o professor explicou as alternativas ao Hoeffding e por que ele o mantém para garantir que as pessoas se familiarizem com ele.

  • 00:00:00 Nesta seção, o professor Abu-Mostafa discute os conceitos de erro e ruído e como eles se relacionam com o aprendizado de máquina em situações práticas. Ele explica a importância de definir medidas de erro e como elas são usadas para determinar o desempenho de uma hipótese versus uma função de destino. Além disso, ele discute o conceito de alvos ruidosos, onde o alvo não é uma função determinística, mas é afetado por x e é distribuído de acordo com uma distribuição de probabilidade. O professor Abu-Mostafa também apresenta a trilha teórica que durará as próximas três palestras, com foco no treinamento versus teste e na estrutura matemática que o descreve de maneira realista.

  • 00:05:00 Nesta seção, o palestrante explora a diferença entre treinamento e teste no contexto de um exame final. Os problemas práticos e as soluções fornecidas antes do exame final servem como conjunto de treinamento. O exame final serve como o conjunto de testes. O professor enfatiza que o objetivo não é ter um bom desempenho no exame final, mas sim entender a matéria, o que se reflete em um pequeno E_out. A descrição matemática do teste envolve o quão bem alguém se saiu no exame final, enquanto a descrição matemática do treinamento envolve como alguém se saiu nos problemas práticos. A contaminação do conjunto de práticas resulta em um desempenho degradado na métrica E_in. O palestrante enfatiza a necessidade de substituir a quantidade M por uma mais amigável na medição da complexidade dos conjuntos de hipóteses.

  • 00:10:00 Nesta seção, o palestrante discute a importância de entender de onde vem uma hipótese, M, e o contexto que a envolve para substituí-la. O palestrante explica que existem eventos ruins que são chamados de B, e o objetivo é evitar a situação em que o desempenho dentro da amostra não acompanha o desempenho fora da amostra. O objetivo é garantir que a probabilidade de qualquer um dos eventos ruins seja pequena, independentemente das correlações entre os eventos. O palestrante então explica o exemplo do perceptron e como definir o evento ruim em termos de uma imagem para garantir um limite melhor.

  • 00:15:00 Nesta seção, o palestrante discute os conceitos de E_in e E_out, que representam os erros dentro e fora da amostra para uma hipótese, respectivamente. Ele então examina como as mudanças em E_in e E_out se comparam ao passar de uma hipótese para outra, argumentando que elas são pequenas e se movem na mesma direção devido à área de sobreposição entre as hipóteses. O palestrante sugere que M, a medida anterior de complexidade, pode ser substituída por uma nova quantidade que caracterize a complexidade de qualquer modelo, mas isso exigirá uma prova na próxima aula. Ele apresenta a quantidade e enfatiza a necessidade de entendê-la bem antes de proceder à prova.

  • 00:20:00 Nesta seção, o palestrante explica o que são dicotomias e como elas se relacionam com as hipóteses. As dicotomias são hipóteses múltiplas definidas apenas em um subconjunto dos pontos e representam os diferentes padrões possíveis de vermelho e azul em um conjunto finito de pontos de dados. Por exemplo, se houver apenas algumas dicotomias, o conjunto de hipóteses não é poderoso, mas se houver muitas, o conjunto de hipóteses é forte. O professor descreve as dicotomias como uma folha de papel opaca com furos, colocada no topo do espaço de entrada, mostrando apenas o padrão de pontos vermelhos e azuis. As dicotomias são uma forma formal de expressar hipóteses, onde a função produz -1 ou +1 para as regiões azul e vermelha.

  • 00:25:00 Nesta seção, o palestrante discute o número de hipóteses e dicotomias no caso do perceptron. Ele explica que pode haver um número infinito de hipóteses devido ao perceptron ter valores infinitos. No entanto, o número de dicotomias é limitado, pois há apenas uma quantidade finita de pontos para retornar +1 ou -1. A função de crescimento, denotada por "m", substitui o número de hipóteses contando o maior número de dicotomias que se pode obter usando suas hipóteses definidas em quaisquer N pontos. O palestrante menciona que a função de crescimento é calculada maximizando o número de dicotomias em relação a qualquer escolha de N pontos do espaço de entrada.

  • 00:30:00 Nesta seção, o palestrante explica a noção de função de crescimento e como ela se aplica aos perceptrons. A função de crescimento de um conjunto de hipóteses é uma função que informa o número máximo de dicotomias que podem ser produzidas para um determinado número de pontos. Para perceptrons, obter a função de crescimento é um desafio porque requer encontrar a função de crescimento para cada número de pontos, começando em um. Além disso, para cada número de pontos, existem certas constelações de pontos que um perceptron não pode gerar. No entanto, essas limitações são esperadas porque os perceptrons são modelos simples com um algoritmo simples.

  • 00:35:00 Nesta seção, o palestrante discute o conceito de funções de crescimento usando exemplos de diferentes modelos, incluindo raios positivos e intervalos positivos. Ele explica que a função de crescimento para raios positivos é N+1, o que significa que o número de dicotomias depende do número de segmentos de linha possíveis entre N pontos. Enquanto isso, os intervalos positivos têm uma função de crescimento maior porque dois parâmetros, o início e o fim do intervalo, podem ser variados para obter diferentes dicotomias.

  • 00:40:00 Nesta seção, o palestrante discute funções de crescimento para conjuntos de hipóteses com vários graus de complexidade. Para o conjunto de hipóteses mais simples de dicotomias em uma linha, a fórmula da função de crescimento é simplesmente o número de maneiras de escolher 2 segmentos dentre os N+1 segmentos, o que é equivalente a (N+1) escolha 2. Para o próximo conjunto de hipóteses de regiões convexas em um plano, o professor observa que algumas regiões são inválidas porque não são convexas. A fórmula da função de crescimento para este conjunto requer uma contagem mais complicada, pois nem todas as dicotomias são válidas. O palestrante então propõe uma escolha ótima para a colocação do ponto, que está no perímetro de um círculo, para maximizar a função de crescimento para este conjunto de hipóteses.

  • 00:45:00 Nesta seção, o palestrante discute a função de crescimento para conjuntos convexos e como ela não é tão poderosa quanto a função de crescimento para intervalos positivos. O palestrante mostra como funciona a função de crescimento para cada uma das hipóteses. Eles também discutem como substituir o máximo M por um número finito m, que pode ser a função de crescimento. O palestrante conclui que se a função de crescimento é um polinômio, então o aprendizado é viável usando essa hipótese. No entanto, o palestrante admite que não é fácil avaliar a função de crescimento de forma explícita.

  • 00:50:00 Nesta seção, o conceito de ponto de interrupção é introduzido para definir o ponto em que um conjunto de hipóteses falha em obter todas as dicotomias possíveis. O ponto de quebra corresponde à complexidade do conjunto de hipóteses e, se nenhum conjunto de dados de tamanho k puder ser quebrado pelo conjunto de hipóteses, então k é um ponto de quebra para ele. O ponto de quebra para o perceptron 2D é 4. A palestra também cobre os exemplos de raios positivos, intervalos e conjuntos convexos para explicar como encontrar o ponto de quebra para cada conjunto de hipóteses. Além disso, estabelece-se que se um conjunto de hipóteses não tiver um ponto de quebra, ele terá crescimento infinito.

  • 00:55:00 Nesta seção, o professor explica o conceito da função de crescimento e como ela garante uma taxa de crescimento polinomial em N se existir um ponto de interrupção. Com a restrição de um ponto de quebra, há uma enorme restrição combinatória que elimina possíveis dicotomias em massa, reduzindo o 2 irrestrito à função de crescimento N a polinomial. O professor dá um exemplo de uma hipótese de três pontos definida com um ponto de quebra de dois, onde as dicotomias são limitadas e os violadores são removidos até que reste apenas uma dicotomia, que satisfaça a restrição.

  • 01:00:00 Nesta seção, o professor responde a perguntas do público sobre alvo não-binário e funções de hipótese e a troca de pontos de ruptura. Ele explica que a teoria que está desenvolvendo é administrável para funções binárias, mas há uma contrapartida para funções de valor real que é mais técnica, que ele cobrirá por meio do método de troca de viés-variância. Em termos de pontos de ruptura, ele afirma que é bom para ajustar os dados, mas ruim para generalização, e encontrar o equilíbrio certo entre aproximação e generalização é fundamental. Além disso, ele esclarece a importância do crescimento polinomial e como ele garante pequenas probabilidades de algo ruim acontecer.

  • 01:05:00 Nesta seção, o professor discute um quebra-cabeça onde 3 bits são colocados em cada linha e tentativas são feitas para obter o maior número possível de linhas diferentes sob a restrição de que dois pontos não podem ser quebrados. O professor faz o exercício de adicionar linhas e ficar de olho em todas as combinações possíveis para evitar a violação da restrição. No final, o professor conclui que apenas quatro padrões possíveis podem ser alcançados sob essa restrição e mais linhas não podem ser adicionadas. Essa limitação se deve ao fato de que o número de hipóteses é infinito para perceptrons e a função de crescimento é identicamente 2 elevado a N ou polinomial, sem nada entre eles.

  • 01:10:00 Nesta seção da palestra, o professor discute a importância de encontrar uma função de crescimento e por que é preferível usar 2 à potência de N para medir a probabilidade de generalização ser alta. O professor explica que encontrar uma função de crescimento polinomial produziria um lado direito gerenciável e levaria a uma alta probabilidade de generalização. O professor também responde a perguntas dos alunos sobre o número de pontos de teste e treinamento, o erro fora da amostra para diferentes hipóteses e por que é chamado de função de crescimento. O professor observa que existem diferentes métodos para encontrar uma função de crescimento e, às vezes, a estimativa do ponto de quebra será apenas uma estimativa e não um valor exato.

  • 01:15:00 Nesta seção, o professor discute a relação entre o ponto de interrupção e a situação de aprendizagem. Ele explica que a existência do ponto de quebra significa que o aprendizado é viável, enquanto o valor do ponto de quebra nos diz os recursos necessários para atingir um determinado desempenho. Ele também aborda as alternativas para Hoeffding e por que ele está aderindo a ela. O objetivo é que as pessoas se familiarizem tanto com Hoeffding que o conheçam friamente, para que, quando forem introduzidas modificações, não se percam.
Lecture 05 - Training Versus Testing
Lecture 05 - Training Versus Testing
  • 2012.04.19
  • www.youtube.com
Training versus Testing - The difference between training and testing in mathematical terms. What makes a learning model able to generalize? Lecture 5 of 18 ...
Razão: