Aprendizado de máquina e redes neurais - página 71

 

8.5 Decomposição de Viés-Variância da Perda 0/1 (L08: Avaliação do Modelo Parte 1)


8.5 Decomposição de Viés-Variância da Perda 0/1 (L08: Avaliação do Modelo Parte 1)

Nesta discussão, nos aprofundamos na decomposição de viés-variância da perda de erro ao quadrado e sua relação com overfitting e underfitting. Agora, vamos mudar nosso foco para a decomposição de viés-variância da perda de 0/1, que é um pouco mais complexa devido à sua natureza por partes. A perda de 0/1 atribui um valor de 0 se o rótulo verdadeiro corresponder ao rótulo previsto e 1 caso contrário. A análise dessa função de perda é mais complicada, pois não é uma função contínua.

Para explorar a decomposição de viés-variância no contexto da perda de 0/1, vamos nos referir ao trabalho de Pedro Domingo e Common Dieterich. O artigo de Pedro Domingo, "The Unified Bias Variance Decomposition", teve como objetivo unificar várias decomposições de bias-variância relacionadas à perda de 0/1. Vários autores propuseram diferentes decomposições, mas cada um deles tem deficiências significativas.

Nesta aula, focaremos principalmente na intuição por trás da ponte entre a decomposição de viés-variância e a perda de 0/1. Discutiremos brevemente o trabalho de combinatória de 1995 e a explicação de Pedro Domingo sobre esse trabalho. Para uma compreensão mais detalhada, você pode consultar os documentos referenciados.

Vamos começar revisitando a perda de erro ao quadrado, que definimos como a diferença ao quadrado entre o valor real e o valor previsto. Anteriormente, analisamos a expectativa dessa perda em diferentes conjuntos de treinamento e a decompusemos em termos de viés e variância. Agora, introduziremos uma notação generalizada usando a função L para representar a perda e tomar a expectativa dessa função.

Ao discutir a decomposição de viés-variância da perda de erro ao quadrado, nós a decompomos em termos de viés e variância. O termo de tendência, denotado como Bias(Y), representa a diferença entre o rótulo verdadeiro (Y) e a previsão média (E[Y_hat]). O termo de variação, denotado como Var(Y_hat), mede a variabilidade das previsões em torno da previsão média. Esses termos capturam quanto as previsões se desviam do rótulo verdadeiro e quanto elas se espalham, respectivamente.

Agora, definiremos um novo termo chamado previsão principal. No caso da perda de erro ao quadrado, a previsão principal é a previsão média em diferentes conjuntos de treinamento. Entretanto, tratando-se da perda de 0/1, a previsão principal é obtida tomando-se a moda das previsões, ou seja, a previsão mais frequente. Essa distinção é crucial para entender a decomposição viés-variância no contexto da classificação.

Vamos explorar como o viés e a variância podem ser definidos em termos da perda de 0/1. Vamos nos referir à versão limpa do slide anterior. No lado direito, introduzimos o termo bias. Nos artigos de Kong e Dieterich, o viés é definido como 1 se a previsão principal (E[Y_hat]) não for igual ao verdadeiro rótulo (Y) e 0 caso contrário. Essa definição captura se a predição principal corresponde ao rótulo verdadeiro ou não.

Em seguida, vamos nos concentrar no caso em que o viés é zero, indicando que a previsão principal corresponde ao rótulo verdadeiro. Neste cenário, a perda é igual à variância. Por definição, a perda representa a probabilidade de que a previsão não corresponda ao rótulo verdadeiro. Assim, podemos interpretar a variância como a probabilidade de que a previsão (Y_hat) não seja igual à previsão principal (E[Y_hat]). Essa probabilidade reflete a variabilidade nas previsões quando o viés é zero.

Agora, vamos nos aprofundar no caso em que o viés é um, o que é um pouco mais complicado. Começamos reescrevendo a perda como um menos a probabilidade de que a previsão corresponda ao rótulo verdadeiro. Isso é equivalente a um menos a precisão. Vamos considerar dois aspectos: quando Y não é igual à previsão principal e quando Y é igual à previsão principal.

Quando Y não é igual à predição principal, a perda é igual a um, indicando erro de classificação. Nesse caso, o termo de variância não contribui para a perda, pois a previsão principal é diferente do rótulo verdadeiro e a variabilidade nas previsões é irrelevante. Toda a perda pode ser atribuída ao viés, que captura o fato de que a previsão principal não corresponde ao verdadeiro rótulo.

Por outro lado, quando Y é igual à previsão principal, a perda é igual a um menos a probabilidade de que todas as outras previsões sejam diferentes da previsão principal. Essa probabilidade representa a variabilidade nas previsões quando o viés é um. Portanto, o termo de variância responde pela perda neste caso, refletindo a incerteza nas previsões em torno da previsão principal.

Para resumir, na decomposição de variância de viés da perda 0/1, o termo de viés captura o erro de classificação incorreta quando a previsão principal não corresponde ao rótulo verdadeiro. O termo de variância representa a variabilidade nas previsões quando a previsão principal corresponde ao rótulo verdadeiro.

É importante observar que a decomposição de variância de viés para a perda de 0/1 é mais nuançada e complexa em comparação com a perda de erro quadrado devido à natureza discreta da função de perda. Os termos de viés e variância são definidos com base no conceito da predição principal e capturam diferentes aspectos do desempenho da classificação.

Compreender o trade-off viés-variância no contexto da perda de 0/1 é crucial para avaliar e melhorar os modelos de classificação. Ao analisar os componentes de viés e variância, podemos obter informações sobre as fontes de erro e tomar decisões informadas para mitigar problemas de subajuste ou superajuste.

Se você estiver interessado em uma exploração mais detalhada da decomposição de variância de viés para a perda de 0/1, recomendo a leitura do artigo de Pedro Domingo "The Unified Bias Variance Decomposition" e os trabalhos relacionados de Kong e Dieterich. Esses documentos fornecem explicações detalhadas e formalismos matemáticos para a decomposição.

A compensação de viés-variância é um conceito fundamental no aprendizado de máquina relacionado à capacidade do modelo de equilibrar entre o underfitting e o overfitting. O termo de viés representa o erro devido às suposições ou simplificações do modelo, levando a um cenário de subajuste em que o modelo é muito simples para capturar os padrões subjacentes nos dados. Por outro lado, o termo de variância representa o erro devido à sensibilidade do modelo a pequenas flutuações nos dados de treinamento, resultando em um cenário de overfitting em que o modelo é muito complexo e captura ruído em vez de padrões generalizáveis.

No caso da perda de 0/1, o termo de viés captura o erro de classificação incorreta quando a previsão principal é diferente do rótulo verdadeiro. Um viés alto indica que o modelo está consistentemente fazendo previsões incorretas e é incapaz de capturar os verdadeiros padrões subjacentes nos dados. Isso geralmente ocorre quando o modelo é muito simples ou carece da complexidade necessária para capturar a complexidade do problema.

O termo de variância, por outro lado, captura a variabilidade nas previsões quando a previsão principal corresponde ao rótulo verdadeiro. Ele reflete a sensibilidade do modelo a diferentes amostras de dados de treinamento e a instabilidade de suas previsões. Uma variação alta indica que o modelo é excessivamente sensível a pequenas mudanças nos dados de treinamento e provavelmente está superajustado. Isso significa que o modelo pode ter um bom desempenho nos dados de treinamento, mas não consegue generalizar para dados não vistos.

Idealmente, queremos encontrar um modelo que alcance um equilíbrio entre viés e variância, minimizando ambos os tipos de erros. No entanto, muitas vezes há um trade-off entre os dois. Diminuir o viés pode aumentar a variância e vice-versa. Isso é conhecido como trade-off de viés-variância.

Para encontrar o equilíbrio certo, várias técnicas podem ser empregadas. Métodos de regularização, como regularização L1 ou L2, podem ajudar a reduzir a complexidade do modelo e controlar a variação. A validação cruzada pode ser usada para avaliar o desempenho do modelo em diferentes subconjuntos de dados e identificar possíveis superajustes. Métodos de conjunto, como bagging ou boosting, também podem ser empregados para reduzir a variância combinando vários modelos.

Compreender a compensação de viés-variância é crucial para a seleção de modelos e o ajuste de hiperparâmetros. Ele nos permite avaliar o desempenho de generalização do modelo e tomar decisões informadas para melhorar sua precisão e confiabilidade.

8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the tricky topic of decomposing the 0/1 loss into bias and variance terms.-------This video is part of my Introduction of Machine Learni...
 

8.6 Usos Diferentes do Termo "Viés" (L08: Avaliação do Modelo Parte 1)



8.6 Usos Diferentes do Termo "Viés" (L08: Avaliação do Modelo Parte 1)

A palestra não foi particularmente empolgante, pois aprofundou o tópico de viés e decomposição de variância no aprendizado de máquina. O orador reconheceu o tédio do assunto. No entanto, havia um último ponto importante que o palestrante queria abordar em relação às diferentes formas de viés no aprendizado de máquina.

O termo "viés de aprendizado de máquina" foi explicado como um termo sobrecarregado, o que significa que é usado para se referir a coisas diferentes em contextos diferentes. Em um curso anterior de aprendizado de máquina ministrado pelo palestrante, a unidade de viés e as redes neurais foram discutidas, mas isso foi diferente do viés estatístico discutido nesta palestra. No contexto do aprendizado de máquina, o viés refere-se às preferências ou restrições do algoritmo de aprendizado de máquina, também conhecido como viés indutivo.

O palestrante deu um exemplo de um algoritmo de árvore de decisão para ilustrar o viés indutivo. Árvores de decisão favorecem árvores menores em detrimento de árvores maiores. Se duas árvores de decisão tiverem o mesmo desempenho em um conjunto de treinamento, o algoritmo preferirá a árvore menor e interromperá o crescimento da árvore se nenhuma melhoria puder ser feita. Essa preferência por árvores menores é um exemplo de viés indutivo que afeta um algoritmo de árvore de decisão.

O palestrante se referiu a um artigo de Dieterich e Khan que contrasta o viés do aprendizado de máquina com o viés estatístico. Vieses apropriados e inapropriados foram discutidos em relação ao viés absoluto. Vieses inadequados não contêm nenhuma boa aproximação para a função de destino, o que significa que o algoritmo não é adequado para o problema. Por outro lado, vieses apropriados permitem boas aproximações da função alvo.

O viés relativo foi descrito como muito forte ou muito fraco. Um viés muito forte pode não descartar boas aproximações, mas prefere hipóteses mais pobres. Por outro lado, um viés muito fraco considera muitas hipóteses, podendo levar ao overfitting.

O palestrante compartilhou um exemplo de estudo de simulação envolvendo modelos de árvore de decisão para demonstrar a interação entre viés e variância. O estudo avaliou a taxa média de erro e descobriu que alguns erros eram devidos ao viés, enquanto outros eram devidos à variância.

Outro tipo importante de viés discutido foi o viés de justiça, que se refere a disparidades demográficas em sistemas algorítmicos que são censuráveis por razões sociais. Os modelos de aprendizado de máquina podem tratar certos dados demográficos de forma injusta, e esse viés pode resultar de conjuntos de dados desequilibrados ou outros fatores. O palestrante recomendou consultar o Fair ML Book para obter mais informações sobre justiça no aprendizado de máquina.

O palestrante mencionou brevemente um projeto no qual eles trabalharam envolvendo a ocultação de informações biométricas suaves de imagens faciais, mantendo a precisão de correspondência. O objetivo era proteger a privacidade, impedindo que algoritmos extraíssem informações de gênero de imagens faciais. O palestrante avaliou o desempenho de seu sistema e algoritmos comerciais de correspondência facial, observando vieses no classificador binário de gênero do software comercial com base na cor da pele.

O palestrante enfatizou a importância de minimizar os vieses e estar atento ao desempenho dos classificadores em diferentes dados demográficos. Eles destacaram a necessidade de técnicas como superamostragem para lidar com vieses e garantir resultados mais justos.

A palestra abordou várias formas de viés no aprendizado de máquina, incluindo viés indutivo, viés estatístico e viés de imparcialidade. Os exemplos e discussões lançam luz sobre os desafios e considerações envolvidos na mitigação do viés e na promoção da justiça nos algoritmos de aprendizado de máquina.

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 Introdução (Modelo L09 Avaliação 2: Intervalos de confiança)



9.1 Introdução (Modelo L09 Avaliação 2: Intervalos de confiança)

Olá pessoal! Hoje, temos uma palestra altamente envolvente e informativa pela frente. Em contraste com a aula anterior, que se aprofundou no tópico bastante árido de configuração e decomposição de viés-variância, esta sessão promete ser mais empolgante. Discutiremos várias técnicas de reamostragem e conduziremos simulações em diferentes conjuntos de dados para observar como a reamostragem afeta o treinamento de algoritmos. Ao dividir um conjunto de dados em conjuntos de treinamento e teste, reduzimos o tamanho de treinamento disponível, impactando potencialmente o desempenho do modelo.

Além disso, exploraremos intervalos de confiança e diferentes métodos para construí-los. Isso inclui o uso de intervalos de aproximação normais e várias técnicas de inicialização. Os intervalos de confiança ganharam importância no aprendizado de máquina, com envios de artigos recentes exigindo sua inclusão. Os revisores também levam os intervalos de confiança mais a sério agora. Eles fornecem uma expectativa dentro do campo e são úteis não apenas para revisores, mas também para outros leitores que examinam seus modelos.

Agora, vamos nos aprofundar nos tópicos da palestra. Começaremos com uma introdução, seguida pelo método de validação para avaliação do modelo. Em seguida, exploraremos como o método holdout pode ser empregado para seleção de modelo. Seguindo em frente, vamos nos aprofundar na construção de intervalos de confiança usando diferentes técnicas, começando com o intervalo de aproximação normal.

Os métodos de reamostragem também serão um foco importante. Analisaremos o método holdout repetido, onde o método holdout é aplicado a versões reamostradas do conjunto de treinamento. Além disso, examinaremos intervalos de confiança empíricos, que dependem de técnicas de reamostragem. Aqui, encontraremos a conhecida técnica de bootstrap discutida na aula sobre bagging e modelo de conjunto.

Assim que entendermos como criar intervalos de confiança empíricos usando o método bootstrap, exploraremos duas versões aprimoradas: o ponto 632 bootstrap e o ponto 632 mais bootstrap. É importante observar o contexto desta palestra dentro da estrutura mais ampla de avaliação de modelos. Não apresentaremos novos algoritmos de aprendizado de máquina, mas focaremos em técnicas essenciais para comparar e selecionar modelos.

Essas técnicas são cruciais porque é um desafio determinar qual algoritmo de aprendizado de máquina funciona bem em um determinado conjunto de dados. Muitas vezes, precisamos tentar comparar vários algoritmos para encontrar o de melhor desempenho. Além disso, avaliar o desempenho do modelo é vital para o desenvolvimento de aplicativos como reconhecimento de imagem em iPhones, onde a previsão de rótulos de imagem com precisão é crucial.

Além de estimar o desempenho de generalização para dados não vistos, também comparamos diferentes modelos. Usando o mesmo algoritmo e conjunto de treinamento, podemos obter vários modelos com diferentes configurações de hiperparâmetros. Comparamos esses modelos para selecionar o melhor. Além disso, podemos usar algoritmos diferentes e querer avaliar seu desempenho em tipos de dados específicos, como imagens ou texto.

Para selecionar o melhor modelo, podemos estimar o desempenho de generalização absoluta com precisão ou classificar os modelos sem valores de desempenho absolutos. A última abordagem ajuda a evitar vieses introduzidos ao usar o mesmo conjunto de teste várias vezes. Um sistema de classificação nos permite selecionar o melhor modelo sem depender de estimativas precisas de desempenho de generalização.

Nas próximas palestras, abordaremos técnicas de validação cruzada, testes estatísticos para avaliação de modelos e métricas de avaliação além da precisão, como curvas de precisão, recuperação e característica de operação do receptor (ROC).

Essas palestras são essenciais porque fornecem os meios para comparar diferentes algoritmos de aprendizado de máquina e selecionar o modelo mais adequado. Embora não apresentem novos algoritmos, eles oferecem insights e técnicas práticas para avaliar o desempenho do modelo.

Em resumo, nossa palestra de hoje abordará técnicas de reamostragem, intervalos de confiança e sua relevância no aprendizado de máquina. Ao final desta série de palestras, você terá uma compreensão abrangente da avaliação do modelo e das ferramentas necessárias para tomar decisões informadas no aprendizado de máquina. Vamos começar nossa exploração desses tópicos!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 Avaliação de validação (Modelo L09 Avaliação 2: Intervalos de confiança)



9.2 Avaliação de validação (Modelo L09 Avaliação 2: Intervalos de confiança)

Neste vídeo, discutiremos o método holdout para avaliação de modelo. Embora esse método não seja novo, há alguns aspectos interessantes que não exploramos antes. O método holdout envolve dividir o conjunto de dados em um conjunto de treinamento e um conjunto de teste. O conjunto de treinamento é usado para treinar ou ajustar o modelo, enquanto o conjunto de teste é usado para avaliar o desempenho do modelo.

No entanto, há algumas considerações a ter em mente. Primeiro, o erro do conjunto de treinamento é uma estimativa com viés otimista do erro de generalização. Isso significa que o erro de treinamento pode não estimar de forma confiável o desempenho do modelo porque pode estar superajustando os dados de treinamento. Por outro lado, o conjunto de teste fornece uma estimativa imparcial do erro de generalização se for independente do conjunto de treinamento. No entanto, de uma perspectiva conceitual, o conjunto de teste pode ser pessimista. Esse viés surge porque quando dividimos o conjunto de dados em conjuntos de treinamento e teste, perdemos dados valiosos. Mesmo com um conjunto de dados pequeno, remover 30% dos dados para avaliação pode afetar significativamente o desempenho do modelo.

Para ilustrar este ponto, vamos considerar um exemplo simples. Imagine que temos um conjunto de dados composto por apenas 10 pontos de dados. Se removermos 30% dos dados para avaliação, o modelo será treinado em apenas 70% dos dados. Esses dados de treinamento limitados podem levar à diminuição do desempenho do modelo porque os modelos de aprendizado de máquina geralmente se beneficiam de mais dados. Se plotarmos uma curva de aprendizado, normalmente observamos que, à medida que o tamanho do conjunto de dados aumenta, o desempenho da generalização melhora. Portanto, reter uma parcela significativa dos dados para avaliação pode piorar o modelo.

Apesar desta desvantagem, a avaliação do modelo é necessária. Na academia, geralmente relatamos o desempenho do conjunto de teste e consideramos nossa tarefa concluída. No entanto, na indústria, geralmente treinamos o modelo em todo o conjunto de dados depois de avaliá-lo no conjunto de teste. Isso nos permite relatar o desempenho do modelo com precisão para as partes interessadas, como gerentes de projeto. Mas o treinamento em todo o conjunto de dados pode levar a um viés pessimista na estimativa de desempenho do conjunto de teste. Por exemplo, se o modelo alcançou 95% de precisão no conjunto de teste, o treinamento no conjunto de dados completo pode melhorar o desempenho do modelo para 96%. Nesse caso, a estimativa inicial de 95% de precisão é pessimista.

Usar apenas o método de validação nem sempre é o ideal. Tem limitações, como não contabilizar a variação nos dados de treinamento. Quando dividimos os dados aleatoriamente, diferentes divisões podem resultar em variações no desempenho do modelo. Essa variabilidade torna a estimativa do conjunto de teste menos confiável, pois fornece apenas uma estimativa pontual. Além disso, o método holdout não considera a possibilidade de viés otimista quando o conjunto de teste é usado várias vezes para ajustar e comparar modelos.

Para entender melhor o impacto dos vieses, vamos considerar o conceito de viés pessimista. Em termos de seleção de modelos, um viés pessimista de 10% não afeta a classificação dos modelos com base na precisão da previsão. Suponha que temos três modelos: h2, h1 e h3. Mesmo que todas as estimativas de precisão tenham um viés pessimista de 10%, a classificação permanece a mesma. O objetivo da seleção do modelo é escolher o melhor modelo disponível, e um viés pessimista consistente em todos os modelos não altera a classificação relativa.

Da mesma forma, pode haver casos em que o erro do conjunto de teste é enviesado de forma otimista. Isso ocorre quando o mesmo conjunto de teste é usado várias vezes para ajustar e comparar diferentes modelos. Usar o conjunto de teste repetidamente pode levar ao viés de sobrevivência, onde apenas os modelos com bom desempenho no conjunto de teste são considerados. Um exemplo disso é a pergunta "Os classificadores CIFAR-10 generalizam para CIFAR-10?" paper, que examina o overfitting e vieses otimistas em classificadores treinados e avaliados no conjunto de dados de imagem CIFAR-10.

Em conclusão, embora o método holdout seja uma abordagem comumente usada para avaliação de modelos, ele tem suas limitações e potenciais vieses. Para superar essas limitações, técnicas alternativas foram desenvolvidas, como validação cruzada e bootstrap.

A validação cruzada é um método que envolve dividir o conjunto de dados em vários subconjuntos ou dobras. O modelo é treinado em uma combinação dessas dobras e avaliado na dobra restante. Este processo é repetido várias vezes, com cada dobra servindo como conjunto de teste uma vez. A validação cruzada fornece uma avaliação mais abrangente do desempenho do modelo, pois utiliza diferentes subconjuntos de dados para treinamento e teste. Ele ajuda a atenuar o impacto de divisões de dados aleatórios e fornece uma estimativa mais confiável do desempenho de generalização do modelo.

Bootstrapping é outra técnica de reamostragem que aborda as limitações do método holdout. Envolve amostragem aleatória do conjunto de dados com substituição para criar várias amostras de bootstrap. Cada amostra bootstrap é usada como um conjunto de treinamento e os dados restantes são usados como um conjunto de teste. Ao amostrar repetidamente com substituição, o bootstrap gera várias divisões de teste de treinamento, permitindo uma avaliação mais robusta do desempenho do modelo.

Tanto a validação cruzada quanto o bootstrap ajudam a aliviar os vieses associados ao método de validação. Eles fornecem estimativas mais confiáveis do desempenho do modelo, utilizando os dados disponíveis de forma mais eficiente e contabilizando a variabilidade nas divisões de teste de treinamento.

Embora o método holdout seja uma abordagem direta para a avaliação do modelo, ele tem limitações e possíveis vieses. Para mitigar esses problemas, técnicas como validação cruzada e bootstrapping oferecem estimativas mais robustas e confiáveis do desempenho do modelo. É importante considerar esses métodos alternativos dependendo dos requisitos específicos e restrições do problema em questão.

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 Seleção do Modelo de Retenção (Avaliação do Modelo L09 2: Intervalos de Confiança)



9.3 Seleção do Modelo de Retenção (Avaliação do Modelo L09 2: Intervalos de Confiança)

No vídeo anterior, discutimos o método holdout para avaliação de modelo. Agora, vamos explorar como podemos modificar esse método para seleção de modelo. Para recapitular, no vídeo anterior, dividimos o conjunto de dados em um conjunto de treinamento e um conjunto de teste. Treinamos um modelo no conjunto de treinamento usando um algoritmo de aprendizado de máquina e configurações fixas de hiperparâmetros. Em seguida, avaliamos o modelo no conjunto de teste. Além disso, opcionalmente, ajustamos o modelo a todo o conjunto de dados para aproveitar mais dados, esperando melhorar o desempenho.

Agora, pretendemos usar o método holdout para seleção de modelo, que está intimamente relacionado ao ajuste de hiperparâmetros. A seleção do modelo envolve a escolha do melhor modelo entre diferentes configurações de hiperparâmetros. No processo de ajuste de hiperparâmetros, geramos vários modelos, cada um correspondendo a uma configuração de hiperparâmetro específica. A seleção do modelo nos ajuda a identificar o modelo com a configuração de hiperparâmetro ideal.

Para explicar o método de validação modificado para seleção de modelo, vamos detalhar as etapas. Primeiro, em vez de dividir o conjunto de dados em apenas um conjunto de treinamento e teste, nós o dividimos em três conjuntos: um conjunto de treinamento, um conjunto de validação e um conjunto de teste. Essa separação nos permite ter um conjunto de dados independente, o conjunto de validação, para a seleção do modelo.

Em seguida, consideramos diferentes configurações de hiperparâmetros e ajustamos vários modelos usando os dados de treinamento. Por exemplo, podemos usar um algoritmo K-vizinho mais próximo com valores de hiperparâmetros de k=3, k=5 e k=7, resultando em três modelos.

A etapa de seleção do modelo envolve a avaliação desses modelos usando o conjunto de validação. Como os modelos podem se ajustar aos dados de treinamento, não é adequado para selecionar o melhor modelo. Portanto, contamos com o conjunto de validação independente para avaliar os modelos. Calculamos métricas de desempenho, como precisão de previsão, para cada modelo e selecionamos aquele com o melhor desempenho como o modelo ideal, correspondendo às melhores configurações de hiperparâmetros.

No entanto, usar o conjunto de validação várias vezes para a seleção do modelo pode introduzir viés, semelhante ao problema que encontramos com o conjunto de teste no vídeo anterior. Para obter uma estimativa imparcial do desempenho do modelo, reservamos um conjunto de teste independente. Depois de selecionar o melhor modelo, avaliamos seu desempenho no conjunto de teste e relatamos os resultados.

Opcionalmente, antes da avaliação final, podemos reajustar o modelo usando os dados combinados de treinamento e validação. Esta etapa aproveita mais dados para melhorar potencialmente o desempenho do modelo. Por fim, avaliamos o modelo final no conjunto de teste independente e relatamos seu desempenho. Embora não tenhamos um conjunto de teste para avaliar melhor o modelo ajustado com os dados combinados, geralmente é esperado que seja melhor devido ao aumento da quantidade de dados.

Na prática, o método de validação para seleção do modelo pode variar e nem todas as etapas são seguidas à risca. Alguns profissionais avaliam diretamente o modelo selecionado no conjunto de teste sem treinar novamente nos dados combinados. No entanto, a ideia principal é ter conjuntos de dados separados para treinamento, validação e teste para garantir uma estimativa de desempenho imparcial e facilitar a seleção do melhor modelo.

No próximo vídeo, vamos nos aprofundar no conceito de intervalos de confiança.

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

9.4 Intervalos de confiança de ML via aproximação normal (Avaliação de modelo L09 2: Intervalos de confiança)



9.4 Intervalos de confiança de ML via aproximação normal (Avaliação de modelo L09 2: Intervalos de confiança)

Neste vídeo, nosso foco está nos intervalos de confiança, especificamente para estimar o erro de classificação ou a precisão da classificação de um conjunto de teste. Estaremos usando o método de aproximação normal, que é a abordagem mais simples. No entanto, também discutiremos métodos melhores com base na reamostragem em vídeos futuros.

Atualmente, estamos na seção básica, explorando intervalos de confiança usando o método de aproximação normal. Nos vídeos subsequentes, vamos nos aprofundar em diferentes técnicas de reamostragem, começando com o método de validação repetida e passando para métodos como bootstrapping para construir intervalos de confiança empíricos, que são mais eficazes ao lidar com conjuntos de dados menores comumente encontrados no aprendizado de máquina tradicional.

Vamos começar discutindo a distribuição binomial, com a qual você já deve estar familiarizado em outras aulas de estatística. A distribuição binomial fornece o número de sucessos, com parâmetros n e p, representando o número de tentativas e a probabilidade de sucesso, respectivamente. A média da distribuição binomial é dada por n vezes p. Por exemplo, se tivermos 100 tentativas com uma probabilidade de sucesso de 33%, a média seria 30.

Na figura do lado esquerdo, você pode ver a função de densidade de probabilidade da distribuição binomial para diferentes valores de p e n. Esta função de densidade ilustra a probabilidade de diferentes números de sucessos. Além disso, a variância da distribuição binomial é calculada como n vezes p vezes (1 - p), que usaremos mais tarde. Reserve um momento para se familiarizar com este modelo.

Agora, vamos conectar a distribuição binomial ao aprendizado de máquina. Podemos encarar a derrota por 0 a 1 como uma tentativa de Bernoulli, onde temos duas possibilidades: classificação correta (sucesso) e classificação incorreta (falha). Podemos considerar a classificação incorreta como um sucesso e a classificação correta como um fracasso. Essa perspectiva se alinha com o conceito de cara e coroa no cara ou coroa. Para estimar a probabilidade de sucesso (ou seja, classificação incorreta), podemos calculá-la empiricamente realizando um grande número de tentativas e contando o número de sucessos dividido pelo número total de tentativas. O número médio de sucessos é n vezes p, que corresponde à média da distribuição binomial.

A relação entre a perda de 0-1 e a distribuição binomial nos ajuda a entender a noção de erro no aprendizado de máquina. Podemos considerar a derrota por 0-1 como uma tentativa de Bernoulli e o erro verdadeiro como a probabilidade de previsões corretas. Para estimar o erro verdadeiro, usamos um conjunto de teste e calculamos a proporção de previsões incorretas. Essa proporção representa o erro de classificação, que pode ser ainda dividido pelo tamanho do conjunto de teste para obter um valor entre zero e um.

Ao construir intervalos de confiança, usamos os mesmos métodos empregados em intervalos de confiança de uma amostra de outras classes estatísticas. Um intervalo de confiança é um intervalo que se espera que contenha o parâmetro de interesse com uma certa probabilidade. O nível de confiança mais comum é 95%, mas outros níveis como 90% ou 99% também podem ser usados. A escolha do nível de confiança determina a largura do intervalo, com níveis mais altos resultando em intervalos mais amplos.

Para definir formalmente um intervalo de confiança, consideramos várias amostras extraídas repetidamente da distribuição assumida. No nosso caso, assumimos uma distribuição normal. Ao construir um intervalo de confiança de 95% usando esse método, se construíssemos um número infinito de intervalos com base em um número infinito de amostras, esperaríamos que 95% desses intervalos contivessem o parâmetro verdadeiro.

Você pode estar se perguntando por que assumimos que os dados podem ser extraídos de uma distribuição normal. A razão é que a distribuição binomial se assemelha a uma distribuição normal quando o número de tentativas é grande. Mesmo para um número relativamente pequeno de tentativas, os dados já exibem uma forma semelhante a uma distribuição normal padrão. É por isso que empregamos a aproximação normal

método para construir intervalos de confiança neste caso.

Agora, vamos nos aprofundar nos detalhes da construção de um intervalo de confiança para erro de classificação usando o método de aproximação normal. Primeiro, precisamos calcular o desvio padrão da distribuição binomial. Conforme mencionado anteriormente, a variância da distribuição binomial é dada por n vezes p vezes (1 - p). Portanto, o desvio padrão é a raiz quadrada da variância.

Em seguida, determinamos o z-score correspondente ao nível de confiança desejado. O escore z representa o número de desvios padrão da média da distribuição normal padrão. Para um nível de confiança de 95%, o escore z é de aproximadamente 1,96. A fórmula geral para calcular o z-score é (x - μ) / σ, onde x é o nível de confiança desejado, μ é a média e σ é o desvio padrão.

Para construir o intervalo de confiança, começamos com a taxa de erro estimada do conjunto de teste, que representa nossa estimativa pontual. Em seguida, subtraímos e somamos o produto do escore z e o desvio padrão da estimativa pontual. Isso nos dá os limites inferior e superior do intervalo de confiança, respectivamente. O intervalo resultante representa o intervalo de valores dentro do qual esperamos que o verdadeiro erro de classificação caia com o nível de confiança especificado.

É importante observar que o método de aproximação normal assume que o número de tentativas (tamanho do conjunto de teste) é suficientemente grande. Se o conjunto de teste for pequeno, essa aproximação pode não ser precisa. Nesses casos, métodos de reamostragem como bootstrap podem fornecer intervalos de confiança mais confiáveis.

Em resumo, a construção de intervalos de confiança para erro de classificação usando o método de aproximação normal envolve as seguintes etapas:

  1. Calcule o desvio padrão da distribuição binomial usando a fórmula sqrt(n * p * (1 - p)).
  2. Determine o escore z correspondente ao nível de confiança desejado.
  3. Calcule os limites inferior e superior do intervalo de confiança subtraindo e adicionando o produto do escore z e o desvio padrão da estimativa pontual, respectivamente.

Lembre-se de que nos vídeos subsequentes exploraremos métodos mais avançados baseados em técnicas de reamostragem, que são particularmente úteis para conjuntos de dados menores. Esses métodos fornecem intervalos de confiança empíricos e geralmente são mais precisos do que o método de aproximação normal.

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
 

9.5 Reamostragem e Holdout Repetido (L09 Modelo Aval 2: Intervalos de Confiança)



9.5 Reamostragem e Holdout Repetido (L09 Modelo Aval 2: Intervalos de Confiança)

Neste vídeo, vamos nos aprofundar no tópico de reamostragem e discutir especificamente o método de holdout repetido. Anteriormente, exploramos o método de validação regular, em que o conjunto de dados é dividido em conjuntos de treinamento e teste. Também exploramos como o método de aproximação normal pode ser usado para construir intervalos de confiança com base no desempenho estimado no conjunto de teste. Agora, vamos mudar nosso foco para os métodos de reamostragem, começando com o método holdout repetido.

Para fornecer uma ilustração visual, vamos considerar as curvas de aprendizado. As curvas de aprendizado servem como indicadores de se nosso modelo se beneficiaria de dados de treinamento adicionais. No gráfico, o eixo x representa o tamanho do conjunto de treinamento, enquanto o eixo y representa o desempenho, medido como precisão. No entanto, o mesmo gráfico pode ser usado para medir o erro invertendo-o. O desempenho mostrado aqui é baseado no conjunto de dados de dígitos manuscritos da Anistia, mas apenas um subconjunto de 5.000 imagens foi usado para acelerar a computação. Dessas 5.000 imagens, 3.000 foram alocadas para treinamento e 1.500 foram reservadas como conjunto de teste. Outro conjunto de dados composto por 3500 imagens também foi criado e conjuntos de treinamento de tamanhos variados foram construídos a partir dele.

Cada ponto de dados no gráfico corresponde a um tamanho de conjunto de treinamento específico, enquanto o tamanho do conjunto de teste permanece constante em 1500. A tendência observada é que, à medida que o tamanho do conjunto de treinamento diminui, a precisão do treinamento aumenta. No entanto, à medida que o tamanho do conjunto de treinamento aumenta, a precisão do treinamento diminui. Uma possível explicação para essa tendência é que, com um conjunto de treinamento menor, é mais fácil para o modelo memorizar os dados, incluindo quaisquer outliers ou ruídos. À medida que o tamanho do conjunto de treinamento cresce, torna-se mais desafiador memorizar os dados devido à presença de outliers mais diversos. No entanto, um conjunto de treinamento maior facilita uma melhor generalização, levando a um melhor desempenho no conjunto de teste.

Vale a pena notar que o gráfico para em um tamanho de conjunto de treinamento de 3.500, pois não havia um conjunto de dados maior disponível. O conjunto de teste, mostrado em vermelho, permaneceu fixo em 1500 amostras. Ao reservar essas amostras para teste, um viés pessimista foi introduzido porque o modelo pode não ter atingido sua capacidade total. A capacidade refere-se ao potencial do modelo para melhorar com mais dados. Neste caso, um classificador softmax simples, que é uma regressão logística multinomial, foi usado para fins de eficiência. No entanto, outros classificadores podem ser empregados para experimentos semelhantes.

Em relação às curvas de aprendizado, é importante considerar o tamanho do conjunto de dados e seu impacto no desempenho do classificador. Aumentar o tamanho do conjunto de dados pode melhorar o desempenho do classificador, especialmente quando as curvas de aprendizado indicam um erro de teste decrescente à medida que o tamanho do conjunto de treinamento aumenta. Por exemplo, ao trabalhar em um projeto envolvendo previsão de classificação de filmes, coletar mais resenhas de filmes de fontes como IMDb pode melhorar o desempenho do classificador.

Durante o horário de expediente, os alunos geralmente perguntam sobre como melhorar o desempenho do classificador para seus projetos. O aprimoramento de um classificador pode envolver várias estratégias, como alterações de parâmetros, seleção de recursos ou extração de recursos. No entanto, aumentar o tamanho do conjunto de dados é um método simples, mas eficaz, que pode produzir resultados positivos. O exame das curvas de aprendizado ajuda a determinar se mais dados podem beneficiar o modelo, em vez de focar apenas no ajuste de hiperparâmetros.

É importante reconhecer o viés pessimista resultante da divisão do conjunto de dados em conjuntos de treinamento e teste. Ao reter uma parte substancial dos dados para teste, o modelo pode não ter atingido todo o seu potencial devido aos dados de treinamento limitados. Uma solução é reduzir o tamanho do conjunto de teste para lidar com esse viés. No entanto, reduzir o tamanho do conjunto de teste apresenta outro desafio: um aumento na variância. A variação da estimativa de desempenho do modelo aumenta com conjuntos de teste menores, levando potencialmente a estimativas menos confiáveis.

Para mitigar esses desafios, podemos empregar uma técnica chamada validação cruzada de Monte Carlo, que envolve a repetição do método de validação várias vezes e a média dos resultados. Essa técnica é comumente conhecida como método de validação repetida.

No método holdout repetido, realizamos várias iterações do processo holdout, onde dividimos aleatoriamente o conjunto de dados em conjuntos de treinamento e teste. Cada iteração usa uma divisão aleatória diferente, garantindo que diferentes subconjuntos de dados sejam usados para treinamento e teste em cada iteração. Repetindo esse processo várias vezes, podemos obter várias estimativas de desempenho para nosso modelo.

A principal vantagem do método de validação repetida é que ele fornece uma estimativa mais robusta e confiável do desempenho do modelo em comparação com uma única divisão de validação. Como cada iteração usa uma divisão aleatória diferente, podemos capturar a variabilidade no desempenho devido à aleatoriedade dos dados. Isso nos ajuda a obter uma estimativa mais precisa do desempenho real do modelo em dados não vistos.

Assim que tivermos as estimativas de desempenho de cada iteração, podemos calcular o desempenho médio e usá-lo como nossa estimativa final. Além disso, também podemos calcular a variância ou desvio padrão das estimativas de desempenho para ter uma ideia da variabilidade nos resultados.

É importante observar que no método de validação repetida, os conjuntos de treinamento e teste devem ser separados em cada iteração para garantir que o modelo seja avaliado em dados não vistos. Além disso, o tamanho dos conjuntos de treinamento e teste deve ser determinado com base no tamanho do conjunto de dados disponível e na compensação desejada entre dados de treinamento e avaliação.

O método de validação repetida é particularmente útil quando o conjunto de dados é grande o suficiente para permitir várias divisões aleatórias. Ele ajuda a fornecer uma avaliação mais robusta do desempenho do modelo e pode ser especialmente benéfico ao trabalhar com dados limitados.

Em resumo, o método holdout repetido é uma técnica de reamostragem que envolve a repetição do processo holdout várias vezes com diferentes divisões aleatórias do conjunto de dados. Isso ajuda a obter estimativas de desempenho mais confiáveis e a capturar a variabilidade no desempenho do modelo. Calculando a média dos resultados das repetidas iterações de validação, podemos obter uma estimativa melhor do desempenho real do modelo.

9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about learning curves and how to assess whether a model can benefit from more data. Then it covers the repeated holdout method.-------This v...
 

9.6 Intervalos de confiança de Bootstrap (Modelo L09 Avaliação 2: Intervalos de confiança)



9.6 Intervalos de confiança de Bootstrap (Modelo L09 Avaliação 2: Intervalos de confiança)

Bem vindo de volta! Chegamos agora às partes mais interessantes desta palestra. Neste vídeo, nosso foco será em intervalos de confiança empíricos usando o método bootstrap. Como uma rápida recapitulação, discutimos anteriormente o método bootstrap quando falamos sobre métodos bagging. No bagging, extraímos amostras bootstrap do conjunto de treinamento. Mas você já se perguntou por que é chamado de método 'bootstrap'?

Bem, o termo 'bootstrap' originou-se da frase 'puxando-se para cima com as próprias botas', que foi usada figurativamente para descrever uma tarefa impossível. O método bootstrap é de fato uma técnica desafiadora, pois envolve estimar a distribuição amostral de uma única amostra. Então, de certa forma, estamos metaforicamente tentando nos levantar por meio de nossas botas ao tentar essa difícil tarefa.

Com o tempo, o significado de 'bootstrap' se expandiu para incluir o conceito de melhorar a si mesmo por meio de um esforço rigoroso e sem ajuda. No entanto, no contexto do método bootstrap, estamos focados apenas na técnica em si e não nas conotações políticas associadas a 'puxar-se para cima pelos próprios bootstrap'.

Agora, vamos nos aprofundar no método bootstrap e como ele nos permite estimar a distribuição amostral e a incerteza de nossas estimativas de desempenho. O método bootstrap, introduzido pela primeira vez por Bradley Efron em 1979, é uma técnica de reamostragem usada para estimar uma distribuição amostral quando temos acesso a apenas um único conjunto de dados.

Para entender o conceito, imagine que você tem apenas um conjunto de dados e deseja usá-lo para estimar várias estatísticas de amostra. Essas estatísticas podem ser qualquer coisa de interesse, como média amostral, desvio padrão, R-quadrado ou correlações. O método bootstrap nos permite gerar novos conjuntos de dados por amostragem repetida do conjunto de dados original, simulando o processo de extração de amostras da população. É importante observar que a amostragem é feita com reposição, ao contrário do método holdout repetido, que amostra sem reposição.

Desenhando essas amostras bootstrap e calculando a estatística amostral desejada, como a média amostral, podemos observar que a distribuição das médias amostrais segue uma distribuição normal. O desvio padrão dessa distribuição, conhecido como erro padrão da média, pode ser estimado a partir do desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra.

O método bootstrap nos permite construir intervalos de confiança estimando o desvio padrão e usando-o para determinar a incerteza associada às nossas estimativas de desempenho. Os intervalos de confiança fornecem uma gama de valores plausíveis para o verdadeiro parâmetro da população. No caso do método bootstrap, calculamos o desvio padrão empiricamente e o utilizamos para calcular os intervalos de confiança.

Agora, vamos entender as etapas envolvidas no procedimento de bootstrap. Primeiro, extraímos uma amostra com substituição do conjunto de dados original. Em seguida, calculamos a estatística amostral desejada usando essa amostra bootstrap. Repetimos essas duas etapas um grande número de vezes, geralmente recomendado em torno de 200 ou mais, para obter uma distribuição de estatísticas de amostra. O desvio padrão dessa distribuição serve como uma estimativa do erro padrão da estatística amostral. Finalmente, podemos usar o erro padrão para calcular intervalos de confiança, que fornecem uma medida de incerteza em torno de nossa estimativa de desempenho.

Quando se trata de avaliar o desempenho de um classificador usando o método bootstrap, podemos modificar um pouco a abordagem. Considere um conjunto de dados de tamanho n. Neste caso, realizamos p rodadas bootstrap, onde em cada rodada extraímos uma amostra bootstrap do conjunto de dados original. Em seguida, ajustamos um modelo para cada uma dessas amostras bootstrap e calculamos a precisão nas amostras out-of-bag, que são as amostras não incluídas na amostra bootstrap. Calculando a média das precisões de todas as rodadas de bootstrap, obtemos a precisão de bootstrap. Essa abordagem aborda a questão do overfitting avaliando o modelo em dados não vistos, em vez das amostras usadas para treinamento. Além disso, a precisão bootstrap fornece uma medida da variabilidade de desempenho do modelo.

Para resumir as etapas envolvidas na avaliação do desempenho de um classificador usando o método bootstrap:

  1. Selecione aleatoriamente uma amostra bootstrap de tamanho n (com substituição) do conjunto de dados original.
  2. Treine um classificador na amostra bootstrap.
  3. Avalie o classificador treinado nas amostras out-of-bag (amostras não incluídas na amostra bootstrap) e calcule a precisão.
  4. Repita os passos 1-3 para um grande número de rodadas bootstrap (p vezes).
  5. Calcule a precisão média em todas as rodadas de bootstrap para obter a precisão de bootstrap.

A precisão bootstrap pode servir como uma estimativa do desempenho do classificador em dados não vistos e fornece uma medida da incerteza associada à estimativa de desempenho. Além disso, pode ajudar a avaliar a estabilidade e robustez do classificador.

Ao utilizar o método bootstrap, podemos obter informações valiosas sobre o desempenho de nossos modelos e estimar a incerteza associada às nossas estimativas de desempenho. Essa técnica é particularmente útil quando temos dados limitados e queremos aproveitar ao máximo o conjunto de dados disponível. O método bootstrap nos permite aproximar a distribuição amostral, construir intervalos de confiança e avaliar o desempenho dos classificadores de forma eficaz.

Em conclusão, o método bootstrap é uma técnica de reamostragem poderosa que nos permite estimar a distribuição amostral e avaliar a incerteza das estimativas de desempenho usando um único conjunto de dados. Ele fornece uma abordagem prática para enfrentar vários desafios estatísticos e encontrou aplicações em uma ampla variedade de campos, incluindo aprendizado de máquina, estatística e análise de dados. Ao entender e implementar o método bootstrap, podemos aprimorar nossa capacidade de tomar decisões informadas e tirar conclusões confiáveis a partir de dados limitados.

9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about the Leave One Out Bootstrap (i.e., computing the model performances on out-of-bag samples) for constructing confidence intervals.-----...
 

9.7 Os métodos .632 e .632+ Bootstrap (L09 Model Eval 2: Intervalos de confiança)



9.7 Os métodos .632 e .632+ Bootstrap (L09 Model Eval 2: Intervalos de confiança)

N este vídeo, vamos nos aprofundar nos tópicos discutidos no vídeo anterior. No vídeo anterior, abordamos o método bootstrap, especificamente o bootstrap out-of-bag, que é usado para construir intervalos de confiança empíricos. Neste vídeo, vamos explorar duas técnicas avançadas de bootstrap: o bootstrap 0.632 e o bootstrap 0.632+. Essas técnicas estão relacionadas e suas origens serão explicadas mais adiante neste vídeo.

Para recapitular brevemente o procedimento bootstrap, começamos com um conjunto de dados e criamos amostras bootstrap por amostragem com substituição. Para cada amostra bootstrap, ajustamos um modelo e avaliamos seu desempenho nas amostras out-of-bag. No vídeo anterior, também demonstramos como implementar esse procedimento em Python, usando uma abordagem orientada a objetos.

No vídeo atual, o apresentador apresenta uma implementação de código que simplifica o processo. Eles criaram uma classe chamada "BootstrapOutOfBag" que recebe o número de rodadas de bootstrap e uma semente aleatória como entrada. Essa classe fornece um método chamado "split" que divide o conjunto de dados em subconjuntos de treinamento e teste. Os subconjuntos de treinamento correspondem às amostras bootstrap, enquanto os subconjuntos de teste representam as amostras out-of-bag. Ao iterar sobre essas divisões, o apresentador demonstra como realizar o procedimento bootstrap e avaliar o desempenho do modelo.

O apresentador então apresenta outra implementação chamada "bootstrap_0.632_score". Essa implementação permite que os usuários calculem convenientemente as pontuações out-of-bag ou bootstrap. Ao fornecer o classificador, conjunto de treinamento, número de divisões e semente aleatória, os usuários podem calcular a precisão média e obter intervalos de confiança usando o método percentil.

Em seguida, o vídeo aborda uma deficiência do método bootstrap out-of-bag, conhecido como viés pessimista. Bradley Efron propôs a estimativa de 0,632 como forma de lidar com esse viés. O viés pessimista surge porque as amostras bootstrap contêm menos pontos de dados exclusivos em comparação com o conjunto de dados original. Na verdade, apenas 63,2% dos pontos de dados nas amostras bootstrap são únicos. O apresentador explica os cálculos de probabilidade por trás dessa figura e fornece uma visualização para ilustrar como ela se comporta para diferentes tamanhos de amostra.

Para superar o viés pessimista, o vídeo apresenta o método bootstrap 0,632. Este método combina a precisão das amostras out-of-bag e as amostras bootstrap em cada rodada. A precisão em cada rodada é calculada como a soma de dois termos: a precisão fora do saco e a precisão de resubstituição. A precisão out-of-bag representa o desempenho nas amostras que não foram incluídas na amostra bootstrap, enquanto a precisão de ressubstituição mede o desempenho nos mesmos dados usados para ajustar o modelo.

Ao combinar esses dois termos, o método bootstrap 0,632 visa fornecer uma estimativa menos tendenciosa do desempenho do modelo. Este método aborda a natureza excessivamente otimista da precisão de ressubstituição, incorporando a precisão fora do saco.

Concluindo, este vídeo se baseia nos conceitos discutidos no vídeo anterior, apresentando técnicas avançadas de bootstrap: o bootstrap 0,632 e o bootstrap 0,632+. Esses métodos visam mitigar o viés pessimista do bootstrap out-of-bag, considerando tanto a precisão da amostra out-of-bag quanto do bootstrap. O vídeo fornece implementações de código e explicações para facilitar a compreensão e aplicação dessas técnicas.

9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
In this video, we discuss the .632 bootstrap, which addresses the pessimistic bias of the OOB bootstrap covered in the previous video. Then, we discuss the ....
 

10.1 Visão Geral da Aula de Validação Cruzada (L10: Avaliação do Modelo 3)


10.1 Visão Geral da Aula de Validação Cruzada (L10: Avaliação do Modelo 3)

Olá pessoal! Na semana passada, nos aprofundamos no importante tópico de avaliação de modelos, onde discutimos vários aspectos, como avaliar o desempenho do modelo e construir intervalos de confiança. No entanto, nossa exploração da avaliação do modelo ainda não está completa, pois há outros conceitos essenciais que precisamos cobrir. Na prática, não se trata apenas de avaliar um modelo específico; também precisamos encontrar um bom modelo em primeiro lugar que possamos avaliar.

Nesta palestra, vamos nos concentrar em técnicas de validação cruzada, que incluem métodos para ajustar hiperparâmetros e comparar modelos resultantes de diferentes configurações de hiperparâmetros. Este processo é conhecido como seleção de modelos. Nossa principal ênfase hoje será na validação cruzada.

Temos muitos tópicos para cobrir esta semana, mas não se preocupe, cada tópico é relativamente curto. Deixe-me fornecer uma visão geral do que discutiremos nesta palestra e na próxima:

  1. Técnicas de validação cruzada para avaliação do modelo: Exploraremos a validação cruzada K-fold e outras técnicas relacionadas para avaliar o desempenho do modelo. Demonstrarei exemplos de código usando Python e scikit-learn.

  2. Validação cruzada para seleção de modelo: Discutiremos como usar validação cruzada para selecionar o melhor modelo, incluindo ajuste de hiperparâmetros. Mostrarei como realizar a seleção de modelo usando pesquisa em grade e pesquisa aleatória no scikit-learn.

  3. A lei da parcimônia: exploraremos o conceito do método de um erro padrão, que combina a ideia de validação cruzada K-fold com o princípio de manter os modelos simples. Também fornecerei exemplos de código para o método de um erro padrão e validação cruzada K-fold repetida, que é semelhante ao método de validação repetido discutido nas aulas anteriores.

Antes de nos aprofundarmos na validação cruzada, vamos fazer uma rápida reintrodução aos hiperparâmetros e esclarecer suas diferenças em relação aos parâmetros do modelo. Em seguida, discutiremos a validação cruzada K-fold para avaliação de modelos e outras técnicas relacionadas. Examinaremos a implementação prática dessas técnicas usando Python e scikit-learn. Por fim, estenderemos nossa discussão à validação cruzada para seleção de modelos, destacando a distinção entre avaliação de modelos e seleção de modelos.

Também preparei uma visão geral com base em extensa pesquisa e leitura, categorizando diferentes técnicas com base em tarefas e problemas específicos. Essa categorização nos ajudará a navegar pelas diferentes técnicas e entender quando usar cada uma. É importante observar que as recomendações fornecidas na visão geral estão sujeitas a uma discussão mais aprofundada, da qual participaremos durante as próximas palestras.

Isso resume a visão geral da palestra. Agora, vamos prosseguir com uma reintrodução aos hiperparâmetros, seguida de uma exploração detalhada da validação cruzada.

10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
  • 2020.11.18
  • www.youtube.com
This video goes over the topics we are going to cover in this lecture: cross-validation and model selection. Also, it gives a big-picture overview discussing...
Razão: