Tutoriais de programação - página 17

 

Introdução à Regressão Linear


Introdução à Regressão Linear

Olá pessoal! Hoje, estamos mergulhando na regressão linear. Temos examinado gráficos de dispersão e discutido situações em que observamos uma relação linear entre variáveis. Em outras palavras, à medida que a variável X aumenta, a variável Y tende a aumentar ou diminuir a uma taxa constante. Podemos discutir esse fenômeno quando temos uma relação estreita, conforme mostrado no lado esquerdo do gráfico, bem como quando a relação é mais dispersa, como visto no lado direito.

Para analisar essa relação linear, podemos traçar uma linha sobre o gráfico de dispersão de maneira inteligente. Essa linha é conhecida como linha de melhor ajuste ou linha de regressão. Agora, vamos nos aprofundar nos aspectos matemáticos da regressão linear. A ideia-chave envolve a noção de resíduos. Colocamos uma linha sobre nossos dados e escolhemos um valor X específico. Em seguida, calculamos a diferença entre o valor Y real no conjunto de dados e o valor Y previsto na linha. Essa diferença é chamada de residual, representando o desvio entre as alturas real e esperada. Calculando os resíduos para cada ponto em nosso conjunto de dados, elevando-os ao quadrado e somando-os, obtemos uma quantidade que pode ser minimizada.

Usando o cálculo, podemos minimizar essa quantidade e derivar a equação para a linha de regressão de mínimos quadrados. Acontece que essa linha passa pelo ponto (barra X, barra Y), onde a barra X é a média amostral para os valores X e a barra Y é a média amostral para os valores Y. A inclinação da linha de regressão de mínimos quadrados é dada por r × (sy / SX), onde r é o coeficiente de correlação, sy é o desvio padrão dos valores de Y e SX é o desvio padrão dos valores de X. Em resumo, a equação para a linha de regressão de mínimos quadrados é fornecida na parte inferior do slide.

Calcular esses valores manualmente pode ser complicado. Para simplificar o processo, é altamente recomendável usar tecnologia ou software. Vamos considerar os dados correspondentes ao gráfico de dispersão mostrado no slide anterior. Ao calcular as médias e os desvios padrão, descobrimos que a barra X é 5,4, a barra Y é 2,4 e assim por diante. O coeficiente de correlação é de aproximadamente 0,34, indicando uma correlação positiva moderada a fraca. Ao inserir esses valores, obtemos a equação para a linha de regressão de mínimos quadrados: 0,19x + 1,34.

Devo enfatizar que realizar esses cálculos manualmente pode ser tedioso. Utilizar a tecnologia é uma abordagem muito mais eficiente. Aqui está um exemplo da aparência da linha de regressão de mínimos quadrados para esses dados. Parece ser um ajuste razoável para os pontos de dados.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

Gráficos de dispersão e linhas de regressão em R


Gráficos de dispersão e linhas de regressão em R

Olá pessoal! Neste guia de início rápido, mostrarei como criar belos gráficos usando o pacote ggplot2 no RStudio. Esta discussão é adequada para iniciantes no primeiro nível de estatística. Embora existam métodos mais poderosos e sofisticados disponíveis, vou me concentrar nas abordagens mais intuitivas e diretas. Estaremos trabalhando com um subconjunto do conjunto de dados da íris, especificamente 50 linhas correspondentes à flor virginica. Nosso objetivo é criar um gráfico de dispersão do comprimento da sépala versus largura da sépala.

Antes de começarmos, certifique-se de carregar o pacote aimverse ou sua família de pacotes. Caso ainda não tenha instalado, use o comando "install.packages('tidyverse')". Se ocorrer algum erro durante a instalação, é recomendável procurar soluções online. Uma vez que o pacote é carregado, estamos prontos para prosseguir.

Para criar um gráfico de dispersão, usaremos a sintaxe básica "qplot". Primeiro, especifique o valor x, que é "virginica$sepal_length" para o eixo horizontal, onde "virginica" é o conjunto de dados e "sepal_length" é o nome da coluna. Em seguida, indique o valor y como "virginica$sepal_width" para o eixo vertical. Em seguida, precisamos definir como os dados devem ser exibidos. Para um gráfico de dispersão, usamos "geom = 'point'". Certifique-se de soletrar "ponto" corretamente. Isso irá gerar um gráfico de dispersão básico.

Vamos melhorar o gráfico ajustando os rótulos dos eixos e explorando as opções de personalização, como alteração de cores e tamanhos de pontos. Para modificar o rótulo do eixo x, use "xlab = 'comprimento da sépala'". Da mesma forma, defina "ylab = 'largura da sépala'" para alterar o rótulo do eixo y. Para alterar a cor do ponto, adicione "color = 'darkred'". Observe que a sintaxe para especificar a cor é um pouco peculiar devido à sofisticação do R.

Agora que os rótulos e a cor do ponto foram ajustados, você pode experimentar mais. Por exemplo, você pode alterar o tamanho do ponto usando "size = ...". Além disso, você pode adicionar um título principal ao gráfico. Encorajo-o a explorar ainda mais as capacidades de "qplot" usando "?qplot" ou pesquisando online.

Vamos dar um passo adiante e adicionar uma linha de regressão. Uma vantagem do ggplot2 e do aimverse é que você pode adicionar camadas ao seu gráfico simplesmente estendendo o comando existente. Comece com o comando "qplot" que criamos anteriormente e agora adicione "geom_smooth()". Isso irá gerar uma linha ajustada. Como estamos interessados em regressão linear, especifique "method = 'lm'" para usar o modelo linear. É uma boa prática incluir esse argumento, especialmente em aulas introdutórias de estatística.

Se quiser alterar a cor da linha de regressão, você pode incluir "color = 'darkray'" no comando "geom_smooth()". Isso resultará em uma cor diferente.

Por fim, vamos abordar a questão do que acontece se removermos "se = FALSE". Sem esse argumento, R exibirá uma faixa de erro. Grosso modo, esta fita representa um intervalo de confiança. Se fôssemos representar graficamente todos os gráficos no conjunto de dados do qual essas 50 observações foram amostradas, esperaríamos que a linha de regressão ficasse dentro dessa faixa de erro, fornecendo uma medida aproximada de incerteza.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Usando linhas de regressão para fazer previsões


Usando linhas de regressão para fazer previsões

Olá pessoal! Hoje, vamos nos aprofundar nas linhas de regressão. Vamos explorar como usá-los para fazer previsões, discutir erros de previsão e entender quando é inapropriado usá-los para previsões. Vamos começar!

Você pode reconhecer este exemplo do meu vídeo anterior. Temos um pequeno conjunto de dados com cinco valores e desenhei uma linha de melhor ajuste: Ŷ = 0,19X + 1,34. Agora, vamos considerar um novo valor de entrada, x = 6. Usando a equação de regressão, podemos prever o valor y correspondente. Neste caso, a previsão é 2,54. Podemos plotar esse valor previsto na linha como um ponto azul em (6, 2,54).

Às vezes, fazemos previsões quando temos um valor x que corresponde a um valor y no conjunto de dados. Por exemplo, em x = 3, temos o ponto (3, 1). Neste caso, de que tipo de erro estamos falando? Nós nos referimos a ele como o residual. O resíduo para um ponto de dados é a diferença entre o valor y real naquele ponto e o valor y previsto pela linha de regressão. Em x = 3, o valor real de y é 1 e o valor previsto de y é 1,97, resultando em um resíduo de -0,97. Isso significa que o ponto (3, 1) fica aproximadamente 0,97 unidades abaixo da linha de regressão.

Ao usar linhas de regressão para fazer previsões, é crucial considerar o intervalo do conjunto de dados. Devemos apenas fazer previsões para valores de x que estejam dentro do intervalo ou uma extensão razoável do conjunto de dados. Um exemplo clássico é idade versus peso. Conforme mostrado no gráfico, há uma relação linear para pessoas com menos de 12 anos. Dentro dessa faixa, podemos fazer previsões de peso razoavelmente precisas com base na idade usando a relação linear. Isso é chamado de interpolação, onde prevemos valores dentro do intervalo do conjunto de dados.

No entanto, seria errôneo usar essa relação linear para fazer previsões fora dessa faixa, como para um indivíduo de quarenta anos. Se aplicássemos a relação linear para prever seu peso, o resultado seria superior a trezentos e quarenta libras, o que é claramente irreal. Isso é chamado de extrapolação e deve ser evitado.

Em resumo, ao usar linhas de regressão, é essencial entender os erros e limitações de previsão. Os resíduos nos ajudam a quantificar as discrepâncias entre os valores reais e previstos. Devemos apenas fazer previsões dentro do intervalo do conjunto de dados ou uma extensão razoável dele. A extrapolação, que envolve a previsão de valores fora do intervalo do conjunto de dados, pode levar a resultados imprecisos e não confiáveis.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

Regressão e previsão em R usando o comando lm()


Regressão e previsão em R usando o comando lm()

Olá pessoal! Hoje, calcularemos linhas de regressão em R usando o conjunto de dados integrado "cars". Para começar, vamos dar uma olhada no conjunto de dados e coletar algumas informações sobre ele usando os comandos "visualizar" e "ponto de interrogação". O conjunto de dados "cars" consiste em 50 entradas que representam velocidades e distâncias de parada de carros da década de 1920. Embora não sejam dados novos, ainda podemos explorar relações lineares.

Para visualizar os dados, usaremos o pacote "ggplot2" da biblioteca "tidyverse". Certifique-se de carregar o pacote usando o comando "library(tidyverse)". Se você ainda não instalou o pacote "tidyverse", pode fazê-lo com o comando "install.packages('tidyverse')".

Em seguida, criaremos um gráfico de dispersão dos dados usando o comando "qplot". Vamos plotar a velocidade no eixo x (variável explicativa) e a distância no eixo y (variável de resposta). Para indicar que estamos trabalhando com o conjunto de dados "cars" e queremos um gráfico de dispersão, usaremos "geom='point'". O gráfico revela uma relação principalmente linear, sugerindo que realizar uma regressão linear é razoável.

Para adicionar uma linha de regressão ao gráfico, usaremos "geom_smooth(method = 'lm', se = FALSE)". Isso especifica uma regressão linear mais suave sem a barra de erro padrão.

Agora, vamos determinar a equação da linha de regressão. Usaremos o comando "lm", que significa modelo linear. A sintaxe segue um padrão "y ~ x", onde a variável resposta (distância) está relacionada à variável explicativa (velocidade). Atribuiremos o resultado a uma variável chamada "model". Ao inserir "summary(model)", podemos obter informações adicionais sobre a linha de regressão, incluindo coeficientes, resíduos e medidas estatísticas como R-quadrado múltiplo e R-quadrado ajustado.

Se quisermos acessar informações específicas do objeto "model", podemos tratá-lo como um quadro de dados e usar "$" para extrair as colunas desejadas. Por exemplo, "model$residuals" fornece um vetor dos 50 resíduos.

Podemos até adicionar os valores residuais e ajustados como novas colunas ao conjunto de dados "cars" original usando "cars$residuals" e "cars$predicted" respectivamente.

Por fim, vamos usar a função "prever" para obter previsões para velocidades não presentes no conjunto de dados. Forneceremos o "modelo" como primeiro argumento e criaremos um quadro de dados com uma coluna denominada "velocidade" (correspondente à variável explicativa). Usando a função "data.frame", vamos inserir os valores de velocidade desejados. Por exemplo, podemos prever distâncias de parada para velocidades como 12,5, 15,5 e 17. Os valores previstos serão exibidos.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

Gráficos residuais em R


Gráficos residuais em R

Olá a todos, no vídeo de hoje, exploraremos gráficos residuais em R usando o comando qplot. Usarei principalmente as funções básicas do R neste tutorial. Também estou trabalhando em outro vídeo sobre o pacote broom, que é uma forma padrão de realizar tarefas em R. Fornecerei um link para esse vídeo assim que estiver pronto.

Neste tutorial, vamos nos concentrar nas variáveis "wind" e "temp" do conjunto de dados de qualidade do ar embutido no R. Este conjunto de dados contém medições diárias da qualidade do ar em Nova York de maio a setembro de 1973.

Para começar, vamos carregar o pacote . Embora usemos apenas a função qplot, vamos carregar o pacote inteiro para consistência.

Antes de mergulhar na modelagem, é essencial visualizar nossos dados. Vamos criar um qplot definindo "wind" como a variável explicativa (air_quality$wind) e "temp" como a variável de resposta (air_quality$temp). Como temos duas variáveis, o padrão do R é um gráfico de dispersão.

Ao examinar o gráfico, podemos observar uma relação linear entre as duas variáveis, embora não seja particularmente forte. Para quantificar essa relação, vamos calcular o coeficiente de correlação usando a função cor. O coeficiente de correlação resultante é -0,458, indicando uma correlação negativa.

Agora que estabelecemos uma relação linear, podemos adicionar uma linha de regressão ao gráfico. Modificaremos o comando qplot incluindo a função geom_smooth com method = "lm" para indicar um modelo linear. Vamos excluir a faixa de erros para simplificar.

Com a linha de regressão adicionada, podemos prosseguir para construir um modelo linear e obter a equação para a linha de regressão. Vamos atribuir o modelo linear a uma variável chamada "modelo" usando a função lm. Especificaremos "temp" como a variável de resposta e "wind" como a variável explicativa. É importante mencionar explicitamente o nome do quadro de dados.

Para obter mais informações sobre o modelo, podemos usar a função de resumo para obter um resumo do modelo. O resumo fornece várias informações, incluindo a interceptação (90,1349) e o coeficiente da inclinação (-1,23). A interpretação do coeficiente de inclinação é que, para cada aumento de unidade no vento, a temperatura diminui em aproximadamente 1,23 unidades. Verificar o arquivo de ajuda fornecerá informações sobre as unidades usadas, como vento em milhas por hora e temperatura em graus Fahrenheit.

Podemos acessar diretamente os coeficientes usando a função coeficientes, que retorna a interceptação e o coeficiente do vento do modelo. Além disso, podemos obter os valores ajustados usando a função fixed.values, que nos fornece um vetor de temperaturas previstas para cada valor de vento. Podemos adicioná-la como uma nova coluna, "prevista", ao quadro de dados de qualidade do ar.

Da mesma forma, podemos obter os resíduos usando a função de resíduos, que nos dá as diferenças entre os valores observados e previstos. Adicionar os resíduos como outra coluna, "resíduos", ao quadro de dados completa nossa exploração. Podemos visualizar o quadro de dados novamente para confirmar a presença das novas colunas.

Para avaliar a relação entre os valores ajustados e os resíduos, podemos criar um gráfico de resíduos. No comando qplot, definiremos os valores ajustados como a variável do eixo x (fitted.values(model)) e os resíduos como a variável do eixo y (residuals(model)). Um gráfico de dispersão será gerado conforme especificado nos argumentos qplot.

O objetivo do gráfico de resíduos é identificar quaisquer padrões ou tendências nos resíduos. Em um modelo linear válido com variância constante, o gráfico deve se assemelhar a uma nuvem sem nenhum padrão discernível. Adicionar uma linha de regressão com geom_smooth e method = "lm" ajudará a verificar isso. Também definiremos se = FALSE para remover a barra de erro padrão.

Ao examinar o gráfico de resíduos, podemos ver que não há padrão ou tendência discernível, indicando que nosso modelo captura a relação linear adequadamente. A linha de regressão, representada por y = 0, confirma esta observação.

Isso conclui nosso tutorial sobre como criar gráficos residuais em R usando o comando qplot. Ao visualizar e analisar os resíduos, podemos avaliar a qualidade do ajuste e a adequação do nosso modelo linear. Lembre-se de que existem várias maneiras de obter os mesmos resultados em R, e explorar diferentes sintaxes e funções pode aprimorar sua compreensão da linguagem.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Outliers: Alavancagem, Discrepância e Influência


Outliers: Alavancagem, Discrepância e Influência

Olá pessoal! Hoje, vamos nos aprofundar nos conceitos de alavancagem, discrepância e influência no contexto da regressão linear. Embora eu me concentre no cenário com uma única variável explicativa, observe que tudo discutido aqui também se aplica diretamente a dimensões superiores.

Em um conjunto de dados com duas variáveis, observações individuais podem exibir características incomuns em seus valores x, valores y ou ambos. Quando usamos o termo "outlier", nos referimos especificamente a observações que se desviam significativamente na direção y em comparação com a tendência geral dos dados. Esses outliers são pontos com alta discrepância.

No entanto, na linguagem cotidiana, costumamos usar o termo "outlier" de maneira mais vaga. Para ilustrar esse conceito, vamos considerar três conjuntos de dados, cada um exibindo uma tendência linear com uma observação incomum. Nos dois primeiros gráficos, você notará um ponto distante da linha de regressão, exibindo alta discrepância. No terceiro caso, o valor incomum se alinha razoavelmente bem com a tendência geral dos dados, portanto, não seria considerado um valor atípico com base apenas na discrepância.

Agora, vamos mudar nosso foco para alavancagem. Observações com valores de x incomuns têm um potencial maior de impactar o ajuste do modelo, e diz-se que tais observações têm alta alavancagem. Examinando os mesmos três gráficos de uma perspectiva de alavancagem, descobrimos que os dois gráficos mais à direita contêm observações com alta alavancagem. Esses outliers têm valores de x significativamente distantes da maioria dos dados. Por outro lado, o primeiro gráfico apresenta um outlier com baixa alavancagem, pois seu valor x se alinha bem com os outros valores no conjunto de dados.

Uma observação que altera substancialmente o ajuste de um modelo é considerada de alta influência. Voltando aos dois primeiros outliers dos gráficos anteriores, vamos examiná-los através das lentes da influência. No primeiro gráfico, observamos um outlier com baixa influência. Se removermos esse valor do conjunto de dados, a linha de regressão não sofrerá mudanças significativas. Notavelmente, a inclinação permanece relativamente inalterada. Por outro lado, no gráfico mais à direita, vemos um outlier com alta influência. Ao removê-lo do conjunto de dados, a linha de regressão sofre mudanças substanciais. Normalmente, observações influentes exibem alta discrepância e alta alavancagem.

Embora todos esses conceitos possam ser quantificados, não vou me aprofundar nos detalhes neste vídeo. No entanto, quero apontar a direção certa se você quiser explorar isso mais a fundo. A discrepância geralmente é medida usando resíduos estudantis, que são resíduos padronizados que quantificam o desvio das observações na direção y da previsão do modelo. A alavancagem pode ser avaliada usando valores de chapéu, que medem a distância dos valores x do valor x médio esperado. Finalmente, a influência é freqüentemente quantificada usando a distância de Cook.

Felizmente, você não precisa calcular essas medidas manualmente, pois o R fornece métodos convenientes. O pacote vassoura é particularmente útil a esse respeito e criarei um vídeo sobre ele assim que possível.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: o coeficiente de determinação


R^2: o coeficiente de determinação

O tópico de hoje é R-quadrado, o coeficiente de determinação. Ele mede a dispersão das observações em torno de uma linha de regressão ou qualquer modelo estatístico. Representa a proporção da variância na variável de resposta (y) que pode ser atribuída a mudanças na(s) variável(is) explicativa(s), especialmente em casos de dimensão superior.

Para modelos lineares, R-quadrado sempre cai entre 0 e 1. Valores próximos a 1 indicam que os pontos de dados estão bem agrupados em torno da linha de regressão, enquanto valores próximos a 0 indicam maior dispersão.

Para tornar esse conceito mais claro, vamos visualizar três conjuntos de dados. Cada conjunto tem uma variação de 1 para os valores de y e desenhei a linha de regressão para cada caso. À medida que o R-quadrado aumenta de 0,2 para 0,5 para 0,8, observamos uma distribuição cada vez mais estreita dos dados ao redor da linha de regressão.

Agora, vamos mergulhar em uma definição mais precisa. R-quadrado é calculado como a variância dos valores y ajustados dividida pela variância dos valores y observados. Algebricamente, isso pode ser expresso como 1 menos a variância dos resíduos dividida pela variância dos valores y observados. Em um sentido técnico, podemos escrevê-lo como:

R-quadrado = (variância dos resíduos) / (variância dos valores y observados)

Para simplificar ainda mais, geralmente abreviamos essa expressão algébrica como R-quadrado = 1 - (RSS / TSS), onde RSS representa a soma residual dos quadrados e TSS denota a soma total dos quadrados.

Em um modelo de regressão de mínimos quadrados com uma única variável explicativa, um fato importante a ser observado é que o coeficiente de determinação é igual ao quadrado do coeficiente de correlação (R) da amostra. Em outras palavras, R-quadrado (grande R-quadrado) é igual a pequeno r-quadrado.

No caso de modelos de dimensões superiores, a afirmação é semelhante. R-quadrado é igual ao quadrado da correlação entre os valores y observados e ajustados. Isso vale mesmo para o caso de uma única variável, embora normalmente não pensemos nisso nesses termos.

Vale a pena mencionar que o R-quadrado é frequentemente mal compreendido e mal interpretado. Então, vamos esclarecer seu significado e limitações. R-quadrado mede a proporção da variabilidade em y que pode ser explicada pela variabilidade em x. Por definição, será menor para conjuntos de dados com alta variabilidade nos valores de y. Portanto, modelos com R-quadrado próximo de 1 não são necessariamente bons, como demonstrado em um exemplo em que R-quadrado é 0,93, mas o modelo linear é um ajuste ruim para os dados.

Da mesma forma, modelos com baixo R-quadrado não são necessariamente ruins. Por exemplo, um modelo com um R-quadrado de 0,16 pode ajustar os dados muito bem, mas os próprios dados contêm inerentemente muita variabilidade natural e ruído.

Lembre-se de que o R-quadrado mede apenas a variabilidade sobre a linha de regressão e não indica diretamente a utilidade ou razoabilidade de um modelo. Para avaliar modelos lineares adequadamente, considere várias ferramentas e fatores, como erro padrão residual (o desvio padrão dos resíduos), que fornece informações sobre a variabilidade dos dados em comparação com os valores previstos. Além disso, você pode examinar o nível de significância da regressão usando a estatística t para ajustes lineares e a estatística f para testar a hipótese nula de que todos os coeficientes de regressão são zero em modelos de dimensão superior.

Ao avaliar modelos, é crucial não confiar apenas no R-quadrado, mas considerá-lo em conjunto com outras métricas e análises.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

Cálculos qui-quadrado em R


Cálculos qui-quadrado em R

Hoje vamos realizar alguns cálculos qui-quadrado em R. O teste qui-quadrado é comumente usado em estatística inferencial para vários propósitos, como teste de qualidade de ajuste e teste de hipótese envolvendo variâncias. Qui-quadrado é uma variável aleatória contínua que é assimétrica para a direita. Seu valor esperado é denotado por "r" e sua variância é 2r. Na maioria das aplicações, r é um inteiro positivo, embora também possa ser um não inteiro.

À medida que o valor de r aumenta, a função de densidade de probabilidade (PDF) da distribuição qui-quadrada se desloca para a direita e começa a se assemelhar a uma curva de sino devido ao teorema do limite central. O parâmetro r é conhecido como o número de graus de liberdade para a distribuição qui-quadrada.

No R, existem quatro funções básicas para calcular distribuições qui-quadrada:

  1. rchisq(r, n): Esta função gera n valores aleatórios da distribuição qui-quadrada com r graus de liberdade. Por exemplo, rchisq(5, 16) gera 16 valores aleatórios de qui-quadrado com 5 graus de liberdade.

  2. pchisq(x, r): Esta é a função de distribuição cumulativa (CDF) para a distribuição qui-quadrada com r graus de liberdade. Ele retorna a probabilidade de obter aleatoriamente um valor menor ou igual a x nessa distribuição. Por exemplo, pchisq(8, 5) dá a probabilidade de obter um valor menor ou igual a 8 no qui-quadrado com 5 graus de liberdade, que é aproximadamente 0,844.

  3. qchisq(p, r): Este é o CDF inverso para a distribuição qui-quadrada com r graus de liberdade. Ele retorna o valor de x para o qual a probabilidade de obter um valor menor ou igual a x é igual a p. Por exemplo, qchisq(0,5, 12) fornece a mediana do qui-quadrado com 12 graus de liberdade, que é aproximadamente 0,5.

  4. dchisq(x, r): Esta função fornece o valor da função de densidade de probabilidade (PDF) da distribuição qui-quadrada com r graus de liberdade em x. O PDF é de importância teórica, mas é menos comumente usado em cálculos numéricos.

Agora, vamos resolver alguns exemplos de problemas usando estas funções:

Problema 1: Calcule a probabilidade de obter aleatoriamente um valor de x entre 12 e 18 no qui-quadrado com 15 graus de liberdade.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

A probabilidade é de aproximadamente 0,4163.

Problema 2: Dado que há 80% de chance de um sorteio aleatório do qui-quadrado com 20 graus de liberdade ser maior que x, encontre o valor de x.

x <- qchisq ( 0.2 , 20 )

O valor de x é aproximadamente 14,57844.

Problema 3: Simule dez mil sorteios da distribuição qui-quadrado com 4 graus de liberdade e gere um histograma dos resultados.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Isso irá gerar um histograma dos valores simulados.

Espero que isso ajude você a entender e aplicar cálculos qui-quadrado em R.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

Compreendendo a distribuição qui-quadrada


Compreendendo a distribuição qui-quadrada

Hoje, vamos discutir a distribuição qui-quadrada, um conceito fundamental que você encontrará ao estudar inferência estatística em sua jornada pela ciência de dados. A distribuição qui-quadrada surge quando você deseja medir o quanto um conjunto de observações numéricas independentes se desvia de seus valores esperados.

Para explicar isso mais formalmente, você calcula um escore z para cada observação subtraindo o valor esperado da observação e dividindo-o pelo desvio padrão. Depois de elevar ao quadrado cada uma dessas pontuações z e somá-las, você obtém a variável aleatória qui-quadrada. Essa variável quantifica o desvio geral de suas observações de seus valores esperados.

Por exemplo, se todas as observações se alinhassem perfeitamente com seus valores esperados, a estatística qui-quadrado seria zero. À medida que os resultados divergem ainda mais dos valores esperados, o valor qui-quadrado aumenta. Ao elevar ao quadrado os escores z, garantimos que os desvios altos e baixos não se anulem.

A distribuição qui-quadrada com r graus de liberdade representa a distribuição amostral dessa variável aleatória. Os graus de liberdade (r) correspondem ao número de observações independentes ou escores z. Observe que a variável aleatória compartilha o mesmo nome da distribuição, mas o contexto geralmente as distingue.

Como cada escore z é uma variável aleatória contínua, a soma de seus quadrados segue uma distribuição qui-quadrada. A função de densidade de probabilidade da distribuição qui-quadrada é positiva apenas para valores qui-quadrado não negativos. A distribuição é assimétrica à direita porque valores extremamente altos para escores z individuais tornam-se cada vez menos prováveis.

O gráfico típico da distribuição qui-quadrada com 5 graus de liberdade mostra essa forte inclinação para a direita. Seu suporte (conjunto de resultados possíveis) consiste estritamente em valores positivos. Dois fatos importantes a serem lembrados são que o valor esperado da distribuição qui-quadrado com r graus de liberdade é igual a r e que o pico da distribuição ocorre em R menos 2, dado que R é pelo menos dois (caso contrário, é zero ).

À medida que o número de graus de liberdade aumenta, a distribuição qui-quadrada se aproxima de uma distribuição normal de acordo com o teorema do limite central. Essa aproximação pode ser observada em um esboço que mostra a distribuição qui-quadrada com R igual a 50, que ainda exibe uma leve inclinação para a direita.

A distribuição qui-quadrado é freqüentemente usada em estatística inferencial, como fica evidente no slide inicial. Algumas aplicações comuns incluem testes de significância para variância sob a suposição de uma distribuição normal, testes de qualidade de ajuste para variáveis categóricas e testes qui-quadrado para independência.

Para calcular probabilidades em uma distribuição qui-quadrada, você pode usar a função de distribuição cumulativa (CDF). O CDF, denotado como F(x), fornece a probabilidade de obter um valor menor ou igual a x na distribuição qui-quadrada especificada. Isso pode ser melhor compreendido com uma representação visual, onde a área sombreada representa a probabilidade.

Em R, você pode executar cálculos qui-quadrado usando o comando pchisq(), especificando o valor de interesse e o número de graus de liberdade. Por exemplo, para calcular a probabilidade de obter um valor menor ou igual a 8 na distribuição qui-quadrada com cinco graus de liberdade, você usaria pchisq(8, 5), resultando em aproximadamente 0,843.

Se você estiver interessado em mais detalhes ou cálculos envolvendo a distribuição qui-quadrado em R, tenho vídeos específicos que abordam esses tópicos. Sinta-se à vontade para consultá-los para obter explicações mais detalhadas.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Teste de adequação


Teste de adequação

Olá a todos, hoje vamos discutir o teste de qualidade do ajuste usando a distribuição qui-quadrado. Suponha que temos uma variável categórica, como o ano de estudantes universitários em aulas de estatística em uma grande universidade, e nos dizem que segue uma distribuição específica: 50% calouros, 30% alunos do segundo ano, 10% juniores e 10% veteranos. Como podemos testar se essa distribuição se ajusta aos nossos dados de amostra?

Para começar, vamos configurar as hipóteses nula e alternativa. A hipótese nula afirma que a população de todos os alunos nas aulas de estatística segue a distribuição reivindicada (50% calouros, 30% alunos do segundo ano, etc.), enquanto a hipótese alternativa assume uma distribuição diferente. Para testar entre essas hipóteses, compararemos as contagens observadas em nossos dados de amostra com as contagens esperadas sob a hipótese nula.

Vamos denotar as contagens observadas como 'o' e as contagens esperadas como 'e'. Calcularemos uma estatística de teste chamada qui-quadrado, que é a soma de (o - e)^2 / e. Se a hipótese nula for verdadeira, esta estatística de teste segue uma distribuição qui-quadrada com k - 1 graus de liberdade, onde k é o número de categorias.

No nosso caso, temos quatro categorias, então usaremos a distribuição qui-quadrada com três graus de liberdade. Uma estatística de teste maior indica que nossos dados de amostra são menos compatíveis com a hipótese nula, sugerindo um ajuste pior.

Para realizar o teste de significância e calcular o qui-quadrado, precisamos calcular as contagens esperadas sob a hipótese nula. Para um tamanho de amostra de 65, multiplicamos as porcentagens por 65 para obter contagens esperadas de 32,5, 19,5, 6,5 e 6,5.

Em seguida, calculamos a estatística do teste qui-quadrado subtraindo a contagem esperada da contagem observada para cada célula, elevando o resultado ao quadrado, dividindo pela contagem esperada e somando esses valores em todas as categorias. No nosso caso, a estatística de teste é 3,58.

Para encontrar a probabilidade de obter um valor maior ou igual à nossa estatística qui-quadrada observada, usamos a função de distribuição cumulativa em R, representada pelo comando p qui-quadrado. Subtrair o resultado de um nos dá o valor-p. Neste exemplo, o valor-p é de aproximadamente 0,31, indicando que os dados não fornecem forte evidência contra a hipótese nula.

É essencial observar que um grande valor-p não prova a hipótese nula; simplesmente sugere uma falta de evidência contra ela. Finalmente, devemos considerar quando é apropriado usar um teste qui-quadrado de qualidade de ajuste. Em primeiro lugar, aplica-se a variáveis categóricas. Se você tiver variáveis quantitativas, poderá transformá-las em variáveis categóricas agrupando-as. Além disso, os dados devem ser obtidos por meio de amostragem aleatória simples, e as contagens de células esperadas geralmente devem ser de pelo menos cinco. Se muitas caixas estiverem quase vazias, métodos alternativos podem ser mais apropriados, como o teste exato de Fisher em determinadas situações.

Além das considerações que mencionamos anteriormente, há mais alguns pontos a serem lembrados ao decidir usar um teste qui-quadrado de qualidade de ajuste. Esses incluem:

  1. Independência: As observações dentro de cada categoria devem ser independentes umas das outras. Essa suposição é importante para a validade do teste. Se as observações não forem independentes, testes estatísticos alternativos podem ser mais adequados.

  2. Tamanho da amostra: embora não haja uma regra fixa, tamanhos de amostra maiores tendem a fornecer resultados mais confiáveis. Com amostras maiores, mesmo pequenos desvios da distribuição esperada podem produzir resultados estatisticamente significativos. No entanto, tamanhos de amostra muito grandes às vezes podem levar a resultados significativos, mesmo para desvios triviais da distribuição esperada, portanto, é essencial considerar também a significância prática.

  3. Estimativa de parâmetro: Em alguns casos, as contagens esperadas para cada categoria não são conhecidas com precisão, mas são estimadas a partir dos dados. Ao estimar parâmetros dos mesmos dados usados para testar hipóteses, isso pode levar a resultados tendenciosos. Em tais situações, ajustes ou métodos alternativos devem ser considerados.

  4. Variáveis categóricas com vários níveis: O teste qui-quadrado de qualidade do ajuste que discutimos até agora é apropriado ao testar o ajuste de uma única variável categórica a uma distribuição especificada. No entanto, se você tiver várias variáveis categóricas e quiser examinar sua distribuição conjunta, outros testes, como o teste qui-quadrado de independência ou modelos log-lineares, podem ser mais adequados.

Vale a pena notar que o teste de ajuste qui-quadrado é uma ferramenta útil para examinar se os dados observados seguem uma distribuição esperada. No entanto, não fornece informações sobre as razões por trás de quaisquer discrepâncias ou identifica quais categorias específicas contribuem mais para as diferenças.

Como em qualquer teste estatístico, a interpretação dos resultados deve considerar o contexto, o conhecimento prévio e os objetivos específicos da análise. É crucial entender as limitações e suposições do teste e usá-lo como parte de uma análise abrangente, em vez de confiar apenas em seu resultado.

Em resumo, o teste de ajuste qui-quadrado é um método valioso para avaliar o ajuste entre dados observados e uma distribuição esperada para variáveis categóricas. Comparando as contagens observadas e esperadas, calculando a estatística de teste e determinando o valor-p, podemos avaliar a compatibilidade dos dados com a hipótese nula. No entanto, é importante considerar as suposições, tamanho da amostra e outros fatores para garantir a validade e relevância do teste em um determinado contexto.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...
Razão: