Tutoriais de programação - página 12

 

Descrevendo Dados Qualitativamente


Descrevendo Dados Qualitativamente

Olá a todos, hoje vamos discutir a descrição qualitativa de formas de conjuntos de dados, com foco na construção de vocabulário para comunicar efetivamente nossas observações. Exploraremos várias representações gráficas, como histogramas, polígonos de frequência e diagramas de haste, e discutiremos suas características. Vamos mergulhar em alguns exemplos:

Primeiro, vamos examinar um histograma. Nesse caso, o gráfico apresenta uma forma simétrica, com a metade esquerda se assemelhando à metade direita. Embora dados reais raramente exibam simetria perfeita, nos concentramos em descrever a forma geral em vez de apontar valores específicos. Outro tipo de distribuição simétrica é um gráfico uniforme, em que os valores dos dados são distribuídos uniformemente pelas caixas. Isso resulta em uma forma plana horizontalmente, indicando probabilidade igual de valores caindo em cada categoria.

Agora, vamos explorar conjuntos de dados que não são simétricos. Em vez de histogramas, vamos considerar gráficos de haste para variar. Neste exemplo de diagrama de haste, podemos observar uma forma assimétrica. É evidente que a distribuição não é a mesma em ambos os lados do centro, que fica em torno de 92. Além disso, podemos discernir a direção da assimetria. Nesse caso, há uma cauda mais longa em direção aos números mais altos, afastada do centro. Isso indica uma distribuição assimétrica à direita.

Por outro lado, aqui está um gráfico de haste que é assimétrico à esquerda. Notamos uma cauda mais longa no lado dos valores menores, enquanto os dados estão mais concentrados em relação aos valores maiores. É importante descrever com precisão a direção da assimetria para fornecer uma compreensão abrangente do conjunto de dados.

Por fim, vamos considerar um conjunto de dados que inicialmente pode parecer assimétrico à direita devido a um único grande valor discrepante em torno de 160 ou 170. No entanto, se desconsiderarmos esse valor discrepante, a distribuição exibirá uma forma bastante simétrica, possivelmente semelhante a uma curva de sino. É crucial identificar outliers, pois podem representar erros, casos excepcionais ou fenômenos que requerem análise separada. Ao descrever a forma geral dos dados, os outliers devem ser reconhecidos, mas não fortemente considerados.

Ao desenvolver um vocabulário para descrever as formas do conjunto de dados, podemos comunicar com eficácia as principais características e padrões observados nos dados. Compreender a forma de um conjunto de dados ajuda na interpretação de suas propriedades e nos permite extrair insights significativos.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Noções básicas sobre média, mediana e moda


Noções básicas sobre média, mediana e moda

Olá a todos, hoje vamos discutir os conceitos de média, mediana e moda, focando em suas interpretações como medidas de tendência central. Cada medida tem sua própria utilidade e entendê-las é crucial. Vamos passar rapidamente por suas definições.

A média representa a média numérica de um conjunto de dados. É calculado somando todos os valores no conjunto e dividindo o total pelo número de valores. A média é comumente denotada por X-bar ou X com uma linha sobre ela, especialmente ao lidar com amostras.

A mediana é o valor que divide os dados exatamente pela metade. Para encontrar a mediana, organize os dados do menor para o maior. Se houver um número ímpar de valores, a mediana é o valor do meio. Para um número par de valores, tire a média dos dois valores do meio para encontrar a mediana. A mediana é muitas vezes denotada por um M maiúsculo.

A moda é simplesmente o valor mais comum no conjunto de dados. Uma distribuição pode ter múltiplas modas se dois ou mais valores tiverem a mesma frequência, mas se todos os dados tiverem a mesma frequência, dizemos que a distribuição não tem moda.

Vamos considerar um exemplo. Suponha que temos um conjunto de dados com 16 valores. A média é calculada somando todos os valores e dividindo por 16. Nesse caso, a média é 67,9375. A mediana, como temos um número par de valores, é encontrada pela média dos dois valores do meio, resultando em 65,5. A moda, o valor mais comum, é 65.

Cada medida de tendência central também tem uma interpretação gráfica. Em um histograma, a moda é o ponto mais alto do histograma, representando o valor mais frequente. A mediana é o valor que divide o histograma ao meio, dividindo a área igualmente. A média é o valor que permitiria o balanceamento do histograma.

Considere o exemplo de um histograma. A moda pode ser determinada identificando o valor x onde o histograma é mais alto, que é ligeiramente maior que 3 neste caso. A mediana é o valor que divide a área do histograma ao meio, que fica em torno de 4,5. A média é o valor que equilibraria o histograma, ligeiramente inferior a 5.

Por que precisamos de três medidas de tendência central? Cada medida tem suas vantagens e desvantagens. A média é comumente usada na análise estatística e é intuitiva. No entanto, é altamente influenciado por outliers e pode não ser adequado para distribuições distorcidas.

A mediana é simples de calcular e entender e não é sensível a valores discrepantes. No entanto, não utiliza todas as informações do conjunto de dados e pode apresentar desafios na inferência estatística.

A moda é uma medida universal de tendência central, mesmo para variáveis categóricas. No entanto, o valor mais comum não representa necessariamente o meio da distribuição, tornando-o menos confiável como medida de centro.

Considere um pequeno conjunto de dados de pontuações de exames, incluindo um valor discrepante. Nesse caso, a média de 79 não descreve com precisão o desempenho do aluno típico. A mediana de 94 é uma medida mais descritiva. A remoção do outlier revela a diferença com mais clareza, pois a média muda significativamente enquanto a mediana permanece inalterada.

Compreender as distinções entre média, mediana e moda nos permite interpretar e comunicar com eficácia as tendências centrais de um conjunto de dados, considerando seus pontos fortes e limitações em diferentes cenários.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

Percentis e Quantis em R


Percentis e Quantis em R

Hoje estaremos discutindo percentis e quantis em R. Vamos começar revisando seus significados.

Os percentis são uma forma de medir a posição relativa de um valor dentro de um conjunto de dados. Em geral, o p-ésimo percentil de um conjunto de dados é um valor maior que p por cento dos dados. Por exemplo, o percentil 50 é a mediana, o percentil 25 é o primeiro quartil e o percentil 75 é o terceiro quartil. Ele representa o valor que está acima de 75 por cento dos dados.

Existem diferentes métodos para calcular percentis e não há uma abordagem universalmente aceita. No entanto, a boa notícia é que todos os métodos produzem resultados muito semelhantes. Para computar percentis, é melhor contar com tecnologias como o R, que oferece cálculos eficientes e precisos.

Os quantis, por outro lado, são essencialmente iguais aos percentis. No entanto, o termo "quantis" é frequentemente usado para se referir a valores decimais, enquanto "percentis" são associados a valores inteiros. Por exemplo, você pode ter o percentil 15, mas o quantil 0,15. A vantagem dos quantis é que eles permitem maior precisão expressando valores com quantas casas decimais forem necessárias.

Agora, vamos mudar para R e explorar como calcular percentis e quantis usando o conjunto de dados "fiel", que contém informações sobre a duração da erupção e o tempo de espera do gêiser Old Faithful nos Estados Unidos, medido em minutos.

Para calcular percentis e quantis em R, podemos usar a função "quantil". Requer dois argumentos. Primeiro, especificamos a variável em que estamos interessados, que neste caso é "fiel$esperando". Em seguida, indicamos o quantil desejado, escrito na forma decimal. Por exemplo, para calcular o 35º percentil (0,35 quantil), escrevemos 0,35 como o argumento do quantil. Ao executar o comando, obtemos o resultado, como 65 neste caso. Isso implica que aproximadamente 35% de todas as erupções têm um tempo de espera menor ou igual a 65.

Em R, é possível calcular vários quantis simultaneamente fornecendo um vetor de quantis. Por exemplo, usando a função "c()", podemos especificar os quantis 0,35, 0,70 e 0,95. O resultado será um vetor contendo os respectivos quantis: 65, 81 e 89.

Outro comando útil é "summary", que fornece um resumo da variável. Ao passar a variável "fiel$waiting" ao comando, obtemos o primeiro quartil (25º percentil), mediana (50º percentil), terceiro quartil (75º percentil), bem como os valores mínimo, máximo e médio.

Agora, vamos abordar a questão oposta. Se tivermos um valor dentro do conjunto de dados e quisermos determinar seu percentil, podemos usar o comando "ecdf". Ao especificar a variável de interesse, como "fiel$esperando" e fornecer um valor específico do conjunto de dados, como 79, o comando retornará o percentil desse valor. Neste exemplo, o resultado é 0,6617647, indicando que um tempo de espera de 79 corresponde aproximadamente ao percentil 66.

Entender percentis e quantis nos permite avaliar a posição relativa dos valores em um conjunto de dados, fornecendo informações valiosas sobre a distribuição e as características dos dados.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Variação da Amostra e Desvio Padrão


Variação da Amostra e Desvio Padrão

Olá a todos, hoje vamos nos aprofundar no conceito de variância amostral e desvio padrão. Essas duas medidas nos ajudam a entender a extensão da variabilidade ou dispersão em um conjunto de dados. Eles fornecem informações sobre até que ponto os valores no conjunto de dados se desviam da média, em média.

Vamos dar uma olhada nas fórmulas. Nas fórmulas, "n" representa o tamanho total da amostra, "X_i" denota os valores no conjunto de dados (por exemplo, X_1, X_2, X_3 e assim por diante) e "X bar" (X com uma linha sobre ele) representa a média amostral. Embora normalmente usemos tecnologias como R para calcular essas medidas, é crucial entender os conceitos subjacentes, especialmente porque não realizamos mais esses cálculos manualmente.

O componente-chave em ambas as medidas é o termo "X_i menos barra X", que representa o desvio de cada valor (X_i) da média da amostra. Em outras palavras, quantifica o quanto cada valor difere, positiva ou negativamente, da média. Idealmente, queremos determinar a média desses desvios, mas tirar uma média simples resultaria em zero, pois os desvios positivos e negativos se anulam. Para resolver isso, elevamos ao quadrado cada desvio (X_i menos barra X) antes de calcular a média. Isso resulta na fórmula da variância da amostra, que representa a média dos desvios quadrados da média.

No entanto, você deve ter notado que dividimos por (n-1) em vez de n na fórmula de variância. Existem várias razões para isso, mas aqui está uma simples: ao calcular a média da amostra (barra X), precisamos apenas (n-1) dos valores X_i. Isso ocorre porque a barra X é calculada como a soma de todos os X_i divididos por n. Assim, podemos resolver qualquer valor de X_i assim que tivermos a barra X. A divisão por (n-1) considera isso e garante que calculamos a média de (n-1) desvios distintos, não todos n deles. Dessa forma, obtemos a variância amostral como uma medida significativa de variabilidade.

Outra questão é que a variância não está na mesma escala dos dados originais, tornando-a abstrata. Para resolver isso, extraímos a raiz quadrada da variância da amostra, resultando na fórmula para o desvio padrão da amostra. Embora o desvio padrão exija mais computação e possa ser teoricamente desafiador, é mais fácil de interpretar e visualizar do que a variação. Tanto a variância quanto o desvio padrão têm seus usos em diferentes contextos.

Vamos considerar um exemplo com um conjunto de dados de apenas quatro valores. Para calcular a variância amostral e o desvio padrão, primeiro calculamos a média amostral somando os quatro valores e dividindo por quatro, obtendo uma média de 121. Usando a fórmula da variância, elevamos ao quadrado os desvios (X_i menos X barra) para cada valor e faça a média dos desvios ao quadrado, dividindo por três (um a menos que o número de valores). Isso gera uma variação de 220. No entanto, esse valor carece de interpretabilidade imediata. Para resolver isso, extraímos a raiz quadrada da variância, resultando em um desvio padrão de 14,8. Esse valor faz mais sentido como uma medida de dispersão no conjunto de dados.

Em termos de tecnologia, podemos usar comandos como "var" e "sd" no R para calcular a variância e o desvio padrão, respectivamente. É altamente recomendável aproveitar a tecnologia para esses cálculos, pois economiza tempo e fornece resultados precisos. Calcular variância e desvio padrão manualmente não é mais necessário na maioria dos casos.

Além disso, é importante observar que, na maioria dos casos, cerca de dois terços dos valores dos dados cairão dentro de um desvio padrão da média. Para uma distribuição em forma de sino (distribuição normal), aproximadamente 68% dos dados estão dentro de um desvio padrão, cerca de 95% estão dentro de dois desvios padrão e quase todos (99,7%) estão dentro de três desvios padrão da média. Isso é conhecido como regra empírica ou regra 68-95-99,7.

Para ilustrar isso, vamos considerar um conjunto de dados de 200 valores escolhidos aleatoriamente entre inteiros entre 0 e 100. A média desse conjunto de dados é 49,9 e o desvio padrão é 27,3. Aplicando a regra empírica, se formos um desvio padrão acima e abaixo da média, capturaríamos 68% dos valores, o que equivale a 136 valores. Se a distribuição seguir a forma de um sino (distribuição normal), podemos fazer estimativas ainda mais precisas. Nesse caso, aproximadamente 95% dos valores (190 de 200) cairiam dentro de dois desvios padrão da média e quase todos os valores (199 de 200) ficariam dentro de três desvios padrão da média.

Vamos concluir com mais um exemplo usando a regra empírica. Suponha que tenhamos pontuações de um teste padronizado que seguem aproximadamente uma distribuição em forma de sino. A pontuação média é 1060 e o desvio padrão é 195. Aplicando a regra empírica, podemos estimar que cerca de 68% das pontuações cairiam entre 865 e 1255 (um desvio padrão abaixo e acima da média). Aproximadamente 95% das pontuações estariam entre 670 e 1450 (dois desvios padrão abaixo e acima da média). Finalmente, cerca de 99,7% das pontuações estariam entre 475 e 1645 (três desvios padrão abaixo e acima da média).

Entender a variância e o desvio padrão nos ajuda a entender a dispersão e a variabilidade dentro de um conjunto de dados. Embora a tecnologia facilite sua computação, é crucial compreender os conceitos subjacentes para interpretar e analisar os dados de maneira eficaz. Ao utilizar essas medidas, podemos obter informações valiosas e tomar decisões informadas com base nas características dos dados.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Z-Scores


Z-Scores

Olá a todos, na discussão de hoje, vamos explorar os escores z, também conhecidos como escores padrão. Este método nos permite medir a posição relativa dos valores dentro de um conjunto de dados.

Um escore z representa o número de desvios padrão pelos quais um valor se desvia da média. Por exemplo, se tivermos um conjunto de dados com média de 50 e desvio padrão de 8, um valor de 62 teria um escore z de 1,5. Isso significa que o valor de 62 é 1,5 desvio padrão acima da média.

Os escores Z são particularmente úteis para avaliar posições relativas em conjuntos de dados com distribuições simétricas, especialmente aqueles que seguem uma distribuição normal ou em forma de sino. No entanto, ao lidar com dados distorcidos ou conjuntos de dados contendo outliers, a média e o desvio padrão podem não representar com precisão o centro e a dispersão dos dados. Consequentemente, a utilidade dos escores z diminui nesses casos.

A fórmula para calcular uma pontuação z é: z = (x - μ) / σ, onde x é o valor no conjunto de dados, μ é a média e σ é o desvio padrão. A média às vezes é representada pela barra x e o desvio padrão por s, mas a fórmula permanece a mesma.

As pontuações Z são particularmente valiosas ao comparar as posições relativas de valores em diferentes conjuntos de dados. Vamos considerar um exemplo para ilustrar isso. A altura média dos homens adultos nos Estados Unidos é de 69,4 polegadas, com um desvio padrão de 3,0 polegadas. Por outro lado, a altura média das mulheres adultas nos Estados Unidos é de 64,2 polegadas, com um desvio padrão de 2,7 polegadas. Agora, podemos comparar a relativa raridade de um homem de 64,2 polegadas de altura e uma mulher de 69,4 polegadas de altura.

Para calcular o escore z para o homem, usamos a fórmula (64,2 - 69,4) / 3,0. O escore z resultante é -1,73, indicando que a altura do homem é 1,73 desvio padrão abaixo da altura média dos homens. Para a mulher, o z-score é (69,4 - 64,2) / 2,7, resultando em um z-score de 1,93. Isso significa que a altura da mulher é 1,93 desvio padrão acima da altura média das mulheres. Comparando os valores absolutos dos dois escores z, podemos concluir que a altura da mulher é mais incomum em relação à altura média das mulheres.

É importante observar que os escores z sozinhos não fornecem uma distinção definitiva entre valores "comuns" e "incomuns". Uma convenção comum é considerar valores a mais de dois desvios padrão da média como incomuns e valores a mais de três desvios padrão como muito incomuns. No entanto, esta é apenas uma regra prática e a decisão depende, em última análise, do contexto e da distribuição específica dos dados.

Para demonstrar isso, vamos considerar o caso de um homem de 76 polegadas de altura. Usando a mesma fórmula e a média e desvio padrão fornecidos para homens, calculamos um escore z de 2,2. Como esse valor é maior que 2 em valor absoluto, consideraríamos a altura do homem incomum de acordo com a convenção.

A regra empírica fornece uma diretriz ao lidar com distribuições aproximadamente em forma de sino. Cerca de 68% dos valores caem dentro de um desvio padrão da média (escores z entre -1 e 1), aproximadamente 95% caem dentro de dois desvios padrão (escores z entre -2 e 2) e cerca de 99,7% caem dentro de três desvios padrão (z-scores entre -3 e 3).

Em conclusão, os escores z oferecem uma maneira útil de avaliar a posição relativa dos valores dentro de um conjunto de dados. Eles são particularmente valiosos para comparar valores em diferentes conjuntos de dados e determinar a raridade ou incomum de um valor específico. No entanto, é essencial considerar a forma da distribuição, os valores discrepantes e o contexto dos dados ao interpretar os escores z.

Vamos concluir com um breve exemplo. Suponha que tenhamos um conjunto de dados de altura de mulheres adultas nos Estados Unidos, que segue aproximadamente uma distribuição em forma de sino. A altura média é de 64,2 polegadas, com um desvio padrão de 2,7 polegadas.

Usando a regra empírica, podemos estimar as faixas de altura dentro das quais uma certa porcentagem de mulheres se enquadra. Dentro de um desvio padrão da média, aproximadamente 68% das alturas das mulheres serão encontradas. Subtraindo 2,7 de 64,2, obtemos 61,5 polegadas e, adicionando 2,7, obtemos 66,9 polegadas. Assim, podemos estimar que cerca de 68% das alturas das mulheres cairão entre 61,5 e 66,9 polegadas.

Expandindo para dois desvios padrão, descobrimos que aproximadamente 95% das alturas das mulheres estão dentro dessa faixa. Subtraindo 2,7 duas vezes da média, obtemos 58,8 polegadas e adicionando 2,7 duas vezes nos dá 69,6 polegadas. Portanto, pode-se esperar que cerca de 95% das alturas das mulheres caiam entre 58,8 e 69,6 polegadas.

Finalmente, dentro de três desvios padrão, que cobrem aproximadamente 99,7% dos dados, subtraímos 2,7 três vezes da média para obter 56,1 polegadas e adicionamos 2,7 três vezes para obter 71,7 polegadas. Portanto, podemos estimar que cerca de 99,7% das alturas das mulheres cairão entre 56,1 e 71,7 polegadas.

Compreender os escores z e sua interpretação nos permite avaliar a posição relativa e a raridade dos valores dentro de um conjunto de dados, fornecendo informações valiosas em vários campos, como estatística, pesquisa e análise de dados.

Lembre-se de que os escores z fornecem uma medida padronizada de posição relativa, considerando a média e o desvio padrão do conjunto de dados. Eles são uma ferramenta poderosa para entender a distribuição e comparar valores em diferentes conjuntos de dados.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

O resumo de cinco números e o teste de 1,5 x IQR para outliers


O resumo de cinco números e o teste de 1,5 x IQR para outliers

Olá pessoal! Hoje, vamos nos aprofundar nos conceitos do resumo de cinco números e no teste IQR de 1,5 vezes para outliers. Vamos começar definindo os quartis de um conjunto de dados. Quartis são valores que dividem um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) situa-se acima de aproximadamente 25% dos dados, o segundo quartil (Q2) situa-se acima de cerca de metade dos dados (também conhecido como mediana) e o terceiro quartil (Q3) situa-se acima de aproximadamente 75% dos dados. dados.

É importante observar que a divisão em quatro partes iguais pode não ser exata se o conjunto de dados não for dividido uniformemente. O primeiro e terceiro quartis podem ser encontrados determinando primeiro a mediana. Para encontrar Q1 e Q3, dividimos o conjunto de dados em uma metade superior e uma metade inferior e calculamos as medianas dessas duas metades. A mediana da metade superior é Q3, enquanto a mediana da metade inferior é Q1.

Vamos trabalhar com um exemplo para ilustrar isso. Considere o seguinte conjunto de dados com 17 valores, listados do menor para o maior. A mediana, ou Q2, será o valor do meio, que neste caso é o nono valor (já que 17 é um número ímpar de valores). Portanto, a mediana é 42. Para encontrar Q1, consideramos os oito valores menores que a mediana. Classificando-os, encontramos 16, 18, 20 e 22. Como este é um número par de valores, tomamos a média dos dois valores do meio, o que nos dá 18. Da mesma forma, para Q3, consideramos os oito valores maiores que a mediana, que são 45, 48, 50 e 55. Novamente, tomando a média dos dois valores do meio, obtemos Q3 como 52.

Portanto, para este exemplo, os quartis são Q1 = 18, Q2 = 42 e Q3 = 52. O resumo de cinco números de um conjunto de dados consiste nesses quartis juntamente com os valores mínimo e máximo no conjunto de dados. No nosso caso, o resumo de cinco números é 5, 18, 42, 52 e 93, onde 5 representa o valor mínimo e 93 representa o máximo.

Outra medida útil é o intervalo interquartil (IQR), que quantifica a dispersão da metade intermediária dos dados. É calculado como a diferença entre Q3 e Q1. Em nosso exemplo, o IQR é 52 - 18 = 34. O IQR se concentra na faixa de valores dentro dos 50% intermediários do conjunto de dados e é menos afetado por valores extremos.

Agora, vamos considerar outro exemplo. Suponha que temos as notas dos exames de 22 alunos listadas abaixo. Queremos descrever a distribuição de pontuações usando o resumo de cinco números e o IQR. Primeiro, devemos ser cautelosos ao usar a média como medida do centro, pois ela pode ser influenciada por valores extremos. Nesse caso, a média é 75,3, mas como alguns alunos pontuaram excepcionalmente baixo, a média pode não representar com precisão o desempenho típico do aluno. Da mesma forma, o intervalo, que é a diferença entre os valores mínimo e máximo (2 e 100, respectivamente), pode ser enganoso devido aos valores extremos.

Para obter uma descrição mais precisa, calculamos o resumo de cinco números. Classificando as pontuações, encontramos o valor mínimo como 2 e o valor máximo como 100. A mediana (Q2) é o valor no meio, que neste caso é 80. A metade inferior do conjunto de dados consiste nos oito valores menores que a mediana, com 76 e 83 como os dois valores intermediários. Tomando sua média, encontramos Q1 como 79. Da mesma forma, para a metade superior do conjunto de dados, temos a mediana como 83, resultando em Q3 como 83.

Portanto, o resumo de cinco números para este conjunto de dados é 2, 79, 80, 83 e 100. A partir desse resumo, observamos que a metade intermediária das pontuações está entre 79 e 83, indicando que as pontuações estão compactadas em torno do mediana.

Para identificar outliers no conjunto de dados, podemos empregar o teste IQR de 1,5 vezes. O IQR, conforme calculado anteriormente, é 83 - 79 = 4. Multiplicar o IQR por 1,5 nos dá 6. Subtraímos 6 de Q1 e adicionamos 6 a Q3 para estabelecer o intervalo dentro do qual os valores não são considerados discrepantes. Nesse caso, qualquer valor abaixo de 73 ou acima de 89 deve ser tratado como um outlier de acordo com esta regra.

Aplicando este teste ao conjunto de dados, descobrimos que 2 e 100 devem ser considerados outliers. Como professor, é aconselhável desconsiderar essas notas extremas ou dar-lhes menos peso na determinação da curva do exame.

Ao utilizar o resumo de cinco números, IQR e o teste IQR de 1,5 vezes, obtemos uma melhor compreensão da distribuição de pontuações e podemos identificar possíveis discrepâncias que podem afetar a análise geral.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

Boxplots


Boxplots

Hoje, discutiremos gráficos de caixa, também conhecidos como gráficos de caixa e bigode. Um gráfico de caixa é uma representação gráfica de um conjunto de dados de variável única com base no resumo de cinco números. Vamos mergulhar direto em um exemplo para entendê-los melhor.

Suponha que temos um conjunto de dados para o qual queremos construir um resumo de cinco números e um box plot. O conjunto de dados é o seguinte: 34, 42, 48, 51,5 e 58. Primeiro, organizamos os números em ordem crescente para encontrar os valores mínimo (34) e máximo (58). Como existe um número ímpar de valores, a mediana é o valor do meio, que neste caso é 48.

Em seguida, dividimos o conjunto de dados em duas metades: a metade inferior e a metade superior. A mediana da metade inferior é 42, e a mediana da metade superior é 51,5. Esses valores são conhecidos como primeiro quartil (Q1) e terceiro quartil (Q3), respectivamente.

Usando o resumo de cinco números, podemos construir o box plot. O box plot consiste em uma caixa que representa o intervalo entre Q1 e Q3. A parte inferior da caixa corresponde a Q1, a parte superior da caixa corresponde a Q3 e a linha horizontal dentro da caixa representa a mediana. Os "braços" do gráfico de caixa se estendem da caixa aos valores mínimo e máximo (34 e 58, respectivamente).

O objetivo do box plot é visualizar a distribuição dos dados. A caixa representa os 50% do meio do conjunto de dados, enquanto os braços abrangem os valores restantes. No exemplo fornecido, como não há valores extremos, não há outliers exibidos no box plot.

Vamos considerar outro exemplo em que queremos determinar o resumo de cinco números, testar valores discrepantes usando o teste IQR de 1,5 vezes e construir um gráfico de caixa. O conjunto de dados é o seguinte: 62, 64, 75, 81,5 e 110.

Calculando o intervalo interquartil (IQR) subtraindo Q1 de Q3, descobrimos que é 17,5. Para realizar o teste de IQR 1,5 vezes, multiplicamos o IQR por 1,5. Subtraindo 1,5 vezes o IQR de Q1 (64 - 1,5 * 17,5), obtemos 37,5. Adicionando 1,5 vezes o IQR ao Q3 (81,5 + 1,5 * 17,5), obtemos 107,75. Qualquer valor abaixo de 37,5 ou acima de 107,75 deve ser considerado um outlier.

Nesse caso, o valor 110 excede o limite superior e é classificado como outlier. Construindo o box plot, desenhamos os braços do box plot apenas até os valores mais extremos que não são outliers. O valor atípico de 110 é indicado por um ponto separado e o braço superior se estende apenas até 90, o que representa o valor mais alto dentro da faixa não atípica.

Os gráficos de caixa são particularmente úteis ao comparar dados entre grupos, como plotar uma variável categórica e uma variável quantitativa. Esse tipo de gráfico, geralmente chamado de gráfico de caixa lado a lado, fornece uma comparação visual clara de diferentes grupos. Como exemplo, podemos considerar o famoso conjunto de dados iris, onde comparamos as larguras das pétalas de três espécies: setosa, versicolor e virginica. Ao examinar o box plot, podemos observar que a espécie setosa geralmente possui pétalas mais estreitas em comparação com as outras duas espécies. Além disso, podemos discernir as diferenças na distribuição entre as larguras das pétalas dentro de cada grupo.

Em resumo, os diagramas de caixa fornecem uma visualização concisa do resumo de cinco números e permitem uma comparação fácil entre diferentes grupos. Eles exibem os valores mínimo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e máximo de um conjunto de dados. A caixa representa 50% do meio dos dados, com a parte inferior da caixa em Q1 e a parte superior em Q3. A linha dentro da caixa representa a mediana.

Os gráficos de caixa também têm a capacidade de exibir outliers, que são valores que ficam fora do intervalo determinado pelo teste IQR de 1,5 vezes. Para determinar outliers, calculamos o IQR (Q3 - Q1) e o multiplicamos por 1,5. Em seguida, subtraímos 1,5 vezes o IQR de Q1 e adicionamos 1,5 vezes o IQR a Q3. Quaisquer valores abaixo do limite inferior ou acima do limite superior são considerados outliers.

Ao construir um gráfico de caixa com outliers, os braços do gráfico se estendem apenas até os valores mais extremos que não são outliers. Outliers são representados como pontos individuais fora dos braços do box plot. Isso garante que o box plot represente com precisão a distribuição dos dados não discrepantes e evite interpretações enganosas.

Os gráficos de caixa são particularmente úteis ao comparar dados entre diferentes grupos ou categorias. Ao traçar vários box plots lado a lado, fica mais fácil comparar as distribuições e entender as diferenças nas variáveis que estão sendo analisadas.

Por exemplo, usando o conjunto de dados da íris, podemos criar um box plot lado a lado para comparar as larguras das pétalas das espécies setosa, versicolor e virginica. Isso nos permite observar visualmente as diferenças na largura das pétalas entre as espécies e a distribuição de valores dentro de cada grupo.

Em resumo, os diagramas de caixa fornecem um resumo visual do resumo de cinco números, tornando mais fácil entender a distribuição de dados e comparar diferentes grupos. Eles fornecem informações sobre a tendência central, dispersão e presença de outliers em um conjunto de dados, tornando-os uma ferramenta valiosa para análise e visualização de dados.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

Boxplots em R


Boxplots em R

Olá pessoal! Hoje, vamos aprender como criar lindos box plots em R usando o comando qplot. Existem várias maneiras de criar diagramas de caixa em R, mas as mais atraentes visualmente geralmente vêm do pacote ggplot2, que faz parte da família de pacotes do aimverse. Então, vamos mergulhar nisso!

Se você nunca usou essas funções antes, você precisará instalar o pacote aimverse em sua máquina usando o comando install.packages. Este passo é rápido se você ainda não o fez. Depois de instalado, você precisa carregar o pacote na memória usando o comando library(tidyverse) no início de cada sessão para acessar suas funções.

Neste tutorial, focaremos no uso do comando qplot do pacote ggplot2. Agora, vamos começar com dois exemplos de criação de box plots.

Primeiro, vamos inserir manualmente alguns dados. Criaremos um vetor chamado "pontuações" com um comprimento de 21, que pode representar as pontuações dos alunos em um exame de matemática em uma classe de tamanho 21.

Para criar um gráfico de caixa das pontuações, usamos o comando qplot. A sintaxe básica permanece a mesma: especifique as variáveis para os eixos x e y e use o argumento geom para indicar que queremos um box plot. Nesse caso, plotaremos as pontuações no eixo x.

Para tornar nosso gráfico de caixa mais atraente visualmente, podemos fazer algumas melhorias. Em primeiro lugar, podemos remover os números sem sentido no eixo y usando y = "". Em seguida, se quisermos um gráfico de caixa vertical, podemos alternar os eixos usando y para as pontuações e removendo o rótulo do eixo x. Também podemos adicionar cor às linhas e ao interior da caixa usando os argumentos color e fill, respectivamente. Por fim, podemos personalizar os rótulos e adicionar um título ao gráfico usando ylab e argumentos principais.

Agora, vamos passar para o segundo exemplo usando um conjunto de dados embutido chamado chickweights. Este conjunto de dados contém 71 observações com duas variáveis: pesos de diferentes pintinhos e as rações que receberam. Criaremos um box plot lado a lado para comparar as distribuições de peso dos pintinhos em diferentes tipos de ração.

Semelhante ao exemplo anterior, usamos o comando qplot e especificamos o conjunto de dados usando data = chickweights. Em seguida, indicamos que queremos um gráfico de caixa vertical com os pesos no eixo y e os feeds no eixo x. Para diferenciar os box plots por tipo de feed, podemos usar o argumento de preenchimento e mapeá-lo para a variável de feed.

Mais uma vez, há muitas outras opções disponíveis para personalização, incluindo estilos de fonte, tamanhos de etiquetas e tamanhos de ponto. Você pode explorar mais pesquisando online.

Com apenas algumas modificações, podemos criar box plots com aparência profissional em R. Esses exemplos demonstram o poder e a flexibilidade do pacote ggplot2 para visualização de dados.

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
 

Experimentos de Probabilidade, Resultados, Eventos e Espaços de Amostras


Experimentos de Probabilidade, Resultados, Eventos e Espaços de Amostras

Olá pessoal! Hoje, estaremos nos aprofundando nos fundamentos da probabilidade. Exploraremos tópicos como espaços de amostra, resultados, eventos e muito mais. Um experimento de probabilidade, também conhecido como experimento aleatório, é uma tentativa em que o resultado não pode ser previsto com certeza. No entanto, tentativas repetidas podem revelar certas tendências. Vamos dar uma olhada em alguns exemplos.

  1. Jogue uma moeda e anote se ela cair em cara ou coroa.
  2. Use um discador aleatório para contatar 10 eleitores e perguntar em quem eles pretendem votar.
  3. Jogue dois dados e anote a soma dos números.
  4. Jogue dois dados e conte o número de vezes que um seis aparece.

Observe que nos dois últimos exemplos, embora a ação seja a mesma (jogar dois dados), os dados registrados são ligeiramente diferentes. Portanto, nós os consideramos como experimentos de probabilidade separados. Agora, vamos discutir um pouco de vocabulário.

O resultado de uma tentativa específica em um experimento de probabilidade é chamado de resultado. A coleção de todos os resultados possíveis em um experimento de probabilidade é chamada de espaço amostral (indicado por S maiúsculo). Um subconjunto do espaço amostral é chamado de evento.

Para ilustrar isso, vamos considerar um exemplo. Suponha que joguemos duas moedas e registremos os resultados. O espaço amostral consiste em quatro resultados: cara-cara, cara-coroa, coroa-cara e coroa-coroa. Se definirmos o evento E como "ambos os lançamentos são iguais", então teremos dois resultados dentro desse evento: cara-cara e coroa-coroa. Este evento é um subconjunto do espaço amostral.

Geralmente, um evento representa algo que pode ocorrer durante um experimento de probabilidade, mas pode haver várias maneiras de isso acontecer. No exemplo anterior, o evento "ambos os flips são iguais" pode ocorrer de duas maneiras diferentes.

Se um evento só pode acontecer de uma maneira, ou seja, consiste em um único resultado, chamamos de evento simples. O complemento de um evento E, denotado como E' ou às vezes com uma barra sobre E, é o conjunto de todos os resultados no espaço amostral que não estão em E. Quando E ocorre, E' não ocorre e vice-versa.

Por exemplo, suponha que selecionamos aleatoriamente um número inteiro de 1 a 9 usando um controle giratório. Seja E o evento "o resultado é um número primo". O espaço amostral são os inteiros de 1 a 9, e E é o conjunto dos números primos menores que 10: {2, 3, 5, 7}. O complemento de E (E') é o evento em que E não ocorre, que consiste nos números menores que 10 que não são primos: {1, 4, 6, 8, 9}.

Dois eventos são disjuntos se não tiverem resultados em comum, o que significa que ambos não podem ocorrer simultaneamente em uma tentativa do experimento de probabilidade. Por exemplo, considere lançar quatro moedas e registrar os resultados. Seja E o evento "as duas primeiras jogadas são caras" e seja F o evento "há pelo menos três coroas". Esses dois eventos podem ser representados da seguinte forma:

E: {HHHH, HHHH...} F: {TTTTT, TTTTH, TTTHT, TTTTH...}

Observe que não há resultados compartilhados entre os conjuntos E e F. Portanto, esses eventos são disjuntos.

Existem diferentes maneiras de descrever a probabilidade de um evento, e duas abordagens comuns são a probabilidade empírica (ou probabilidade estatística) e a probabilidade clássica (ou probabilidade teórica).

A probabilidade empírica é baseada na observação. Executamos um experimento de probabilidade várias vezes, contamos quantas vezes o evento ocorre e dividimos pelo número total de tentativas. Corresponde à proporção de vezes que o evento ocorreu no passado. Por exemplo, se jogarmos uma moeda 100 vezes e ela der cara 53 vezes, a probabilidade empírica de a moeda dar cara é 53/100 ou 53%.

A probabilidade clássica, por outro lado, aplica-se quando todos os resultados em um espaço amostral são igualmente prováveis. Contamos o número de resultados no evento e o dividimos pelo número total de resultados no espaço amostral. Matematicamente, é expresso como a cardinalidade (número de elementos) do evento E dividido pela cardinalidade do espaço amostral S. Por exemplo, se lançarmos um dado justo, haverá seis resultados igualmente prováveis e, se estivermos interessados em o evento simples E de obter um cinco, a probabilidade clássica é 1/6.

Vamos considerar outro exemplo. Se jogarmos uma moeda honesta três vezes, haverá oito resultados igualmente prováveis: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Seja E o evento de obter exatamente duas caras. Dentro do espaço amostral, existem três resultados (HHH, HHT e HTH) no evento E. Portanto, a probabilidade clássica do evento E é 3/8.

Agora, vamos explorar uma questão de probabilidade usando a distribuição de frequência de uma aula introdutória de estatística em uma grande universidade. A distribuição mostra o número de alunos em cada nível de classe: 67 calouros, 72 alunos do segundo ano e assim por diante. Se selecionarmos aleatoriamente uma pessoa dessa classe, qual é a probabilidade de que ela esteja no segundo ano? Esta é uma questão de probabilidade clássica.

Na distribuição de frequência fornecida, há 222 resultados totais (alunos da turma) e, desses, 72 resultados correspondem a alunos do segundo ano. Assim, a probabilidade de selecionar aleatoriamente um aluno do segundo ano é de 72/222, aproximadamente 32,4%.

Agora, vamos mudar nosso foco para uma questão ligeiramente diferente usando a mesma distribuição de frequência. Qual é a probabilidade de que a próxima pessoa que se matricular no curso seja um júnior ou um veterano? Desta vez, estamos interessados em probabilidade empírica, pois não temos certeza sobre o registro futuro.

Analisamos os dados que temos sobre os alunos que já se inscreveram. Entre eles, há 29 juniores e 54 seniores. Para calcular a probabilidade empírica, dividimos o número de alunos que se enquadram no evento (júnior ou sênior) pelo número total de alunos matriculados. Portanto, a probabilidade é (29 + 54) / 222, aproximadamente 37,7%.

É importante observar que, quer estejamos lidando com probabilidade empírica ou clássica, certos fatos são verdadeiros. A probabilidade de qualquer evento está entre 0 e 1. Um evento com probabilidade 0 é impossível, enquanto um evento com probabilidade 1 é certo. Se o espaço amostral for denotado como S, a probabilidade de S ocorrer é sempre 1.

Se tivermos eventos disjuntos E e F (sem resultados em comum), a probabilidade de pelo menos um deles ocorrer é a soma de suas probabilidades individuais. No entanto, a probabilidade de E e F ocorrerem simultaneamente é 0, pois são mutuamente exclusivos.

Adicionalmente, se tivermos eventos complementares (eventos que cobrem todos os resultados possíveis), a soma de suas probabilidades é sempre 1. Se ocorrer o evento E, a probabilidade de seu complemento (E') não ocorrer é 1 menos a probabilidade de E ocorrer.

Na linguagem cotidiana, costumamos usar a probabilidade informalmente com base na intuição e na experiência pessoal. Isso é conhecido como probabilidade subjetiva. No entanto, em estatística, contamos com a probabilidade empírica e clássica para cálculos rigorosos. A probabilidade subjetiva carece de precisão matemática e não é o foco da análise estatística.

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
 

A regra de adição para probabilidades


A regra de adição para probabilidades

Olá a todos, hoje vamos discutir a regra de adição para probabilidades. Esta regra nos permite calcular as probabilidades de uniões de eventos. Vamos começar com uma versão simplificada da regra.

Suponha que temos dois eventos, A e B, que são disjuntos, o que significa que eles não têm resultados em comum. Nesse caso, a probabilidade de qualquer evento acontecer é simplesmente a soma de suas probabilidades individuais. Isso pode ser escrito como:

P(A ∪ B) = P(A) + P(B)

Aqui, A ∪ B representa o conjunto de todos os resultados que estão em A ou em B, significando essencialmente "A ou B". É importante lembrar que eventos disjuntos não podem ocorrer, pois não têm resultados em comum. Às vezes, esses eventos são referidos como mutuamente exclusivos.

Para ilustrar esta versão da regra de adição, vamos considerar um exemplo. Suponha que lançamos um dado justo duas vezes e definimos o evento A como o primeiro lançamento sendo um seis, e o evento B como a soma dos lançamentos sendo três. Esses eventos são mutuamente exclusivos porque se o primeiro lançamento for um seis, a soma não pode ser três. Agora, para calcular a probabilidade de A ou B (o primeiro lançamento sendo um seis ou a soma sendo três), precisamos das probabilidades individuais desses eventos.

A probabilidade de o primeiro lançamento ser um seis é de 1/6, pois há seis resultados possíveis e apenas um deles é um seis. A probabilidade da soma das jogadas ser três é 2/36, considerando que existem 36 resultados possíveis totais para duas jogadas de dados, e dois resultados resultam em uma soma de três (1+2 e 2+1). Somando essas probabilidades, obtemos uma probabilidade total de 2/9.

Vamos passar para outro exemplo, retirado do livro "Estatística Elementar" de Larson e Farber. Em uma pesquisa com proprietários de residências, eles foram questionados sobre o tempo decorrido entre as limpezas domésticas. Os resultados são resumidos em um gráfico de pizza, mostrando diferentes intervalos de tempo. Queremos encontrar a probabilidade de que um proprietário selecionado aleatoriamente deixe passar mais de duas semanas entre as limpezas.

Nesse caso, estamos interessados na probabilidade de selecionar um proprietário do segmento azul ou amarelo do gráfico de pizza. Como esses segmentos são mutuamente exclusivos (você não pode limpar sua casa a cada três semanas e quatro semanas ou mais), podemos adicionar as probabilidades desses eventos. A probabilidade de limpar a casa a cada três semanas é de 10% e a probabilidade de limpá-la por quatro semanas ou mais é de 22%. Adicionar essas probabilidades nos dá uma probabilidade total de 32%.

Agora, vamos considerar um caso mais geral onde dois eventos, A e B, não são disjuntos. Nesse cenário, a regra de adição se torna um pouco mais complexa. A probabilidade de A ou B é dada por:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Aqui, A ∩ B representa os resultados que estão em A e B. É importante subtrair a probabilidade de A ∩ B porque quando A e B se sobrepõem, os resultados em A ∩ B são contados duas vezes (uma vez em A e uma vez em B ).

Para ilustrar esta versão da regra de adição, vamos usar um exemplo de uma pesquisa sobre hábitos de fumar e uso de cinto de segurança. A pesquisa perguntou a 242 entrevistados sobre seus hábitos, e uma tabela resume os resultados. Queremos encontrar a probabilidade de um entrevistado selecionado aleatoriamente não fumar ou usar cinto de segurança.

Seja A o evento de não fumar e B o evento de não usar cinto de segurança. Estamos interessados na probabilidade de A ou B (A ∪ B). Para calcular isso, precisamos das probabilidades individuais de A, B e A ∩ B. A probabilidade de não fumar é 169 em 242, pois há 169 indivíduos que não fumam na amostra de 242 pessoas. A probabilidade de não usar cinto de segurança é 114 de 242. Agora, precisamos também da probabilidade de A ∩ B, que representa os indivíduos que não fumam e não usam cinto de segurança. Na tabela, vemos que existem 81 desses indivíduos.

Usando a regra da adição para eventos que não são disjuntos, podemos calcular a probabilidade de A ou B da seguinte forma:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Substituindo os valores, temos:

P(A ∪ B) = 169/242 + 114/242 - 81/242

Simplificando a expressão, encontramos que:

P(A ∪ B) = 202/242

Agora, vamos calcular a probabilidade de A ou B diretamente adicionando as probabilidades individuais. Nesse caso, podemos usar a regra de adição para eventos disjuntos, pois os eventos em cada célula da tabela são mutuamente exclusivos. Somando as probabilidades das cinco células que representam A ou B, obtemos:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (probabilidades restantes)

Depois de realizar a adição, chegamos novamente à probabilidade de 202/242.

Portanto, ambos os métodos produzem a mesma probabilidade de A ou B, que é 202/242.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
Razão: