Tutoriels de programmation - page 14

 

La distribution normale


La distribution normale

Aujourd'hui, nous allons discuter des distributions de probabilité normales et de la règle empirique. Lorsqu'il s'agit d'une variable aléatoire continue, sa courbe de densité prend souvent la forme d'une courbe en cloche. Cette courbe en forme de cloche indique que la majeure partie de la probabilité est concentrée près du centre, ou de la moyenne, de la distribution. Cependant, théoriquement, des résultats aussi grands ou aussi petits que vous pouvez l'imaginer sont possibles.

Les distributions normales sont couramment rencontrées dans des scénarios réels. Par exemple, si nous mesurons les longueurs de nouveau-nés sélectionnés au hasard, observons la vitesse des véhicules sur une autoroute ouverte ou examinons les scores d'élèves choisis au hasard lors de tests standardisés, toutes ces variables aléatoires suivront probablement des distributions approximativement normales. Les distributions normales présentent une symétrie autour de la moyenne, ce qui signifie que les probabilités d'obtenir des résultats inférieurs à la moyenne sont les mêmes que d'obtenir des résultats supérieurs à la moyenne. Ainsi, lorsque l'on considère la longueur des nouveau-nés, nous sommes également susceptibles de rencontrer des nourrissons au-dessus ou en dessous de la moyenne.

Les caractéristiques d'une distribution normale sont entièrement décrites par sa moyenne et sa variance (ou écart type). La moyenne représente le centre de la distribution, tandis que l'écart type représente la distance entre la moyenne et les points d'inflexion de la courbe. Ces points d'inflexion marquent la transition de la forme en forme de colline à la forme en forme de vallée de la courbe.

Prenons un exemple impliquant des scores SAT de 2017. Les scores sur le SAT étaient approximativement normalement distribués avec une moyenne de 1060 et un écart type de 195. En traçant un graphique de cette distribution, nous localisons la moyenne à 1060 et marquons les points d'inflexion un écart type par rapport à la moyenne dans les deux sens. Nous pouvons également marquer des points supplémentaires correspondant à un écart type au-dessus et au-dessous de la moyenne.

Lors de l'interprétation des courbes de densité, les zones situées en dessous représentent des probabilités. D'après le graphique, nous pouvons voir que la probabilité de sélectionner au hasard un score entre 865 et 1060 est nettement plus élevée que de sélectionner un score entre 670 et 865. Pour quantifier ces probabilités, nous pouvons utiliser la règle empirique comme règle empirique pour estimer la normale. probabilités.

Selon la règle empirique, dans toute distribution normale, environ 68 % de la probabilité se situe à moins d'un écart-type de la moyenne, 95 % se situe à moins de deux écarts-types et 99,7 % se situe à moins de trois écarts-types. Ces proportions correspondent aux aires sous la courbe dans les régions respectives.

En appliquant la règle empirique à notre distribution de score SAT avec une moyenne de 1060 et un écart type de 195, nous constatons qu'il y a 68% de chance de sélectionner au hasard un score entre 865 et 1255, 95% de chance de sélectionner un score entre 670 et 1450, et 99,7 % de chances de sélectionner un score entre 475 et 1645.

En utilisant la géométrie et la règle empirique, nous pouvons également calculer des probabilités pour d'autres scénarios. Par exemple, la probabilité d'obtenir un résultat à plus d'un écart type de la moyenne est égale à un moins la probabilité d'obtenir un résultat à moins d'un écart type de la moyenne. De même, nous pouvons calculer la probabilité d'obtenir une valeur plus de deux écarts-types en dessous de la moyenne en trouvant le complément de la zone à moins de deux écarts-types de la moyenne.

En résumé, les distributions de probabilité normales suivent une courbe en forme de cloche, et la règle empirique fournit une approximation utile pour estimer les probabilités dans des régions spécifiques d'une distribution normale.

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

La distribution normale standard


La distribution normale standard

Salut tout le monde, aujourd'hui nous plongeons dans la distribution normale standard. Il s'agit essentiellement d'une distribution normale ou d'une courbe en cloche avec une moyenne de zéro et un écart type de un, comme illustré ici.

Nous avons affaire à une variable aléatoire continue qui peut prendre n'importe quelle valeur entre l'infini négatif et l'infini positif. Cependant, la majorité de la probabilité est concentrée près de zéro. Le pic de la courbe est centré sur la moyenne, qui est zéro, et les points d'inflexion se produisent à plus et moins un, où le graphique passe d'une forme de colline à une forme de vallée.

Pour faire référence aux variables aléatoires qui suivent une distribution normale standard, nous utilisons souvent la lettre "z". La distribution normale standard est particulièrement utile car toute variable aléatoire avec une distribution normale (avec moyenne mu et écart type sigma) peut être transformée en une distribution normale standard. Cette transformation est obtenue en soustrayant la moyenne et en divisant par l'écart type : z = (x - mu) / sigma.

Parlons maintenant des scores z. Un score z représente le nombre d'écarts types par lesquels une valeur x est supérieure ou inférieure à la moyenne. Parfois, les scores z sont également appelés scores standard. Dans la distribution normale standard, nous ne nous concentrons pas sur les probabilités des valeurs individuelles puisqu'il y en a une infinité. Au lieu de cela, nous considérons les probabilités que z tombe dans des plages spécifiques.

Lors de l'examen des probabilités dans la distribution normale standard, nous examinons les aires sous le graphique pour la plage souhaitée. Par exemple, regardons la probabilité que z soit compris entre -1 et 0,5. Nous voulons trouver la zone ombrée sous le graphique entre ces deux valeurs. N'oubliez pas que l'aire totale sous le graphique est toujours un, car elle représente la probabilité totale.

Pour décrire les probabilités de variables aléatoires continues comme la normale standard, nous utilisons couramment des fonctions de distribution cumulatives (CDF). Le CDF fournit la probabilité qu'une variable aléatoire soit inférieure ou égale à une valeur spécifique. Dans la distribution normale standard, nous utilisons la notation Phi(z) pour la CDF.

Pour calculer les probabilités, il est recommandé d'utiliser des technologies telles que des calculatrices ou des logiciels. Par exemple, une calculatrice TI a la fonction "normalcdf", Excel peut effectuer les calculs, et dans R, la commande "pnorm" est utilisée pour calculer le CDF pour la distribution normale standard.

Prenons un exemple. Si nous voulons trouver la probabilité d'un score z inférieur ou égal à 0,5, nous pouvons utiliser le CDF et calculer Phi (0,5), ce qui donne environ 0,691. Par conséquent, la probabilité d'obtenir un z-score inférieur ou égal à 0,5 est d'environ 69,1 %.

En général, si nous voulons calculer la probabilité qu'un score z tombe dans une plage spécifique (a à b), nous soustrayons la probabilité que z soit inférieur ou égal à a de la probabilité que z soit inférieur ou égal à b. Symboliquement, cela peut s'écrire Phi(b) - Phi(a).

Enfin, il est essentiel de se rappeler que la probabilité de tout score z individuel est infinitésimale. La probabilité que z soit inférieur ou égal à une valeur spécifique (c) est la même que la probabilité que z soit inférieur à cette valeur (c). De plus, la probabilité que z soit supérieur à c est égale à un moins la probabilité que z soit inférieur ou égal à c, puisque ces événements sont complémentaires.

Pour illustrer, déterminons la probabilité d'obtenir un z-score supérieur à -1,5. En utilisant le fait 2 ci-dessus, nous pouvons calculer 1 moins la probabilité que z soit inférieur ou égal à -1,5, soit environ 93,3 %. Comme prévu, cette probabilité est considérablement supérieure à 50 %, étant donné qu'un score z négatif nous place à l'extrême gauche de la courbe en cloche, indiquant qu'une partie importante de la zone se trouve à droite de ce score z.

En résumé, la distribution normale standard, caractérisée par une moyenne de zéro et un écart type de un, est un concept fondamental en statistique. En utilisant les scores z, qui mesurent le nombre d'écarts types entre une valeur et la moyenne, nous pouvons déterminer les probabilités associées à des plages spécifiques dans la distribution. La fonction de distribution cumulative (CDF), souvent notée Phi(z), est utilisée pour calculer ces probabilités. Des technologies telles que des calculatrices ou des logiciels statistiques sont couramment utilisées pour calculer les valeurs CDF. N'oubliez pas que la distribution normale standard nous permet de normaliser et de comparer les valeurs de n'importe quelle distribution normale en les transformant en scores z.

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

Calcul des probabilités normales à l'aide de R


Calcul des probabilités normales à l'aide de R

Bonjour à tous! Aujourd'hui, nous plongeons dans le monde du calcul des probabilités dans les distributions normales à l'aide de RStudio. Lorsqu'il s'agit de variables aléatoires normalement distribuées, qui sont continues, il n'est pas significatif de discuter de la probabilité d'obtenir une valeur individuelle spécifique. Au lieu de cela, nous nous appuyons sur la fonction de distribution cumulative (CDF). Cette fonction prend une valeur x et renvoie la probabilité d'obtenir un nombre inférieur ou égal à cette valeur x par hasard dans la distribution normale.

Pour mieux comprendre ce concept, examinons une représentation visuelle. Dans le graphique, j'ai marqué une valeur x, et la zone ombrée représente la probabilité cumulée jusqu'à cette valeur x en utilisant le CDF normal. Lorsque nous nous référons à la distribution normale standard avec une moyenne de 0 et un écart type de 1, nous désignons souvent la variable aléatoire par Z et utilisons un Phi majuscule (Φ) pour représenter le CDF.

Maintenant, il y a des cas où nous voulons calculer la probabilité qu'une variable dans une distribution normale tombe dans une plage spécifique, pas seulement moins d'un seul nombre. Nous pouvons y parvenir en calculant la probabilité qu'il soit inférieur ou égal au nombre supérieur et en soustrayant la probabilité qu'il soit inférieur ou égal au nombre inférieur. Cela peut être visualisé en soustrayant la zone ombrée en bas à droite de la zone ombrée en bas à gauche.

Mettons nos connaissances à l'épreuve en effectuant des calculs utilisant différentes distributions normales et probabilités. Pour cela, nous allons passer à RStudio. Dans R, nous pouvons utiliser la fonction "Pnorm", qui est la fonction de distribution cumulative pour la distribution normale.

Considérons d'abord une distribution N(5, 9). Nous voulons trouver la probabilité que X soit inférieur ou égal à 10. En utilisant "Pnorm" avec la valeur x de 10, la moyenne de 5 et l'écart type de 3, nous obtenons un résultat d'environ 0,9522.

Ensuite, déterminons la probabilité d'obtenir une valeur x supérieure à 10. Puisque l'obtention d'une valeur x supérieure à 10 est le complément de l'obtention d'une valeur x inférieure ou égale à 10, nous pouvons la calculer en soustrayant la probabilité de ce dernier de 1. En soustrayant "Pnorm(10, 5, 3)" de 1, nous trouvons que la probabilité est d'environ 0,048.

Maintenant, concentrons-nous sur une distribution normale avec une moyenne de 100 et une variance de 20. Nous nous intéressons à la probabilité que X se situe entre 92 et 95. Nous commençons par calculer la probabilité que X soit inférieur ou égal à 95 en utilisant "Pnorm(95, 100, sqrt(20))". Ensuite, nous soustrayons la probabilité que X soit inférieur ou égal à 92 en utilisant "Pnorm(92, 100, sqrt(20))". Le résultat est d'environ 0,095.

Enfin, travaillons avec la distribution normale standard et trouvons la probabilité que Z soit compris entre -1,2 et 0,1. Nous pouvons directement soustraire "Pnorm(-1.2)" de "Pnorm(0.1)" pour obtenir le résultat d'environ 0.428.

En conclusion, en tirant parti de la puissance de la distribution normale et de la fonction de distribution cumulative, nous pouvons calculer les probabilités associées à différentes plages de valeurs. RStudio nous fournit les outils nécessaires, comme la fonction "Pnorm", pour effectuer ces calculs efficacement.

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

Calculs normaux inverses


Calculs normaux inverses

Bonjour à tous! Aujourd'hui, nous allons plonger dans le monde fascinant des calculs normaux inverses. Commençons par rafraîchir notre compréhension de la façon dont nous calculons les probabilités dans la distribution normale standard à l'aide de la fonction de distribution cumulative (CDF), notée Φ(z). Le CDF prend un score z en entrée et renvoie la probabilité qu'un score z choisi au hasard soit inférieur ou égal à cette valeur.

Pour illustrer ce concept, considérons le graphique où Φ (0,5) est esquissé. Pour calculer Φ (0,5), nous dessinons la courbe en cloche normale standard et localisons z = 0,5 légèrement à droite de la moyenne. Nous ombrons ensuite toute la zone à gauche de ce score z. Φ(0,5) représente l'aire de la région ombrée. Rappelez-vous que la probabilité totale sous la courbe en cloche est toujours de 1, nous pouvons donc interpréter la zone ombrée comme un pourcentage de la zone totale.

Maintenant, explorons l'inverse du CDF normal, noté Φ^(-1) ou "phi inverse". Ce processus inverse le calcul précédent. Au lieu de lui donner un score z et d'obtenir une probabilité, nous saisissons une probabilité et récupérons le score z correspondant. Par exemple, Φ^(-1)(0,5) vaut 0 car Φ(0) vaut 0,5. La moitié de la probabilité se trouve à gauche de z = 0 dans la distribution normale standard. De même, Φ^(-1)(0,6915) vaut 0,5 car Φ(0,5) vaut 0,6915, et Φ^(-1)(0,1587) vaut -1 car Φ(-1) vaut 0,1587. Nous inversons essentiellement les entrées et les sorties de ces deux fonctions.

Pour mieux illustrer ce concept, prenons un exemple. Supposons que nous voulions trouver le score z qui capture le 90e centile dans une distribution normale standard. Ce score z représente un résultat supérieur à 90 % des résultats si nous tirons à plusieurs reprises de cette distribution. Pour le déterminer, nous utilisons Φ^(-1) et calculons Φ^(-1)(0,90), ce qui donne environ 1,28. Ainsi, 1,28 est le score z correspondant au 90e centile dans la distribution normale standard.

Maintenant, armé du score z pour une probabilité ou un centile donné, nous pouvons facilement déterminer la valeur correspondante dans n'importe quelle distribution normale. Prenons un exemple où les scores à un test standardisé sont normalement distribués avec une moyenne de 1060 et un écart type de 195. Pour déterminer le score requis pour dépasser 95% des scores, nous trouvons d'abord le 95e centile. En utilisant Φ^(-1)(0,95) ou qnorm(0,95) dans R, nous obtenons environ 1,64 comme score z. En interprétant ce résultat, un étudiant doit marquer 1,64 écart-type au-dessus de la moyenne pour avoir 95 % de chances de surpasser un score sélectionné au hasard.

Pour calculer le score réel, nous utilisons la formule x = μ + zσ, où x représente le score nécessaire, μ est la moyenne (1060), z est le score z (1,64) et σ est l'écart type (195) . En branchant ces valeurs, nous constatons que l'étudiant doit obtenir un score d'environ 1379,8. Ainsi, un score d'environ 1380 positionnerait l'étudiant au 95e centile et offrirait 95% de chances de dépasser un score sélectionné au hasard au test.

Il est important de noter que les valeurs obtenues à partir des distributions normales et inverses sont souvent des approximations, car elles peuvent être irrationnelles. Bien qu'il soit possible d'effectuer des calculs normaux inverses à l'aide de tables, il est plus courant et pratique d'utiliser la technologie pour ces calculs. Dans R, par exemple, la commande pour la normale inverse est qnorm. Pour trouver l'inverse d'une probabilité, nous entrons qnorm suivi de la probabilité souhaitée. Par exemple, pour calculer l'inverse de 0,6915, nous utilisons qnorm(0,6915) et obtenons environ 0,5. De même, pour l'inverse de 0,1587, nous utilisons qnorm(0,1587) et obtenons approximativement -1.

L'utilisation de la technologie pour ces calculs est préférable au 21e siècle, car elle fournit des résultats précis et permet de gagner du temps par rapport à l'utilisation de tables manuelles. En tirant parti d'outils tels que R, nous pouvons effectuer sans effort des calculs normaux inverses en fournissant la probabilité et en recevant le score z correspondant.

En résumé, les calculs normaux inverses nous permettent de déterminer le score z correspondant à une probabilité ou à un centile donné dans une distribution normale. Nous pouvons utiliser la fonction normale inverse, telle que Φ^(-1) ou qnorm dans R, pour obtenir ces valeurs. Ces informations nous aident ensuite à prendre des décisions éclairées et à effectuer diverses analyses statistiques.

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

Calculs normaux inverses à l'aide de R


Calculs normaux inverses à l'aide de R

Aujourd'hui, nous allons utiliser R pour effectuer des calculs normaux inverses. Nous avons trois problèmes à résoudre.

Problème 1 : Trouvez le 98e centile de la distribution normale standard. En d'autres termes, nous voulons déterminer le score z qui se situe au-dessus de 98 % de la probabilité dans la distribution normale standard. Dans R, nous pouvons utiliser la commande qnorm. Puisque nous traitons de la distribution normale standard (moyenne = 0, écart type = 1), nous pouvons entrer directement le centile comme argument. Par conséquent, nous calculons qnorm(0,98) et obtenons un score z d'environ 2,05.

Problème 2 : Trouver la valeur de x qui capture 40 % de l'aire sous une distribution normale avec une moyenne de 12 et une variance de 3. Nous pouvons commencer par visualiser la courbe en cloche avec les paramètres donnés. Nous voulons trouver une valeur x qui correspond à une zone de 40 % à sa gauche. En utilisant qnorm, nous saisissons la zone souhaitée sous forme décimale, qui est de 0,40. Cependant, comme il s'agit d'une distribution normale non standard, nous devons également spécifier la moyenne et l'écart type. Par conséquent, nous calculons qnorm(0,40, moyenne = 12, sd = sqrt(3)) et obtenons une valeur de x approximativement égale à 11,56.

Problème 3 : Considérez la consommation annuelle par habitant d'oranges aux États-Unis, qui est à peu près normalement distribuée avec une moyenne de 9,1 livres et un écart type de 2,7 livres. Si un Américain mange moins de 85% de ses pairs, nous voulons déterminer combien il consomme. Ici, nous nous intéressons à la zone à droite du centile donné (85%). Étant donné que qnorm fournit des valeurs avec des zones à gauche, nous devons soustraire le centile de 1 pour obtenir la zone à droite, qui est de 0,15. Nous calculons qnorm(0,15, moyenne = 9,1, sd = 2,7) pour trouver la valeur de consommation correspondante. Le résultat est d'environ 6,30 livres d'oranges par an.

En utilisant la fonction qnorm dans R, nous pouvons effectuer efficacement ces calculs normaux inverses et obtenir les résultats souhaités pour divers problèmes statistiques.

L'utilisation de la fonction qnorm dans R nous permet d'effectuer efficacement des calculs normaux inverses, nous fournissant les scores z ou les valeurs nécessaires qui correspondent à des centiles ou des zones spécifiques sous une distribution normale.

Dans le problème 1, nous voulions trouver le 98e centile de la distribution normale standard. En utilisant qnorm(0,98), nous avons obtenu un score z d'environ 2,05. Cela signifie que la valeur correspondant au 98e centile dans la distribution normale standard est de 2,05 écarts-types au-dessus de la moyenne.

Dans le problème 2, nous avons cherché à trouver la valeur de x qui capture 40 % de l'aire sous une distribution normale avec une moyenne de 12 et une variance de 3. Après avoir spécifié la moyenne et l'écart type dans la fonction qnorm comme qnorm(0,40, moyenne = 12, sd = sqrt(3)), nous avons obtenu une valeur x d'environ 11,56. Cela indique que la valeur de x, qui correspond à la capture de 40 % de la zone à sa gauche dans la distribution normale donnée, est d'environ 11,56.

Dans le problème 3, nous avons considéré la consommation annuelle par habitant d'oranges aux États-Unis, qui suit une distribution normale avec une moyenne de 9,1 livres et un écart type de 2,7 livres. Nous voulions déterminer la quantité de consommation pour un individu qui mange moins de 85% de ses pairs. En calculant qnorm(0,15, moyenne = 9,1, sd = 2,7), nous avons trouvé que le niveau de consommation devrait être d'environ 6,30 livres par an pour qu'un individu consomme moins de 85 % de ses pairs.

Dans l'ensemble, la fonction qnorm dans R simplifie le processus d'exécution des calculs normaux inverses en nous fournissant les scores z nécessaires ou les valeurs basées sur des centiles ou des zones spécifiques. Cela nous permet d'analyser et de prendre des décisions éclairées en fonction des caractéristiques des distributions normales.

Inverse Normal Calculations Using R
Inverse Normal Calculations Using R
  • 2020.08.02
  • www.youtube.com
It's easy to compute inverse normal values using R. Let's learn the qnorm() command! If this vid helps you, please help me a tiny bit by mashing that 'like' ...
 

Distributions d'échantillonnage


Distributions d'échantillonnage

Bonjour à tous, aujourd'hui nous allons discuter du concept d'échantillonnage des distributions de statistiques. Dans l'inférence statistique, notre objectif est d'utiliser des statistiques d'échantillons pour estimer les paramètres de la population. Cependant, les statistiques des échantillons ont tendance à varier d'un échantillon à l'autre, ce qui signifie que si nous prélevons des échantillons à plusieurs reprises, nous obtiendrons des valeurs différentes pour la même statistique.

Illustrons cela par un exemple. Imaginez que nous ayons un sac contenant des jetons numérotés et qu'un statisticien de la station de bord tire au hasard 5 jetons, obtenant les nombres 24, 11, 10, 14 et 16. La moyenne de l'échantillon, notée barre x, est calculée à 15. Maintenant , si nous répétons ce processus plusieurs fois, nous obtiendrons probablement des valeurs différentes pour x-bar à chaque fois. Par exemple, dans les échantillons suivants, nous pourrions obtenir 17,8, 18,8 ou 21,6 comme moyenne de l'échantillon. Ainsi, la barre x statistique de l'échantillon est le résultat d'un processus aléatoire et peut être considérée comme une variable aléatoire. Il a sa propre distribution de probabilité, que nous appelons la distribution d'échantillonnage de la statistique.

Passons maintenant à un exemple concret. Supposons que nous ayons un sac avec trois jetons rouges et six jetons bleus. Si nous tirons trois jetons au hasard avec remise, nous voulons trouver la distribution d'échantillonnage de x, qui représente le nombre de jetons rouges tirés. Il existe quatre valeurs possibles pour x : 0, 1, 2 ou 3. Pour déterminer les probabilités associées à chaque valeur, nous traitons chaque tirage individuel comme un essai de Bernoulli, où le rouge est considéré comme un succès et le bleu comme un échec. Puisque nous effectuons trois tirages identiques, chacun avec une probabilité d'un tiers, nous avons une distribution binomiale avec n = 3 et p = 1/3. En calculant les probabilités à l'aide de la formule de distribution binomiale, nous constatons que les probabilités pour x = 0, 1, 2 et 3 sont respectivement de 0,296, 0,444, 0,296 et 0,064. Ces probabilités définissent la distribution d'échantillonnage de x.

La moyenne est la statistique la plus couramment utilisée pour l'inférence statistique, vous rencontrerez donc souvent l'expression "distribution d'échantillonnage de la moyenne de l'échantillon". Il représente la distribution de probabilité de toutes les valeurs possibles que la moyenne de l'échantillon peut prendre lors du tirage d'échantillons de même taille à partir de la même population. Par exemple, considérons à nouveau l'exemple du sac, mais cette fois, les puces sont numérotées de 1 à 35. Nous voulons décrire la distribution d'échantillonnage de la moyenne de l'échantillon, notée x-bar, lorsque nous prenons des échantillons de taille n = 5 sans remplacement. En répétant mille fois le processus d'échantillonnage et en calculant la moyenne de l'échantillon à chaque fois, nous obtenons une liste de mille nombres allant de 15 à 165. La plupart de ces moyennes d'échantillon se situeront dans la fourchette médiane, et en construisant un histogramme, nous observons que la distribution d'échantillonnage suit approximativement une forme de courbe en cloche. Ce modèle de courbe en cloche n'est pas une coïncidence, comme nous l'explorerons dans une discussion future.

La distribution d'échantillonnage de la moyenne de l'échantillon a un centre et un étalement prévisibles, ce qui permet diverses inférences statistiques. En particulier, si nous tirons des échantillons de taille n d'une grande population avec une moyenne de mu et un écart type de sigma, la moyenne des moyennes de l'échantillon (x-bar) sera égale à la moyenne de la population (mu). De plus, l'écart type des moyennes de l'échantillon sera égal à l'écart type de la population (sigma) divisé par la racine carrée de n. Ces relations suggèrent que la moyenne de l'échantillon fournit une estimation de la moyenne de la population et est moins variable que les observations individuelles au sein de la population.

Pour illustrer cela, considérons un exemple où le score moyen à un test standardisé est de 1060 et l'écart type est de 195. Supposons que nous sélectionnions au hasard 100 étudiants dans la population. Dans ce cas, nous supposons que la population est suffisamment grande pour qu'un échantillonnage sans remise soit acceptable. La distribution d'échantillonnage de la moyenne de l'échantillon, notée barre x, aura un centre de 1060 et un écart type de 19,5.

Pour clarifier, si nous devions collecter un échantillon de 100 étudiants et calculer leurs scores moyens aux tests, en répétant ce processus plusieurs fois, nous constaterions qu'en moyenne, la moyenne de l'échantillon serait de 1060. La répartition des moyennes de l'échantillon, comme indiqué par l'écart-type de 19,5, serait considérablement plus petit que l'écart-type des scores individuels au sein de la population.

Comprendre les propriétés de la distribution d'échantillonnage, telles que son centre et sa propagation, nous permet de faire des inférences statistiques significatives. En tirant parti de la distribution d'échantillonnage de la moyenne de l'échantillon, nous pouvons estimer les paramètres de la population et tirer des conclusions sur la population en fonction des statistiques de l'échantillon observé.

Dans l'ensemble, les distributions d'échantillonnage des statistiques jouent un rôle crucial dans l'inférence statistique en fournissant des informations sur la variabilité des statistiques d'échantillonnage et leur relation avec les paramètres de la population.

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

Quel est le théorème central limite ?


Quel est le théorème central limite ?

Aujourd'hui, nous discutons du théorème central limite (CLT), qui est largement considéré comme l'un des théorèmes les plus importants en statistique. Le CLT décrit la forme de la distribution d'échantillonnage de la moyenne de l'échantillon (barre x) et nécessite une solide compréhension des distributions d'échantillonnage.

Pour appréhender le CLT, il est recommandé de se familiariser avec les distributions d'échantillonnage. Vous pouvez regarder une vidéo sur les distributions d'échantillonnage, que j'ai liée ci-dessus pour votre commodité.

Maintenant, plongeons dans le CLT. Supposons que nous prenions des échantillons aléatoires simples de taille 'n' à partir d'une population avec une moyenne (μ) et un écart type (σ). Nous ne savons peut-être pas grand-chose sur la forme de la population, mais si « n » est suffisamment grand (généralement autour de 30), la distribution d'échantillonnage de la moyenne de l'échantillon se rapprochera d'une distribution normale. Si la population elle-même est distribuée normalement, alors la distribution d'échantillonnage de la barre x sera exactement normale, quel que soit 'n'. De plus, la moyenne de la barre x sera toujours μ et l'écart type de la barre x sera σ divisé par la racine carrée de 'n'.

Essentiellement, le théorème central limite stipule que quelle que soit la population échantillonnée, lorsque la taille de l'échantillon est suffisamment grande, la distribution de la barre x sera approximativement normale avec une moyenne de μ et un écart type de σ divisé par la racine carrée. de 'n'. Mentalement, imaginez prendre de nombreux échantillons de la même taille dans la population, en calculant la moyenne de l'échantillon pour chaque échantillon. Bien que les moyennes d'échantillons individuels puissent varier légèrement, leur moyenne sera égale à la moyenne de la population, et la propagation de ces moyennes d'échantillon autour de la moyenne sera approximativement en forme de cloche, avec un écart type lié mais inférieur à l'écart type de la population.

Pour illustrer ce concept, prenons un exemple. Nous avons une ligne d'assistance technique où la durée des appels suit une distribution normale avec une moyenne (μ) de 2 minutes et un écart type (σ) de 3 minutes. Supposons que nous voulions trouver la probabilité qu'un échantillon de 40 appels sélectionnés au hasard ait une durée moyenne inférieure à 2,5 minutes. Bien que nous ne connaissions pas la distribution exacte des longueurs d'appels individuels, nous pouvons utiliser le théorème central limite puisque nous examinons la moyenne de l'échantillon de 40 appels. La moyenne de l'échantillon (barre x) sera approximativement distribuée normalement avec une moyenne de 2 et un écart type de 3 divisé par la racine carrée de 40 (σ/sqrt(n)).

Pour calculer la probabilité, nous déterminons le score z pour la barre x = 2,5 dans la distribution avec une moyenne de 2 et un écart type de 3/sqrt(40). En calculant le score z comme (2,5 - 2) / (3 / sqrt(40)), nous trouvons une valeur de 1,05. Nous pouvons ensuite utiliser une fonction de distribution cumulative normale (CDF) pour trouver la probabilité que le score z soit inférieur à 1,05, ce qui donne environ 85,3 %. Cela signifie qu'il y a 85,3 % de chances d'obtenir une moyenne d'échantillon inférieure à 2,5 minutes lors de l'échantillonnage de 40 appels.

Dans une autre démonstration, imaginons un générateur de nombres aléatoires qui produit des nombres entiers aléatoires entre 1 et 12 avec une probabilité égale. Ce scénario est analogue à la sélection d'une personne au hasard et à la détermination de son mois de naissance. Si nous prenons des échantillons aléatoires simples de taille 2 à partir de ce générateur, l'exécutons plusieurs fois et calculons la moyenne de l'échantillon, nous observons un histogramme avec une forme à peu près pyramidale. Les résultats ont tendance à se regrouper autour de 6,5, indiquant une probabilité plus élevée d'obtenir des moyennes d'échantillon proches de 6,5 par rapport à des valeurs proches de 1 ou 12.

En augmentant la taille de l'échantillon à 10, on observe un histogramme qui commence à ressembler à une distribution en forme de cloche, et la dispersion des moyennes de l'échantillon diminue. La majorité des moyennes d'échantillon se situent maintenant entre 4 et 9.

Si nous augmentons encore la taille de l'échantillon à 100 et répétons le processus, l'histogramme devient encore plus en forme de cloche, la plupart des moyennes d'échantillon étant concentrées entre 6 et 7. L'écart type des moyennes d'échantillon continue de diminuer.

Enfin, lorsque nous prenons des échantillons de taille 1000, l'histogramme suit une courbe de distribution normale presque parfaite. Les moyennes de l'échantillon sont étroitement regroupées autour de la moyenne de la population, la majorité se situant entre 6,25 et 6,75. L'écart type des moyennes de l'échantillon continue de diminuer à mesure que la taille de l'échantillon augmente.

En résumé, à mesure que la taille de l'échantillon (n) augmente, la moyenne de l'échantillon (barre x) devient un estimateur plus fiable de la moyenne de la population (μ). La variabilité de la moyenne de l'échantillon diminue, ce qui conduit à une distribution d'échantillonnage plus étroite et plus en forme de cloche.

Prenons maintenant un exemple impliquant un distributeur d'eau distillée. Le distributeur remplit des gallons d'eau et la quantité qu'il distribue suit une distribution normale avec une moyenne de 1,03 gallon et un écart type de 0,02 gallon. Nous voulons déterminer la probabilité qu'un seul "gallon" distribué soit en réalité inférieur à 1 gallon.

Pour trouver cette probabilité, nous calculons le score z pour x = 1 dans la distribution normale avec une moyenne de 1,03 et un écart type de 0,02. Le score z est calculé comme (1 - 1,03) / 0,02, ce qui donne -1,5. En utilisant la fonction de distribution cumulative normale (CDF), nous constatons que la probabilité d'obtenir une valeur inférieure à 1 gallon est d'environ 6,68 %.

Considérons maintenant la probabilité que la moyenne de 10 gallons soit inférieure à 1 gallon par gallon. Selon le théorème central limite, lorsque la taille de l'échantillon (n) est suffisamment grande, la distribution d'échantillonnage de la moyenne de l'échantillon devient normale, quelle que soit la distribution de la population. Dans ce cas, la distribution d'échantillonnage de la barre x a une moyenne de 1,03 (identique à la moyenne de la population) et un écart type de 0,02/sqrt(10).

Pour trouver la probabilité d'obtenir une moyenne d'échantillon inférieure à 1 gallon, nous calculons le score z comme (1 - 1,03) / (0,02/sqrt(10)), ce qui équivaut à -4,74. En utilisant la fonction de distribution cumulative normale (CDF), nous constatons que la probabilité d'obtenir une moyenne d'échantillon inférieure à 1 gallon est d'environ 0,0001 %.

En conclusion, bien qu'il soit quelque peu improbable (environ 7 %) qu'un seul gallon soit sous-rempli, il serait extrêmement inhabituel que la moyenne de 10 gallons soit inférieure à 1 gallon par gallon.

Enfin, en ce qui concerne la taille de l'échantillon, le théorème central limite suggère que la distribution d'échantillonnage de la barre x se rapproche d'une distribution normale pour les échantillons de grande taille. Cependant, ce qui constitue une « grande » taille d'échantillon est subjectif et dépend de l'asymétrie de la distribution de la population et de la présence de valeurs aberrantes. En général, lors de l'échantillonnage à partir d'une distribution assez symétrique sans valeurs aberrantes extrêmes, une taille d'échantillon plus petite peut être suffisante pour que le théorème central limite s'applique.

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

Calcul de probabilités à l'aide du théorème central limite : exemples


Calcul de probabilités à l'aide du théorème central limite : exemples

Bonjour à tous, dans la session d'aujourd'hui, nous allons travailler sur certains problèmes liés au calcul des probabilités à l'aide du théorème central limite. Nous avons deux problèmes à résoudre. Commençons!

Problème 1 : Les poids des sacs d'une certaine marque de bonbons suivent une distribution normale avec une moyenne de 45 grammes et un écart type de 1,5 gramme. Nous devons trouver la probabilité qu'un sac choisi au hasard contienne moins de 44 grammes de bonbons.

Pour résoudre ce problème, nous utiliserons la distribution normale et calculerons le score z. Le score z est obtenu en soustrayant la moyenne (45) de la valeur (44) et en la divisant par l'écart type (1,5). Cela nous donne un score z de -0,67.

Ensuite, nous utilisons la fonction de distribution cumulative normale (CDF) pour trouver la probabilité d'obtenir une valeur inférieure à -0,67 dans la distribution normale standard. La probabilité s'avère être d'environ 0,252, ce qui signifie qu'il y a 25,2 % de chances qu'un sac sélectionné au hasard contienne moins de 44 grammes de bonbons.

Problème 2 : Nous considérerons la probabilité que cinq sacs choisis au hasard aient un poids moyen inférieur à 44 grammes de bonbons. Pour ce problème, nous devons appliquer le théorème central limite.

Selon le théorème central limite, lorsque la taille de l'échantillon est suffisamment grande (généralement 30 ou plus), la distribution d'échantillonnage de la moyenne de l'échantillon devient approximativement normale, quelle que soit la distribution de la population. Dans ce cas, la moyenne de la distribution d'échantillonnage (barre x) sera la même que la moyenne de la population (45) et l'écart type sera l'écart type de la population (1,5) divisé par la racine carrée de la taille de l'échantillon ( √5).

Pour trouver la probabilité, nous calculons le score z en soustrayant la moyenne (45) de la valeur souhaitée (44) et en la divisant par l'écart type (√(1,5^2/5)). Cela nous donne un score z de -1,49.

En utilisant le CDF normal, nous constatons que la probabilité d'obtenir un échantillon moyen inférieur à 44 grammes est d'environ 0,068, soit 6,8 %. Par conséquent, il y a environ 6,8 % de chances que cinq sacs sélectionnés au hasard aient un poids moyen inférieur à 44 grammes de bonbons.

Enfin, nous considérons la probabilité que 25 sacs choisis au hasard aient un poids moyen inférieur à 44 grammes de bonbons. Puisque la taille de l'échantillon est plus grande (25), nous pouvons toujours appliquer le théorème central limite.

En utilisant la même procédure que précédemment, nous calculons le score z pour un échantillon moyen de 44 grammes avec un écart type de 1,5/√25. Cela nous donne un score z de -3,33.

En appliquant le CDF normal, nous constatons que la probabilité d'obtenir un échantillon moyen inférieur à 44 grammes est d'environ 0,004, soit 0,4 %. Par conséquent, il n'y a que 0,4 % de chances que 25 sacs sélectionnés au hasard aient un poids moyen inférieur à 44 grammes de bonbons.

En conclusion, le théorème central limite fournit une approximation fiable de ces probabilités, même avec une taille d'échantillon relativement petite de 7. Les probabilités calculées sont remarquablement proches des valeurs exactes obtenues à partir de la distribution de probabilité d'origine.

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

Présentation des intervalles de confiance


Présentation des intervalles de confiance

Bonjour à tous, aujourd'hui nous plongeons dans le sujet des intervalles de confiance. Pendant que nous discutons de cela, il est crucial de garder à l'esprit la distinction entre un paramètre et une statistique. Revoyons rapidement ce concept.

Un paramètre est un nombre qui décrit une population, comme le salaire de départ moyen de tous les data scientists aux États-Unis. D'autre part, une statistique est un nombre qui décrit un échantillon, comme le salaire de départ moyen de 10 data scientists sélectionnés au hasard aux États-Unis.

En règle générale, nous n'avons pas d'accès direct pour observer les paramètres. Il est souvent impossible de recueillir des informations auprès d'une population entière, nous nous appuyons donc sur des exemples de données, qui fournissent des statistiques. L'inférence statistique est le processus de raisonnement d'une statistique à un paramètre.

L'une des formes les plus fondamentales et les plus importantes d'inférence statistique est l'intervalle de confiance. Pour rendre tout cela plus concret, prenons un exemple. Supposons que nous échantillonnions au hasard 10 spécialistes des données aux États-Unis et constations que leur salaire de départ moyen est de 97 000 $. Cette valeur représente une statistique puisqu'elle ne fait référence qu'aux data scientists de notre échantillon. Cependant, nous voulons faire une inférence sur le salaire de départ moyen de tous les data scientists aux États-Unis, qui est le paramètre que nous souhaitons estimer.

Pour estimer le paramètre μ avec la barre x statistique (moyenne de l'échantillon), notre meilleure estimation est que le salaire de départ moyen de tous les data scientists aux États-Unis est de 97 000 $. Cependant, il est important de reconnaître qu'il est très peu probable que cette estimation soit exactement correcte. Il est peu probable que le paramètre μ soit précisément de 97 000 $ ; il pourrait être légèrement supérieur ou inférieur, voire considérablement.

Étant donné que notre estimation n'est pas exacte, il convient de fournir une estimation d'intervalle, généralement de la forme x-bar plus ou moins une certaine marge d'erreur. La question cruciale est de savoir comment déterminer cette marge d'erreur. Nous devons garder à l'esprit que, même avec une grande marge d'erreur, il y a toujours une probabilité de se tromper.

Par exemple, considérons un scénario dans lequel nous sélectionnons un échantillon de 10 data scientists sous-payés, alors que le paramètre réel (véritable salaire de départ des data scientists aux États-Unis) est de 150 000 $. La moyenne de notre échantillon reste de 97 000 $. Ainsi, le mieux que l'on puisse espérer est de construire un intervalle de confiance susceptible de capturer le vrai paramètre avec une forte probabilité. Cela signifie que l'intervalle doit inclure le vrai paramètre un pourcentage significatif du temps.

En règle générale, un niveau de confiance de 95 % est utilisé comme norme, bien que d'autres niveaux tels que 90 % ou 99 % puissent être choisis en fonction de l'application. Dans tous les cas, la notation utilisée pour le niveau de confiance est un C majuscule. Pour l'exprimer formellement sous la forme d'un énoncé de probabilité, nous cherchons à trouver une marge d'erreur (e) telle que la probabilité que x-bar et μ soient à l'intérieur de e de l'autre est C.

Précisons notre exemple. Supposons que les salaires de départ des scientifiques des données suivent une distribution normale avec un écart type de la population de 8 000 $. Nous voulons trouver une marge d'erreur (e) qui nous permette d'estimer μ, le salaire moyen de départ de tous les data scientists aux États-Unis, avec une confiance de 95 %.

Pour ce faire, nous allons utiliser les propriétés de la distribution normale standard. Si nous prenons une variable aléatoire x qui suit une distribution normale, la moyenne d'échantillonnage (x-bar) sera également distribuée normalement. La moyenne de la distribution moyenne de l'échantillon est la même que la moyenne de la distribution de la population (μ), mais l'écart type est réduit. Dans notre exemple, l'écart type de la moyenne de l'échantillon est σ/√n, où σ est l'écart type de la population et n est la taille de l'échantillon.

Avec cette information, nous pouvons réécrire notre énoncé de probabilité comme suit : la probabilité que la barre x se situe entre μ - e et μ + e est égale à C. Maintenant, nous pouvons représenter cela en termes de scores z, qui mesurent le nombre des écarts-types par rapport à la moyenne. En normalisant notre intervalle, nous pouvons utiliser la distribution normale standard (distribution Z) pour déterminer les valeurs appropriées.

Pour un niveau de confiance C donné, nous devons trouver le score z (z-star) tel que la zone entre -z-star et z-star sous la courbe normale standard soit égale à C. Les valeurs courantes pour C incluent 0,95, ce qui correspond à une étoile z de 1,960. Une fois que nous avons z-star, nous pouvons calculer la marge d'erreur en la multipliant par σ/√n.

Revenant à notre exemple, où nous avons une taille d'échantillon de n = 10, une moyenne d'échantillon de 97 000 $ et un écart type de population de 8 000 $, nous pouvons construire un intervalle de confiance à 95 % pour μ. En substituant ces valeurs dans la forme générale de l'intervalle de confiance, nous constatons que l'estimation de l'intervalle pour μ est de 97 000 $ ± 1 958 $.

En résumé, nous prévoyons que le salaire de départ moyen de tous les data scientists aux États-Unis se situera entre 92 042 $ et 101 958 $, avec une confiance estimée à 95 %. Cela signifie que si nous devions répéter ce processus d'échantillonnage et construire des intervalles de confiance à l'aide de données d'échantillon plusieurs fois, nous nous attendrions à ce que nos intervalles capturent le vrai paramètre (μ) environ 95 % du temps.

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
 

Intervalles de confiance pour la moyenne - Exemple


Intervalles de confiance pour la moyenne - Exemple

Bonjour à tous, nous allons discuter aujourd'hui de la construction d'intervalles de confiance pour une moyenne d'une population lorsque l'écart-type de la population est connu. De plus, nous explorerons les facteurs qui peuvent affecter la taille de la marge d'erreur en utilisant un exemple lié à un pèse-personne domestique.

Lors de l'utilisation d'un pèse-personne, il est raisonnable de supposer que les lectures seront normalement distribuées autour du poids réel de la personne pesée. Cependant, ces lectures ne sont pas censées être parfaitement précises et peuvent varier légèrement à la hausse ou à la baisse. Dans cet exemple, supposons que nous ayons accès à des informations sur l'écart type de la population de l'échelle, qui est de 1,2 livre.

Notre principal intérêt réside dans la construction d'un intervalle de confiance pour le poids réel de la personne pesée, que nous noterons μ. Pour ce faire, nous allons peser à plusieurs reprises une personne sur la balance, calculer la moyenne de l'échantillon de ces pesées et utiliser la formule μ = x-bar ± z-star * σ / √n. Ici, x-bar représente la moyenne de l'échantillon, n est la taille de l'échantillon, σ est l'écart-type de la population et z-star est la valeur z critique correspondant au niveau de confiance souhaité (C).

Pour rendre notre exemple plus précis, disons que nous pesons cinq fois un statisticien sur la balance et obtenons un poids moyen de 153,2 livres. Cela sert de moyenne à notre échantillon. Maintenant, nous voulons construire un intervalle de confiance à 90 % pour le vrai poids du statisticien, en supposant un écart type de 1,2 livre pour l'échelle. En substituant ces valeurs dans la formule, nous constatons que l'estimation de l'intervalle est de 153,2 ± 0,88 livres.

Puisque nous avons choisi un niveau de confiance de 90 %, nous pouvons nous attendre à ce que cet intervalle capte le véritable poids du statisticien dans environ 90 % des cas.

Examinons maintenant la structure de la marge d'erreur. La marge d'erreur suit la formule z-star * σ / √n, où il y a trois composantes clés : la valeur critique z-star (liée au niveau de confiance), l'écart-type de la population σ (reflétant la propagation dans la population) , et la taille de l'échantillon n.

En modifiant l'un de ces trois composants, nous pouvons avoir un impact prévisible sur la taille de la marge d'erreur. Si nous augmentons le niveau de confiance, la marge d'erreur augmentera également puisque la valeur z-star correspondante sera plus grande. De même, l'augmentation de l'écart-type de la population σ entraînera une plus grande marge d'erreur car il y a plus de variabilité dans les données, ce qui rend la moyenne de l'échantillon moins fiable. D'autre part, l'augmentation de la taille de l'échantillon n réduira la marge d'erreur car la moyenne de l'échantillon devient un indicateur plus précis de la moyenne de la population.

Pour illustrer ces effets, reprenons notre exemple d'intervalle de confiance à 90 % avec un écart type de 1,2 livre et une taille d'échantillon de 5. Si nous augmentons le niveau de confiance à 95 %, la valeur z-star devient 1,960, ce qui donne une marge plus grande. d'erreur de 1,05 livre. Si nous revenons à un niveau de confiance de 90 % mais que nous augmentons l'écart type à 1,5 livre, la marge d'erreur passe à 1,1 livre. Enfin, si nous maintenons l'écart type à 1,2 livre mais doublons la taille de l'échantillon à 10, la marge d'erreur diminue à 0,62 livre, indiquant un intervalle de confiance plus étroit.

Il est important de noter que si la modification du niveau de confiance et de la taille de l'échantillon sont des ajustements pratiques, la modification de l'écart type est généralement hors de notre contrôle, car elle reflète la variabilité inhérente de la population.

En conclusion, les intervalles de confiance fournissent une gamme de valeurs plausibles pour le paramètre de population d'intérêt. La marge d'erreur, influencée par le niveau de confiance, l'écart-type de la population et la taille de l'échantillon, nous aide à comprendre la précision et la fiabilité de nos estimations. L'augmentation du niveau de confiance élargit l'intervalle pour fournir un niveau de confiance plus élevé dans la capture du vrai paramètre. Un écart-type de population plus grand entraîne un intervalle plus large en raison de la variabilité accrue des données. À l'inverse, l'augmentation de la taille de l'échantillon réduit l'intervalle car elle fournit plus d'informations et améliore la précision de l'estimation.

Dans l'exemple dont nous avons discuté, deux changements réalistes peuvent être apportés : ajuster le niveau de confiance et modifier la taille de l'échantillon. Ces changements nous permettent de contrôler le niveau de certitude et la quantité de données utilisées pour l'estimation. Cependant, l'écart type de l'échelle n'est pas sous notre contrôle, ce qui la rend moins réaliste à modifier.

Comprendre les facteurs influençant la marge d'erreur et les intervalles de confiance est crucial pour interpréter les résultats statistiques. Cela nous permet de prendre des décisions éclairées et de tirer des conclusions significatives basées sur la précision et la fiabilité de nos estimations.

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...
Raison: