Tutoriels de programmation - page 16

 

Test d'hypothèse : exemple


Test d'hypothèse : exemple

Aujourd'hui, nous allons passer en revue un exemple de test d'hypothèse pour la moyenne. Avant de plonger dans l'exemple spécifique, passons en revue la procédure générale. Cela commence toujours par la mise en place d'hypothèses, y compris l'hypothèse nulle, qui représente l'idée contre laquelle nous voulons rassembler des preuves, et l'hypothèse alternative, que nous cherchons à soutenir. En supposant que l'hypothèse nulle est vraie, nous examinons où se situe notre moyenne d'échantillon (barre X) parmi toutes les moyennes d'échantillon possibles sous cette hypothèse.

Pour ce faire, nous calculons un z-score, qui mesure l'écart de notre résultat dans le cadre de l'hypothèse nulle. Pour une hypothèse alternative unilatérale testant si la moyenne de la population (μ) est inférieure ou supérieure à une valeur spécifique, nous calculons la probabilité d'obtenir un score z inférieur ou égal à celui que nous avons obtenu. Pour une hypothèse alternative bilatérale, nous calculons l'une ou l'autre des probabilités, puis la doublons de manière appropriée.

Dans la représentation la plus formelle, nous trouvons la probabilité d'obtenir un score z inférieur ou égal à la valeur absolue négative de notre score z obtenu. En utilisant la fonction de distribution cumulative, nous tenons compte à la fois des queues gauche et droite. Une fois que nous avons la valeur de p, nous la comparons au niveau de signification choisi (alpha). Si la valeur de p est inférieure à alpha, nous rejetons l'hypothèse nulle et concluons que l'hypothèse alternative est supportée.

Maintenant, appliquons cela à un exemple réel. Un groupe de défense des consommateurs teste la teneur en vitamine C d'un supplément biologique, qui prétend avoir une moyenne de 1000 milligrammes de vitamine C par comprimé. Avec une taille d'échantillon de 32, ils trouvent une moyenne d'échantillon de 1008,9 milligrammes. L'écart type de la population (σ) est de 21 milligrammes. Notre tâche est de déterminer s'il existe suffisamment de preuves pour rejeter l'allégation du produit. Le seuil de signification (alpha) est fixé à 0,05.

En suivant la procédure générale, nous commençons par établir les hypothèses. L'hypothèse nulle est que l'allégation du produit d'une teneur moyenne en vitamine C de 1000 milligrammes est vraie, tandis que l'hypothèse alternative est que la vraie moyenne diffère de 1000 milligrammes. Comme il n'y a pas d'indication spécifique pour ne considérer que les valeurs inférieures ou supérieures à 1000, nous optons pour une hypothèse alternative bilatérale.

Ensuite, nous calculons le score z à l'aide de la formule (moyenne de l'échantillon - valeur attendue) / (écart type de la moyenne de l'échantillon). En supposant l'hypothèse nulle, nous utilisons une valeur moyenne de 1000 milligrammes et calculons l'écart type de la moyenne de l'échantillon sous la forme σ / √n, où n est la taille de l'échantillon. Par conséquent, le score z est de 2,39, ce qui indique que la moyenne de notre échantillon de 1008,9 milligrammes s'écarte de 2,39 écarts-types de la moyenne attendue sous l'hypothèse nulle.

Pour déterminer la valeur p, nous devons trouver la probabilité d'obtenir un score z aussi extrême que celui que nous avons (positif ou négatif). Dans ce cas, nous calculons P(Z ≤ -2,39), ce qui donne 0,0084. Comme il s'agit d'un test bilatéral, nous doublons la probabilité d'obtenir 0,0168.

En comparant la valeur de p au niveau de signification, nous constatons que 0,0168 est en effet inférieur à 0,05. Par conséquent, nous avons suffisamment de preuves pour rejeter l'hypothèse nulle et conclure que le supplément ne contient pas en moyenne 1000 milligrammes de vitamine C.

Hypothesis Testing: Example
Hypothesis Testing: Example
  • 2020.03.25
  • www.youtube.com
Another example of a two-sided hypothesis test for the mean when the population standard deviation is known. If this vid helps you, please help me a tiny bit...
 

Erreurs de type I et de type II dans les tests de signification


Erreurs de type I et de type II dans les tests de signification

Aujourd'hui, nous discuterons des situations où les tests de signification ne se déroulent pas comme prévu. Couvrons tout cela en seulement trois minutes. Commençons.

Dans les tests d'hypothèses, nous rencontrons deux états possibles pour H nul (l'hypothèse nulle) : il peut être vrai ou faux. A la fin du test, nous avons deux décisions potentielles : soit rejeter H rien, soit ne pas le rejeter. Cela nous donne un total de quatre résultats possibles. On peut examiner les combinaisons de ces deux décisions. J'ai un tableau résumant ces résultats, et deux d'entre eux nous apportent satisfaction : rejeter H rien quand c'est faux et ne pas rejeter H rien quand c'est vrai. Cependant, il existe deux situations qui ne sont pas souhaitables.

En approfondissant ce sujet, il est important de noter que nous n'avons généralement pas d'informations préalables pour savoir si H naught est vrai ou faux au début. Si nous obtenons de telles informations, elles arrivent généralement beaucoup plus tard. Maintenant, discutons des deux résultats défavorables. La première est appelée erreur de type 1 ou faux positif. Cela se produit lorsque nous rejetons l'hypothèse nulle alors qu'elle est vraie. Cela se produit lorsqu'un événement aléatoire se produit et que nous l'interprétons à tort comme significatif. La deuxième situation est une erreur de type 2 ou un faux négatif. Cela se produit lorsque nous ne parvenons pas à rejeter l'hypothèse nulle, même si elle est en fait fausse. Dans ce cas, il se passe quelque chose d'important, mais notre test ne parvient pas à le détecter.

Les termes « faux positif » et « faux négatif » proviennent des tests médicaux, où le cadre logique est similaire aux tests de signification. Dans les tests médicaux, vous pourriez tester une maladie, et le test peut indiquer sa présence ou son absence. Les erreurs globales de type 1 et de type 2 sont résumées dans le tableau fourni, mettant en évidence les résultats souhaités par des coches.

Passons rapidement en revue quelques exemples. Supposons qu'un fabricant de tablettes de chocolat affirme qu'en moyenne, ses tablettes pèsent 350 grammes. Je soupçonne qu'ils pourraient surestimer, alors je rassemble un échantillon et rejette leur affirmation avec une valeur p de 0,0089. Cependant, si l'affirmation du fabricant était vraie et que leurs barres avaient un poids moyen de 350 grammes, j'aurais commis une erreur de type 1 ou un faux positif.

Voici un autre exemple : Un restaurant affirme que la teneur moyenne en sodium d'un de ses sandwichs est de 920 milligrammes. J'analyse un échantillon mais je trouve des preuves insuffisantes pour rejeter l'allégation avec un niveau alpha de 0,01. Si l'allégation du restaurant avait été fausse, disons que la teneur moyenne en sodium était en fait de 950 milligrammes, j'aurais commis une erreur de type 2 en ne rejetant pas l'allégation.

Type I and Type II Errors in Significance Tests
Type I and Type II Errors in Significance Tests
  • 2020.03.28
  • www.youtube.com
When hypothesis testing goes wrong, explained in under three minutes.
 

Test d'hypothèse à l'aide de régions critiques


Test d'hypothèse à l'aide de régions critiques

Bonjour à tous, aujourd'hui, nous allons discuter des tests d'hypothèses à l'aide de régions critiques. Bien que cette approche puisse être considérée comme de la vieille école, elle est toujours pertinente dans la théorie que nous allons couvrir. Par conséquent, il est avantageux d'en avoir une compréhension de base.

Dans le passé, le calcul des valeurs de p était plus difficile qu'il ne l'est aujourd'hui. Cela impliquait de s'appuyer sur des tableaux pour les calculs, tels que ceux de la distribution normale, qui avaient une précision limitée et des entrées finies. Pour minimiser la nécessité de ces calculs, le concept de régions critiques ou de régions de rejet était couramment utilisé.

Aujourd'hui, le processus typique de test d'hypothèse consiste à calculer une valeur p basée sur des données d'échantillon et à la comparer au niveau de signification (alpha) choisi. Cependant, avec les régions critiques, nous renversons ce processus. Nous commençons par sélectionner un niveau de signification (alpha), qui définit ensuite une valeur seuil pour la statistique de test, notée Z-star ou T-star. Si les données de l'échantillon donnent une statistique d'échantillon plus extrême que cette valeur seuil, cela nous amène à rejeter l'hypothèse nulle.

Prenons un exemple pour illustrer cela. Supposons que nous ayons une hypothèse alternative bilatérale et que nous effectuions un test avec une distribution normale et un niveau de signification d'alpha égal à 0,05. Dans ce cas, alpha égal à 0,05 correspond à une zone grisée de 0,05 dans la distribution (0,025 de chaque côté). En effectuant un calcul normal inverse (en utilisant la commande Q norm in R), nous trouvons la valeur critique Z-star égale à 1,96. Par conséquent, si la statistique de l'échantillon (étoile Z) est supérieure à 1,96 (valeur absolue), cela indique que nous devons rejeter l'hypothèse nulle.

Pour un autre exemple, considérons une distribution t avec 8 degrés de liberté et une alternative unilatérale (alternative du côté droit). Supposons que nous choisissions alpha égal à 0,01 comme niveau de signification. Dans ce cas, il y a une zone de 0,01 à droite de T-star, correspondant à une zone de 0,99 à gauche. En utilisant un t CDF inverse (en utilisant la commande QT) avec les valeurs 0,99 et 8 dans R, nous trouvons que T-star est d'environ 2,9. Si la statistique t de l'échantillon est supérieure à 2,9, elle se situe dans la région ombrée, ce qui nous amène à rejeter l'hypothèse nulle.

Dans le cas de la distribution normale, nous pouvons traduire la valeur Z critique en une déclaration sur une moyenne d'échantillon critique. Prenons l'exemple suivant : le contenu des canettes d'une certaine marque de Cola est normalement distribué avec un écart type de 0,2 once. Nous souhaitons utiliser un échantillon de taille 15 pour tester l'hypothèse nulle selon laquelle le contenu moyen des canettes est de 12 onces contre une hypothèse alternative selon laquelle ils sont en fait inférieurs à 12 onces. Avec une alternative unilatérale et alpha égal à 0,05, la valeur Z critique est de -1,645. Ainsi, si la moyenne de l'échantillon (barre X) est inférieure de plus de 1,645 écart-type à la moyenne, nous devrions rejeter l'hypothèse nulle. Plus précisément, si la moyenne de l'échantillon est inférieure à 11,92 onces, nous rejetons l'hypothèse nulle.

Hypothesis testing using critical regions
Hypothesis testing using critical regions
  • 2020.03.29
  • www.youtube.com
A formerly very practical idea, now mostly of theoretical interest. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more ...
 

Test d'hypothèse avec la distribution t


Test d'hypothèse avec la distribution t

Bonjour à tous, aujourd'hui, nous allons discuter des tests d'hypothèses à l'aide de la distribution t. Dans ce scénario, nous avons affaire à des situations où l'écart-type de la population est inconnu. Auparavant, nous effectuions des tests d'hypothèse à l'aide des statistiques Z, en supposant que nous connaissions l'écart type de la population (Sigma). Cependant, dans l'inférence statistique, l'objectif est d'utiliser des informations d'échantillon pour obtenir des informations sur la population, il est donc courant de ne pas connaître Sigma. Dans de tels cas, nous estimons l'écart-type de la population à l'aide du ou des écart-types de l'échantillon et procédons à des calculs similaires.

Le défi survient parce que, lorsque Sigma est remplacé par s, l'expression (X-bar - mu)/(s/sqrt(n)) ne suit plus une distribution normale. La barre X et s varient avec chaque nouvel échantillon, ce qui fait que la distribution suit une distribution t avec (n-1) degrés de liberté. Heureusement, une fois cet ajustement pris en compte, les calculs restent largement les mêmes.

Pour effectuer un test d'hypothèse lorsque Sigma est inconnu, nous commençons par les hypothèses nulle et alternative. En supposant que l'hypothèse nulle est vraie, nous calculons la statistique t pour les données d'échantillon réelles : (X-bar - mu_naught)/(s/sqrt(n)). Nous calculons ensuite les valeurs de p sur la base de l'hypothèse alternative.

Pour une hypothèse alternative du côté gauche, où nous soupçonnons que mu est inférieur à une valeur donnée, nous trouvons la probabilité d'obtenir une valeur de t inférieure ou égale à celle que nous avons obtenue lorsque l'hypothèse nulle est vraie. Cela correspond à la zone ombrée de la première image.

De même, pour une hypothèse alternative du côté droit, où mu est supérieur à une valeur donnée, nous déterminons la probabilité d'obtenir une valeur de t supérieure à celle que nous avons obtenue. Cela correspond à la zone à droite de la valeur t.

Dans le cas d'un test bilatéral, on considère les deux domaines. Nous calculons la probabilité d'obtenir une valeur de t plus grande (en valeur absolue) que celle que nous avons obtenue, puis la doublons.

Une fois que nous avons la valeur p, nous la comparons au niveau de signification choisi (alpha) pour prendre une décision. Si la valeur de p est inférieure à alpha, nous rejetons l'hypothèse nulle. Cependant, lorsque vous effectuez des calculs manuellement, l'obtention de la valeur t à partir des données d'échantillon peut être délicate. L'utilisation de la technologie, comme les logiciels statistiques ou les calculatrices, est recommandée. Dans R, par exemple, la commande PT(t, n-1) calcule l'aire à gauche d'une valeur t donnée dans une distribution t avec (n-1) degrés de liberté.

Prenons un exemple pour illustrer ce processus. Supposons que nous ayons les pertes de poids de sept souris au cours d'une expérience. Nous voulons déterminer s'il existe suffisamment de preuves pour conclure que les souris perdent du poids au cours de l'expérience, avec un niveau de signification d'alpha égal à 0,05. Comme on ne nous donne pas l'écart-type de la population, nous avons affaire à une situation de test t.

Pour commencer le test, nous posons l'hypothèse nulle, en supposant que les données sont dues au hasard, et l'hypothèse alternative, qui affirme que les souris perdent du poids en moyenne au cours de l'expérience. Dans ce cas, nous choisissons une hypothèse alternative unilatérale, se concentrant sur la perte de poids plutôt que sur le gain de poids.

Ensuite, nous calculons la statistique t en utilisant la moyenne de l'échantillon et l'écart type de l'échantillon. Avec la valeur t obtenue, nous calculons la valeur p, qui représente la probabilité d'obtenir une valeur t supérieure ou égale à la valeur observée par hasard seul.

Pour évaluer cette probabilité, nous nous référons à une distribution t à (n-1) degrés de liberté. Nous calculons la zone à droite de la valeur t en soustrayant la zone à gauche de 1. Dans R, cela peut être fait en utilisant la fonction PT. Si la valeur de p est supérieure au niveau de signification choisi (alpha), nous ne rejetons pas l'hypothèse nulle.

Dans notre exemple, la valeur p calculée est de 0,059. Étant donné que 0,059 est supérieur au niveau de signification de 0,05, nous n'avons pas suffisamment de preuves pour rejeter l'hypothèse nulle. Par conséquent, nous ne pouvons pas conclure que l'expérience fait perdre du poids aux souris en moyenne.

Il est important de noter que le fait de ne pas rejeter l'hypothèse nulle ne signifie pas que l'hypothèse nulle est vraie. Cela signifie simplement que les preuves ne sont pas suffisamment solides pour étayer l'hypothèse alternative.

En résumé, lorsqu'il s'agit de tests d'hypothèses et que l'écart type de la population est inconnu, nous pouvons utiliser la distribution t et estimer l'écart type à l'aide de l'écart type de l'échantillon. Nous calculons ensuite la statistique t, calculons la valeur p en fonction de l'hypothèse alternative et la comparons au niveau de signification pour prendre une décision. L'utilisation de logiciels ou de tableaux statistiques peut simplifier les calculs et fournir des résultats plus précis.

Hypothesis Testing with the t-Distribution
Hypothesis Testing with the t-Distribution
  • 2020.04.04
  • www.youtube.com
How can we run a significance test when the population standard deviation is unknown? Simple: use the sample standard deviation as an estimate. If this vid h...
 

Test de signification avec la distribution t : exemple


Test de signification avec la distribution t : exemple

Salut tout le monde, aujourd'hui, j'aimerais vous présenter un autre exemple de test d'hypothèse utilisant la distribution t. Cet exemple se concentre sur les taux d'absorption de carbone dans une espèce de graminée spécifique. La sagesse conventionnelle suggère que le taux d'absorption moyen est de 34,0 micromoles par mètre carré par seconde. Cependant, un groupe de chercheurs a des doutes. Ils ont mené une étude et obtenu une moyenne d'échantillon de 30,6 avec un écart type d'échantillon de 9,7. Maintenant, à un niveau de signification de 0,05, ils veulent déterminer si ces données fournissent des preuves solides contre la sagesse conventionnelle.

Comme pour tout test de signification, commençons par énoncer explicitement nos hypothèses. L'hypothèse nulle, que nous visons à contester, suppose que nos données d'échantillon sont simplement le résultat d'un hasard aléatoire, et la sagesse conventionnelle est vraie. D'autre part, l'hypothèse alternative cherche à établir la possibilité que le véritable taux moyen d'absorption soit supérieur ou inférieur à 34,0. Dans ce cas, nous considérerons une hypothèse alternative bilatérale pour englober les deux scénarios.

Ensuite, nous voulons évaluer à quel point la moyenne de notre échantillon (barre x) est extrême par rapport à ce à quoi nous nous attendrions sous l'hypothèse nulle. Nous calculons la statistique de test (T) en soustrayant la moyenne attendue sous l'hypothèse nulle (mu-naught) de la moyenne de l'échantillon et en la divisant par l'écart type de l'échantillon (s) divisé par la racine carrée de la taille de l'échantillon (n). Ce calcul donne T = -2,27.

Pour déterminer la probabilité d'obtenir une statistique de test aussi extrême que -2,27 en raison du seul hasard, nous devons considérer les deux côtés de la distribution. Nous calculons la zone ombrée combinée à gauche et à droite de -2,27, ce qui nous donne la valeur p du test. Dans R, nous pouvons utiliser la commande PT pour calculer la zone la plus à gauche, qui représente la probabilité que T soit inférieur à -2,27. Ensuite, nous doublons cette aire pour tenir compte des deux côtés de la distribution.

Après avoir appliqué la commande PT dans R avec -2,27 et des degrés de liberté (df) égaux à la taille de l'échantillon moins un (41), nous constatons que la zone ombrée de gauche est de 0,029. Le doublement de cette valeur nous donne la surface ombrée totale, qui correspond à la valeur p du test.

La valeur de p calculée est de 0,029, ce qui est inférieur à notre niveau de signification (alpha) de 0,05. Par conséquent, nous rejetons l'hypothèse nulle et concluons que le taux moyen d'absorption de dioxyde de carbone chez cette espèce de graminées n'est pas en réalité de 34,0 micromoles par mètre carré par seconde.

En conclusion, le test d'hypothèse à l'aide de la distribution t nous permet d'évaluer la force de la preuve par rapport à l'hypothèse nulle lorsque l'écart type de la population est inconnu. En calculant la statistique de test, en la comparant à la valeur critique (niveau de signification) et en calculant la valeur p, nous pouvons prendre des décisions éclairées concernant la validité de l'hypothèse nulle.

Significance Testing with the t-Distribution: Example
Significance Testing with the t-Distribution: Example
  • 2020.04.07
  • www.youtube.com
A two-sided test with unknown population standard deviation. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stats j...
 

Test d'hypothèse en R


Test d'hypothèse en R

Bonjour à tous! Aujourd'hui, nous allons effectuer des tests d'hypothèses dans R à l'aide de la commande t.test. Nous travaillerons sur quelques problèmes liés à l'ensemble de données intégré sur la qualité de l'air, que nous considérerons comme un simple échantillon aléatoire de mesures de la qualité de l'air à New York.

Passons à R, où j'ai déjà chargé le package tidyverse, ce que je fais habituellement au début de mes sessions R. J'ai également extrait le fichier d'aide de l'ensemble de données sur la qualité de l'air. Cet ensemble de données a été collecté en 1973, il ne s'agit donc pas des données les plus récentes. Nous pouvons utiliser la commande view pour jeter un œil à l'ensemble de données. Il se compose de 153 observations sur six variables, dont le vent et le rayonnement solaire, les deux variables qui nous intéressent.

Avant d'effectuer des tests statistiques, il est recommandé de visualiser les données. Créons donc un histogramme à l'aide de la commande qplot. Nous allons nous concentrer sur la variable de vent et préciser que nous voulons un histogramme.

Passons maintenant au problème un. Un responsable affirme que la vitesse moyenne du vent dans la ville est de neuf milles à l'heure. Nous voulons déterminer si cette affirmation est plausible sur la base des données. Nous utiliserons un test t avec l'hypothèse nulle que la vitesse moyenne du vent est de neuf milles à l'heure. En regardant l'histogramme, cela semble plausible, bien que légèrement centré à droite de cette valeur. Nous allons effectuer le test t à l'aide de la commande t.test. Nous lui passons la variable de vent et spécifions l'hypothèse nulle comme mu = 9. Par défaut, R suppose une hypothèse alternative bilatérale. La commande t.test nous fournit la moyenne de l'échantillon, la statistique t et la valeur p. La moyenne de l'échantillon est de 9,96 et la statistique t calculée est de 3,36, ce qui correspond à une valeur de p inférieure à 0,1. Avec une si petite valeur de p, il n'est pas plausible que ces données s'écartent de manière significative de l'hypothèse nulle en raison du seul hasard. Par conséquent, nous rejetons l'hypothèse nulle et concluons que la vitesse moyenne du vent à New York n'est pas de neuf milles à l'heure.

Passant au problème deux, nous voulons évaluer si un certain panneau solaire serait rentable si le rayonnement solaire moyen est supérieur à 175 langley. Nous utiliserons une hypothèse alternative unilatérale, où l'hypothèse nulle est que le rayonnement solaire moyen est de 175 Langley, et l'hypothèse alternative est qu'il est supérieur. Nous allons visualiser les données en créant un histogramme de la variable de rayonnement solaire. Encore une fois, l'hypothèse nulle semble plausible sur la base de l'histogramme. Nous allons effectuer le test t en utilisant la commande t.test, en passant la variable de rayonnement solaire et en spécifiant l'hypothèse nulle comme mu = 175. De plus, nous devons indiquer l'hypothèse alternative unilatérale en utilisant l'argument alternative = "plus grand" . La commande t.test nous fournit la moyenne de l'échantillon, la statistique t et la valeur p. La moyenne de l'échantillon est de 185,9 et la statistique t calculée est de 1,47, ce qui donne une valeur de p de 0,07. Avec une valeur p de 0,07, nous n'avons pas de preuves convaincantes pour étayer l'affirmation selon laquelle le rayonnement solaire moyen à New York est supérieur à 175 langley, ce qui est le seuil pour justifier l'achat du panneau solaire. Par conséquent, nous devons nous abstenir de tirer des conclusions et des études supplémentaires sont nécessaires pour évaluer avec précision le rayonnement solaire moyen.

En résumé, les tests d'hypothèses à l'aide du test t nous permettent d'évaluer la plausibilité des affirmations ou des hypothèses sur la base de données d'échantillon. En spécifiant les hypothèses nulles et alternatives, en effectuant le test et en examinant la valeur p résultante, nous pouvons prendre des décisions éclairées sur l'acceptation ou le rejet des hypothèses. La visualisation des données par le biais d'histogrammes ou d'autres graphiques peut fournir des informations supplémentaires lors de l'analyse.

Hypothesis testing in R
Hypothesis testing in R
  • 2022.03.30
  • www.youtube.com
Hypothesis testing in R is easy with the t.test command!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy,...
 

Test d'hypothèse pour les proportions


Test d'hypothèse pour les proportions

Bonjour à tous! Aujourd'hui, nous poursuivrons notre exploration des tests d'hypothèses, en nous concentrant cette fois sur les proportions. Nous aborderons ce sujet en examinant un exemple pour comprendre les concepts clés impliqués.

Allons droit au but. Un commentateur affirme que 30 % des enfants de six ans aux États-Unis souffrent d'une carence en zinc. Nous voulons évaluer cette affirmation en collectant un échantillon et en effectuant un test d'hypothèse à un niveau de signification de α = 0,05. Pour approfondir nos recherches, nous recueillons des données en interrogeant 36 enfants de six ans et constatons que 5 d'entre eux ont des carences en zinc, soit moins de 30 %. Cependant, nous devons déterminer si cette différence peut être attribuée au seul hasard. Notre principale question est la suivante : dans quelle mesure est-il peu probable d'obtenir un échantillon comme celui-ci ?

Pour répondre à cette question, nous comparons la proportion d'échantillon (P-hat) que nous avons obtenue (5 sur 36) avec la proportion revendiquée sous l'hypothèse nulle. Désignons la proportion de la population par P₀ ou P-naught. Notre hypothèse nulle suppose que la proportion de la population est de 0,30 (30 %). L'hypothèse alternative, dans ce cas, est simplement que la proportion de la population n'est pas égale à 0,30. Nous n'avons pas de raison particulière de supposer qu'il est supérieur ou inférieur à 30 %, nous envisageons donc les deux possibilités. Par défaut, nous optons pour une alternative bilatérale à moins qu'il y ait une raison impérieuse pour une alternative unilatérale.

La proportion d'échantillon (P-hat) que nous avons calculée est de 0,139, nettement inférieure à 30 %. Mais cette différence est-elle statistiquement significative ? Pour évaluer cela, nous analysons la distribution d'échantillonnage de P-hat. Nous imaginons obtenir des échantillons de la même taille à plusieurs reprises et calculer à chaque fois la proportion de carences en zinc. En supposant que la taille de l'échantillon (n) est grande (ce qui est le cas ici avec n = 36), la distribution d'échantillonnage aura une courbe en forme de cloche. Nous pouvons déterminer son centre et sa propagation. La moyenne de la proportion de l'échantillon (P-hat) sera la même que la proportion de la population (P), tandis que l'écart type de P-hat sera la racine carrée de P(1-P)/n. Si vous avez besoin d'une explication plus détaillée, je vous recommande de regarder ma vidéo sur les intervalles de confiance pour les proportions.

Maintenant que nous savons que la distribution d'échantillonnage suit une courbe en forme de cloche avec une moyenne et un écart type connus, nous pouvons calculer un score z. Nous calculons la différence entre la valeur observée (P-hat) et la valeur attendue (P-naught) et la divisons par l'écart type. Le branchement des valeurs (P-hat = 0,139, P-naught = 0,30, n = 36) donne un score z de -2,11.

Pour évaluer la probabilité d'obtenir un P-hat aussi extrême que celui que nous avons observé (voire plus extrême), nous examinons les z-scores correspondants. Dans ce cas, nous nous intéressons à la probabilité d'obtenir un z-score inférieur à -2,11 ou supérieur à 2,11. Nous pouvons calculer cela en évaluant la fonction de distribution cumulative (CDF) de la distribution normale standard. En utilisant des logiciels statistiques ou des applications Web, nous constatons que la probabilité d'obtenir un score z inférieur à -2,11 est d'environ 0,017. Cependant, puisque nous considérons les deux queues de la distribution, nous devons doubler cette valeur, ce qui donne une valeur de p d'environ 0,035.

En comparant la valeur de p à notre niveau de signification choisi (α = 0,05), nous constatons que la valeur de p est inférieure à α. Par conséquent, nous rejetons l'hypothèse nulle et concluons que l'affirmation du commentateur est probablement fausse. La proportion d'enfants de six ans aux États-Unis présentant des carences en zinc n'est pas de 30 %.

En ce qui concerne la taille de l'échantillon et l'approximation normale, il y a quelques règles empiriques à garder à l'esprit. L'approximation normale a tendance à bien fonctionner lorsque l'échantillon a au moins cinq succès et cinq échecs. Mathématiquement parlant, cela signifie que le produit de la taille de l'échantillon (n) et de la proportion de l'échantillon (P) doit être supérieur ou égal à cinq, ainsi que le produit de la taille de l'échantillon (n) et du complément de la proportion de l'échantillon (1-P) doit également être supérieur ou égal à cinq.

Dans notre cas, nous avions une taille d'échantillon de 36 et une proportion d'échantillon (P-hat) de 0,139, ce qui satisfait aux conditions de l'approximation normale. Par conséquent, nous pouvons nous fier en toute confiance à la distribution normale pour notre inférence statistique.

Il convient également de noter qu'en général, les tailles d'échantillon plus grandes ont tendance à donner de meilleurs résultats avec l'approximation normale. À mesure que la taille de l'échantillon augmente, la distribution normale devient une représentation plus précise de la distribution d'échantillonnage de P-hat.

Donc, en résumé, nous pouvons conclure que la taille de l'échantillon de 36 dans notre exemple est suffisamment grande pour que nous puissions utiliser l'approximation normale dans nos tests d'hypothèses.

J'espère que cela clarifie le rôle de la taille de l'échantillon dans l'approximation normale et fournit une explication complète du processus de test d'hypothèse pour les proportions.

Hypothesis Testing for Proportions
Hypothesis Testing for Proportions
  • 2020.05.09
  • www.youtube.com
How should we run a hypothesis test when we have data involving percentages, proportions, or fractions? Using a normal approximation. of course, at least whe...
 

Test d'hypothèse pour les proportions : exemple


Test d'hypothèse pour les proportions : exemple

Bonjour à tous! Aujourd'hui, nous allons travailler sur un exemple de test d'hypothèse pour les proportions. Plongeons dans le problème. Une université affirme que 65 % de ses étudiants obtiennent leur diplôme en quatre ans ou moins. Cependant, des doutes subsistent quant à l'exactitude de cette affirmation. Pour approfondir l'étude, un simple échantillon aléatoire de 120 étudiants est prélevé et il s'avère que seuls 68 des 120 étudiants ont obtenu leur diplôme dans le délai imparti. Comme cette proportion est inférieure aux 65% revendiqués, elle fournit une preuve contre l'affirmation de l'université. Maintenant, la question est de savoir si ces preuves sont suffisamment solides pour suggérer que l'allégation est peu probable ou si elle pourrait être attribuée au hasard. Pour le déterminer, nous allons calculer une valeur de p et prendre une décision en utilisant un niveau de signification (α) de 0,05.

Premièrement, nous devons formuler les hypothèses nulle et alternative. L'hypothèse nulle stipule que les résultats sont uniquement dus au hasard et que la véritable proportion d'étudiants diplômés en quatre ans ou moins est en effet de 0,65. D'autre part, l'hypothèse alternative suggère que l'université surestime son taux de diplomation et que la proportion de la population est inférieure à 0,65. Dans ce cas, une hypothèse alternative unilatérale est appropriée puisque nous nous intéressons uniquement à la possibilité que le taux de diplomation soit inférieur à 65 %.

En supposant que l'hypothèse nulle est vraie, nous pouvons appliquer le théorème central limite, qui stipule que lorsque la taille de l'échantillon (n) est suffisamment grande, la distribution d'échantillonnage de la proportion (P-hat) sera approximativement normale. La moyenne de cette distribution est égale à la moyenne de la population (P) et l'écart type est donné par la racine carrée de P fois 1 moins P divisé par n. Dans notre cas, puisque nous avons supposé que l'hypothèse nulle est vraie, la proportion de la population (P) est de 0,65.

Maintenant, calculons le score z pour déterminer la probabilité d'obtenir un résultat aussi extrême ou plus extrême que la proportion observée par hasard seul. En branchant les valeurs, on trouve un z-score de -1,91. Pour trouver la probabilité associée à ce z-score, qui représente la probabilité d'obtenir une proportion inférieure ou égale à celle observée, nous utilisons la fonction de distribution cumulative normale (CDF). Cela peut être fait à l'aide de divers outils tels que des tableaux, des applications Web ou des logiciels statistiques. Par exemple, dans R, la commande "Pnorm(-1.91)" donne une valeur de 0.028.

En comparant cette p-value avec le niveau de signification (α) de 0,05, nous observons que la p-value est inférieure à α. Par conséquent, nous rejetons l'hypothèse nulle, ce qui indique qu'il est raisonnable de conclure que l'université a surestimé son taux de diplomation sur quatre ans.

Hypothesis Testing for Proportions: Example
Hypothesis Testing for Proportions: Example
  • 2020.05.10
  • www.youtube.com
A complete example of a hypothesis test for a proportion using the normal approximation.
 

Introduction aux nuages de points


Introduction aux nuages de points

Bonjour à tous! Aujourd'hui, nous allons nous plonger dans les nuages de points, qui sont des affichages visuels de données impliquant plusieurs variables collectées simultanément. Les diagrammes de dispersion sont cruciaux car ils surviennent fréquemment dans les scénarios de collecte de données du monde réel. Souvent, nous recueillons plus d'une information. Par exemple, nous pourrions avoir des scores mathématiques et verbaux SAT pour un groupe d'étudiants, des tailles et des poids d'individus dans une étude médicale, ou des données sur la taille du moteur et la consommation d'essence pour diverses voitures. Dans chaque cas, les données sont appariées, ce qui signifie que chaque valeur d'une variable correspond à une valeur spécifique de l'autre variable, créant une relation un à un. Lorsque de telles données appariées existent, nous pouvons construire des nuages de points.

Prenons un exemple utilisant une table. Chaque colonne du tableau représente un domaine scientifique ou technique, le nombre en haut indiquant le nombre de doctorats décernés à des femmes dans ce domaine en 2005, et le nombre en bas indiquant le nombre de doctorats décernés à des hommes la même année. En traçant ces données, où les doctorats féminins sont représentés par les valeurs x et les doctorats masculins par les valeurs y, nous obtenons un ensemble de points. Certains points sont étiquetés, comme (2168, 2227), qui correspond à la deuxième colonne de données du tableau. Il représente un domaine scientifique où 2168 doctorats ont été décernés à des femmes et 2227 ont été décernés à des hommes en 2005.

Lors de l'examen des nuages de points, il est utile de les décrire qualitativement. Dans cet exemple, nous observons une tendance générale à la baisse dans les données, bien qu'il existe des cas où les valeurs augmentent lorsque nous nous déplaçons de gauche à droite. Dans l'ensemble, la forme des données a tendance à descendre, indiquant une association négative entre les deux variables. Cependant, il est important de noter que nous devons nous abstenir d'utiliser le terme « corrélation négative » à moins que l'association ne soit linéaire, ce qui signifie que le graphique suit une ligne droite. Dans ce cas, les données ne présentent pas de relation linéaire.

Un autre aspect remarquable de ce graphique est la valeur aberrante dans le coin supérieur droit. Les valeurs aberrantes peuvent appartenir à diverses catégories, telles que les erreurs de saisie de données, les cas inhabituels qui ont un impact sur l'analyse ou les phénomènes intéressants qui nécessitent une enquête plus approfondie. Enfin, il est crucial de considérer quelle variable placer sur l'axe horizontal et laquelle sur l'axe vertical. Si une variable explique ou influence naturellement l'autre dans une étude, elle doit être placée sur l'axe horizontal en tant que variable explicative. Inversement, la variable expliquée ou influencée doit figurer sur l'axe vertical en tant que variable de réponse. Par exemple, dans l'exemple de la consommation d'essence, il est logique de considérer le kilométrage comme étant expliqué par la taille du moteur (déplacement), nous plaçons donc le kilométrage sur l'axe vertical. Cependant, ce choix peut impliquer une certaine subjectivité, et il peut y avoir des scénarios où les rôles sont inversés, selon le contexte de l'étude.

Introduction to Scatterplots
Introduction to Scatterplots
  • 2020.04.11
  • www.youtube.com
What is a scatterplot? How do we construct them? How do we describe them? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For...
 

Nuages de points et corrélation


Nuages de points et corrélation

Bonjour à tous! Aujourd'hui, nous allons fournir une brève introduction à la corrélation. Nous couvrirons ce sujet en seulement trois minutes. Commençons!

Lorsque nous examinons un nuage de points, nous observons parfois une relation linéaire où les données suivent à peu près une ligne droite. Dans de tels cas, nous pouvons discuter de la corrélation entre les variables. Cependant, il est important de résister à la tentation d'utiliser le terme « corrélation » lorsque les variables ont une relation autre que linéaire. Les corrélations peuvent être faibles ou fortes et peuvent être positives ou négatives.

Une corrélation positive indique que lorsque nous nous déplaçons de gauche à droite sur le graphique, la forme générale des points de données s'incline vers le haut. À l'inverse, une corrélation négative implique que la forme générale des points de données diminue lorsque nous lisons de gauche à droite. Les corrélations plus fortes sont caractérisées par des points de données se regroupant plus étroitement autour de la ligne imaginée, tandis que les corrélations plus faibles affichent des points de données plus dispersés.

Pour quantifier la corrélation, nous utilisons une statistique appelée le coefficient de corrélation (souvent noté « r »). Il est compris entre -1 et 1. Les valeurs proches de 0 indiquent des données plus troubles ou plus dispersées. Dans les exemples fournis, une corrélation de 0,4 ou -0,4 représente une corrélation modérée, tandis que 0,9 ou -0,9 signifie une corrélation plus forte. Une corrélation de 1 ou -1 indique une relation linéaire parfaite, où tous les points de données se trouvent précisément sur la ligne.

Il est important de noter que le coefficient de corrélation "r" ne doit pas être confondu avec la pente de la ligne. Le signe de "r" indique si la pente est positive ou négative, mais "r" lui-même ne représente pas spécifiquement la pente. Au lieu de cela, le coefficient de corrélation reflète l'étalement des données par rapport à la ligne supposée passer par le centre des données.

Lorsque les variables ne présentent pas de relation linéaire, on dit qu'elles ne sont pas corrélées. Soyez prudent lorsque vous interprétez le coefficient de corrélation dans de tels cas. Même s'il existe une association claire entre les variables, comme dans une forme parabolique, le calcul de la corrélation donnerait une valeur proche de zéro.

Parlons maintenant de la corrélation informatique. Bref, il est déconseillé de le calculer manuellement. Heureusement, nous avons des outils comme des progiciels pour nous aider. Dans R, par exemple, la commande est "cor". En fournissant les valeurs X et Y (les deux variables que nous voulons corréler), nous pouvons immédiatement obtenir le coefficient de corrélation. Avec le tableau donné, si nous attribuons la première ligne à X et la deuxième ligne à Y, nous pouvons simplement utiliser la commande "cor(X, Y)" pour obtenir la valeur de corrélation. Dans cet exemple, nous obtenons une corrélation de 0,787, indiquant une corrélation positive modérée.

Scatterplots and Correlation
Scatterplots and Correlation
  • 2020.04.14
  • www.youtube.com
Let's talk about relationships between quantitative variables!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstat...