Tutorial di programmazione - pagina 14

 

La distribuzione normale


La distribuzione normale

Oggi discuteremo le normali distribuzioni di probabilità e la regola empirica. Quando si ha a che fare con una variabile casuale continua, la sua curva di densità assume spesso la forma di una curva a campana. Questa curva a campana indica che la maggior parte della probabilità è concentrata vicino al centro, o media, della distribuzione. Tuttavia, in teoria, sono possibili risultati grandi o piccoli come puoi immaginare.

Le distribuzioni normali si incontrano comunemente negli scenari della vita reale. Ad esempio, se misuriamo le lunghezze di neonati selezionati a caso, osserviamo la velocità dei veicoli su un'autostrada aperta o esaminiamo i punteggi di studenti scelti a caso su test standardizzati, è probabile che tutte queste variabili casuali seguano distribuzioni approssimativamente normali. Le distribuzioni normali mostrano simmetria attorno alla media, il che significa che le probabilità di ottenere risultati inferiori alla media sono le stesse di ottenere risultati superiori alla media. Quindi, quando si considerano le lunghezze dei neonati, è ugualmente probabile che incontriamo bambini al di sopra o al di sotto della media.

Le caratteristiche di una distribuzione normale sono completamente descritte dalla sua media e varianza (o deviazione standard). La media rappresenta il centro della distribuzione, mentre la deviazione standard rappresenta la distanza dalla media ai punti di flesso della curva. Questi punti di inflessione segnano il passaggio dalla forma a collina alla forma a valle della curva.

Facciamo un esempio che coinvolge i punteggi SAT del 2017. I punteggi sul SAT erano distribuiti approssimativamente normalmente con una media di 1060 e una deviazione standard di 195. Disegnando un grafico di questa distribuzione, individuiamo la media a 1060 e contrassegniamo i punti di flesso uno deviazione standard dalla media in entrambe le direzioni. Possiamo anche contrassegnare punti aggiuntivi corrispondenti a una deviazione standard sopra e sotto la media.

Quando si interpretano le curve di densità, le aree sottostanti rappresentano le probabilità. Dal grafico, possiamo vedere che la probabilità di selezionare casualmente un punteggio compreso tra 865 e 1060 è sostanzialmente più alta rispetto alla selezione di un punteggio compreso tra 670 e 865. Per quantificare queste probabilità, possiamo utilizzare la regola empirica come regola empirica per stimare il punteggio normale probabilità.

Secondo la regola empirica, in qualsiasi distribuzione normale, circa il 68% della probabilità si trova all'interno di una deviazione standard della media, il 95% si trova entro due deviazioni standard e il 99,7% si trova entro tre deviazioni standard. Queste proporzioni corrispondono alle aree sotto la curva all'interno delle rispettive regioni.

Applicando la regola empirica alla nostra distribuzione del punteggio SAT con una media di 1060 e una deviazione standard di 195, troviamo che esiste una probabilità del 68% di selezionare casualmente un punteggio tra 865 e 1255, una probabilità del 95% di selezionare un punteggio tra 670 e 1450 e una probabilità del 99,7% di selezionare un punteggio compreso tra 475 e 1645.

Usando la geometria e la regola empirica, possiamo anche calcolare le probabilità per altri scenari. Ad esempio, la probabilità di ottenere un risultato superiore a una deviazione standard dalla media è pari a uno meno la probabilità di ottenere un risultato entro una deviazione standard dalla media. Allo stesso modo, possiamo calcolare la probabilità di ottenere un valore più di due deviazioni standard al di sotto della media trovando il complemento dell'area entro due deviazioni standard della media.

In sintesi, le normali distribuzioni di probabilità seguono una curva a campana e la regola empirica fornisce un'utile approssimazione per stimare le probabilità all'interno di regioni specifiche di una distribuzione normale.

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

La distribuzione normale standard


La distribuzione normale standard

Ciao a tutti, oggi ci immergiamo nella distribuzione normale standard. Questa è essenzialmente una distribuzione normale o curva a campana con una media pari a zero e una deviazione standard pari a uno, come illustrato qui.

Abbiamo a che fare con una variabile casuale continua che può assumere qualsiasi valore compreso tra infinito negativo e infinito positivo. Tuttavia, la maggior parte della probabilità è concentrata vicino allo zero. Il picco della curva è centrato sulla media, che è zero, ei punti di flesso si verificano in più e meno uno, dove il grafico passa da una forma collinare a una forma a valle.

Per fare riferimento a variabili casuali che seguono una distribuzione normale standard, spesso usiamo la lettera "z". La distribuzione normale standard è particolarmente utile perché qualsiasi variabile casuale con una distribuzione normale (con media mu e deviazione standard sigma) può essere trasformata in una distribuzione normale standard. Questa trasformazione si ottiene sottraendo la media e dividendo per la deviazione standard: z = (x - mu) / sigma.

Ora parliamo di punteggi z. Un punteggio z rappresenta il numero di deviazioni standard di cui un valore x è sopra o sotto la media. A volte, i punteggi z sono anche indicati come punteggi standard. Nella distribuzione normale standard, non ci concentriamo sulle probabilità dei singoli valori poiché ce ne sono infiniti. Consideriamo invece le probabilità che z rientri in intervalli specifici.

Quando si considerano le probabilità nella distribuzione normale standard, esaminiamo le aree sotto il grafico per l'intervallo desiderato. Ad esempio, diamo un'occhiata alla probabilità che z sia compresa tra -1 e 0,5. Vogliamo trovare l'area ombreggiata sotto il grafico tra questi due valori. Ricorda, l'area totale sotto il grafico è sempre uno, in quanto rappresenta la probabilità totale.

Per descrivere le probabilità per variabili casuali continue come la normale standard, usiamo comunemente le funzioni di distribuzione cumulativa (CDF). Il CDF fornisce la probabilità che una variabile casuale sia minore o uguale a un valore specifico. Nella distribuzione normale standard, usiamo la notazione Phi(z) per la CDF.

Per calcolare le probabilità, si consiglia di utilizzare tecnologie come calcolatrici o software. Ad esempio, un calcolatore TI ha la funzione "normalcdf", Excel può eseguire i calcoli e in R, il comando "pnorm" viene utilizzato per calcolare il CDF per la distribuzione normale standard.

Consideriamo un esempio. Se vogliamo trovare la probabilità di uno z-score minore o uguale a 0,5, possiamo usare il CDF e calcolare Phi(0,5), che produce approssimativamente 0,691. Pertanto, la probabilità di ottenere uno z-score minore o uguale a 0,5 è di circa il 69,1%.

In generale, se vogliamo calcolare la probabilità che un punteggio z rientri in un intervallo specifico (da a a b), sottraiamo la probabilità che z sia minore o uguale ad a dalla probabilità che z sia minore o uguale a B. Simbolicamente, questo può essere scritto come Phi(b) - Phi(a).

Infine, è essenziale ricordare che la probabilità di ogni singolo z-score è infinitesimale. La probabilità che z sia minore o uguale a un valore specifico (c) è uguale alla probabilità che z sia minore di quel valore (c). Inoltre, la probabilità che z sia maggiore di c è pari a uno meno la probabilità che z sia minore o uguale a c, poiché questi eventi sono complementari.

Per illustrare, determiniamo la probabilità di ottenere un punteggio z maggiore di -1,5. Usando il fatto due sopra, possiamo calcolare 1 meno la probabilità che z sia minore o uguale a -1,5, che è circa il 93,3%. Come anticipato, questa probabilità è considerevolmente maggiore del 50%, considerando che uno z-score negativo ci colloca all'estrema sinistra della curva a campana, indicando che una parte significativa dell'area si trova a destra di tale z-score.

In sintesi, la distribuzione normale standard, caratterizzata da media zero e deviazione standard uno, è un concetto fondamentale in statistica. Utilizzando i punteggi z, che misurano il numero di deviazioni standard di un valore dalla media, possiamo determinare le probabilità associate a intervalli specifici nella distribuzione. La funzione di distribuzione cumulativa (CDF), spesso indicata come Phi(z), viene utilizzata per calcolare queste probabilità. La tecnologia come calcolatrici o software statistico è comunemente impiegata per calcolare i valori CDF. Ricorda, la distribuzione normale standard ci consente di standardizzare e confrontare i valori di qualsiasi distribuzione normale trasformandoli in punteggi z.

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

Calcolo delle probabilità normali usando R


Calcolo delle probabilità normali usando R

Ciao a tutti! Oggi ci immergiamo nel mondo del calcolo delle probabilità nelle distribuzioni normali utilizzando RStudio. Quando si ha a che fare con variabili casuali normalmente distribuite, che sono continue, non ha senso discutere la probabilità di ottenere uno specifico valore individuale. Invece, ci affidiamo alla funzione di distribuzione cumulativa (CDF). Questa funzione prende un valore x e restituisce la probabilità di ottenere un numero minore o uguale a quel valore x per caso nella distribuzione normale.

Per comprendere meglio questo concetto, diamo un'occhiata a una rappresentazione visiva. Nel grafico, ho contrassegnato un valore x e l'area ombreggiata rappresenta la probabilità cumulativa fino a quel valore x utilizzando il normale CDF. Quando ci riferiamo alla distribuzione normale standard con una media di 0 e una deviazione standard di 1, spesso denotiamo la variabile casuale come Z e usiamo un maiuscolo Phi (Φ) per rappresentare il CDF.

Ora, ci sono casi in cui vogliamo calcolare la probabilità che una variabile all'interno di una distribuzione normale rientri in un intervallo specifico, non solo inferiore a un singolo numero. Possiamo ottenere ciò calcolando la probabilità che sia minore o uguale al numero superiore e sottraendo la probabilità che sia minore o uguale al numero inferiore. Questo può essere visualizzato sottraendo l'area ombreggiata in basso a destra dall'area ombreggiata in basso a sinistra.

Mettiamo alla prova le nostre conoscenze eseguendo alcuni calcoli utilizzando diverse distribuzioni normali e probabilità. Per questo, passeremo a RStudio. In R, possiamo utilizzare la funzione "Pnorm", che è la funzione di distribuzione cumulativa per la distribuzione normale.

Per prima cosa, consideriamo una distribuzione N(5, 9). Vogliamo trovare la probabilità che X sia minore o uguale a 10. Usando "Pnorm" con il valore x di 10, media di 5 e deviazione standard di 3, otteniamo un risultato di circa 0,9522.

Successivamente, determiniamo la probabilità di ottenere un valore x maggiore di 10. Poiché ottenere un valore x maggiore di 10 è il complemento di ottenere un valore x minore o uguale a 10, possiamo calcolarlo sottraendo la probabilità di quest'ultimo da 1. Sottraendo "Pnorm(10, 5, 3)" da 1, troviamo che la probabilità è approssimativamente 0,048.

Ora, spostiamo la nostra attenzione su una distribuzione normale con una media di 100 e una varianza di 20. Siamo interessati alla probabilità che X sia compreso tra 92 e 95. Iniziamo calcolando la probabilità che X sia minore o uguale a 95 usando "Pnorm(95, 100, sqrt(20))". Quindi, sottraiamo la probabilità che X sia minore o uguale a 92 usando "Pnorm(92, 100, sqrt(20))". Il risultato è di circa 0,095.

Infine, lavoriamo con la distribuzione normale standard e troviamo la probabilità che Z sia compresa tra -1,2 e 0,1. Possiamo sottrarre direttamente "Pnorm(-1.2)" da "Pnorm(0.1)" per ottenere il risultato di circa 0.428.

In conclusione, sfruttando la potenza della distribuzione normale e della funzione di distribuzione cumulativa, possiamo calcolare le probabilità associate a diversi intervalli di valori. RStudio ci fornisce gli strumenti necessari, come la funzione "Pnorm", per eseguire questi calcoli in modo efficiente.

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

Calcoli normali inversi


Calcoli normali inversi

Ciao a tutti! Oggi approfondiremo l'affascinante mondo dei calcoli normali inversi. Cominciamo aggiornando la nostra comprensione di come calcoliamo le probabilità nella distribuzione normale standard utilizzando la funzione di distribuzione cumulativa (CDF), indicata come Φ(z). Il CDF prende un punteggio z come input e restituisce la probabilità che un punteggio z scelto a caso sia minore o uguale a quel valore.

Per illustrare questo concetto, si consideri il grafico in cui è tracciato Φ(0.5). Per calcolare Φ(0.5), disegniamo la normale curva a campana standard e posizioniamo z = 0.5 leggermente a destra della media. Quindi ombreggiamo l'intera area a sinistra di quel punteggio z. Φ(0.5) rappresenta l'area della regione ombreggiata. Ricorda che la probabilità totale sotto la curva a campana è sempre 1, quindi possiamo interpretare l'area ombreggiata come una percentuale dell'area totale.

Ora, esploriamo l'inverso del normale CDF, indicato come Φ^(-1) o "phi inverse". Questo processo inverte il calcolo precedente. Invece di dargli un punteggio z e ottenere una probabilità, inseriamo una probabilità e otteniamo il corrispondente punteggio z. Ad esempio, Φ^(-1)(0.5) è 0 perché Φ(0) è 0.5. La metà della probabilità si trova a sinistra di z = 0 nella distribuzione normale standard. Allo stesso modo, Φ^(-1)(0.6915) è 0.5 perché Φ(0.5) è 0.6915, e Φ^(-1)(0.1587) è -1 perché Φ(-1) è 0.1587. Stiamo essenzialmente invertendo gli input e gli output di queste due funzioni.

Per illustrare ulteriormente questo concetto, consideriamo un esempio. Supponiamo di voler trovare il punteggio z che cattura il 90° percentile in una distribuzione normale standard. Questo z-score rappresenta un risultato superiore al 90% dei risultati se attingiamo ripetutamente da questa distribuzione. Per determinarlo, usiamo Φ^(-1) e calcoliamo Φ^(-1)(0.90), che produce approssimativamente 1.28. Pertanto, 1,28 è il punteggio z corrispondente al 90° percentile nella distribuzione normale standard.

Ora, armati del punteggio z per una data probabilità o percentile, possiamo facilmente determinare il valore corrispondente in qualsiasi distribuzione normale. Considera un esempio in cui i punteggi di un test standardizzato sono normalmente distribuiti con una media di 1060 e una deviazione standard di 195. Per determinare il punteggio richiesto per superare il 95% dei punteggi, troviamo prima il 95° percentile. Usando Φ^(-1)(0.95) o qnorm(0.95) in R, otteniamo approssimativamente 1.64 come z-score. Interpretando questo risultato, uno studente deve ottenere una deviazione standard di 1,64 sopra la media per avere una probabilità del 95% di superare un punteggio selezionato a caso.

Per calcolare il punteggio effettivo, usiamo la formula x = μ + zσ, dove x rappresenta il punteggio necessario, μ è la media (1060), z è il punteggio z (1,64) e σ è la deviazione standard (195) . Collegando questi valori, troviamo che lo studente deve ottenere un punteggio di circa 1379,8. Pertanto, un punteggio di circa 1380 posizionerebbe lo studente al 95° percentile e fornirebbe una probabilità del 95% di superare un punteggio selezionato a caso nel test.

È importante notare che i valori ottenuti dalle distribuzioni normale e normale inversa sono spesso approssimazioni, in quanto possono essere irrazionali. Sebbene sia possibile eseguire calcoli normali inversi utilizzando le tabelle, è più comune e conveniente utilizzare la tecnologia per questi calcoli. In R, ad esempio, il comando per la normale inversa è qnorm. Per trovare l'inverso di una probabilità, inseriamo qnorm seguito dalla probabilità desiderata. Ad esempio, per calcolare l'inverso di 0.6915, usiamo qnorm(0.6915) e otteniamo approssimativamente 0.5. Allo stesso modo, per l'inverso di 0.1587, usiamo qnorm(0.1587) e otteniamo approssimativamente -1.

L'utilizzo della tecnologia per questi calcoli è preferibile nel 21° secolo, in quanto fornisce risultati accurati e fa risparmiare tempo rispetto all'utilizzo di tabelle manuali. Sfruttando strumenti come R, possiamo eseguire facilmente calcoli normali inversi fornendo la probabilità e ricevendo il punteggio z corrispondente.

In sintesi, i calcoli normali inversi ci consentono di determinare il punteggio z corrispondente a una data probabilità o percentile in una distribuzione normale. Possiamo usare la funzione normale inversa, come Φ^(-1) o qnorm in R, per ottenere questi valori. Queste informazioni ci aiutano quindi a prendere decisioni informate ed eseguire varie analisi statistiche.

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

Calcoli normali inversi usando R


Calcoli normali inversi usando R

Oggi useremo R per eseguire alcuni calcoli normali inversi. Abbiamo tre problemi da risolvere.

Problema 1: trova il 98° percentile della distribuzione normale standard. In altre parole, vogliamo determinare il punteggio z che si trova al di sopra del 98% della probabilità nella distribuzione normale standard. In R, possiamo usare il comando qnorm. Poiché abbiamo a che fare con la distribuzione normale standard (media = 0, deviazione standard = 1), possiamo inserire direttamente il percentile come argomento. Pertanto, calcoliamo qnorm(0.98) e otteniamo uno z-score di circa 2.05.

Problema 2: trova il valore di x che cattura il 40% dell'area sotto una distribuzione normale con media 12 e varianza 3. Possiamo iniziare visualizzando la curva a campana con i parametri dati. Vogliamo trovare un valore x che corrisponda a un'area del 40% a sinistra di esso. Usando qnorm, inseriamo l'area desiderata come decimale, che è 0,40. Tuttavia, poiché si tratta di una distribuzione normale non standard, è necessario specificare anche la media e la deviazione standard. Pertanto, calcoliamo qnorm(0.40, mean = 12, sd = sqrt(3)) e otteniamo un valore di x approssimativamente uguale a 11.56.

Problema 3: Considera il consumo annuo pro capite di arance negli Stati Uniti, che è approssimativamente distribuito normalmente con una media di 9,1 libbre e una deviazione standard di 2,7 libbre. Se un americano mangia meno dell'85% dei suoi coetanei, vogliamo determinare quanto consumano. Qui, siamo interessati all'area a destra del dato percentile (85%). Poiché qnorm fornisce valori con aree a sinistra, dobbiamo sottrarre il percentile da 1 per ottenere l'area a destra, che è 0,15. Calcoliamo qnorm(0.15, mean = 9.1, sd = 2.7) per trovare il corrispondente valore di consumo. Il risultato è di circa 6,30 libbre di arance all'anno.

Utilizzando la funzione qnorm in R, possiamo eseguire in modo efficiente questi calcoli normali inversi e ottenere i risultati desiderati per vari problemi statistici.

L'uso della funzione qnorm in R ci consente di eseguire calcoli normali inversi in modo efficiente, fornendoci i punteggi z o i valori necessari che corrispondono a percentili o aree specifici in una distribuzione normale.

Nel Problema 1, volevamo trovare il 98esimo percentile della distribuzione normale standard. Usando qnorm(0.98), abbiamo ottenuto uno z-score di circa 2.05. Ciò significa che il valore corrispondente al 98° percentile nella distribuzione normale standard è 2,05 deviazioni standard al di sopra della media.

Nel Problema 2, abbiamo mirato a trovare il valore di x che cattura il 40% dell'area sotto una distribuzione normale con media 12 e varianza 3. Dopo aver specificato la media e la deviazione standard nella funzione qnorm come qnorm(0.40, media = 12, sd = sqrt(3)), abbiamo ottenuto un valore x di circa 11,56. Ciò indica che il valore di x, che corrisponde all'acquisizione del 40% dell'area alla sua sinistra nella distribuzione normale data, è approssimativamente 11,56.

Nel Problema 3, abbiamo considerato il consumo annuo pro capite di arance negli Stati Uniti, che segue una distribuzione normale con una media di 9,1 libbre e una deviazione standard di 2,7 libbre. Volevamo determinare la quantità di consumo per un individuo che mangia meno dell'85% dei suoi coetanei. Calcolando qnorm(0,15, media = 9,1, sd = 2,7), abbiamo scoperto che il livello di consumo dovrebbe essere di circa 6,30 libbre all'anno affinché un individuo consumi meno dell'85% dei suoi coetanei.

Nel complesso, la funzione qnorm in R semplifica il processo di esecuzione dei calcoli normali inversi fornendoci i punteggi z o i valori necessari basati su percentili o aree specifici. Questo ci consente di analizzare e prendere decisioni informate sulla base delle caratteristiche delle distribuzioni normali.

Inverse Normal Calculations Using R
Inverse Normal Calculations Using R
  • 2020.08.02
  • www.youtube.com
It's easy to compute inverse normal values using R. Let's learn the qnorm() command! If this vid helps you, please help me a tiny bit by mashing that 'like' ...
 

Distribuzioni campionarie


Distribuzioni campionarie

Ciao a tutti, oggi discuteremo il concetto di distribuzione campionaria delle statistiche. Nell'inferenza statistica, il nostro obiettivo è utilizzare statistiche campionarie per stimare i parametri della popolazione. Tuttavia, le statistiche campionarie tendono a variare da un campione all'altro, il che significa che se prendiamo campioni ripetutamente, otterremo valori diversi per la stessa statistica.

Illustriamolo con un esempio. Immaginiamo di avere un sacchetto contenente gettoni numerati e uno statistico della stazione di bordo estrae a caso 5 gettoni, ottenendo i numeri 24, 11, 10, 14 e 16. La media campionaria, indicata come x-bar, è calcolata come 15. Ora , se ripetiamo questo processo più volte, probabilmente otterremo ogni volta valori diversi per x-bar. Ad esempio, nei campioni successivi, potremmo ottenere 17,8, 18,8 o 21,6 come media campionaria. Pertanto, la barra x della statistica campionaria è il risultato di un processo casuale e può essere considerata una variabile casuale. Ha una propria distribuzione di probabilità, che chiamiamo distribuzione campionaria della statistica.

Ora, lavoriamo attraverso un esempio concreto. Supponiamo di avere una borsa con tre fiches rosse e sei fiches blu. Se estraiamo tre fiches a caso con rimpiazzo, vogliamo trovare la distribuzione campionaria di x, che rappresenta il numero di fiches rosse estratte. Ci sono quattro possibili valori per x: 0, 1, 2 o 3. Per determinare le probabilità associate a ciascun valore, trattiamo ogni singola estrazione come una prova di Bernoulli, dove il rosso è considerato un successo e il blu un fallimento. Poiché stiamo effettuando tre estrazioni identiche, ciascuna con una probabilità di un terzo, abbiamo una distribuzione binomiale con n = 3 e p = 1/3. Calcolando le probabilità utilizzando la formula di distribuzione binomiale, troviamo che le probabilità per x = 0, 1, 2 e 3 sono rispettivamente 0,296, 0,444, 0,296 e 0,064. Queste probabilità definiscono la distribuzione campionaria di x.

La media è la statistica più comunemente usata per l'inferenza statistica, quindi incontrerai spesso la frase "distribuzione campionaria della media campionaria". Rappresenta la distribuzione di probabilità di tutti i possibili valori che la media campionaria può assumere quando si estraggono campioni della stessa dimensione dalla stessa popolazione. Ad esempio, consideriamo di nuovo l'esempio della borsa, ma questa volta i chip sono numerati da 1 a 35. Vogliamo descrivere la distribuzione campionaria della media campionaria, indicata come x-bar, quando prendiamo campioni di dimensione n = 5 senza sostituzione. Ripetendo il processo di campionamento mille volte e calcolando ogni volta la media campionaria, otteniamo un elenco di mille numeri compresi tra 15 e 165. La maggior parte di queste medie campionarie rientrerà nell'intervallo medio e, costruendo un istogramma, osserveremo che la distribuzione campionaria segua approssimativamente una curva a campana. Questo modello di curva a campana non è una coincidenza, come esploreremo in una discussione futura.

La distribuzione campionaria della media campionaria ha un centro e uno spread prevedibili, che consentono varie inferenze statistiche. In particolare, se estraiamo campioni di dimensione n da una grande popolazione con una media di mu e una deviazione standard di sigma, la media delle medie campionarie (x-bar) sarà uguale alla media della popolazione (mu). Inoltre, la deviazione standard delle medie campionarie sarà uguale alla deviazione standard della popolazione (sigma) divisa per la radice quadrata di n. Queste relazioni suggeriscono che la media campionaria fornisce una stima della media della popolazione ed è meno variabile delle singole osservazioni all'interno della popolazione.

Per illustrare ciò, consideriamo un esempio in cui il punteggio medio in un test standardizzato è 1060 e la deviazione standard è 195. Supponiamo di selezionare casualmente 100 studenti dalla popolazione. In questo caso, assumiamo che la popolazione sia sufficientemente grande da rendere accettabile il campionamento senza sostituzione. La distribuzione campionaria della media campionaria, indicata come x-bar, avrà un centro di 1060 e una deviazione standard di 19,5.

Per chiarire, se dovessimo raccogliere un campione di 100 studenti e calcolare i punteggi medi dei test, ripetendo questo processo più volte, troveremmo che, in media, la media del campione sarebbe 1060. La diffusione del campione significa, come indicato dalla deviazione standard di 19,5, sarebbe considerevolmente inferiore alla deviazione standard dei punteggi individuali all'interno della popolazione.

Comprendere le proprietà della distribuzione campionaria, come il suo centro e la sua diffusione, ci consente di fare inferenze statistiche significative. Sfruttando la distribuzione campionaria della media campionaria, possiamo stimare i parametri della popolazione e trarre conclusioni sulla popolazione in base alle statistiche campionarie osservate.

Nel complesso, le distribuzioni campionarie delle statistiche svolgono un ruolo cruciale nell'inferenza statistica fornendo informazioni sulla variabilità delle statistiche campionarie e sulla loro relazione con i parametri della popolazione.

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

Qual è il teorema del limite centrale?


Qual è il teorema del limite centrale?

Oggi discutiamo del teorema del limite centrale (CLT), che è ampiamente considerato come uno dei teoremi più importanti in statistica. Il CLT descrive la forma della distribuzione campionaria della media campionaria (x-bar) e richiede una solida comprensione delle distribuzioni campionarie.

Per comprendere il CLT, si consiglia di familiarizzare con le distribuzioni campionarie. Puoi guardare un video sulle distribuzioni di campionamento, che ho collegato sopra per comodità.

Ora, approfondiamo il CLT. Supponiamo di prelevare semplici campioni casuali di dimensione 'n' da una popolazione con media (μ) e deviazione standard (σ). Potremmo non sapere molto sulla forma della popolazione, ma se 'n' è abbastanza grande (di solito circa 30), la distribuzione campionaria della media campionaria approssimerà una distribuzione normale. Se la popolazione stessa è distribuita normalmente, allora la distribuzione campionaria di x-bar sarà esattamente normale, indipendentemente da 'n'. Inoltre, la media di x-bar sarà sempre μ e la deviazione standard di x-bar sarà σ divisa per la radice quadrata di 'n'.

In sostanza, il teorema del limite centrale afferma che indipendentemente dalla popolazione campionata, quando la dimensione del campione è sufficientemente grande, la distribuzione di x-bar sarà approssimativamente normale con una media di μ e una deviazione standard di σ divisa per la radice quadrata di 'n'. Mentalmente, immagina di prelevare numerosi campioni della stessa dimensione dalla popolazione, calcolando la media campionaria per ciascun campione. Sebbene le medie dei singoli campioni possano variare leggermente, la loro media sarà uguale alla media della popolazione e la diffusione di queste medie del campione attorno alla media sarà approssimativamente a forma di campana, con una deviazione standard correlata ma inferiore alla deviazione standard della popolazione.

Per illustrare questo concetto, consideriamo un esempio. Abbiamo una linea di assistenza tecnica in cui la durata delle chiamate segue una distribuzione normale con una media (μ) di 2 minuti e una deviazione standard (σ) di 3 minuti. Supponiamo di voler trovare la probabilità che un campione di 40 chiamate selezionato a caso abbia una durata media inferiore a 2,5 minuti. Sebbene non conosciamo l'esatta distribuzione delle singole lunghezze delle chiamate, possiamo utilizzare il teorema del limite centrale poiché stiamo esaminando la media campionaria di 40 chiamate. La media campionaria (x-bar) sarà approssimativamente distribuita normalmente con una media di 2 e una deviazione standard di 3 divisa per la radice quadrata di 40 (σ/sqrt(n)).

Per calcolare la probabilità, determiniamo il punteggio z per x-bar = 2,5 nella distribuzione con media 2 e deviazione standard 3/sqrt(40). Calcolando il punteggio z come (2,5 - 2) / (3 / sqrt(40)), troviamo un valore di 1,05. Possiamo quindi utilizzare una normale funzione di distribuzione cumulativa (CDF) per trovare la probabilità che il punteggio z sia inferiore a 1,05, che produce circa l'85,3%. Ciò significa che c'è una probabilità dell'85,3% di ottenere una media campione inferiore a 2,5 minuti quando si campionano 40 chiamate.

In un'altra dimostrazione, immaginiamo un generatore di numeri casuali che produca numeri interi casuali compresi tra 1 e 12 con uguale probabilità. Questo scenario è analogo alla selezione di qualcuno a caso e alla determinazione del suo mese di nascita. Se prendiamo semplici campioni casuali di dimensione 2 da questo generatore, lo eseguiamo più volte e calcoliamo la media campionaria, osserviamo un istogramma con una forma approssimativamente piramidale. I risultati tendono a raggrupparsi intorno a 6,5, indicando una maggiore probabilità di ottenere medie campionarie vicine a 6,5 rispetto a valori più vicini a 1 o 12.

Aumentando la dimensione del campione a 10, osserviamo un istogramma che inizia ad assomigliare a una distribuzione a campana e la diffusione della media del campione diminuisce. La maggior parte delle medie campionarie ora rientra tra 4 e 9.

Se aumentiamo ulteriormente la dimensione del campione a 100 e ripetiamo il processo, l'istogramma diventa ancora più a forma di campana, con la maggior parte delle medie campionarie concentrate tra 6 e 7. La deviazione standard delle medie campionarie continua a diminuire.

Infine, quando prendiamo campioni di dimensione 1000, l'istogramma segue una curva di distribuzione normale quasi perfetta. Le medie campionarie sono strettamente raggruppate attorno alla media della popolazione, con la maggioranza compresa tra 6,25 e 6,75. La deviazione standard delle medie campionarie continua a ridursi all'aumentare della dimensione del campione.

Per riassumere, all'aumentare della dimensione del campione (n), la media campionaria (x-bar) diventa uno stimatore più affidabile della media della popolazione (μ). La variabilità nella media campionaria diminuisce, portando a una distribuzione campionaria più ristretta e più a forma di campana.

Consideriamo ora un esempio che coinvolge un erogatore di acqua distillata. Il distributore riempie litri d'acqua e la quantità erogata segue una distribuzione normale con una media di 1,03 litri e una deviazione standard di 0,02 litri. Vogliamo determinare la probabilità che un singolo "gallone" erogato sia effettivamente inferiore a 1 gallone.

Per trovare questa probabilità, calcoliamo il punteggio z per x = 1 nella distribuzione normale con media 1,03 e deviazione standard 0,02. Il punteggio z viene calcolato come (1 - 1,03) / 0,02, risultando in -1,5. Utilizzando la normale funzione di distribuzione cumulativa (CDF), troviamo che la probabilità di ottenere un valore inferiore a 1 gallone è di circa il 6,68%.

Consideriamo ora la probabilità che la media di 10 galloni sia inferiore a 1 gallone per gallone. Secondo il teorema del limite centrale, quando la dimensione del campione (n) è sufficientemente grande, la distribuzione campionaria della media campionaria diventa normale, indipendentemente dalla distribuzione della popolazione. In questo caso, la distribuzione campionaria di x-bar ha una media di 1,03 (uguale alla media della popolazione) e una deviazione standard di 0,02/sqrt(10).

Per trovare la probabilità di ottenere una media campionaria inferiore a 1 gallone, calcoliamo il punteggio z come (1 - 1,03) / (0,02/sqrt(10)), che equivale a -4,74. Utilizzando la normale funzione di distribuzione cumulativa (CDF), troviamo che la probabilità di ottenere una media campionaria inferiore a 1 gallone è di circa 0,0001%.

In conclusione, mentre è alquanto improbabile (circa il 7%) che un singolo gallone sia sottoriempito, sarebbe estremamente insolito che la media di 10 galloni fosse inferiore a 1 gallone per gallone.

Infine, per quanto riguarda la dimensione del campione, il teorema del limite centrale suggerisce che la distribuzione campionaria di x-bar approssima una distribuzione normale per campioni di grandi dimensioni. Tuttavia, ciò che costituisce una dimensione del campione "grande" è soggettivo e dipende dall'asimmetria della distribuzione della popolazione e dalla presenza di valori anomali. In generale, quando si campiona da una distribuzione abbastanza simmetrica senza valori anomali estremi, una dimensione del campione più piccola può essere sufficiente per l'applicazione del teorema del limite centrale.

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

Calcolo delle probabilità utilizzando il teorema del limite centrale: esempi


Calcolo delle probabilità utilizzando il teorema del limite centrale: esempi

Ciao a tutti, nella sessione di oggi lavoreremo su alcuni problemi relativi al calcolo delle probabilità utilizzando il teorema del limite centrale. Abbiamo due problemi da risolvere. Iniziamo!

Problema 1: I pesi dei sacchetti di una certa marca di caramelle seguono una distribuzione normale con una media di 45 grammi e una deviazione standard di 1,5 grammi. Dobbiamo trovare la probabilità che un sacchetto selezionato a caso contenga meno di 44 grammi di caramelle.

Per risolvere questo problema, utilizzeremo la distribuzione normale e calcoleremo il punteggio z. Lo z-score si ottiene sottraendo la media (45) dal valore (44) e dividendolo per la deviazione standard (1.5). Questo ci dà un punteggio z di -0,67.

Successivamente, utilizziamo la normale funzione di distribuzione cumulativa (CDF) per trovare la probabilità di ottenere un valore inferiore a -0,67 nella distribuzione normale standard. La probabilità risulta essere di circa 0,252, il che significa che esiste una probabilità del 25,2% che un sacchetto selezionato a caso contenga meno di 44 grammi di caramelle.

Problema 2: considereremo la probabilità che cinque buste selezionate a caso abbiano un peso medio inferiore a 44 grammi di caramelle. Per questo problema, dobbiamo applicare il teorema del limite centrale.

Secondo il teorema del limite centrale, quando la dimensione del campione è abbastanza grande (di solito 30 o più), la distribuzione campionaria della media campionaria diventa approssimativamente normale, indipendentemente dalla distribuzione della popolazione. In questo caso, la media della distribuzione campionaria (x-bar) sarà uguale alla media della popolazione (45) e la deviazione standard sarà la deviazione standard della popolazione (1.5) divisa per la radice quadrata della dimensione del campione ( √5).

Per trovare la probabilità, calcoliamo il punteggio z sottraendo la media (45) dal valore desiderato (44) e dividendolo per la deviazione standard (√(1.5^2/5)). Questo ci dà un punteggio z di -1,49.

Usando il normale CDF, troviamo che la probabilità di ottenere una media del campione inferiore a 44 grammi è di circa 0,068, o 6,8%. Pertanto, c'è una probabilità del 6,8% circa che cinque sacchetti selezionati a caso abbiano un peso medio inferiore a 44 grammi di caramelle.

Consideriamo infine la probabilità che 25 buste scelte a caso abbiano un peso medio inferiore a 44 grammi di caramelle. Poiché la dimensione del campione è maggiore (25), possiamo ancora applicare il teorema del limite centrale.

Utilizzando la stessa procedura di prima, calcoliamo il punteggio z per una media campionaria di 44 grammi con una deviazione standard di 1,5/√25. Questo ci dà un punteggio z di -3,33.

Applicando il normale CDF, troviamo che la probabilità di ottenere una media del campione inferiore a 44 grammi è di circa 0,004, ovvero 0,4%. Quindi, c'è solo una probabilità dello 0,4% che 25 sacchetti selezionati a caso abbiano un peso medio inferiore a 44 grammi di caramelle.

In conclusione, il teorema del limite centrale fornisce un'approssimazione affidabile per queste probabilità, anche con una dimensione del campione relativamente piccola di 7. Le probabilità calcolate sono notevolmente vicine ai valori esatti ottenuti dalla distribuzione di probabilità originale.

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

Presentazione degli intervalli di confidenza


Presentazione degli intervalli di confidenza

Ciao a tutti, oggi ci addentriamo nell'argomento degli intervalli di confidenza. Mentre ne discutiamo, è fondamentale tenere a mente la distinzione tra un parametro e una statistica. Rivediamo rapidamente questo concetto.

Un parametro è un numero che descrive una popolazione, ad esempio lo stipendio iniziale medio di tutti i data scientist negli Stati Uniti. D'altra parte, una statistica è un numero che descrive un campione, come lo stipendio iniziale medio di 10 data scientist selezionati a caso negli Stati Uniti.

In genere, non abbiamo accesso diretto per osservare i parametri. Spesso non è pratico raccogliere informazioni da un'intera popolazione, quindi ci affidiamo a dati campione, che forniscono statistiche. L'inferenza statistica è il processo di ragionamento da una statistica a un parametro.

Una delle forme più fondamentali e significative di inferenza statistica è l'intervallo di confidenza. Per rendere tutto questo più concreto, consideriamo un esempio. Supponiamo di campionare casualmente 10 data scientist negli Stati Uniti e di scoprire che il loro stipendio iniziale medio è di $ 97.000. Questo valore rappresenta una statistica poiché si riferisce solo ai data scientist nel nostro campione. Tuttavia, vogliamo fare un'inferenza sullo stipendio iniziale medio di tutti i data scientist negli Stati Uniti, che è il parametro che ci interessa stimare.

Per stimare il parametro μ con la barra x statistica (media del campione), la nostra ipotesi migliore è che lo stipendio iniziale medio di tutti i data scientist negli Stati Uniti sia di $ 97.000. Tuttavia, è importante riconoscere che è altamente improbabile che questa stima sia esattamente corretta. È improbabile che il parametro μ sia esattamente $ 97.000; potrebbe essere leggermente superiore o inferiore, o anche in modo significativo.

Dato che la nostra stima non è esatta, è appropriato fornire una stima dell'intervallo, tipicamente nella forma x-bar più o meno un margine di errore. La questione cruciale è come determiniamo questo margine di errore. Dobbiamo tenere presente che, anche con un ampio margine di errore, c'è sempre una probabilità di sbagliare.

Ad esempio, considera uno scenario in cui ci capita di selezionare un campione con 10 data scientist sottopagati, mentre il parametro effettivo (il vero stipendio iniziale dei data scientist negli Stati Uniti) è di $ 150.000. La nostra media campionaria rimane di $ 97.000. Pertanto, il meglio che possiamo sperare è costruire un intervallo di confidenza che possa catturare il vero parametro con un'alta probabilità. Ciò significa che l'intervallo dovrebbe includere il vero parametro per una percentuale significativa del tempo.

In genere, viene utilizzato come standard un livello di confidenza del 95%, sebbene sia possibile scegliere altri livelli come 90% o 99% a seconda dell'applicazione. In ogni caso, la notazione usata per il livello di confidenza è una C maiuscola. Per esprimerlo formalmente come un'affermazione di probabilità, miriamo a trovare un margine di errore (e) tale che la probabilità che x-bar e μ siano all'interno di e di l'un l'altro è C.

Rendiamo il nostro esempio più specifico. Supponiamo che sia noto che gli stipendi iniziali dei data scientist seguano una distribuzione normale con una deviazione standard della popolazione di $ 8.000. Vogliamo trovare un margine di errore (e) che ci consenta di stimare μ, lo stipendio iniziale medio di tutti i data scientist negli Stati Uniti, con una confidenza del 95%.

Per raggiungere questo obiettivo, utilizzeremo le proprietà della distribuzione normale standard. Se prendiamo una variabile casuale x che segue una distribuzione normale, anche la media campionaria (x-bar) sarà distribuita normalmente. La media della distribuzione media campionaria è uguale alla media della distribuzione della popolazione (μ), ma la deviazione standard è ridotta. Nel nostro esempio, la deviazione standard della media campionaria è σ/√n, dove σ è la deviazione standard della popolazione e n è la dimensione del campione.

Con queste informazioni, possiamo riscrivere la nostra affermazione di probabilità come segue: la probabilità che la barra x sia compresa tra μ - e e μ + e sia uguale a C. Ora, possiamo rappresentarla in termini di punteggi z, che misurano il numero delle deviazioni standard dalla media. Standardizzando il nostro intervallo, possiamo utilizzare la distribuzione normale standard (distribuzione Z) per determinare i valori appropriati.

Per un dato livello di confidenza C, dobbiamo trovare il punteggio z (z-star) tale che l'area tra -z-star e z-star sotto la curva normale standard sia uguale a C. I valori comuni per C includono 0,95, che corrisponde a una z-star di 1.960. Una volta che abbiamo z-star, possiamo calcolare il margine di errore moltiplicandolo per σ/√n.

Tornando al nostro esempio, dove abbiamo una dimensione del campione di n = 10, una media campionaria di $ 97.000 e una deviazione standard della popolazione di $ 8.000, possiamo costruire un intervallo di confidenza del 95% per μ. Sostituendo questi valori nella forma generale dell'intervallo di confidenza, troviamo che la stima dell'intervallo per μ è $ 97.000 ± $ 1.958.

In sintesi, prevediamo che lo stipendio iniziale medio di tutti i data scientist negli Stati Uniti scenderà tra $ 92.042 e $ 101.958, con una confidenza stimata del 95%. Ciò significa che se dovessimo ripetere questo processo di campionamento e costruire intervalli di confidenza utilizzando i dati del campione più volte, ci aspetteremmo che i nostri intervalli catturino il vero parametro (μ) circa il 95% delle volte.

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
 

Intervalli di confidenza per la media - Esempio


Intervalli di confidenza per la media - Esempio

Ciao a tutti, oggi discuteremo la costruzione di intervalli di confidenza per una media della popolazione quando la deviazione standard della popolazione è nota. Inoltre, esploreremo i fattori che possono influenzare la dimensione del margine di errore utilizzando un esempio relativo a una bilancia pesapersone domestica.

Quando si utilizza una bilancia pesapersone, è ragionevole presumere che le letture saranno normalmente distribuite attorno al peso reale della persona che viene pesata. Tuttavia, queste letture non dovrebbero essere perfettamente accurate e potrebbero variare leggermente in più o in meno. In questo esempio, supponiamo di avere accesso alle informazioni sulla deviazione standard della popolazione della scala, che è di 1,2 libbre.

Il nostro interesse principale sta nel costruire un intervallo di confidenza per il vero peso della persona che viene pesata, che indicheremo con μ. Per raggiungere questo obiettivo, peseremo ripetutamente una persona sulla bilancia, calcoleremo la media campionaria di queste pesate e useremo la formula μ = x-bar ± z-star * σ / √n. Qui, x-bar rappresenta la media campionaria, n è la dimensione del campione, σ è la deviazione standard della popolazione e z-star è il valore z critico corrispondente al livello di confidenza desiderato (C).

Per rendere il nostro esempio più specifico, supponiamo di pesare uno statistico sulla bilancia cinque volte e di ottenere un peso medio di 153,2 libbre. Questo serve come media campionaria. Ora, vogliamo costruire un intervallo di confidenza al 90% per il vero peso dello statistico, ipotizzando una deviazione standard di 1,2 libbre per la bilancia. Sostituendo questi valori nella formula, troviamo che la stima dell'intervallo è di 153,2 ± 0,88 libbre.

Poiché abbiamo scelto un livello di confidenza del 90%, possiamo aspettarci che questo intervallo catturerà il vero peso dello statistico in circa il 90% dei casi.

Ora, approfondiamo la struttura del margine di errore. Il margine di errore segue la formula z-star * σ / √n, dove sono presenti tre componenti chiave: il valore critico z-star (relativo al livello di confidenza), la deviazione standard della popolazione σ (che riflette lo spread nella popolazione) , e la dimensione del campione n.

Modificando uno qualsiasi di questi tre componenti, possiamo avere un impatto prevedibile sulla dimensione del margine di errore. Se aumentiamo il livello di confidenza, aumenterà anche il margine di errore poiché il valore z-star corrispondente sarà maggiore. Allo stesso modo, l'aumento della deviazione standard della popolazione σ si tradurrà in un margine di errore più ampio poiché c'è più variabilità nei dati, rendendo la media campionaria meno affidabile. D'altra parte, l'aumento della dimensione del campione n ridurrà il margine di errore poiché la media del campione diventa un predittore più accurato della media della popolazione.

Per illustrare questi effetti, rivisitiamo il nostro esempio di intervallo di confidenza del 90% con una deviazione standard di 1,2 libbre e una dimensione del campione di 5. Se aumentiamo il livello di confidenza al 95%, il valore z-star diventa 1,960, risultando in un margine maggiore di errore di 1,05 sterline. Se torniamo a un livello di confidenza del 90% ma aumentiamo la deviazione standard a 1,5 libbre, il margine di errore si espande a 1,1 libbre. Infine, se manteniamo la deviazione standard a 1,2 libbre ma raddoppiamo la dimensione del campione a 10, il margine di errore diminuisce a 0,62 libbre, indicando un intervallo di confidenza più stretto.

È importante notare che mentre la modifica del livello di confidenza e della dimensione del campione sono aggiustamenti pratici, la modifica della deviazione standard è solitamente al di fuori del nostro controllo, in quanto riflette la variabilità intrinseca della popolazione.

In conclusione, gli intervalli di confidenza forniscono un intervallo di valori plausibili per il parametro della popolazione di interesse. Il margine di errore, influenzato dal livello di confidenza, dalla deviazione standard della popolazione e dalla dimensione del campione, ci aiuta a comprendere la precisione e l'affidabilità delle nostre stime. L'aumento del livello di confidenza allarga l'intervallo per fornire un livello più elevato di confidenza nell'acquisizione del vero parametro. Una deviazione standard della popolazione più ampia si traduce in un intervallo più ampio a causa della maggiore variabilità dei dati. Al contrario, l'aumento della dimensione del campione restringe l'intervallo in quanto fornisce più informazioni e migliora l'accuratezza della stima.

Nell'esempio che abbiamo discusso, ci sono due modifiche realistiche che possono essere apportate: regolare il livello di confidenza e cambiare la dimensione del campione. Queste modifiche ci consentono di controllare il livello di certezza e la quantità di dati utilizzati per la stima. Tuttavia, la deviazione standard della scala non è sotto il nostro controllo, rendendo meno realistica la modifica.

Comprendere i fattori che influenzano il margine di errore e gli intervalli di confidenza è fondamentale per interpretare i risultati statistici. Ci consente di prendere decisioni informate e trarre conclusioni significative basate sulla precisione e l'affidabilità delle nostre stime.

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...
Motivazione: