Tutorial di programmazione - pagina 15

 

Intervalli di confidenza e teorema del limite centrale


Intervalli di confidenza e teorema del limite centrale

Ciao a tutti, oggi applicheremo il teorema del limite centrale e costruiremo intervalli di confidenza per la media della popolazione. La formula per l'intervallo di confidenza per la media della popolazione, mu, si basa sul presupposto che la popolazione campionata segua una distribuzione perfettamente normale con media mu e varianza sigma al quadrato. Tuttavia, in molti casi, questa ipotesi non è ragionevole. Ad esempio, quando si determina la durata media delle chiamate da una banca telefonica, è improbabile che la distribuzione della durata delle chiamate sia normale. È più probabile che abbia un istogramma con una distribuzione distorta, piuttosto che una curva a campana.

Tuttavia, possiamo ancora costruire un intervallo di confidenza per la media della popolazione, mu, utilizzando il teorema del limite centrale. Questo teorema afferma che fintanto che la dimensione del campione, n, è sufficientemente grande (di solito n ≥ 30), la distribuzione campionaria della media campionaria sarà distribuita approssimativamente normalmente, indipendentemente dalla forma della distribuzione della popolazione. Per visualizzarlo, immagina di prelevare ripetutamente campioni di dimensione n, calcolando ogni volta la media campionaria (x barra) e creando un istogramma di tali medie campionarie. Secondo il teorema del limite centrale, quell'istogramma mostrerà una curva a campana centrata attorno alla media della popolazione, con uno spread misurato dalla varianza della popolazione divisa per la dimensione del campione.

È importante notare che questa approssimazione migliora all'aumentare della dimensione del campione, n. Esaminiamo un paio di esempi per illustrare questo concetto. Supponiamo che la deviazione standard delle chiamate alla banca telefonica sia sigma = 1 minuto, e stiamo ottenendo campioni di dimensione 81. La distribuzione delle medie campionarie (x barra) sarà approssimativamente normale, con una media uguale alla media della popolazione e uno standard deviazione di sigma divisa per la radice quadrata di n (1 / √81 ≈ 0.11 in questo caso).

Con queste informazioni, possiamo calcolare gli intervalli di confidenza, simili a quando la distribuzione della popolazione è nota per essere normale. Tuttavia, dobbiamo ricordare che questi intervalli di confidenza sono solo approssimativi. Ad esempio, se abbiamo un campione di dimensione 81 e troviamo una media campionaria di 1,1 minuti, possiamo costruire un intervallo di confidenza al 95% per la media della popolazione usando la formula:

mu ≈ x barra ± z stella * sigma / √n

Inserendo i valori (x bar = 1.1, sigma = 1.0, n = 81) e utilizzando il valore z critico (z star) corrispondente al 95% di confidenza (1.960), troviamo che la media della popolazione (mu) è approssimativamente 1,1 ± 0,22 minuti con una confidenza del 95%.

Consideriamo un altro esempio. Una grande azienda impiega migliaia di impiegati nei negozi al dettaglio a livello nazionale. In un campione di dimensione 35, il numero medio di ore lavorate a settimana era 23. Vogliamo costruire un intervallo di confidenza del 90% per il numero medio di ore lavorate da tutti gli impiegati impiegati da questa società, assumendo una deviazione standard (sigma) di 5 ore. Possiamo usare la stessa formula:

mu ≈ x barra ± z stella * sigma / √n

Inserendo i valori (x bar = 23, sigma = 5, n = 35) e utilizzando il valore z critico (z star) corrispondente al 90% di confidenza (1,645), troviamo che la media della popolazione (mu) è approssimativamente 23 ± 1,4 ore con il 90% di confidenza.

Riassumendo, anche se la distribuzione della popolazione non è esattamente normale, possiamo ancora usare il teorema del limite centrale per costruire intervalli di confidenza approssimati per la media della popolazione. Questi intervalli forniscono informazioni preziose e ci aiutano a fare inferenze statistiche, comprendendo il livello di confidenza associato alle nostre stime.

Confidence Intervals and the Central Limit Theorem
Confidence Intervals and the Central Limit Theorem
  • 2020.08.11
  • www.youtube.com
The central limit theorem lets us build confidence intervals for the mean even when the shape of the population distribution isn't known. If this vid helps y...
 

Intervalli di confidenza e dimensione del campione


Intervalli di confidenza e dimensione del campione

Ciao a tutti, oggi parleremo degli intervalli di confidenza e della dimensione del campione. Quando abbiamo un campione casuale semplice di dimensione "n" con una media campionaria "x barra", possiamo costruire un intervallo di confidenza di livello "c" per la media della popolazione "mu" utilizzando la formula:

mu = x barra ± z stella * sigma / √n

Qui, "z star" rappresenta il punteggio z critico corrispondente al livello di confidenza "c" e "sigma" è la deviazione standard della popolazione. Il termine "z star * sigma / √n" è indicato come il margine di errore, che è una stima di quanto la nostra media campionaria può deviare dalla vera media della popolazione "mu".

L'idea alla base della costruzione di un intervallo di confidenza è che, in parole povere, "mu" rientrerà nel margine di errore di "x barra" una percentuale "c" del tempo.

Consideriamo ora una domanda pratica: quanto è grande il campione di cui abbiamo bisogno se vogliamo che il margine di errore non sia maggiore di una soglia specificata "e"? In questo caso, conosciamo "e", il margine di errore desiderato, "c", il livello di confidenza e "sigma", la deviazione standard della popolazione (supponendo che sia nota). Dobbiamo trovare la dimensione del campione richiesta "n" risolvendo l'equazione algebricamente.

Per calcolare la dimensione del campione, moltiplichiamo entrambi i lati dell'equazione per √n, dividiamo entrambi i lati per "e" e quindi eleviamo entrambi i lati, ottenendo:

n = (z stella * sigma / e)^2

Se il valore risultante di "n" non è un numero intero, come spesso accade poiché "z star" tende ad essere irrazionale, lo arrotondiamo al numero intero più vicino. È importante notare che l'aumento della dimensione del campione riduce il margine di errore e l'arrotondamento per difetto di "n" potrebbe potenzialmente aumentare il margine di errore oltre la soglia desiderata "e".

Il punteggio z critico, "z star", è determinato dal livello di confidenza specificato "c". Questo valore può essere calcolato utilizzando la tecnologia o facendo riferimento a una tabella. Sebbene l'utilizzo di tabelle per i calcoli statistici non sia in genere consigliato, nel caso di livelli di confidenza comunemente utilizzati, come un livello di confidenza del 95% (corrispondente a un punteggio az di 1,960), la tabella è piccola e ragionevole da utilizzare.

Consideriamo un esempio: supponiamo di voler determinare il peso di uno statistico al mezzo chilo più vicino con una confidenza del 95% utilizzando una scala con una deviazione standard di 1,2 libbre. Quante volte dobbiamo pesare lo statistico?

Inserendo i valori dati nella formula della dimensione del campione, troviamo che la dimensione minima del campione richiesta è di 23 pesate, che arrotondiamo a 23. Pertanto, dobbiamo pesare lo statistico 23 volte per conoscere il suo peso alla mezza libbra più vicina con Fiducia al 95%.

Come previsto, se aumentiamo il livello di confidenza o riduciamo il margine di errore, aumenterà anche la dimensione del campione richiesta. Al contrario, se aumentiamo il margine di errore, la dimensione del campione necessaria diminuirà.

In un altro esempio, supponiamo che un produttore voglia determinare il peso medio di un certo tipo di chiodo di ferro entro 0,2 grammi con una confidenza del 99% e la deviazione standard della popolazione sia di 0,5 grammi. Applicando la formula della dimensione del campione, scopriamo che è necessaria una dimensione minima del campione di 42 chiodi per raggiungere un livello di confidenza del 99% con un margine di errore non inferiore a 0,2 grammi.

Comprendere gli intervalli di confidenza e la loro relazione con la dimensione del campione ci consente di pianificare studi ed esperimenti in modo efficace, assicurando che le nostre stime siano accurate e affidabili entro il livello di confidenza e precisione desiderato.

Confidence Intervals and Sample Size
Confidence Intervals and Sample Size
  • 2020.08.03
  • www.youtube.com
Choosing the correct sample size to accommodate a required margin of error is easy! Let's see how to do it. If this vid helps you, please help me a tiny bit ...
 

Intervalli di confidenza utilizzando la distribuzione t


Intervalli di confidenza utilizzando la distribuzione t

Salve a tutti, nella sessione di oggi costruiremo intervalli di confidenza usando la distribuzione t. Nelle nostre discussioni precedenti, abbiamo usato la formula mu uguale a x barra più o meno z-star sigma sulla radice quadrata di n per approssimare la media della popolazione mu con la media campionaria x barra e calcolare il margine di errore. Tuttavia, questa formula presuppone che si conosca la deviazione standard sigma della popolazione, il che spesso non è vero.

Per superare questa limitazione, possiamo stimare la deviazione standard sigma della popolazione utilizzando la deviazione standard campionaria s. La formula per l'intervallo di confidenza con la distribuzione t è simile alla precedente, con una leggera modifica. Invece del punteggio z critico, utilizziamo il valore t critico basato sul livello di confidenza scelto. La distribuzione t descrive la variabilità della variabile t, che è data da t uguale a x bar meno mu su s diviso per la radice quadrata di n. La distribuzione t è simmetrica ea forma di campana, simile alla distribuzione normale standard, ma con una diffusione leggermente maggiore per campioni di dimensioni inferiori.

Per costruire un intervallo di confidenza, dobbiamo trovare i valori limite per t, indicati come t-star, tali che la probabilità che t sia compresa tra t-star negativo e t-star positivo sia uguale al livello di confidenza scelto. Una volta determinato t-star, possiamo calcolare l'intervallo di confidenza usando la formula mu uguale a x barra più o meno t-star s sulla radice quadrata di n.

Facciamo un esempio. Un gruppo di ricercatori vuole studiare le concentrazioni di sodio in un lago canadese. Hanno raccolto 23 campioni e hanno trovato una media di 24,7 parti per milione e una deviazione standard del campione di 4,2 parti per milione. Vogliamo costruire un intervallo di confidenza al 95% per la concentrazione media di sodio nel lago. Poiché non conosciamo la deviazione standard della popolazione, utilizzeremo la distribuzione t.

Inserendo i valori, abbiamo x bar uguale a 24,7, s uguale a 4,2 e n uguale a 23. Per trovare il valore t critico, dobbiamo determinare il valore t-star che corrisponde a lasciare il 2,5% dell'area su ciascun lato della distribuzione t. Usando un calcolo t inverso, troviamo che t-star è approssimativamente 2,074.

Ora possiamo costruire l'intervallo di confidenza: 24,7 più o meno 2,074 per 4,2 diviso per la radice quadrata di 23. Semplificando questa espressione, otteniamo un intervallo di confidenza di 24,7 più o meno 1,8.

Vale la pena notare che il valore t critico, 2,074, è leggermente superiore a quello che sarebbe stato il punteggio z critico per lo stesso livello di confidenza. Questo perché stiamo stimando la deviazione standard della popolazione, introducendo qualche ulteriore incertezza, risultando in un intervallo di confidenza leggermente più ampio.

In sintesi, quando si costruiscono intervalli di confidenza senza conoscere la deviazione standard della popolazione, si utilizza la distribuzione t e si stima la deviazione standard della popolazione con la deviazione standard del campione. Il resto del processo è simile alla costruzione di intervalli di confidenza con deviazione standard nota, ma con valori t critici anziché punteggi z critici.

Confidence Intervals Using the t-Distribution
Confidence Intervals Using the t-Distribution
  • 2020.08.15
  • www.youtube.com
How do we construct confidence intervals when the population standard deviation is unknown? Easy! We use the t-distribution. If this vid helps you, please he...
 

Utilizzo di R per calcolare nella distribuzione t


Utilizzo di R per calcolare nella distribuzione t

Ciao a tutti, oggi eseguiremo alcuni calcoli utilizzando la distribuzione t in R. Lavoreremo su tre problemi passo dopo passo. Immergiamoci subito!

Innanzitutto, parliamo di come calcoliamo le probabilità nella distribuzione t utilizzando la funzione di distribuzione cumulativa (CDF). Inserendo uno specifico valore t, come 0,44, il CDF ci dà la probabilità di ottenere casualmente un punteggio t inferiore o uguale a quel valore. Visivamente, ciò corrisponde alla rappresentazione grafica di una curva a campana poiché le distribuzioni t mostrano modelli a forma di campana.

Per trovare la probabilità, etichettiamo il t-score di interesse (0,44) e ombreggiamo l'area a sinistra di quel punteggio. Questa area ombreggiata rappresenta la probabilità che stiamo cercando. Consiglio vivamente di utilizzare R per i calcoli della distribuzione t invece di fare affidamento sulle tabelle, poiché possono essere impegnative e meno accurate. In R, il comando corrispondente alla CDF di una distribuzione t è pt, che richiede due argomenti: il valore t (0.44) e il numero di gradi di libertà (26).

Passiamo a R ed eseguiamo il comando pt: pt(0.44, 26). Il risultato è approssimativamente 0,668, indicando che la probabilità di ottenere casualmente un punteggio t inferiore o uguale a 0,44 in questa distribuzione t è di circa il 66,8%.

Passiamo ora al problema due. Vogliamo trovare la probabilità che t sia compreso tra -0,8 e 0,5 in una distribuzione t con 19 gradi di libertà. Per risolvere questo problema, calcoliamo l'area a sinistra di t = 0,5 e sottraiamo l'area a sinistra di t = -0,8. Possiamo ottenere ciò utilizzando due comandi pt con una sottrazione in mezzo: pt(0.5, 19) - pt(-0.8, 19). Il risultato è approssimativamente 0,472, indicando che la probabilità di ottenere casualmente un punteggio t compreso tra -0,8 e 0,5 in una distribuzione t con 19 gradi di libertà è di circa il 47,2%.

Passando al problema tre, dobbiamo trovare un valore (tau) nella distribuzione t con 50 gradi di libertà, tale che la probabilità di ottenere un t-score minore o uguale a tau sia 0,3. Ciò comporta un calcolo CDF inverso. Possiamo usare la funzione qt in R, fornendo la probabilità (0.3) e il numero di gradi di libertà (50). Eseguiamo il comando qt: qt(0.3, 50). Il risultato è approssimativamente -0,5277. È importante notare che ottenere un numero negativo è ragionevole poiché il centro della curva a campana in qualsiasi distribuzione t è a t = 0.

Ricorda, questi calcoli possono essere eseguiti manualmente, ma R fornisce comode funzioni (pt e qt) per semplificare il processo. L'utilizzo di queste funzioni consente di risparmiare tempo e garantisce la precisione.

Using R to Calculate in the t-Distribution
Using R to Calculate in the t-Distribution
  • 2020.08.15
  • www.youtube.com
R is a fantastic way to do computations in the t-distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rsta...
 

Intervalli di confidenza in R


Intervalli di confidenza in R

Ciao a tutti, oggi lavoreremo con gli intervalli di confidenza in R, che è particolarmente utile quando disponiamo di un set di dati effettivo anziché solo di statistiche riassuntive. In questo esempio, esamineremo il set di dati sulla CO2 e ci concentreremo sulla variabile "assorbimento".

In precedenza, abbiamo calcolato gli intervalli di confidenza utilizzando la media campionaria (x-bar) e la deviazione standard campionaria (s), ma ora impareremo una scorciatoia utilizzando il comando "t.test". Fornendo la variabile di interesse, in questo caso "assorbimento" dal set di dati CO2, il comando passerà automaticamente a un livello di confidenza del 95%.

Il comando t-test fornisce diverse informazioni, alcune delle quali diventeranno più rilevanti quando parleremo più avanti del test di ipotesi. Per ora, i dettagli chiave da notare sono l'intervallo di confidenza del 95% e la stima puntuale. L'intervallo di confidenza rappresenta l'intervallo di valori entro il quale è possibile stimare la media della popolazione. La stima puntuale è la media campionaria, che funge da stima del valore singolo per la media della popolazione.

L'output del test t include anche i gradi di libertà, che è uno in meno rispetto alla dimensione del campione. Altre informazioni, come p-value e ipotesi alternative, saranno discusse in video futuri sui test di significatività.

Sebbene l'output del t-test non fornisca direttamente il margine di errore, possiamo calcolarlo manualmente. Il margine di errore per un intervallo di confidenza t segue la formula: T* * (s / sqrt(n)), dove s è la deviazione standard del campione, n è la dimensione del campione e T* è il valore t critico per il livello di confidenza desiderato.

Per trovare T*, usiamo la funzione "qt" e specifichiamo l'area a sinistra di T*. Per un intervallo di confidenza del 95%, vogliamo il 97,5% dell'area a sinistra di T*. Pertanto, calcoliamo T* come "qt(0.975, 83)". Moltiplicando T* per la deviazione standard del campione e dividendolo per la radice quadrata della dimensione del campione si ottiene il margine di errore.

In alternativa, possiamo usare la funzione "t.test" in R per calcolare automaticamente l'intervallo di confidenza. Per modificare il livello di confidenza, aggiungiamo l'argomento "conf.level=" e specifichiamo la percentuale desiderata. Ad esempio, impostando "conf.level = 90" otteniamo un intervallo di confidenza del 90%.

Quando riduciamo il livello di confidenza, l'intervallo di confidenza risultante si restringe. Il limite superiore dell'intervallo diminuisce, indicando un maggiore livello di precisione nella nostra stima.

In sintesi, gli intervalli di confidenza forniscono un intervallo di valori all'interno dei quali stimiamo la media della popolazione. R fornisce comode funzioni come "t.test" e "qt" per semplificare i calcoli e ottenere risultati accurati.

Confidence Intervals in R
Confidence Intervals in R
  • 2020.03.27
  • www.youtube.com
Quick t-distribution confidence intervals in R. So easy! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy...
 

Intervalli di confidenza per le proporzioni


Intervalli di confidenza per le proporzioni

Ciao a tutti, oggi costruiremo intervalli di confidenza per le proporzioni. Spesso ci imbattiamo in processi casuali con due possibili esiti, come testa o croce, sì o no, o vero e falso. Vogliamo trarre conclusioni sulle probabilità di questi risultati sulla base di dati campione.

Per analizzare questi risultati, assegniamo un risultato come successo e lo codifichiamo come tale, mentre l'altro risultato è un fallimento e viene codificato come zero. È importante notare che i termini "successo" e "fallimento" sono arbitrari e non implicano alcun giudizio di valore sui risultati.

Codificando la variabile in questo modo, creiamo una variabile casuale discreta, che chiameremo X. X può assumere due valori, uno e zero, rispettivamente con probabilità p e (1 - p). Qui, p rappresenta la probabilità di successo.

Per questo tipo di variabile casuale, possiamo calcolare informazioni di riepilogo. Il valore medio o atteso è la somma di tutti i possibili valori della variabile casuale pesati dalle rispettive probabilità. Per una prova di Bernoulli, la media è pari a p.

La deviazione standard di una variabile casuale è la radice quadrata della somma dei quadrati delle differenze tra i singoli valori e il valore atteso, ciascuno ponderato per le rispettive probabilità. Per una prova di Bernoulli, la deviazione standard è data dalla radice quadrata di (p * (1 - p)).

Consideriamo ora l'esecuzione di n prove Bernoulli identiche e indipendenti, dove p rimane costante tra le prove. La percentuale di successi in queste prove è indicata come p-hat, che è uguale a (1/n) * sum(xi), dove xi è uno per il successo e zero per il fallimento. In altre parole, p-hat è la percentuale di successi nelle n prove.

Poiché p-hat è solo una media campionaria, possiamo applicare ad essa la nostra conoscenza delle medie campionarie. La media di p-hat è uguale a p, la stessa della media per un singolo processo di Bernoulli. La deviazione standard di p-hat è uguale alla radice quadrata di ((p * (1 - p)) / n), che è la deviazione standard di una singola prova di Bernoulli divisa per la radice quadrata di n. Per il teorema del limite centrale, la distribuzione campionaria di p-hat è approssimativamente normale quando n è grande, tipicamente 30 o più.

Parliamo ora degli intervalli di confidenza. Nel caso di una media, la struttura di base di un intervallo di confidenza è mu = x-bar +/- z-star * sigma-sub-x-bar. Allo stesso modo, per una proporzione, la formula dell'intervallo di confidenza è p = p-hat +/- z-star * sqrt((p-hat * (1 - p-hat)) / n).

Nella formula della proporzione, p-hat rappresenta la proporzione sperimentale di successi nel nostro campione, mentre p è la probabilità complessiva di successo che stiamo cercando di stimare. Il margine di errore diminuisce quando p-hat è vicino a zero o uno, quindi è consigliabile non utilizzare questo intervallo di confidenza in questi casi.

Per determinare la dimensione del campione richiesta per un dato margine di errore (e), usiamo la formula n = (p-hat * (1 - p-hat) * z-star^2) / epsilon^2. Se non disponiamo di dati preliminari, possiamo utilizzare la stima più conservativa, p-hat = 0,5, che fornisce la dimensione del campione più ampia possibile. In questo caso, la formula diventa n = (z-star^2) / (4 * epsilon^2).

Consideriamo un esempio. Supponiamo di voler condurre un sondaggio con una confidenza del 95% e il margine di errore non dovrebbe essere superiore al 3%. Poiché non disponiamo di dati preliminari, utilizzeremo la stima conservativa p-hat = 0,5. Inserendo i valori z-star = 1.96 e epsilon = 0.03 nella formula, otteniamo:

n = (1,96^2) / (4 * 0,03^2) ≈ 1067,1

Poiché la dimensione del campione deve essere un numero intero, arrotondiamo il valore per garantire che il margine di errore non superi il 3%. Pertanto, avremmo bisogno di una dimensione del campione di 1068 per questo sondaggio.

In sintesi, la costruzione di intervalli di confidenza per le proporzioni implica l'assegnazione di valori di successo e fallimento, il calcolo delle medie campionarie e delle deviazioni standard e l'utilizzo delle formule appropriate per determinare gli intervalli di confidenza. È importante considerare le condizioni per l'utilizzo di questi intervalli e regolare la dimensione del campione in base al margine di errore desiderato.

Confidence Intervals for Proportions
Confidence Intervals for Proportions
  • 2020.10.11
  • www.youtube.com
How can we estimate a population proportion using only a sample proportion? Using a confidence interval, of course! If this vid helps you, please help me a t...
 

Intervalli di confidenza per le proporzioni: esempi


Intervalli di confidenza per le proporzioni: esempi

Oggi lavoreremo su due problemi di esempio che implicano la costruzione di intervalli di confidenza per proporzioni. Entriamo nei problemi:

Problema 1: un sondaggio condotto su 275 adulti americani selezionati a caso rivela che 29 di loro bevono caffè. Dobbiamo costruire un intervallo di confidenza del 90% per la proporzione di tutti gli adulti americani che bevono caffè.

Utilizzando la formula per un intervallo di confidenza per le proporzioni: p = p̂ ± z √(p̂(1 - p̂)/n), dove p̂ è la proporzione del campione, n è la dimensione del campione e z è il valore z critico corrispondente a il livello di confidenza desiderato.

Dato p̂ = 29/275 = 0,1055, n = 275 e z* = 1,645 (per un livello di confidenza del 90%), possiamo inserire questi valori:

p = 0,1055 ± 1,645 * √((0,1055 * (1 - 0,1055))/275)

Calcolando questa espressione, troviamo che l'intervallo di confidenza per la proporzione di adulti americani che bevono caffè è di circa 0,1055 ± 0,045. Pertanto, possiamo stimare con una confidenza del 90% che la proporzione reale rientri nell'intervallo (0,0605, 0,1505).

Problema 2: un ricercatore vuole studiare il consumo di tè in America e deve determinare la dimensione del campione richiesta per garantire un margine di errore non superiore al 4%.

Usando la formula per il margine di errore in un intervallo di confidenza per le proporzioni: e = z*√(p̂(1 - p̂)/n), possiamo riorganizzarla per risolvere la dimensione del campione:

n = (z*^2 * p̂(1 - p̂)) / e^2.

In questo caso non disponiamo di dati preliminari, quindi utilizziamo la stima più conservativa per p̂, che è 0,5 (che indica la massima variabilità). Dato z* = 1,645 (per un livello di confidenza del 90%) ed e = 0,04, possiamo sostituire questi valori nella formula:

n = (1,645^2 * 0,5(1 - 0,5)) / 0,04^2

Semplificando l'espressione, troviamo che la dimensione minima del campione richiesta è di circa 257,03. Poiché la dimensione del campione deve essere un numero intero, arrotondiamo per eccesso per garantire che il margine di errore desiderato non venga superato. Pertanto, è richiesta una dimensione del campione di 258 per garantire un margine di errore non superiore al 4%.

In sintesi, la costruzione di intervalli di confidenza per le proporzioni comporta l'utilizzo di formule che incorporano proporzioni campionarie, dimensioni campionarie e valori critici. Applicando queste formule, possiamo stimare le proporzioni della popolazione entro un determinato livello di confidenza e determinare la dimensione del campione necessaria per ottenere il margine di errore desiderato.

Confidence Intervals for Proportions: Examples
Confidence Intervals for Proportions: Examples
  • 2020.10.12
  • www.youtube.com
Constructing a confidence interval for a population proportion using sample data, and planning the sample size of a study. Awesome! If this vid helps you, pl...
 

Introduzione al test di ipotesi


Introduzione al test di ipotesi

Salve a tutti, nella sessione di oggi ci addentreremo nel test di ipotesi, noto anche come test di significatività. Per cogliere meglio il concetto, lavoreremo insieme su un esempio. Cominciamo.

Supponiamo che un produttore di cioccolato affermi che le sue tavolette di cioccolato pesano, in media, 350 grammi. Tuttavia, sospetto che la loro affermazione sia sopravvalutata e il vero peso medio delle loro tavolette di cioccolato sia inferiore a 350 grammi. Per indagare su questo, raccolgo un campione di 10 tavolette di cioccolato e ne registro il peso. Se la media del campione è inferiore a 350 grammi, fornirà prove contro l'affermazione dell'azienda. Se è uguale o superiore a 350 grammi, non contesterà la loro affermazione.

Supponiamo che il mio campione produca un peso medio di 347 grammi, che è inferiore a 350 grammi. Di conseguenza, questo risultato supporta il mio sospetto e contesta l'affermazione della società. Tuttavia, l'azienda potrebbe obiettare che il mio campione potrebbe essere stato casualmente leggero e, se dovessi raccogliere un altro campione, potrebbe produrre esattamente 350 grammi o anche di più a causa della possibilità casuale. Pertanto, ho bisogno di un metodo per prendere una decisione tra queste due possibilità: l'azienda che mente o il risultato dovuto al caso.

In una situazione del genere, il meglio che possiamo fare è formulare una dichiarazione di probabilità in merito all'affermazione della società. Vogliamo determinare la probabilità che, se l'azienda dice la verità, otterremmo una media campionaria così bassa come quella osservata per puro caso. Una probabilità inferiore indica una prova più forte contro l'affermazione della società.

Per procedere matematicamente, assumiamo l'ipotesi nulla, indicata come H0, che si allinea con l'affermazione dell'azienda. In questo caso, l'ipotesi nulla afferma che la media della popolazione di tutte le tavolette di cioccolato è esattamente di 350 grammi. D'altra parte, abbiamo l'ipotesi alternativa, indicata con Ha, che rappresenta ciò che intendiamo stabilire. In questo caso, Ha afferma che il peso medio di tutte le tavolette di cioccolato è inferiore a 350 grammi (Ha: μ < 350).

È importante notare che sia H0 che Ha si riferiscono a parametri della popolazione, non alla media campionaria (x-bar). Non abbiamo ancora menzionato x-bar perché lo useremo per prendere una decisione tra H0 e Ha.

Per calcolare la probabilità, dobbiamo considerare la distribuzione campionaria di x-bar. Supponiamo che l'ipotesi nulla sia vera e prevediamo di ottenere più campioni di dimensione 10. Che aspetto ha la distribuzione di x-bar? Mentre le singole tavolette di cioccolato possono variare in peso, il peso medio (x-bar) si allineerà, in media, con la media della popolazione (μ).

Il teorema del limite centrale ci aiuta ulteriormente a comprendere la distribuzione campionaria. Per una dimensione del campione sufficientemente grande (spesso n > 30), la distribuzione campionaria di x-bar approssima una distribuzione normale con media μ e deviazione standard σ/√n. Se la distribuzione della popolazione stessa è normale, l'approssimazione è esatta e la distribuzione di x-bar è esattamente normale.

Immagina la curva blu che rappresenta le singole tavolette di cioccolato, dove c'è un peso medio di 350 grammi sotto l'ipotesi nulla. Alcune barre possono essere leggermente più pesanti o più leggere e alcune possono deviare in modo significativo. Ora visualizza la curva verde, che rappresenta la distribuzione campionaria di x-bar. In media, x-bar sarà di 350 grammi se l'ipotesi nulla è vera, con qualche leggera variazione. Tuttavia, la variabilità nella barra x sarà inferiore rispetto alle singole barre perché i pesi estremi tendono a bilanciarsi a vicenda in un campione.

Supponiamo di conoscere la deviazione standard delle tavolette di cioccolato, che è di 4 grammi. Anche se questo potrebbe non essere un valore che normalmente conosciamo, ne parleremo nei video futuri. Con l'ipotesi nulla di μ = 350 grammi e il teorema del limite centrale, abbiamo tutte le informazioni necessarie sulla distribuzione campionaria di x-bar. Seguirà una distribuzione normale con una media di 350 grammi e una deviazione standard di 4 grammi divisa per la radice quadrata di 10 (poiché la dimensione del campione è 10), che è di circa 1,26 grammi.

Per calcolare la probabilità di ottenere una media campionaria (x-bar) inferiore o uguale a 347 grammi puramente casualmente, possiamo calcolare un punteggio z. La probabilità che x-bar sia minore o uguale a 347 grammi è uguale alla probabilità che il corrispondente punteggio z sia minore o uguale a (347 - 350) / 1,26, che si semplifica in -2,37.

Usando un software statistico o una tabella, scopriamo che la probabilità che una distribuzione normale standard sia minore o uguale a -2,37 è approssimativamente 0,0089. Questa probabilità è chiamata valore p.

Ora, discutiamo l'interpretazione del p-value. In questo caso, il valore p di 0,0089 è relativamente piccolo. Il p-value rappresenta la probabilità di ottenere una media campionaria di 347 grammi o meno se l'ipotesi nulla (μ = 350 grammi) è vera. Un valore p piccolo suggerisce che è improbabile osservare una media campionaria così bassa se l'ipotesi nulla è vera.

Ci sono due possibilità da considerare: in primo luogo, è possibile che l'ipotesi nulla sia vera e abbiamo osservato un evento raro (media campione di 347 grammi o meno) per caso, che si verifica approssimativamente 0,0089 volte. In secondo luogo, è possibile che l'ipotesi nulla sia falsa (come inizialmente sospettavamo) e che l'ipotesi alternativa (μ < 350 grammi) sia vera.

Poiché il valore p di 0,0089 è piuttosto basso, la prima possibilità sembra improbabile. Pertanto, rifiutiamo l'ipotesi nulla (H0: μ = 350 grammi) e sosteniamo l'ipotesi alternativa (Ha: μ < 350 grammi). Questo ci porta a concludere che ci sono forti prove che suggeriscono che il peso medio della popolazione delle tavolette di cioccolato prodotte da questa azienda sia effettivamente inferiore a 350 grammi.

In chiusura, abbiamo trattato i passaggi fondamentali per condurre un test di ipotesi. Tuttavia, ci sono ulteriori domande che non abbiamo ancora affrontato, come la determinazione della soglia per un valore p sufficientemente piccolo, la considerazione di ipotesi alternative e la gestione di situazioni in cui i parametri della popolazione sono sconosciuti. Nei video futuri, esploreremo queste domande e forniremo ulteriori approfondimenti sulla verifica delle ipotesi.

Introduction to Hypothesis Testing
Introduction to Hypothesis Testing
  • 2020.10.29
  • www.youtube.com
Let's talk about hypothesis testing (also known as significance testing). How can we test a claim about a population using just sample data? What is a p-valu...
 

Significato statistico


Significato statistico

Buon giorno a tutti! Oggi approfondiremo il concetto di test di ipotesi e discuteremo l'idea di significatività statistica. I test di ipotesi sono disponibili in varie forme, i più comuni sono il test z e il test t per le medie della popolazione. Tuttavia, la logica fondamentale rimane la stessa.

Per prima cosa assumiamo che sia vera l'ipotesi nulla. Quindi, raccogliamo un campione di dati e calcoliamo la probabilità di ottenere un campione simile per pura casualità, assumendo che l'ipotesi nulla sia corretta. Questa probabilità è nota come valore p del test. Un valore p inferiore indica prove più forti contro l'ipotesi nulla.

Tuttavia, nella maggior parte dei casi, il semplice confronto dei valori p potrebbe non essere sufficiente per prendere una decisione definitiva. Pertanto, è spesso utile stabilire un valore p di interruzione predeterminato, noto come livello di significatività alfa, prima di condurre il test di ipotesi. Di solito, l'alfa è impostato a 0,05, anche se può variare.

Quando rifiutiamo l'ipotesi nulla basata su un p-value minore di alfa, consideriamo i risultati statisticamente significativi. In altre parole, l'evidenza supporta l'ipotesi alternativa. Ora, esploriamo un paio di esempi per illustrare questi concetti.

Esempio 1: un produttore di cioccolato afferma che il peso medio delle sue tavolette di cioccolato è di 350 grammi. Tuttavia, sospettiamo che il vero peso medio sia inferiore. Abbiamo impostato un test di significatività affermando un'ipotesi nulla che l'affermazione dell'azienda sia vera e un'ipotesi alternativa che il peso medio sia inferiore a 350 grammi. Decidiamo in anticipo di utilizzare un livello di significatività di alfa uguale a 0,05.

Dopo aver raccolto un campione di dimensione 10 e calcolato una media campionaria di 347 grammi, determiniamo la probabilità di ottenere risultati estremi come questo, assumendo che l'ipotesi nulla sia vera. Ciò si traduce in un valore p di 0,0089. Poiché questo valore p è inferiore a 0,05, rifiutiamo l'ipotesi nulla e concludiamo che il peso medio delle tavolette di cioccolato dell'azienda è effettivamente inferiore a 350 grammi.

Esempio 2: I ricercatori medici conducono uno studio per testare l'efficacia di un nuovo farmaco per la perdita di peso. Scelgono un livello di significatività di alfa uguale a 0,01. L'ipotesi nulla afferma che la perdita di peso media rispetto a un placebo è pari a zero, mentre l'ipotesi alternativa suggerisce una perdita di peso media positiva. Dopo aver analizzato i dati, ottengono un valore p di 0,045. Poiché il valore p è maggiore del livello di significatività scelto di 0,01, non possono rifiutare l'ipotesi nulla. Pertanto, non ci sono prove sufficienti per concludere che il trattamento sia in media superiore al placebo.

È importante notare che la conclusione avrebbe potuto essere diversa se invece avessero scelto un livello di significatività di alfa uguale a 0,05. Ciò evidenzia una potenziale trappola dei test di significatività e dell'uso delle soglie alfa. Affidarsi ciecamente alla verifica delle ipotesi per il processo decisionale può essere rischioso. Riportare sempre il valore p insieme a qualsiasi decisione presa in base al livello di significatività alfa. Inoltre, sii cauto quando interpreti i valori p e considera vari fattori, come discuterò nel prossimo video.

Statistical Significance
Statistical Significance
  • 2020.10.30
  • www.youtube.com
Let's talk about statistical significance! What's up with alpha anyway?? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For ...
 

Test di ipotesi: alternative a uno e due lati


Test di ipotesi: alternative a uno e due lati

Nella discussione di oggi, approfondiremo il concetto di test di ipotesi, concentrandoci in particolare su ipotesi alternative unilaterali e bilaterali. Iniziamo rivisitando la struttura fondamentale di un test di ipotesi per la media.

Il primo passo è identificare l'ipotesi nulla, indicata con H₀. Questa affermazione riguarda la media della popolazione e rappresenta l'affermazione contro la quale miriamo a raccogliere prove. Successivamente, stabiliamo un'ipotesi alternativa, indicata come Hₐ, che contraddice l'ipotesi nulla e rappresenta tipicamente l'ipotesi che cerchiamo di stabilire. L'idea alla base di questo processo è che accumulando prove contro l'ipotesi nulla, accumuliamo indirettamente prove a favore dell'ipotesi alternativa.

Successivamente, raccogliamo i dati e calcoliamo una media campionaria, indicata con x̄. Da lì, determiniamo la probabilità (valore p) di ottenere una media campionaria estrema quanto quella che abbiamo osservato, assumendo che l'ipotesi nulla sia vera. Il valore p indica la forza dell'evidenza contro l'ipotesi nulla, con valori più bassi che indicano prove più forti a favore dell'ipotesi alternativa. Spesso concludiamo il test di ipotesi confrontando il p-value con un limite predeterminato, denominato alfa, che denota il livello di significatività del test. Se il valore p è minore di alfa, rifiutiamo l'ipotesi nulla. È fondamentale notare che il livello di significatività alfa deve essere scelto prima della raccolta dei dati.

Ora, esploriamo ipotesi alternative in modo più dettagliato. Nella discussione precedente, abbiamo affermato che l'ipotesi alternativa è scelta per contraddire l'ipotesi nulla. Anche per una semplice ipotesi nulla di mu uguale a mu₀, dove mu₀ rappresenta un valore ipotizzato, ci sono tre potenziali ipotesi alternative:

  1. mu < mu₀: questa ipotesi alternativa afferma che la media della popolazione, mu, è minore del valore ipotizzato, mu₀.
  2. mu > mu₀: questa ipotesi alternativa suggerisce che la media della popolazione, mu, sia maggiore del valore ipotizzato, mu₀.
  3. mu ≠ mu₀: questa ipotesi alternativa non fa ipotesi riguardo al valore specifico di mu.

Le prime due ipotesi alternative sono indicate come alternative unilaterali a causa della loro attenzione su una direzione specifica, mentre la terza alternativa è nota come ipotesi alternativa bilaterale. Ognuna di queste alternative contraddice l'ipotesi nulla in modi leggermente diversi.

Quando si esegue un test di ipotesi per la media, la scelta tra queste opzioni dipende da considerazioni del mondo reale. Come linea guida generale, è consigliabile selezionare l'ipotesi alternativa a due code a meno che non vi sia una ragione specifica, fondata su fattori del mondo reale, per presumere che la media della popolazione non possa o non debba essere maggiore o minore del valore fornito dal ipotesi nulla, mu₀.

Per migliorare la nostra comprensione, procediamo con alcuni esempi. Il primo esempio riguarda un'azienda di caramelle che afferma che il peso medio delle sue barrette di cioccolato è di 350 grammi. Se sospettiamo che il peso medio sia effettivamente inferiore, l'ipotesi nulla sarebbe l'affermazione dell'azienda, mentre l'ipotesi alternativa sarebbe mu < 350 grammi. In questo caso si tratta esclusivamente della possibilità che il peso medio delle tavolette di cioccolato sia inferiore a 350 grammi.

Nel secondo esempio, un manuale didattico afferma che un esercizio specifico richiede in media 30 minuti. L'ipotesi nulla sarebbe l'affermazione del manuale, mu = 30, e l'ipotesi alternativa sarebbe mu ≠ 30. Qui, non abbiamo alcun motivo giustificabile per escludere o ignorare la possibilità che mu sia minore o maggiore di 30.

Nel terzo esempio, un'azienda di cambio dell'olio sostiene che, in media, completa un cambio dell'olio in 15 minuti. Supponiamo di sospettare che il tempo effettivo sia più lungo.

Se il valore p è minore o uguale al livello di significatività (alfa), rifiutiamo l'ipotesi nulla. Ciò significa che i dati forniscono una forte evidenza contro l'ipotesi nulla e supportano l'ipotesi alternativa. D'altra parte, se il valore p è maggiore del livello di significatività, non riusciamo a rifiutare l'ipotesi nulla. In questo caso, i dati non forniscono prove sufficienti per rifiutare l'ipotesi nulla e non abbiamo un supporto sufficiente per l'ipotesi alternativa.

È importante notare che non rifiutare l'ipotesi nulla non significa necessariamente che l'ipotesi nulla sia vera. Significa semplicemente che i dati non forniscono prove significative a sostegno dell'ipotesi alternativa. L'assenza di prove contro l'ipotesi nulla non prova la sua verità.

La scelta tra un'ipotesi alternativa unilaterale o bilaterale dipende dalla specifica domanda di ricerca e dalle ipotesi che si desidera affrontare. Se sei interessato a determinare se la media della popolazione è significativamente diversa da un valore specifico, scegli un'ipotesi alternativa a due code. Ciò consente di considerare entrambe le possibilità che la media sia maggiore o minore del valore ipotizzato.

Tuttavia, se hai un motivo specifico per credere che la media possa essere solo maggiore o minore del valore ipotizzato, puoi scegliere un'ipotesi alternativa unilaterale. Ciò restringe il focus del test a una sola direzione di deviazione dall'ipotesi nulla.

In sintesi, il test di ipotesi comporta la formulazione di un'ipotesi nulla, che rappresenta l'affermazione contro la quale si desidera raccogliere prove, e un'ipotesi alternativa, che contraddice l'ipotesi nulla. I dati vengono raccolti e viene calcolata una statistica di test, ad esempio la media campionaria. Viene quindi calcolato il valore p, che rappresenta la probabilità di ottenere una statistica test estrema come quella osservata, assumendo che l'ipotesi nulla sia vera. La scelta di un'ipotesi alternativa unilaterale o bilaterale dipende dalla domanda di ricerca e dalle ipotesi specifiche sul parametro della popolazione. Infine, il valore p viene confrontato con il livello di significatività e viene presa una decisione se rifiutare o non rifiutare l'ipotesi nulla sulla base delle prove fornite dai dati.

Hypothesis Testing: One- and Two-Sided Alternatives
Hypothesis Testing: One- and Two-Sided Alternatives
  • 2020.10.31
  • www.youtube.com
How do we determine the an alternative hypothesis when setting up a hypothesis test? How does our choice affect the way we calculate a p-value?
Motivazione: