Tutorial di programmazione - pagina 12

 

Descrivere i dati in modo qualitativo


Descrivere i dati in modo qualitativo

Ciao a tutti, oggi discuteremo della descrizione qualitativa delle forme dei set di dati, concentrandoci sulla costruzione del vocabolario per comunicare efficacemente le nostre osservazioni. Esploreremo varie rappresentazioni grafiche come istogrammi, poligoni di frequenza e stem plot e ne discuteremo le caratteristiche. Facciamo alcuni esempi:

Innanzitutto, esaminiamo un istogramma. In questo caso, il grafico presenta una forma simmetrica, con la metà sinistra simile alla metà destra. Sebbene i dati reali raramente mostrino una simmetria perfetta, ci concentriamo sulla descrizione della forma complessiva piuttosto che sull'individuazione di valori specifici. Un altro tipo di distribuzione simmetrica è un grafico uniforme, in cui i valori dei dati sono distribuiti uniformemente tra i contenitori. Ciò si traduce in una forma piatta orizzontalmente, che indica la stessa probabilità che i valori ricadano in ciascun contenitore.

Ora, esploriamo i set di dati che non sono simmetrici. Invece degli istogrammi, prenderemo in considerazione i grafici delle radici per cambiare. In questo esempio di stem plot, possiamo osservare una forma asimmetrica. È evidente che la distribuzione non è la stessa su entrambi i lati del centro, che si trova intorno a 92. Inoltre, possiamo discernere la direzione dell'asimmetria. In questo caso c'è una coda più lunga verso i numeri più alti, lontano dal centro. Ciò indica una distribuzione distorta a destra.

D'altra parte, qui c'è uno stem plot che è distorto a sinistra. Notiamo una coda più lunga sul lato dei valori più piccoli, mentre i dati sono più concentrati verso valori più grandi. È importante descrivere con precisione la direzione dell'asimmetria per fornire una comprensione completa del set di dati.

Infine, consideriamo un set di dati che inizialmente potrebbe apparire distorto a destra a causa di un unico grande valore anomalo intorno a 160 o 170. Tuttavia, se ignoriamo questo valore anomalo, la distribuzione mostra una forma abbastanza simmetrica, potenzialmente simile a una curva a campana. È fondamentale identificare i valori anomali in quanto possono rappresentare errori, casi eccezionali o fenomeni che richiedono un'analisi separata. Quando si descrive la forma complessiva dei dati, i valori anomali dovrebbero essere riconosciuti ma non considerati pesantemente.

Sviluppando un vocabolario per descrivere le forme dei set di dati, possiamo comunicare in modo efficace le caratteristiche e i modelli chiave osservati nei dati. Comprendere la forma di un set di dati aiuta a interpretarne le proprietà e ci consente di trarre intuizioni significative.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Comprensione di media, mediana e moda


Comprensione di media, mediana e moda

Ciao a tutti, oggi discuteremo dei concetti di media, mediana e moda, soffermandoci sulle loro interpretazioni come misure di tendenza centrale. Ogni misura ha la sua utilità e comprenderle è fondamentale. Esaminiamo rapidamente le loro definizioni.

La media rappresenta la media numerica di un set di dati. Viene calcolato sommando tutti i valori dell'insieme e dividendo il totale per il numero di valori. La media è comunemente indicata da X-bar o X con una linea sopra, specialmente quando si tratta di campioni.

La mediana è il valore che divide i dati esattamente a metà. Per trovare la mediana, disponi i dati dal più basso al più alto. Se c'è un numero dispari di valori, la mediana è il valore medio. Per un numero pari di valori, calcola la media dei due valori centrali per trovare la mediana. La mediana è spesso indicata da una M maiuscola.

La modalità è semplicemente il valore più comune nel set di dati. Una distribuzione può avere più modalità se due o più valori hanno la stessa frequenza, ma se tutti i dati hanno la stessa frequenza, diciamo che la distribuzione non ha modalità.

Consideriamo un esempio. Supponiamo di avere un set di dati con 16 valori. La media viene calcolata sommando tutti i valori e dividendo per 16. In questo caso, la media è 67,9375. La mediana, poiché abbiamo un numero pari di valori, si trova facendo la media dei due valori medi, risultando 65,5. La modalità, il valore più comune, è 65.

Ogni misura di tendenza centrale ha anche un'interpretazione grafica. In un istogramma, la modalità è il punto più alto dell'istogramma, che rappresenta il valore più frequente. La mediana è il valore che divide l'istogramma a metà, dividendo equamente l'area. La media è il valore che permetterebbe all'istogramma di bilanciarsi.

Consideriamo l'esempio di un istogramma. La modalità può essere determinata identificando il valore x in cui l'istogramma è più alto, che in questo caso è leggermente maggiore di 3. La mediana è il valore che divide a metà l'area dell'istogramma, che è di circa 4,5. La media è il valore che bilancerebbe l'istogramma, leggermente inferiore a 5.

Perché abbiamo bisogno di tre misure di tendenza centrale? Ogni misura ha i suoi vantaggi e svantaggi. La media è comunemente usata nell'analisi statistica ed è intuitiva. Tuttavia, è fortemente influenzato dai valori anomali e potrebbe non essere adatto a distribuzioni asimmetriche.

La mediana è semplice da calcolare e comprendere e non è sensibile ai valori anomali. Tuttavia, non utilizza tutte le informazioni nel set di dati e può presentare problemi nell'inferenza statistica.

La moda è una misura universale della tendenza centrale, anche per variabili categoriali. Tuttavia, il valore più comune non rappresenta necessariamente il centro della distribuzione, rendendolo meno affidabile come misura del centro.

Considera un piccolo set di dati dei punteggi degli esami, incluso un valore anomalo. In questo caso, la media di 79 non descrive accuratamente la prestazione tipica dello studente. La mediana di 94 è una misura più descrittiva. La rimozione del valore anomalo rivela la differenza in modo più chiaro, poiché la media cambia in modo significativo mentre la mediana rimane invariata.

Comprendere le distinzioni tra media, mediana e moda ci consente di interpretare e comunicare efficacemente le tendenze centrali di un set di dati, considerando i loro punti di forza e limiti in diversi scenari.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

Percentili e quantili in R


Percentili e quantili in R

Oggi parleremo di percentili e quantili in R. Cominciamo con il ripassare i loro significati.

I percentili sono un modo per misurare la posizione relativa di un valore all'interno di un set di dati. In generale, il p-esimo percentile di un set di dati è un valore maggiore del p percento dei dati. Ad esempio, il 50° percentile è la mediana, il 25° percentile è il primo quartile e il 75° percentile è il terzo quartile. Rappresenta il valore che si trova al di sopra del 75 percento dei dati.

Esistono diversi metodi per calcolare i percentili e non esiste un approccio universalmente accettato. Tuttavia, la buona notizia è che tutti i metodi producono risultati molto simili. Per calcolare i percentili, è meglio affidarsi alla tecnologia, come R, che offre calcoli efficienti e accurati.

I quantili, d'altra parte, sono essenzialmente gli stessi dei percentili. Tuttavia, il termine "quantili" viene spesso utilizzato quando ci si riferisce a valori decimali, mentre i "percentili" sono associati a valori interi. Ad esempio, potresti avere il 15° percentile ma il quantile 0,15. Il vantaggio dei quantili è che consentono una maggiore precisione esprimendo i valori con tutte le cifre decimali necessarie.

Passiamo ora a R ed esploriamo come calcolare percentili e quantili utilizzando il set di dati "fedele", che contiene informazioni sulla durata dell'eruzione e sul tempo di attesa del geyser Old Faithful negli Stati Uniti, misurato in minuti.

Per calcolare percentili e quantili in R, possiamo usare la funzione "quantile". Richiede due argomenti. Per prima cosa, specifichiamo la variabile che ci interessa, che in questo caso è "fedele$in attesa". Successivamente, indichiamo il quantile desiderato, scritto come decimale. Ad esempio, per calcolare il 35° percentile (quantile 0,35), scriviamo 0,35 come argomento quantile. Eseguendo il comando otteniamo il risultato, ad esempio 65 in questo caso. Ciò implica che circa il 35% di tutte le eruzioni ha un tempo di attesa inferiore o uguale a 65.

In R, è possibile calcolare più quantili contemporaneamente fornendo un vettore di quantili. Ad esempio, utilizzando la funzione "c()", possiamo specificare i quantili 0,35, 0,70 e 0,95. Il risultato sarà un vettore contenente i rispettivi quantili: 65, 81 e 89.

Un altro comando utile è "summary", che fornisce un riepilogo della variabile. Passando la variabile "faithful$waiting" al comando, otteniamo il primo quartile (25° percentile), la mediana (50° percentile), il terzo quartile (75° percentile), nonché i valori minimo, massimo e medio.

Ora, affrontiamo la domanda opposta. Se abbiamo un valore all'interno del set di dati e vogliamo determinarne il percentile, possiamo usare il comando "ecdf". Specificando la variabile di interesse, ad esempio "faithful$waiting" e fornendo un valore specifico dal set di dati, ad esempio 79, il comando restituirà il percentile di tale valore. In questo esempio, il risultato è 0,6617647, a indicare che un tempo di attesa di 79 corrisponde approssimativamente al 66° percentile.

Comprendere percentili e quantili ci consente di valutare la posizione relativa dei valori all'interno di un set di dati, fornendo preziose informazioni sulla distribuzione e sulle caratteristiche dei dati.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Varianza campionaria e deviazione standard


Varianza campionaria e deviazione standard

Ciao a tutti, oggi approfondiremo il concetto di varianza campionaria e deviazione standard. Queste due misure ci aiutano a comprendere l'entità della variabilità o diffusione in un set di dati. Forniscono informazioni su quanto i valori nel set di dati si discostano dalla media, in media.

Diamo un'occhiata alle formule. Nelle formule, "n" rappresenta la dimensione totale del campione, "X_i" indica i valori nel set di dati (ad esempio, X_1, X_2, X_3 e così via) e "X barra" (X con una linea sopra) rappresenta la media campionaria. Sebbene in genere utilizziamo tecnologie come R per calcolare queste misure, è fondamentale comprendere i concetti sottostanti, soprattutto perché non eseguiamo più questi calcoli manualmente.

Il componente chiave in entrambe le misure è il termine "X_i meno X barra", che rappresenta la deviazione di ciascun valore (X_i) dalla media campionaria. In altre parole, quantifica quanto ciascun valore differisce, positivamente o negativamente, dalla media. Idealmente, vogliamo determinare la media di queste deviazioni, ma prendere una media semplice produrrebbe zero poiché le deviazioni positive e negative si annullano a vicenda. Per risolvere questo problema, quadratiamo ogni deviazione (X_i meno X barra) prima di calcolare la media. Ciò si traduce nella formula per la varianza campionaria, che rappresenta la media delle deviazioni al quadrato dalla media.

Tuttavia, potresti aver notato che dividiamo per (n-1) invece di n nella formula della varianza. Ci sono diversi motivi per questo, ma eccone uno semplice: quando si calcola la media campionaria (X barra), abbiamo solo bisogno di (n-1) dei valori X_i. Questo perché X bar è calcolato come la somma di tutti gli X_i divisi per n. Pertanto, possiamo risolvere qualsiasi valore X_i una volta che abbiamo X bar. La divisione per (n-1) tiene conto di ciò e ci assicura di calcolare la media di (n-1) deviazioni distinte, non tutte n. In questo modo otteniamo la varianza campionaria come misura significativa della variabilità.

Un altro problema è che la varianza non è sulla stessa scala dei dati originali, rendendola astratta. Per risolvere questo problema, prendiamo la radice quadrata della varianza campionaria, ottenendo la formula per la deviazione standard campionaria. Sebbene la deviazione standard richieda più calcoli e possa essere teoricamente impegnativa, è più facile da interpretare e visualizzare rispetto alla varianza. Sia la varianza che la deviazione standard hanno i loro usi in contesti diversi.

Consideriamo un esempio con un set di dati di soli quattro valori. Per calcolare la varianza campionaria e la deviazione standard, calcoliamo prima la media campionaria sommando i quattro valori e dividendo per quattro, ottenendo una media di 121. Usando la formula della varianza, eleviamo al quadrato le deviazioni (X_i meno X bar) per ciascun valore e mediare le deviazioni al quadrato, dividendo per tre (uno in meno del numero di valori). Ciò produce una varianza di 220. Tuttavia, questo valore manca di interpretabilità immediata. Per risolvere questo problema, prendiamo la radice quadrata della varianza, ottenendo una deviazione standard di 14,8. Questo valore ha più senso come misura della diffusione nel set di dati.

In termini di tecnologia, possiamo usare comandi come "var" e "sd" in R per calcolare rispettivamente la varianza e la deviazione standard. Si consiglia vivamente di sfruttare la tecnologia per questi calcoli, poiché consente di risparmiare tempo e fornisce risultati accurati. Il calcolo manuale della varianza e della deviazione standard non è più necessario nella maggior parte dei casi.

Inoltre, è importante notare che nella maggior parte dei casi, circa due terzi dei valori dei dati rientreranno in una deviazione standard della media. Per una distribuzione a campana (distribuzione normale), circa il 68% dei dati si trova all'interno di una deviazione standard, circa il 95% si trova all'interno di due deviazioni standard e quasi tutto (99,7%) si trova all'interno di tre deviazioni standard della media. Questa è nota come regola empirica o regola 68-95-99,7.

Per illustrare ciò, consideriamo un set di dati di 200 valori scelti casualmente da numeri interi compresi tra 0 e 100. La media di questo set di dati è 49,9 e la deviazione standard è 27,3. Applicando la regola empirica, se andiamo di una deviazione standard sopra e sotto la media, cattureremmo il 68% dei valori, che ammonta a 136 valori. Se la distribuzione segue una forma a campana (distribuzione normale), possiamo fare stime ancora più precise. In questo caso, circa il 95% dei valori (190 su 200) rientrerebbe in due deviazioni standard della media e quasi tutti i valori (199 su 200) rientrerebbero in tre deviazioni standard della media.

Concludiamo con un altro esempio usando la regola empirica. Supponiamo di avere i punteggi di un test standardizzato che seguono approssimativamente una distribuzione a campana. Il punteggio medio è 1060 e la deviazione standard è 195. Applicando la regola empirica, possiamo stimare che circa il 68% dei punteggi cadrebbe tra 865 e 1255 (una deviazione standard al di sotto e al di sopra della media). Circa il 95% dei punteggi sarebbe compreso tra 670 e 1450 (due deviazioni standard al di sotto e al di sopra della media). Infine, circa il 99,7% dei punteggi sarebbe compreso tra 475 e 1645 (tre deviazioni standard al di sotto e al di sopra della media).

Comprendere la varianza e la deviazione standard ci aiuta a cogliere la diffusione e la variabilità all'interno di un set di dati. Mentre la tecnologia facilita il loro calcolo, è fondamentale comprendere i concetti sottostanti per interpretare e analizzare i dati in modo efficace. Utilizzando queste misure, possiamo ottenere informazioni preziose e prendere decisioni informate in base alle caratteristiche dei dati.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Punteggi Z


Punteggi Z

Salve a tutti, nella discussione di oggi esploreremo i punteggi z, noti anche come punteggi standard. Questo metodo ci consente di misurare la posizione relativa dei valori all'interno di un set di dati.

Un punteggio z rappresenta il numero di deviazioni standard di cui un valore si discosta dalla media. Ad esempio, se disponiamo di un set di dati con una media di 50 e una deviazione standard di 8, un valore di 62 avrebbe uno z-score di 1,5. Ciò significa che il valore di 62 è 1,5 deviazioni standard al di sopra della media.

I punteggi Z sono particolarmente utili per valutare le posizioni relative nei set di dati con distribuzioni simmetriche, in particolare quelli che seguono una distribuzione a campana o normale. Tuttavia, quando si ha a che fare con dati distorti o set di dati contenenti valori anomali, la media e la deviazione standard potrebbero non rappresentare accuratamente il centro e la diffusione dei dati. Di conseguenza, l'utilità dei punteggi z diminuisce in tali casi.

La formula per calcolare un punteggio z è: z = (x - μ) / σ, dove x è il valore nel set di dati, μ è la media e σ è la deviazione standard. La media è talvolta rappresentata da x-bar e la deviazione standard da s, ma la formula rimane la stessa.

I punteggi Z sono particolarmente preziosi quando si confrontano le posizioni relative dei valori in diversi set di dati. Consideriamo un esempio per illustrare questo. L'altezza media degli uomini adulti negli Stati Uniti è di 69,4 pollici, con una deviazione standard di 3,0 pollici. D'altra parte, l'altezza media delle donne adulte negli Stati Uniti è di 64,2 pollici, con una deviazione standard di 2,7 pollici. Ora, possiamo confrontare la relativa rarità di un uomo alto 64,2 pollici e una donna alta 69,4 pollici.

Per calcolare il punteggio z per l'uomo, usiamo la formula (64,2 - 69,4) / 3,0. Il punteggio z risultante è -1,73, a indicare che l'altezza dell'uomo è di 1,73 deviazioni standard al di sotto dell'altezza media degli uomini. Per la donna, il punteggio z è (69,4 - 64,2) / 2,7, con un punteggio z di 1,93. Ciò significa che l'altezza della donna è di 1,93 deviazioni standard sopra l'altezza media delle donne. Confrontando i valori assoluti dei due punteggi z, possiamo concludere che l'altezza della donna è più insolita rispetto all'altezza media delle donne.

È importante notare che i punteggi z da soli non forniscono una distinzione definitiva tra valori "normali" e "insoliti". Una convenzione comune è considerare i valori a più di due deviazioni standard dalla media come insoliti e i valori a più di tre deviazioni standard come molto insoliti. Tuttavia, questa è solo una regola empirica e la decisione dipende in ultima analisi dal contesto e dalla distribuzione specifica dei dati.

Per dimostrarlo, consideriamo il caso di un uomo alto 76 pollici. Utilizzando la stessa formula e la media e la deviazione standard fornite per gli uomini, calcoliamo un punteggio z di 2,2. Poiché questo valore è maggiore di 2 in valore assoluto, considereremmo insolita secondo la convenzione l'altezza dell'uomo.

La regola empirica fornisce una linea guida quando si tratta di distribuzioni approssimativamente a forma di campana. Circa il 68% dei valori rientra in una deviazione standard della media (punteggi z tra -1 e 1), circa il 95% rientra in due deviazioni standard (punteggi z tra -2 e 2) e circa il 99,7% rientra in tre deviazioni standard (punteggi z compresi tra -3 e 3).

In conclusione, i punteggi z offrono un modo utile per valutare la posizione relativa dei valori all'interno di un set di dati. Sono particolarmente utili per confrontare i valori tra diversi set di dati e determinare la rarità o l'insolita di un valore specifico. Tuttavia, è essenziale considerare la forma della distribuzione, i valori anomali e il contesto dei dati durante l'interpretazione dei punteggi z.

Concludiamo con un breve esempio. Supponiamo di avere un set di dati sull'altezza delle donne adulte negli Stati Uniti, che segue approssimativamente una distribuzione a campana. L'altezza media è di 64,2 pollici, con una deviazione standard di 2,7 pollici.

Utilizzando la regola empirica, possiamo stimare le fasce di altezza entro le quali rientra una certa percentuale di donne. Entro una deviazione standard della media, si troverà circa il 68% dell'altezza delle donne. Sottraendo 2,7 da 64,2 otteniamo 61,5 pollici e aggiungendo 2,7 otteniamo 66,9 pollici. Pertanto, possiamo stimare che circa il 68% delle altezze delle donne cadrà tra 61,5 e 66,9 pollici.

Espandendo a due deviazioni standard, troviamo che circa il 95% delle altezze delle donne si trova all'interno di questo intervallo. Sottraendo 2,7 due volte dalla media, otteniamo 58,8 pollici e aggiungendo 2,7 due volte otteniamo 69,6 pollici. Pertanto, ci si può aspettare che circa il 95% delle altezze delle donne cada tra 58,8 e 69,6 pollici.

Infine, all'interno di tre deviazioni standard, che coprono circa il 99,7% dei dati, sottraiamo 2,7 tre volte dalla media per ottenere 56,1 pollici e aggiungiamo 2,7 tre volte per ottenere 71,7 pollici. Quindi, possiamo stimare che circa il 99,7% delle altezze delle donne cadrà tra 56,1 e 71,7 pollici.

Comprendere i punteggi z e la loro interpretazione ci consente di valutare la posizione relativa e la rarità dei valori all'interno di un set di dati, fornendo preziose informazioni in vari campi come statistica, ricerca e analisi dei dati.

Ricorda, i punteggi z forniscono una misura standardizzata della posizione relativa, considerando la media e la deviazione standard del set di dati. Sono un potente strumento per comprendere la distribuzione e confrontare i valori tra diversi set di dati.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

Il riepilogo a cinque numeri e il test IQR 1,5 x per i valori anomali


Il riepilogo a cinque numeri e il test IQR 1,5 x per i valori anomali

Ciao a tutti! Oggi approfondiremo i concetti del riepilogo a cinque numeri e del test IQR 1,5 volte per i valori anomali. Iniziamo definendo i quartili di un set di dati. I quartili sono valori che dividono un set di dati in quattro parti uguali. Il primo quartile (Q1) si trova al di sopra di circa il 25% dei dati, il secondo quartile (Q2) si trova al di sopra di circa la metà dei dati (noto anche come mediana) e il terzo quartile (Q3) si trova al di sopra di circa il 75% dei dati dati.

È importante notare che la divisione in quattro parti uguali potrebbe non essere esatta se il set di dati non viene diviso in modo uniforme. Il primo e il terzo quartile possono essere trovati determinando prima la mediana. Per trovare Q1 e Q3, dividiamo il set di dati in una metà superiore e una metà inferiore e calcoliamo le mediane di queste due metà. La mediana della metà superiore è Q3, mentre la mediana della metà inferiore è Q1.

Lavoriamo attraverso un esempio per illustrare questo. Considera il seguente set di dati con 17 valori, elencati dal più basso al più alto. La mediana, o Q2, sarà il valore al centro, che in questo caso è il nono valore (poiché 17 è un numero dispari di valori). Pertanto, la mediana è 42. Per trovare Q1, consideriamo gli otto valori inferiori alla mediana. Ordinandoli, troviamo 16, 18, 20 e 22. Poiché questo è un numero pari di valori, prendiamo la media dei due valori medi, che ci dà 18. Allo stesso modo, per Q3, consideriamo gli otto valori maggiori di la mediana, che sono 45, 48, 50 e 55. Ancora una volta, prendendo la media dei due valori medi, otteniamo Q3 pari a 52.

Pertanto, per questo esempio, i quartili sono Q1 = 18, Q2 = 42 e Q3 = 52. Il riepilogo di cinque numeri di un set di dati è costituito da questi quartili insieme ai valori minimo e massimo nel set di dati. Nel nostro caso, il riepilogo di cinque numeri è 5, 18, 42, 52 e 93, dove 5 rappresenta il valore minimo e 93 rappresenta il massimo.

Un'altra misura utile è l'intervallo interquartile (IQR), che quantifica la diffusione della metà centrale dei dati. Viene calcolato come differenza tra Q3 e Q1. Nel nostro esempio, l'IQR è 52 - 18 = 34. L'IQR si concentra sull'intervallo di valori all'interno del 50% medio del set di dati ed è meno influenzato dai valori estremi.

Consideriamo ora un altro esempio. Supponiamo di avere i punteggi degli esami di 22 studenti elencati di seguito. Vogliamo descrivere la distribuzione dei punteggi utilizzando il sommario a cinque numeri e l'IQR. Innanzitutto, dovremmo essere cauti nell'usare la media come misura del centro, poiché potrebbe essere influenzata da valori estremi. In questo caso, la media è 75,3, ma poiché alcuni studenti hanno ottenuto punteggi eccezionalmente bassi, la media potrebbe non rappresentare accuratamente il rendimento tipico dello studente. Allo stesso modo, l'intervallo, che è la differenza tra i valori minimo e massimo (rispettivamente 2 e 100), può essere fuorviante a causa dei valori estremi.

Per ottenere una descrizione più accurata, calcoliamo il riepilogo a cinque numeri. Ordinando i punteggi, troviamo il valore minimo pari a 2 e il valore massimo pari a 100. La mediana (Q2) è il valore al centro, che in questo caso è 80. La metà inferiore del set di dati è costituita dagli otto valori inferiori a la mediana, con 76 e 83 come due valori medi. Prendendo la loro media, troviamo Q1 come 79. Allo stesso modo, per la metà superiore del set di dati, abbiamo la mediana come 83, risultante in Q3 come 83.

Pertanto, il riepilogo a cinque numeri per questo set di dati è 2, 79, 80, 83 e 100. Da questo riepilogo, osserviamo che la metà centrale dei punteggi si trova tra 79 e 83, indicando che i punteggi sono strettamente raggruppati attorno al mediano.

Per identificare i valori anomali nel set di dati, possiamo utilizzare il test IQR 1,5 volte. L'IQR, come calcolato in precedenza, è 83 - 79 = 4. Moltiplicando l'IQR per 1,5 otteniamo 6. Sottraiamo 6 da Q1 e aggiungiamo 6 a Q3 per stabilire l'intervallo entro il quale i valori non sono considerati valori anomali. In questo caso, qualsiasi valore inferiore a 73 o superiore a 89 dovrebbe essere trattato come un valore anomalo secondo questa regola.

Applicando questo test al set di dati, troviamo che 2 e 100 dovrebbero essere considerati valori anomali. Come professore, è consigliabile ignorare questi punteggi estremi o dare loro meno peso quando si determina la curva dell'esame.

Utilizzando il riepilogo a cinque numeri, IQR e il test IQR 1,5 volte, otteniamo una migliore comprensione della distribuzione dei punteggi e possiamo identificare potenziali valori anomali che potrebbero influenzare l'analisi complessiva.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

Boxplot


Boxplot

Oggi parleremo dei box plot, noti anche come box e whisker plot. Un box plot è una rappresentazione grafica di un set di dati a variabile singola basato sul riepilogo a cinque numeri. Facciamo un esempio per capirli meglio.

Supponiamo di avere un set di dati per il quale vogliamo costruire un riepilogo di cinque numeri e un box plot. Il set di dati è il seguente: 34, 42, 48, 51,5 e 58. Innanzitutto, disponiamo i numeri in ordine crescente per trovare i valori minimo (34) e massimo (58). Poiché esiste un numero dispari di valori, la mediana è il valore al centro, che in questo caso è 48.

Successivamente, dividiamo il set di dati in due metà: la metà inferiore e la metà superiore. La mediana della metà inferiore è 42 e la mediana della metà superiore è 51,5. Questi valori sono noti rispettivamente come primo quartile (Q1) e terzo quartile (Q3).

Usando il sommario a cinque numeri, possiamo costruire il box plot. Il box plot consiste in un box che rappresenta l'intervallo tra Q1 e Q3. La parte inferiore del riquadro corrisponde a Q1, la parte superiore corrisponde a Q3 e la linea orizzontale all'interno del riquadro rappresenta la mediana. Le "braccia" del box plot si estendono dal box ai valori minimo e massimo (rispettivamente 34 e 58).

Lo scopo del box plot è visualizzare la distribuzione dei dati. La casella rappresenta il 50% centrale del set di dati, mentre le braccia comprendono i valori rimanenti. Nell'esempio dato, poiché non ci sono valori estremi, non ci sono valori anomali visualizzati sul box plot.

Consideriamo un altro esempio in cui vogliamo determinare il riepilogo a cinque numeri, testare i valori anomali utilizzando il test IQR 1,5 volte e costruire un box plot. Il set di dati è il seguente: 62, 64, 75, 81,5 e 110.

Calcolando l'intervallo interquartile (IQR) sottraendo Q1 da Q3, troviamo che è 17,5. Per eseguire il test IQR 1,5 volte, moltiplichiamo l'IQR per 1,5. Sottraendo 1,5 volte l'IQR da Q1 (64 - 1,5 * 17,5), otteniamo 37,5. Aggiungendo 1,5 volte l'IQR a Q3 (81,5 + 1,5 * 17,5), otteniamo 107,75. Qualsiasi valore inferiore a 37,5 o superiore a 107,75 dovrebbe essere considerato un valore anomalo.

In questo caso, il valore 110 supera il limite superiore ed è classificato come valore anomalo. Costruendo il box plot, disegniamo i bracci del box plot solo fino ai valori più estremi che non sono valori anomali. Il valore anomalo di 110 è indicato da un punto separato e il braccio superiore si estende solo fino a 90, che rappresenta il valore più alto all'interno dell'intervallo non anomalo.

I box plot sono particolarmente utili quando si confrontano dati tra gruppi, ad esempio tracciando una variabile categorica e una variabile quantitativa. Questo tipo di grafico, spesso definito box plot affiancato, fornisce un chiaro confronto visivo di diversi gruppi. Ad esempio, possiamo considerare il famoso set di dati dell'iride, in cui confrontiamo le larghezze dei petali di tre specie: setosa, versicolor e virginica. Esaminando il box plot, possiamo osservare che la specie setosa ha generalmente petali più stretti rispetto alle altre due specie. Inoltre, possiamo discernere le differenze di diffusione tra le larghezze dei petali all'interno di ciascun gruppo.

In sintesi, i box plot forniscono una visualizzazione concisa del riepilogo dei cinque numeri e consentono un facile confronto tra diversi gruppi. Visualizzano i valori minimo, primo quartile (Q1), mediana, terzo quartile (Q3) e massimo di un set di dati. La casella rappresenta il 50% centrale dei dati, con la parte inferiore della casella in Q1 e la parte superiore in Q3. La linea all'interno del riquadro rappresenta la mediana.

I box plot hanno anche la capacità di visualizzare valori anomali, ovvero valori che non rientrano nell'intervallo determinato dal test IQR 1,5 volte. Per determinare i valori anomali, calcoliamo l'IQR (Q3 - Q1) e lo moltiplichiamo per 1,5. Quindi sottraiamo 1,5 volte l'IQR da Q1 e aggiungiamo 1,5 volte l'IQR a Q3. Tutti i valori al di sotto del limite inferiore o al di sopra del limite superiore sono considerati valori anomali.

Quando si costruisce un box plot con valori anomali, i bracci del grafico si estendono solo fino ai valori più estremi che non sono valori anomali. I valori anomali sono rappresentati come singoli punti al di fuori dei bracci del box plot. Ciò garantisce che il box plot rappresenti accuratamente la distribuzione dei dati non anomali ed evita interpretazioni fuorvianti.

I box plot sono particolarmente utili quando si confrontano dati tra diversi gruppi o categorie. Tracciando più box plot affiancati, diventa più facile confrontare le distribuzioni e comprendere le differenze nelle variabili analizzate.

Ad esempio, utilizzando il set di dati dell'iride, possiamo creare un box plot affiancato per confrontare le larghezze dei petali delle specie setosa, versicolor e virginica. Questo ci permette di osservare visivamente le differenze di larghezza dei petali tra le specie e la diffusione dei valori all'interno di ciascun gruppo.

In sintesi, i grafici a scatola forniscono un riepilogo visivo del riepilogo a cinque numeri, facilitando la comprensione della distribuzione dei dati e il confronto di gruppi diversi. Forniscono informazioni sulla tendenza centrale, la diffusione e la presenza di valori anomali in un set di dati, rendendoli uno strumento prezioso per l'analisi e la visualizzazione dei dati.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

Boxplots in R


Boxplots in R

Hello everyone! Today, we're going to learn how to create beautiful box plots in R using the qplot command. There are multiple ways of creating box plots in R, but the most visually appealing ones often come from the ggplot2 package, which is part of the tidyverse family of packages. So, let's dive into it!

If you haven't used these functions before, you'll need to install the tidyverse package on your machine using the install.packages command. This step is quick if you haven't done it already. Once installed, you need to load the package into memory using the library(tidyverse) command at the beginning of each session to access its functions.

In this tutorial, we'll focus on using the qplot command from the ggplot2 package. Now, let's start with two examples of creating box plots.

First, let's manually input some data. We'll create a vector called "scores" with a length of 21, which could represent scores of students on a math exam in a class of size 21.

To create a box plot of the scores, we use the qplot command. The basic syntax remains the same: specify the variables for the x and y axes, and use the geom argument to indicate that we want a box plot. In this case, we'll plot the scores on the x-axis.

To make our box plot more visually appealing, we can make some improvements. Firstly, we can remove the meaningless numbers on the y-axis using y = "". Next, if we want a vertical box plot, we can switch the axes by using y for the scores and removing the x-axis label. We can also add color to the lines and the interior of the box using the color and fill arguments, respectively. Finally, we can customize the labels and add a title to the graph using ylab and main arguments.

Now, let's move on to the second example using a built-in dataset called chickweights. This dataset contains 71 observations with two variables: weights of different chicks and the feeds they were given. We'll create a side-by-side box plot to compare the distributions of chick weights across different feed types.

Similar to the previous example, we use the qplot command and specify the dataset using data = chickweights. We then indicate that we want a vertical box plot with the weights on the y-axis and the feeds on the x-axis. To differentiate the box plots by feed type, we can use the fill argument and map it to the feed variable.

Once again, there are many other options available for customization, including font styles, label sizes, and point sizes. You can explore further by searching online.

With just a few modifications, we can create professional-looking box plots in R. These examples demonstrate the power and flexibility of the ggplot2 package for data visualization.

 

Esperimenti di probabilità, risultati, eventi e spazi campionari


Esperimenti di probabilità, risultati, eventi e spazi campionari

Ciao a tutti! Oggi approfondiremo i fondamenti della probabilità. Esploreremo argomenti come spazi campione, risultati, eventi e altro ancora. Un esperimento di probabilità, noto anche come esperimento casuale, è una prova in cui il risultato non può essere previsto con certezza. Tuttavia, prove ripetute possono rivelare alcune tendenze. Diamo un'occhiata ad alcuni esempi.

  1. Lancia una moneta e registra se esce testa o croce.
  2. Usa un dialer casuale per contattare 10 elettori e chiedi per chi intendono votare.
  3. Lancia due dadi e registra la somma dei numeri.
  4. Lancia due dadi e conta il numero di volte in cui appare un sei.

Si noti che negli ultimi due esempi, sebbene l'azione sia la stessa (tirare due dadi), i dati registrati sono leggermente diversi. Quindi, li consideriamo come esperimenti di probabilità separati. Ora, discutiamo un po' di vocabolario.

Il risultato di una prova specifica in un esperimento di probabilità è chiamato risultato. La raccolta di tutti i possibili risultati in un esperimento di probabilità viene definita spazio campionario (indicato con la S maiuscola). Un sottoinsieme dello spazio campionario è detto evento.

Per illustrare questo, consideriamo un esempio. Supponiamo di lanciare due monete e registrare i risultati. Lo spazio campionario consiste di quattro esiti: testa-testa, testa-croce, croce-testa e croce-croce. Se definiamo l'evento E come "entrambi i lanci sono uguali", allora abbiamo due risultati all'interno di quell'evento: testa-testa e croce-croce. Questo evento è un sottoinsieme dello spazio campionario.

In genere, un evento rappresenta qualcosa che può verificarsi durante un esperimento di probabilità, ma possono verificarsi in diversi modi. Nell'esempio precedente, l'evento "entrambi i lanci sono uguali" può verificarsi in due modi diversi.

Se un evento può accadere solo in un modo, nel senso che consiste in un unico risultato, lo chiamiamo evento semplice. Il complemento di un evento E, indicato come E' o talvolta con una barra sopra E, è l'insieme di tutti i risultati nello spazio campionario che non sono in E. Quando E si verifica, E' non si verifica e viceversa.

Ad esempio, supponiamo di selezionare casualmente un numero intero da 1 a 9 utilizzando uno spinner. Sia E l'evento "il risultato è un numero primo". Lo spazio campionario è costituito dagli interi da 1 a 9 ed E è l'insieme dei numeri primi minori di 10: {2, 3, 5, 7}. Il complemento di E (E') è l'evento in cui E non si verifica, che consiste dei numeri minori di 10 che non sono primi: {1, 4, 6, 8, 9}.

Due eventi sono disgiunti se non hanno risultati in comune, il che significa che non possono verificarsi entrambi contemporaneamente in una prova dell'esperimento di probabilità. Ad esempio, considera di lanciare quattro monete e registrare i risultati. Sia E l'evento "i primi due lanci sono testa" e sia F l'evento "ci sono almeno tre code". Questi due eventi possono essere rappresentati come segue:

E: {HHHH, HHHH...} F: {TTTTT, TTTTH, TTTHT, TTTTH...}

Si noti che non ci sono risultati condivisi tra gli insiemi E ed F. Pertanto, questi eventi sono disgiunti.

Esistono diversi modi per descrivere la probabilità di un evento e due approcci comuni sono la probabilità empirica (o probabilità statistica) e la probabilità classica (o probabilità teorica).

La probabilità empirica si basa sull'osservazione. Eseguiamo un esperimento di probabilità più volte, contiamo quante volte si verifica l'evento e lo dividiamo per il numero totale di prove. Corrisponde alla proporzione di volte in cui l'evento si è verificato nel passato. Ad esempio, se lanciamo una moneta 100 volte ed esce testa 53 volte, la probabilità empirica che la moneta esca testa è 53/100 o 53%.

La probabilità classica, d'altra parte, si applica quando tutti i risultati in uno spazio campionario sono ugualmente probabili. Contiamo il numero di risultati nell'evento e lo dividiamo per il numero totale di risultati nello spazio campionario. Matematicamente, è espresso come la cardinalità (numero di elementi) dell'evento E divisa per la cardinalità dello spazio campionario S. Per esempio, se tiriamo un dado equilibrato, ci sono sei risultati ugualmente probabili, e se siamo interessati a il semplice evento E di ottenere un cinque, la probabilità classica è 1/6.

Consideriamo un altro esempio. Se lanciamo una moneta equa tre volte, ci sono otto risultati ugualmente probabili: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Sia E l'evento di ottenere esattamente due teste. All'interno dello spazio campionario, ci sono tre risultati (HHH, HHT e HTH) nell'evento E. Pertanto, la probabilità classica dell'evento E è 3/8.

Ora, esploriamo una domanda di probabilità usando la distribuzione di frequenza di un corso introduttivo di statistica in una grande università. La distribuzione mostra il numero di studenti in ogni livello di classe: 67 matricole, 72 seconde e così via. Se selezioniamo a caso una persona da questa classe, qual è la probabilità che sia al secondo anno? Questa è una classica domanda di probabilità.

Nella distribuzione di frequenza data, ci sono 222 risultati totali (studenti nella classe), e di questi, 72 risultati corrispondono agli studenti del secondo anno. Pertanto, la probabilità di selezionare casualmente un secondo anno è 72/222, circa il 32,4%.

Ora spostiamo la nostra attenzione su una domanda leggermente diversa utilizzando la stessa distribuzione di frequenza. Qual è la probabilità che la prossima persona che si iscrive al corso sia un junior o un senior? Questa volta siamo interessati alla probabilità empirica poiché non abbiamo certezza sulla registrazione futura.

Guardiamo i dati che abbiamo sugli studenti che si sono già registrati. Tra loro ci sono 29 junior e 54 senior. Per calcolare la probabilità empirica, dividiamo il numero di studenti che si adattano all'evento (junior o senior) per il numero totale di studenti iscritti. Pertanto, la probabilità è (29 + 54) / 222, circa il 37,7%.

È importante notare che, sia che si tratti di probabilità empirica o classica, alcuni fatti sono veri. La probabilità di qualsiasi evento è compresa tra 0 e 1. Un evento con probabilità 0 è impossibile, mentre un evento con probabilità 1 è certo. Se lo spazio campionario è indicato come S, la probabilità che S si verifichi è sempre 1.

Se abbiamo eventi disgiunti E ed F (senza esiti in comune), la probabilità che almeno uno di essi si verifichi è la somma delle loro probabilità individuali. Tuttavia, la probabilità che sia E che F si verifichino simultaneamente è 0, poiché si escludono a vicenda.

Inoltre, se abbiamo eventi complementari (eventi che coprono tutti i possibili esiti), la somma delle loro probabilità è sempre 1. Se si verifica l'evento E, la probabilità che il suo complemento (E') non si verifichi è 1 meno la probabilità che E si verifichi.

Nel linguaggio quotidiano, usiamo spesso la probabilità in modo informale basata sull'intuizione e sull'esperienza personale. Questo è noto come probabilità soggettiva. Tuttavia, in statistica, ci affidiamo alla probabilità empirica e classica per calcoli rigorosi. La probabilità soggettiva manca di precisione matematica e non è al centro dell'analisi statistica.

 

La regola dell'addizione per le probabilità


La regola dell'addizione per le probabilità

Ciao a tutti, oggi parleremo della regola dell'addizione per le probabilità. Questa regola ci permette di calcolare le probabilità di unioni di eventi. Iniziamo con una versione semplificata della regola.

Supponiamo di avere due eventi, A e B, che sono disgiunti, nel senso che non hanno esiti in comune. In questo caso, la probabilità che si verifichi uno degli eventi è semplicemente la somma delle loro probabilità individuali. Questo può essere scritto come:

P(A ∪ B) = P(A) + P(B)

Qui, A ∪ B rappresenta l'insieme di tutti i risultati che sono in A o in B, che significa essenzialmente "A o B". È importante ricordare che gli eventi disgiunti non possono verificarsi entrambi in quanto non hanno esiti in comune. A volte questi eventi sono indicati come mutuamente esclusivi.

Per illustrare questa versione della regola di addizione, consideriamo un esempio. Supponiamo di tirare due volte un dado equilibrato e di definire l'evento A come il primo tiro che è un sei e l'evento B come la somma dei lanci che è tre. Questi eventi si escludono a vicenda perché se il primo tiro è un sei, la somma non può essere tre. Ora, per calcolare la probabilità di A o B (il primo lancio è un sei o la somma è tre), abbiamo bisogno delle probabilità individuali di questi eventi.

La probabilità che il primo tiro sia un sei è 1/6 poiché ci sono sei possibili risultati e solo uno di questi è un sei. La probabilità che la somma dei tiri sia tre è 2/36, considerando che ci sono 36 possibili esiti totali per due tiri di dado, e due esiti risultano in una somma di tre (1+2 e 2+1). Sommando queste probabilità, otteniamo una probabilità totale di 2/9.

Passiamo a un altro esempio, tratto dal libro di testo "Elementary Statistics" di Larson e Farber. In un sondaggio tra i proprietari di casa, è stato chiesto loro il tempo che passa tra le pulizie domestiche. I risultati sono riassunti in un grafico a torta, che mostra diversi intervalli di tempo. Vogliamo trovare la probabilità che un proprietario di casa selezionato a caso lasci passare più di due settimane tra le pulizie.

In questo caso, siamo interessati alla probabilità di selezionare un proprietario di abitazione dal segmento blu o giallo del grafico a torta. Poiché questi segmenti si escludono a vicenda (non puoi pulire la tua casa sia ogni tre settimane che quattro settimane o più), possiamo sommare le probabilità di questi eventi. La probabilità di pulire la casa ogni tre settimane è del 10% e la probabilità di pulirla quattro settimane o più è del 22%. La somma di queste probabilità ci dà una probabilità totale del 32%.

Consideriamo ora un caso più generale in cui due eventi, A e B, non sono disgiunti. In questo scenario, la regola dell'addizione diventa leggermente più complessa. La probabilità di A o B è data da:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Qui, A ∩ B rappresenta i risultati che sono sia in A che in B. È importante sottrarre la probabilità di A ∩ B perché quando A e B si sovrappongono, i risultati in A ∩ B vengono contati due volte (una volta in A e una volta in B ).

Per illustrare questa versione della regola dell'addizione, utilizziamo un esempio tratto da un sondaggio sulle abitudini al fumo e sull'uso delle cinture di sicurezza. Il sondaggio ha chiesto a 242 intervistati le loro abitudini e una tabella riassume i risultati. Vogliamo trovare la probabilità che un intervistato selezionato a caso non fumi o non indossi la cintura di sicurezza.

Sia A l'evento di non fumare e B l'evento di non indossare la cintura di sicurezza. Siamo interessati alla probabilità di A o B (A ∪ B). Per calcolarlo, abbiamo bisogno delle probabilità individuali di A, B e A ∩ B. La probabilità di non fumare è 169 su 242, poiché ci sono 169 individui che non fumano nel campione di 242 persone. La probabilità di non indossare la cintura di sicurezza è 114 su 242. Ora, abbiamo anche bisogno della probabilità di A ∩ B, che rappresenta gli individui che non fumano e non indossano la cintura di sicurezza. Dalla tabella vediamo che ci sono 81 individui di questo tipo.

Utilizzando la regola dell'addizione per eventi non disgiunti, possiamo calcolare la probabilità di A o B come segue:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Sostituendo i valori otteniamo:

P(A ∪ B) = 169/242 + 114/242 - 81/242

Semplificando l'espressione troviamo che:

P(A ∪ B) = 202/242

Ora, calcoliamo direttamente la probabilità di A o B sommando le singole probabilità. In questo caso, possiamo usare la regola dell'addizione per eventi disgiunti poiché gli eventi in ogni cella della tabella si escludono a vicenda. Sommando le probabilità delle cinque caselle che rappresentano A o B, otteniamo:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (probabilità rimanenti)

Dopo aver eseguito l'addizione, arriviamo nuovamente alla probabilità di 202/242.

Pertanto, entrambi i metodi producono la stessa probabilità di A o B, che è 202/242.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
Motivazione: