Tutorial di programmazione - pagina 11

 

Dati ordinati


Dati ordinati

Ciao a tutti, oggi parleremo di dati ordinati, che è un formato particolarmente conveniente e comune nelle applicazioni di data science. Sebbene esistano vari modi per registrare le informazioni in un foglio di calcolo, i dati ordinati seguono tre semplici principi per garantirne l'organizzazione e l'utilità.

In primo luogo, ogni riga in dati ordinati rappresenta una e una sola osservazione. Ciò significa che ogni riga acquisisce tutte le misurazioni e i dettagli per una singola unità sperimentale.

In secondo luogo, ogni colonna rappresenta una e una sola variabile. Le variabili sono gli attributi misurati in tutte le unità sperimentali e ogni colonna si concentra su una caratteristica o aspetto specifico.

Infine, l'intero foglio di calcolo dovrebbe consistere esattamente di un tipo di osservazione. Ciò garantisce che tutti i dati nel foglio di calcolo si riferiscano allo stesso tipo di esperimento o studio.

Un vantaggio significativo dei dati ordinati è la facilità di espansione. Se ottieni nuove osservazioni o punti dati, come nuovi soggetti in una sperimentazione medica, puoi semplicemente aggiungere una nuova riga nella parte inferiore del foglio di calcolo. Allo stesso modo, se desideri includere variabili aggiuntive, puoi aggiungere nuove colonne a destra di quelle esistenti.

Diamo un'occhiata a un paio di esempi. Il set di dati "mtcars", disponibile in R, è un set di dati ordinato. Ogni riga rappresenta una singola auto e ogni colonna rappresenta una caratteristica specifica delle auto. Idealmente, set di dati ordinati dovrebbero essere accompagnati da un dizionario di dati che spieghi il significato di ciascuna variabile e fornisca informazioni sulle unità di misura. Il dizionario dei dati può anche includere metadati sul set di dati, come i dettagli della registrazione.

D'altra parte, il set di dati "diamonds" nel pacchetto "ggplot2" è un altro esempio di dati ordinati. Ogni riga corrisponde a un singolo diamante a taglio rotondo e ogni colonna rappresenta una caratteristica dei diamanti.

Tuttavia, non tutti i set di dati sono ordinati. Ad esempio, il set di dati "costruzione" nel pacchetto "tidyverse" non è ordinato perché due variabili, il numero di unità e la regione, sono distribuite su più colonne.

È importante notare che i dati disordinati non sono necessariamente negativi, poiché i fogli di calcolo del mondo reale spesso hanno le proprie convenzioni per scopi specifici. Tuttavia, quando si tratta di scienza dei dati ed esplorare le relazioni tra variabili tra un gran numero di osservazioni, i dati ordinati sono spesso più convenienti per la visualizzazione e la modellazione.

Per concludere, voglio menzionare le tabelle di contingenza, che sono un formato comune per i dati non ordinati. Le tabelle di contingenza visualizzano i conteggi per diverse combinazioni di variabili categoriali. Sebbene possano essere utili, trasformarli in dati ordinati con colonne separate per ogni variabile e i rispettivi conteggi può rendere i dati più gestibili e più facili da analizzare.

In sintesi, i dati ordinati seguono i principi di un'osservazione per riga, una variabile per colonna e un tipo di osservazione in tutto il foglio di calcolo. Aderendo a questi principi, i dati ordinati forniscono un formato strutturato e organizzato che facilita l'esplorazione, la visualizzazione e la modellazione dei dati nelle applicazioni di data science.

Tidy data
Tidy data
  • 2022.06.08
  • www.youtube.com
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
 

Esperimenti e studi osservazionali


Esperimenti e studi osservazionali

Ciao a tutti, oggi parleremo di esperimenti e studi osservazionali, che sono i due tipi fondamentali di studi di ricerca in statistica. Comprendere la differenza tra loro è fondamentale. Esploriamo ogni tipo e le loro caratteristiche principali.

Esperimenti: in un esperimento, vengono applicati diversi trattamenti a diverse parti del campione e si osservano le variazioni risultanti. L'obiettivo principale è quello di determinare causa ed effetto. Se ci sono risultati distinti tra i gruppi di trattamento, miriamo ad attribuire tali differenze ai trattamenti specifici. Gli studi sperimentali implicano l'influenza e la manipolazione attiva delle variabili.

Studi osservazionali: D'altra parte, gli studi osservazionali coinvolgono ricercatori che misurano le caratteristiche della popolazione di interesse senza tentare di influenzare le risposte in alcun modo. Il tipo più comune di studio osservazionale è un'indagine campionaria, in cui i ricercatori raccolgono dati osservando e registrando informazioni. L'attenzione si concentra sulla comprensione delle relazioni e dei modelli all'interno dei dati osservati.

Esploriamo alcuni esempi per distinguere tra esperimenti e studi osservazionali:

Un gruppo di medici studia l'effetto di un nuovo farmaco per abbassare il colesterolo somministrandolo ai propri pazienti con ipertensione. Questo è un esperimento poiché i medici stanno applicando un trattamento e analizzando i risultati.

Un primatologo osserva 10 scimpanzé nel loro habitat naturale, prendendo appunti dettagliati sul loro comportamento sociale. Questo è uno studio osservazionale poiché il primatologo si limita a osservare e registrare il comportamento senza influenzarlo.

Un tappezziere contatta 500 uomini e 500 donne, chiedendo a ciascuno il proprio candidato preferito in una prossima elezione. Questo è un altro esempio di studio osservazionale. Il sondaggista sta raccogliendo dati senza manipolare i partecipanti o le loro risposte.

Gli studi osservazionali possono essere comparativi, come nell'esempio precedente, in cui uomini e donne vengono contattati separatamente per scopi di analisi. Tuttavia, poiché non viene applicato alcun trattamento, rimane uno studio osservazionale.

Alcune caratteristiche definiscono un buon esperimento. Dovrebbe essere randomizzato, controllato e replicabile:

  • La randomizzazione garantisce che i soggetti della ricerca vengano assegnati in modo casuale a diversi gruppi di trattamento. Né i ricercatori né i soggetti decidono chi riceve quali trattamenti. Questo aiuta a ridurre al minimo i bias e le variabili confondenti.
  • Il controllo implica che i gruppi di trattamento siano il più identici possibile, ad eccezione dei trattamenti specifici che ricevono. Stabilire un gruppo di controllo consente confronti accurati e aiuta a stabilire relazioni di causa ed effetto.
  • La replica si riferisce alla capacità di ripetere l'esperimento e ottenere risultati simili. Gli esperimenti replicabili sono essenziali per convalidare i risultati e garantire l'affidabilità dello studio.

Negli esperimenti, i confronti vengono spesso effettuati tra due o più gruppi di trattamento, con un gruppo che funge da controllo. Il gruppo di controllo fornisce una linea di base per il confronto con i gruppi che ricevono interventi specifici.

Per affrontare l'effetto placebo, in cui i soggetti rispondono ai trattamenti anche se non hanno effetti misurabili, gli sperimentatori includono un placebo nel gruppo di controllo. I placebo sono trattamenti noti per non avere alcun effetto reale, come una pillola di zucchero o una lezione non correlata per studi educativi.

Oltre alla randomizzazione e al controllo, è vantaggioso che l'assegnazione dei soggetti ai gruppi di trattamento sia in doppio cieco quando possibile. Ciò significa che né i soggetti né i raccoglitori di dati sono a conoscenza di chi si trova in quale gruppo di trattamento. Il doppio cieco aiuta a eliminare i bias e garantisce osservazioni e misurazioni imparziali.

Ci sono tre importanti progetti sperimentali da considerare:

  • Disegno completamente randomizzato: i soggetti vengono assegnati in modo casuale a diversi gruppi di trattamento senza che vengano presi in considerazione ulteriori raggruppamenti o caratteristiche.
  • Design a blocchi randomizzati: i soggetti vengono prima divisi in gruppi in base a caratteristiche specifiche, come l'età o il sesso, e quindi assegnati in modo casuale ai gruppi di trattamento all'interno di ciascun blocco. Questo progetto consente ai ricercatori di analizzare separatamente come i trattamenti influenzano i diversi gruppi.
  • Design a coppie abbinate: i soggetti vengono accoppiati in base alla somiglianza e quindi assegnati in modo casuale a diversi gruppi di trattamento. Questo design consente confronti diretti tra coppie per valutare gli effetti del trattamento.

La comprensione di questi tipi di progettazione aiuta i ricercatori a pianificare gli esperimenti in modo efficace ea trarre conclusioni significative dai dati. Implementando progetti sperimentali appropriati, i ricercatori possono migliorare la validità e l'affidabilità delle loro scoperte.

In sintesi, gli esperimenti e gli studi osservazionali sono due tipi fondamentali di studi di ricerca in statistica. Gli esperimenti comportano l'applicazione di diversi trattamenti e l'osservazione dei loro effetti per determinare causa ed effetto. D'altra parte, gli studi osservazionali si concentrano sull'osservazione e sulla misurazione delle caratteristiche senza influenzare attivamente le risposte.

Un buon esperimento dovrebbe includere randomizzazione, controllo e replicabilità. La randomizzazione garantisce l'assegnazione imparziale dei soggetti ai gruppi di trattamento, il controllo riduce al minimo le variabili confondenti e la replica consente la verifica dei risultati. Inoltre, l'inclusione di un gruppo di controllo e la considerazione dell'effetto placebo sono aspetti importanti del disegno sperimentale.

Diversi disegni sperimentali, come il disegno completamente randomizzato, il disegno a blocchi randomizzati e il disegno a coppia abbinata, offrono flessibilità nell'affrontare domande di ricerca specifiche e nell'accogliere diversi scenari di studio.

Comprendendo le distinzioni tra esperimenti e studi osservazionali e impiegando disegni sperimentali appropriati, i ricercatori possono condurre studi rigorosi, trarre conclusioni significative e contribuire a far progredire la conoscenza nei rispettivi campi.

Ricorda, quando pianifichi uno studio di ricerca, considera attentamente la domanda di ricerca, la natura delle variabili e le risorse disponibili per determinare l'approccio più adatto, che si tratti di un esperimento o di uno studio osservazionale.

Experiments and Observational Studies
Experiments and Observational Studies
  • 2020.07.02
  • www.youtube.com
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
 

Introduzione al campionamento statistico


Introduzione al campionamento statistico

Buon giorno a tutti! Oggi stiamo approfondendo l'affascinante mondo del campionamento statistico. In uno scenario ideale, condurre uno studio di ricerca comporterebbe la raccolta di dati dall'intera popolazione di interesse, simile a un censimento. Tuttavia, in pratica, questo è spesso poco pratico o impossibile. Considera le seguenti domande di ricerca: Qual è la durata media della vita dei piccioni a New York? Un nuovo farmaco è efficace nel ridurre il colesterolo LDL nei pazienti con più di 45 anni? Quale percentuale di elettori approva la prestazione del Presidente? In ogni caso, la raccolta di dati dall'intera popolazione non è fattibile. Pertanto, ci rivolgiamo a un approccio più gestibile: il campionamento.

Il campionamento comporta la selezione di un sottoinsieme, o campione, dalla popolazione per rappresentare e trarre conclusioni sull'intera popolazione. Tuttavia, non tutti i metodi di campionamento sono ugualmente affidabili. Discutiamo un paio di approcci errati al campionamento. In primo luogo, le prove aneddotiche, che consistono in testimonianze personali di individui noti al ricercatore, dovrebbero essere accolte con scetticismo. Ad esempio, fare affidamento esclusivamente su affermazioni come "Questa pillola ha funzionato per tutta la mia famiglia" o "Oggi ho parlato con tre persone che approvano il Presidente" può portare a risultati distorti. Allo stesso modo, un comodo campionamento, in cui i dati vengono raccolti da fonti facilmente accessibili, come un sondaggio politico condotto in un parco vicino o uno studio psicologico che utilizza gli studenti del professore, può introdurre distorsioni dovute alla selezione non casuale dei partecipanti.

Per garantire la validità dei nostri risultati, è fondamentale utilizzare un campione casuale. In un campione casuale, un processo casuale determina quali individui della popolazione sono inclusi, con ogni membro che ha pari possibilità di essere selezionato. L'obiettivo di un campione casuale è evitare errori di campionamento, che si verificano quando la statistica derivata dal campione sovrastima o sottostima sistematicamente il parametro della popolazione. È essenziale notare che le statistiche derivate da campioni casuali mostrano ancora variabilità, in quanto i singoli campioni possono differire dalla popolazione a causa del processo di selezione casuale. Tuttavia, in media, la statistica sarà uguale al parametro della popolazione.

Esploriamo alcuni tipi di campionamento casuale. L'approccio più semplice e intuitivo è un campione casuale semplice (SRS), in cui ogni campione della stessa dimensione ha la stessa possibilità di essere selezionato. Ciò si ottiene tipicamente ottenendo un elenco dei membri della popolazione, assegnando loro dei numeri e utilizzando un generatore di numeri casuali per selezionare il numero desiderato di individui. In un campione stratificato, la popolazione è suddivisa in gruppi o strati in base a caratteristiche importanti come età, sesso o razza. Quindi, viene prelevato un semplice campione casuale da ciascun gruppo, consentendo un'analisi separata dei diversi sottogruppi all'interno della popolazione. In un campione a grappolo, la popolazione è suddivisa in gruppi o ammassi naturali o simili. Viene selezionato un campione casuale di cluster e ogni membro dei cluster selezionati viene incluso nel campione. Il campionamento multistadio combina queste tecniche selezionando i cluster, quindi prelevando campioni casuali all'interno di ciascun cluster, ripetendo il processo se necessario.

Applichiamo ora questi concetti ad alcuni esempi e identifichiamo i metodi di campionamento utilizzati. Nel primo esempio, un sondaggista contatta casualmente 400 uomini e 400 donne, chiedendo loro del loro candidato preferito in una prossima elezione. Questo è un esempio di campionamento stratificato, in quanto raccoglie informazioni su uomini e donne prendendo un semplice campione casuale all'interno di ciascun gruppo. Nel secondo esempio, i ricercatori selezionano casualmente 50 scuole superiori e somministrano un esame di competenza in matematica a tutti gli studenti di quelle scuole. Questo rappresenta un campione a grappolo, in cui la randomizzazione avviene a livello scolastico e viene condotto un censimento all'interno delle scuole selezionate.

Nel terzo esempio, un concessionario di automobili utilizza un elenco di clienti per selezionare casualmente 200 precedenti acquirenti di auto e contatta ciascuno per un sondaggio sulla soddisfazione. Questo è un tipico esempio di campione casuale semplice, in quanto ogni gruppo di 200 clienti ha pari possibilità di essere selezionato. Infine, un gruppo medico sceglie casualmente 35 ospedali statunitensi e quindi preleva un campione casuale di 50 pazienti da ciascun ospedale per esaminare il costo delle loro cure. Questo scenario illustra un esempio in più fasi. Inizialmente, i cluster (ospedali) vengono selezionati casualmente, seguiti da un semplice campione casuale all'interno di ciascun ospedale scelto.

Prima di concludere, vale la pena menzionare un altro metodo di campionamento, noto come campionamento sistematico. Sebbene non sia una forma di campionamento casuale, può essere utilizzato come sostituto in circostanze specifiche. In un campione sistematico, i membri della popolazione vengono selezionati utilizzando uno schema predeterminato. Ad esempio, un negozio di alimentari potrebbe esaminare ogni ventesima persona che esce dal negozio per valutare la soddisfazione del cliente. Un campione sistematico può essere efficace quanto un campione casuale quando la popolazione è omogenea, il che significa che non ci sono modelli rilevanti al suo interno. Tuttavia, è necessario esercitare cautela per garantire che il modello di campionamento non si allinei con i modelli esistenti nella popolazione, in quanto ciò potrebbe introdurre bias.

Per riassumere, il campionamento statistico è uno strumento vitale quando è poco pratico o impossibile raccogliere dati da un'intera popolazione. I metodi di campionamento casuale, come campioni casuali semplici, campioni stratificati, campioni a grappolo e campioni multistadio, aiutano a mitigare la distorsione del campionamento e aumentano la probabilità di ottenere risultati rappresentativi e imparziali. Mentre i campioni casuali introducono variabilità, le statistiche derivate da essi, in media, si allineano con i parametri della popolazione. Comprendere i punti di forza e i limiti dei diversi metodi di campionamento è fondamentale per condurre studi di ricerca affidabili e accurati.

Introduction to Statistical Sampling
Introduction to Statistical Sampling
  • 2020.07.06
  • www.youtube.com
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
 

Bias e variabilità nelle statistiche


Bias e variabilità nelle statistiche

Ciao a tutti! Oggi ci immergiamo nei concetti di distorsione e variabilità nelle statistiche. L'obiettivo generale dell'inferenza statistica è trarre conclusioni sulle popolazioni basate su dati campione. Per ottenere questo, usiamo spesso le statistiche, che sono descrizioni numeriche di campioni, per stimare i parametri corrispondenti, che sono descrizioni numeriche di popolazioni.

Per illustrare questo, consideriamo un esempio. Supponiamo che un sondaggio di 1.200 elettori riveli che il candidato A è in vantaggio sul candidato B di 8 punti percentuali. Possiamo vedere questa differenza di 8 punti come una statistica, una stima di quanto dovrebbe vincere il candidato A. D'altra parte, l'effettivo esito elettorale, che è la vera differenza di consensi tra i candidati, rappresenta il parametro.

In alcuni casi, la statistica e il parametro si allineeranno perfettamente. Tuttavia, il più delle volte, differiranno in una certa misura. Ad esempio, il risultato effettivo delle elezioni potrebbe mostrare che il candidato A vince per 7,8 punti percentuali. Sebbene tali deviazioni possano verificarsi a causa di casualità, possono rappresentare un problema nella valutazione della qualità di una statistica.

Questo ci porta al concetto di pregiudizio. Una statistica, rappresentata come P-hat, è considerata imparziale se, in media, è uguale al parametro corrispondente, indicato con P. In altre parole, una buona statistica non dovrebbe sistematicamente sopravvalutare o sottostimare il parametro. È importante notare che qui stiamo usando il termine "pregiudizio" in senso tecnico, non correlato a pregiudizio o discriminazione.

Diverse fonti comuni di bias possono influenzare i sondaggi. Il bias di campionamento si verifica quando non tutti i membri della popolazione hanno la stessa possibilità di essere selezionati in un campione casuale. Ad esempio, se un sondaggio telefonico esclude i telefoni cellulari, potrebbe distorcere i risultati verso individui più anziani, potenzialmente diversi dalle opinioni della popolazione complessiva. Il bias di mancata risposta si verifica quando coloro che rifiutano di partecipare a un sondaggio differiscono da quelli che lo fanno, portando a potenziali bias nei dati raccolti.

Domande asimmetriche o formulazioni distorte possono influenzare gli intervistati a rispondere in un certo modo, introducendo pregiudizi nei risultati. Il bias di desiderabilità sociale si verifica quando gli intervistati sono inclini a fornire risposte socialmente accettabili o viste positivamente. Ad esempio, se agli individui viene chiesto delle loro pratiche di igiene dentale, potrebbero sovrastimare il numero di volte in cui si sono lavati i denti a causa del pregiudizio della desiderabilità sociale.

Negli studi sperimentali, il bias può derivare da fattori come la mancanza di controllo o l'accecamento. Se i gruppi sperimentali differiscono oltre il trattamento applicato, ciò può introdurre bias nei risultati. La randomizzazione è fondamentale per garantire l'uniformità e ridurre i bias.

Mentre una statistica imparziale mira a stimare accuratamente il parametro, la variabilità spiega la tendenza delle statistiche a variare tra diversi campioni casuali. Anche con un metodo di campionamento imparziale, è probabile che ogni campione casuale produca una statistica diversa a causa del solo caso. È importante notare che la variabilità non è una forma di distorsione. Solo perché un sondaggio non ha previsto con precisione un risultato elettorale non implica necessariamente che fosse viziato.

Per aiutare a visualizzare la differenza tra bias e variabilità, immagina di lanciare freccette contro un bersaglio. Bassa variabilità e bassa distorsione significherebbero che le tue freccette colpiscono costantemente il bersaglio, strettamente raggruppate attorno al bersaglio. Un'elevata variabilità ma una bassa distorsione risulterebbe in freccette sparse, ancora centrate attorno al bersaglio. Al contrario, un'elevata variabilità e un'elevata distorsione porterebbero a freccette ampiamente sparse, mancando costantemente il centro del bersaglio. Tuttavia, anche nello scenario peggiore, è possibile che uno studio colpisca nel segno una volta, indicando che occasionalmente possono verificarsi risultati corretti nonostante l'elevata distorsione e variabilità.

Comprendere bias e variabilità è essenziale per valutare la qualità delle statistiche e interpretare accuratamente i risultati della ricerca.

Bias and Variability in Statistics
Bias and Variability in Statistics
  • 2020.07.02
  • www.youtube.com
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
 

Costruzione di distribuzioni di frequenza


Costruzione di distribuzioni di frequenza

Ciao a tutti! Oggi approfondiremo la costruzione di distribuzioni di frequenza per riassumere e analizzare i dati quantitativi. Quando disponiamo di una serie di osservazioni numeriche, è essenziale comprendere la forma, il centro e la diffusione dei dati. Per raggiungere questo obiettivo, non sarà sufficiente fissare semplicemente i dati. Dobbiamo riassumerlo in modo significativo, ed è qui che entrano in gioco le distribuzioni di frequenza.

Una distribuzione di frequenza comporta la divisione dei dati in diverse classi o intervalli e quindi la determinazione del numero di osservazioni che rientrano in ciascuna classe. Consideriamo un esempio in cui abbiamo un intervallo di valori da 11 a 25. Per creare una distribuzione di frequenza, possiamo dividere questo intervallo in cinque classi e contare il numero di osservazioni in ogni classe.

Nella notazione utilizzata per la notazione degli intervalli, una parentesi rigida a sinistra [ indica che l'estremo sinistro è incluso in ciascun intervallo, mentre una parentesi morbida a destra ) indica che l'estremo destro non è incluso. Significa che i valori limite, come 14, 17, 20 e 23, vanno sempre nella classe immediatamente superiore. Inoltre, le larghezze delle classi sono tutte uguali, in questo caso tre unità ciascuna.

Esaminando la distribuzione di frequenza, possiamo già ottenere alcune informazioni sui dati. Il centro dei dati sembra essere intorno alle 18, rientrando nella classe 17-20, che ha una frequenza maggiore. Il resto dei dati mostra una relativa simmetria attorno a questo picco centrale.

Ora, passiamo attraverso un processo passo dopo passo per costruire una distribuzione di frequenza. Innanzitutto, dobbiamo decidere il numero di classi da utilizzare. Sebbene non esista una regola rigida, un buon punto di partenza è in genere tra le 5 e le 20 lezioni. Se usiamo troppo poche classi, non cattureremo abbastanza dettagli nella distribuzione, ostacolando la nostra capacità di comprendere i dati. D'altra parte, l'utilizzo di troppe classi comporta conteggi bassi per classe, rendendo difficile discernere la forma dei dati.

Una volta determinato il numero di classi, procediamo a calcolare la larghezza della classe. Per fare ciò, calcoliamo l'intervallo dei dati sottraendo il valore minimo dal valore massimo. Quindi, dividiamo l'intervallo per il numero di classi. È fondamentale arrotondare la larghezza della classe per garantire che tutte le osservazioni rientrino in una delle classi. L'arrotondamento per difetto può causare l'esclusione di alcuni punti dati dalla distribuzione.

Successivamente, troviamo i limiti inferiori per ogni classe. Iniziamo con il valore minimo come limite inferiore della prima classe. Quindi, aggiungiamo la larghezza della classe per ottenere il limite inferiore della seconda classe e così via. Il limite superiore di ogni classe è appena sotto il limite inferiore della classe successiva.

Infine, contiamo quante osservazioni rientrano in ciascuna classe esaminando il set di dati. Ad esempio, consideriamo uno scenario in cui costruiamo una distribuzione di frequenza utilizzando otto classi per un dato set di dati. Calcoliamo l'intervallo dei dati, che è 115,5 - 52,0 = 63,5. Dividendo questo intervallo per otto, otteniamo una larghezza di classe di 7,9, che arrotondiamo a 8,0. Partendo dal valore minimo di 52, aggiungiamo 8.0 per ottenere i limiti inferiori per ogni classe: 52, 60, 68 e così via.

Esaminando il set di dati e contando le osservazioni che rientrano in ciascuna classe, otteniamo le frequenze. È importante notare che le classi non devono sovrapporsi e le loro larghezze devono rimanere le stesse. Ciò garantisce che ogni osservazione sia assegnata a una singola classe.

Per migliorare la nostra comprensione della distribuzione di frequenza, possiamo espandere la tabella aggiungendo colonne per punti medi di classe, frequenze relative e frequenze cumulative. I punti medi delle classi rappresentano il valore medio all'interno di ogni intervallo. Li calcoliamo prendendo la media dei limiti inferiore e superiore di ciascuna classe. Ad esempio, il punto medio per la classe da 52 a 60 è (52 + 60) / 2 = 56, e per la classe da 60 a 68 è (60 + 68) / 2 = 64 e così via.

Le frequenze relative forniscono informazioni sulla proporzione di osservazioni all'interno di ciascuna classe rispetto alla dimensione totale del set di dati. Per calcolare le frequenze relative, dividiamo la frequenza di ciascuna classe per la dimensione totale del set di dati. Ad esempio, dividendo la frequenza 11 per la dimensione del set di dati di 50 otteniamo una frequenza relativa di 0,22. Allo stesso modo, dividendo 8 per 50 si ottiene una frequenza relativa di 0,16.

Le frequenze cumulative si ottengono sommando le frequenze di ciascun intervallo e di tutti gli intervalli che lo hanno preceduto. La frequenza cumulativa per il primo intervallo, da 52 a 60, rimane uguale alla sua frequenza, che è 11. Per trovare la frequenza cumulativa per l'intervallo successivo, aggiungiamo la sua frequenza (8) alla frequenza cumulativa dell'intervallo precedente. Ad esempio, la frequenza cumulativa per il secondo intervallo, da 60 a 68, è 11 + 8 = 19. Continuiamo questo processo per ogni intervallo, sommando le frequenze e le precedenti frequenze cumulative per ottenere le frequenze cumulative per gli intervalli successivi.

È importante notare che la somma di tutte le frequenze dovrebbe essere uguale alla dimensione totale del set di dati (in questo caso, 50). La somma delle frequenze relative dovrebbe essere sempre 1, indicando la totalità del set di dati. Infine, l'ultimo valore nella colonna delle frequenze cumulative deve corrispondere alla dimensione del set di dati.

L'espansione della tabella di distribuzione della frequenza con colonne per i punti centrali delle classi, le frequenze relative e le frequenze cumulative aiuta a fornire una comprensione più completa della distribuzione dei dati. Ci consente di osservare le tendenze centrali, le proporzioni e le proporzioni cumulative dei dati in modo più organizzato e approfondito.

In sintesi, la costruzione di una distribuzione di frequenza implica la divisione dei dati in classi, la determinazione dell'ampiezza delle classi, il calcolo dei limiti inferiori, il conteggio delle osservazioni in ogni classe e l'analisi delle frequenze risultanti. L'espansione della tabella con informazioni aggiuntive, come i punti medi della classe, le frequenze relative e le frequenze cumulative, può migliorare ulteriormente la nostra comprensione delle caratteristiche del set di dati.

Constructing Frequency Distributions
Constructing Frequency Distributions
  • 2020.07.04
  • www.youtube.com
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
 

Istogrammi, poligoni di frequenza e ogive


Istogrammi, poligoni di frequenza e ogive

Ciao a tutti, oggi ci tuffiamo nel mondo della rappresentazione grafica dei dati. Esploreremo istogrammi, poligoni di frequenza e ogive, che sono tutte rappresentazioni visive di distribuzioni a variabile singola. Mentre esploriamo questi diversi tipi di display, utilizzeremo come esempio la distribuzione di frequenza estesa che abbiamo creato nel video precedente. Per rinfrescarti la memoria, abbiamo iniziato con un set di dati composto da 50 valori che vanno da circa 52 a 116. Abbiamo diviso il set di dati in otto classi di uguale larghezza e determinato il numero di valori in ciascuna classe per costruire la distribuzione di frequenza.

Cominciamo con la rappresentazione visiva più importante e comunemente usata di un set di dati a variabile singola: l'istogramma di frequenza. In un istogramma, tracciamo i valori dei dati sull'asse orizzontale e le frequenze sull'asse verticale. Nello specifico, etichettiamo i punti medi della classe, ad esempio 56, 64, 72 e così via, sull'asse orizzontale. Sopra ogni punto medio, disegniamo una barra la cui altezza corrisponde alla frequenza di quella classe. Ad esempio, se le frequenze per le prime classi sono 11, 8, 9 e così via, le barre avranno le rispettive altezze.

È importante notare che gli istogrammi rappresentano la frequenza utilizzando l'area. Più area indica una maggiore quantità di dati. Quando guardiamo il grafico, i nostri occhi sono naturalmente attratti dalle aree con più dati, dandoci una comprensione intuitiva della forma, del centro e della diffusione del set di dati. Ad esempio, in questo istogramma, possiamo vedere che è più probabile che i dati si raggruppino intorno a 56 piuttosto che a 112. Inoltre, vale la pena ricordare che quando si disegna un istogramma, non lasciamo spazi tra le classi adiacenti, a differenza di un grafico a barre dove sono tipicamente presenti degli spazi tra le barre che rappresentano le variabili categoriali.

A volte gli istogrammi vengono disegnati con l'asse orizzontale etichettato con i punti finali delle classi anziché i punti medi, e questo è perfettamente accettabile. Il grafico trasmette le stesse informazioni indipendentemente dall'approccio di etichettatura utilizzato. Un'altra opzione è tracciare la frequenza relativa anziché la frequenza sull'istogramma, che dovrebbe produrre una forma simile. L'unica differenza sarebbe un cambiamento nel ridimensionamento dell'asse orizzontale per accogliere i relativi valori di frequenza.

Un altro metodo di visualizzazione visiva simile all'istogramma è il poligono di frequenza. Qui, tracciamo ancora i valori dei dati sull'asse orizzontale e rappresentiamo le frequenze sull'asse verticale. Tuttavia, invece di disegnare barre, tracciamo un punto per ogni classe. Questi punti corrispondono ai punti medi sull'asse orizzontale e alle rispettive frequenze sull'asse verticale. Quindi colleghiamo questi punti con le linee. Per garantire che il poligono appaia completo, aggiungiamo un punto in più sotto il primo punto medio e un altro sopra l'ultimo punto medio, ciascuno che si estende per una larghezza di classe.

Infine, possiamo rappresentare i dati utilizzando un'ogiva, che mostra le frequenze cumulative. Quando costruiamo un'ogiva, tracciamo i limiti della classe superiore sull'asse orizzontale e le frequenze cumulative sull'asse verticale. Iniziamo con un punto sull'asse orizzontale corrispondente al primo limite di classe inferiore. Lo scopo dell'ogiva è mostrare, per ogni dato valore x, quanti punti dati nella nostra distribuzione scendono al di sotto di quel valore.

Spero che questo chiarisca i concetti di rappresentazione grafica dei dati utilizzando istogrammi, poligoni di frequenza e ogive. Questi display visivi forniscono preziose informazioni sulla distribuzione di set di dati a variabile singola.

Histograms, Frequency Polygons, and Ogives
Histograms, Frequency Polygons, and Ogives
  • 2020.07.05
  • www.youtube.com
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
 

La tua prima sessione RStudio


La tua prima sessione RStudio

Ciao a tutti, nella sessione di oggi, siamo entusiasti di aprire il nostro studio per la prima volta. Il nostro obiettivo principale sarà esplorare le funzionalità di base e metterci a nostro agio lavorando in questo ambiente. Quando apri per la prima volta il nostro studio, noterai tre diversi riquadri, ma in questo video ci concentreremo principalmente sulla scheda della console nel riquadro più a sinistra. Tuttavia, menzioneremo brevemente gli altri riquadri man mano che avanziamo, salvando una discussione più dettagliata per video futuri.

Per iniziare, esploriamo la scheda della console, che funge da calcolatrice scientifica in R. Puoi eseguire operazioni aritmetiche di base, come addizione, sottrazione, moltiplicazione e divisione. Ad esempio, se calcoliamo 8 più 12, la risposta è 20. È importante notare che la risposta viene visualizzata senza le parentesi quadre, come spiegheremo più avanti in questo video. Inoltre, puoi aggiungere spazi per la leggibilità, poiché R ignora gli spazi quando vengono immessi nella riga di comando.

R fornisce un'ampia gamma di funzioni integrate, come la funzione radice quadrata. Ad esempio, la radice quadrata di 9 è 3. Allo stesso modo, puoi eseguire operazioni trigonometriche, calcoli di valori assoluti e altro. I nomi delle funzioni sono generalmente intuitivi, ma in caso di dubbi, una rapida ricerca su Google ti aiuterà a trovare la sintassi corretta.

Una caratteristica utile in RStudio è la possibilità di richiamare i comandi precedenti utilizzando il tasto freccia su. Ciò consente di recuperare un comando precedente e apportare modifiche se necessario. Ad esempio, se desideri calcolare la radice quadrata di 10 invece di 9, puoi premere il tasto freccia su, eliminare il 9 e inserire 10 per ottenere approssimativamente 3,162278.

Per impostazione predefinita, R visualizza sei cifre di precisione a destra della virgola decimale. Tuttavia, puoi regolare questa impostazione nel menu delle preferenze in base alle tue esigenze.

Passiamo ora alla definizione delle variabili. In R, puoi assegnare valori alle variabili utilizzando l'operatore di assegnazione, che è una freccia sinistra ( <- ) o un segno di uguale ( = ). Si consiglia di utilizzare la freccia sinistra per i compiti. Ad esempio, definiamo una variabile denominata "x" e impostiamola uguale a 3. Dopo l'assegnazione, la scheda dell'ambiente nel riquadro in alto a destra visualizzerà "x = 3" per ricordarci l'assegnazione. Se digitiamo semplicemente il nome della variabile "x" nella console e premiamo invio, R stamperà il suo valore, che in questo caso è 3.

Puoi eseguire operazioni aritmetiche usando le variabili, proprio come con i valori numerici. Ad esempio, se calcoliamo 3 più x, il risultato è 6. R rispetta l'ordine delle operazioni, quindi espressioni come 1 più 2 per x restituiranno 7 anziché 9.

R diventa più potente quando assegniamo variabili come vettori. Per creare un vettore, usiamo la funzione di concatenazione (c) seguita dalle parentesi e dai valori che vogliamo includere. Ad esempio, assegniamo il vettore "y" ai valori 1, 5, 6 e 9. Dopo aver definito il vettore, digitando "y" e premendo invio verranno visualizzati i suoi valori: 1, 5, 6 e 9. Ora possiamo può eseguire operazioni aritmetiche sul vettore, come aggiungere 2 a ciascun elemento (y + 2) o applicare funzioni matematiche come la radice quadrata (sqrt(y)).

Oltre alle operazioni aritmetiche, possiamo anche riassumere i vettori. Ad esempio, possiamo calcolare la mediana (median(y)) o la somma (sum(y)) del vettore. R fornisce numerose funzioni per manipolare i vettori e, se non sei sicuro di una funzione specifica, una rapida ricerca su Google fornirà le informazioni necessarie. Ci sono due funzionalità aggiuntive in RStudio che vorrei menzionare prima di andare avanti. Il primo è il

Scheda Cronologia situata nella parte superiore della console. Facendo clic su di esso, puoi accedere a un elenco dei tuoi comandi più recenti. Puoi scorrere la cronologia per rivedere e riutilizzare i comandi precedenti, che può essere una funzione che fa risparmiare tempo. Anche se esci da RStudio e torni più tardi, la cronologia dei comandi sarà ancora disponibile.

Per riutilizzare un comando dalla cronologia, fai semplicemente doppio clic su di esso e apparirà nella console. È quindi possibile apportare le modifiche necessarie e rivalutare il comando. Questa funzione consente di rivedere e modificare facilmente i comandi precedenti.

La seconda caratteristica che voglio evidenziare è la possibilità di dare nomi alle variabili composti da più di una lettera. Ad esempio, supponiamo di voler creare una variabile denominata "numbers" e assegnarle i valori 1, 2, 3, 4, 5 e 6. Possiamo farlo inserendo "numbers <- c(1, 2, 3 , 4, 5, 6)" nella console. Una volta effettuata l'assegnazione, possiamo eseguire varie operazioni sulla variabile, come il calcolo della radice quadrata di "numeri" (sqrt(numbers)).

Passiamo ora al caricamento di un set di dati ed esploriamo alcune delle azioni che possiamo intraprendere con i dati caricati. Nel riquadro in basso a destra di RStudio, troverai un browser di file. Passare alla posizione del set di dati e selezionarlo. Ad esempio, scegliamo il set di dati "corpo". Fare clic sul pulsante "Importa set di dati" per importare il set di dati in RStudio.

Durante il processo di importazione, vedrai un'anteprima del formato del foglio di calcolo del set di dati. Nel riquadro in alto a destra, la scheda dell'ambiente visualizzerà un nuovo oggetto chiamato "body_data". Questo oggetto rappresenta un data frame con 300 osservazioni e 15 variabili. Essenzialmente, è una tabella con 300 righe e 15 colonne. Puoi interagire con il set di dati ordinando le colonne, scorrendo orizzontalmente per visualizzare più colonne e trattandolo in modo simile a un file Excel.

Per lavorare con variabili specifiche nel frame di dati, dobbiamo specificarle utilizzando la notazione del simbolo del dollaro ($). Ad esempio, se siamo interessati alla variabile "age", possiamo digitare "body_data$age" nella console. RStudio fornirà un elenco di variabili disponibili mentre inizi a digitare. Premendo invio, vedrai un elenco di tutte le età nel set di dati nell'ordine in cui appaiono.

Una volta che abbiamo isolato una variabile specifica, come "body_data$age", possiamo eseguire operazioni su di essa proprio come qualsiasi altra variabile. Ad esempio, possiamo calcolare l'età media di tutti gli individui nel set di dati digitando "mean(body_data$age)" nella console. In questo caso, l'età media è determinata in 47,0 anni.

Oltre alla media, puoi esplorare altre statistiche come la deviazione standard, la mediana, la somma, il minimo, il massimo e altro utilizzando le funzioni appropriate. Approfondiremo queste tecniche di manipolazione dei dati nei video futuri, esplorando il potere di R per l'analisi statistica.

Questo conclude la nostra panoramica sull'apertura del nostro studio, sulle funzionalità di base e sul lavoro con variabili e set di dati. Resta sintonizzato per i video futuri in cui esploreremo funzionalità e tecniche più avanzate in RStudio.

Your First RStudio Session
Your First RStudio Session
  • 2020.08.16
  • www.youtube.com
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
 

Istogrammi e poligoni di frequenza in R


Istogrammi e poligoni di frequenza in R

Ciao a tutti, nel video di oggi creeremo istogrammi visivamente accattivanti e poligoni di frequenza in R utilizzando il comando qplot. Esistono vari modi per creare grafica in R, ma personalmente credo che il pacchetto ggplot2 produca i display più belli. Per iniziare, utilizzeremo il comando qplot in ggplot2.

Per la nostra dimostrazione, lavoreremo con il set di dati "fedele", che è integrato con R. Questo set di dati è costituito da 272 osservazioni del tempo di eruzione e del tempo di attesa tra le eruzioni in minuti dal geyser Old Faithful nel Parco Nazionale di Yellowstone, USA .

Per tracciare istogrammi e poligoni di frequenza per la variabile "in attesa", dovremo prima installare il pacchetto ggplot2. Se non l'hai ancora installato, puoi farlo digitando "install.packages('ggplot2')". Una volta installato, devi caricare il pacchetto ogni volta che avvii una nuova sessione digitando "library(ggplot2)".

Ora concentriamoci sulla trama. Per creare un istogramma, specifichiamo la variabile sull'asse x utilizzando l'argomento "x", in questo modo: "qplot(x = attesa, dati = fedele, geom = 'istogramma')". Questo genererà un istogramma che sembra migliore di quello prodotto dal comando hist di base R.

Tuttavia, ci sono alcuni miglioramenti che possiamo apportare. Iniziamo aggiungendo etichette e un titolo principale al grafico. Possiamo usare gli argomenti "xlab" per l'etichetta dell'asse x, "ylab" per l'etichetta dell'asse y e "main" per il titolo principale. Ad esempio: "qplot(x = attesa, dati = fedele, geom = 'istogramma', xlab = 'Tempo di attesa', ylab = 'Frequenza', main = 'Old Faithful')".

Successivamente, affrontiamo l'aspetto delle barre. Per impostazione predefinita, le barre potrebbero apparire insieme. Per differenziarli, possiamo aggiungere un colore del bordo usando l'argomento "color", come "color = 'darkblue'". Inoltre, possiamo cambiare il colore di riempimento delle barre usando l'argomento "fill", come "fill = 'lightblue'".

Ora, se vogliamo creare un poligono di frequenza invece di un istogramma, possiamo cambiare l'argomento "geom" in "geom = 'freqpoly'". Questo traccerà il poligono di frequenza utilizzando la stessa variabile sull'asse x. Ricorda di rimuovere l'argomento "fill" poiché non è applicabile in questo caso.

Potresti anche voler regolare il numero di contenitori nell'istogramma usando l'argomento "contenitori". Per impostazione predefinita, R utilizza 30 bin, ma puoi modificarlo con un valore diverso, ad esempio "bins = 20", per avere più o meno bin.

Infine, voglio menzionare un modo alternativo per specificare i dati. Invece di utilizzare la notazione "$", puoi specificare direttamente il set di dati utilizzando l'argomento "data", ad esempio "qplot(x = in attesa, data = fedele, geom = 'istogramma')". Questo può essere utile quando si lavora con più variabili.

Questo conclude il nostro tutorial sulla creazione di istogrammi e poligoni di frequenza in R usando il comando qplot. Sentiti libero di esplorare e sperimentare diverse impostazioni per creare grafica visivamente accattivante e informativa.

Histograms and Frequency Polygons in R
Histograms and Frequency Polygons in R
  • 2020.07.09
  • www.youtube.com
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
 

Grafici a stelo e foglia


Grafici a stelo e foglia

Salve a tutti, nella discussione di oggi esploreremo il concetto di trame a stelo e foglia. I grafici a stelo e foglia offrono un modo semplice e informativo per visualizzare la distribuzione di una singola variabile. Sono particolarmente efficaci per piccoli set di dati in quanto conservano tutte le informazioni senza alcuna perdita durante la visualizzazione. Per capirli meglio, tuffiamoci in alcuni esempi.

Un tipico stem plot è costituito da una barra verticale, in cui ogni cifra a destra della barra rappresenta un punto dati. Queste cifre rappresentano l'ultima cifra significativa di ciascuna osservazione, mentre i valori a sinistra della barra rappresentano le cifre del valore posizionale più alto. Ad esempio, nella distribuzione data, i valori iniziali sono 27, 29 e 32.

Nota la chiave in alto, dove il punto decimale è una cifra a destra della barra. I grafici a stelo e foglia non incorporano direttamente i decimali; invece, la chiave indica il valore del luogo. In questo modo, possiamo differenziare tra 27, 2,7 o 0,27.

Ora, costruiamo un grafico stem-and-leaf per il seguente set di dati. Qui, i decimi serviranno come le foglie, e le due cifre a sinistra della virgola saranno i gambi. Quindi, le prime voci saranno 34.3, 34.9, e poi si procederà alla radice successiva, 35/1 (il punto decimale si allinea con la barra).

La trama completa è la seguente: 34.3 34/9 e così via.

È importante notare che ogni fusto tra il primo e l'ultimo è incluso, anche se non ci sono foglie corrispondenti. Questo ci permette di osservare la forma dei dati in modo imparziale. Ad esempio, i valori 39.0 e 39.1 non sono immediatamente successivi a 37.5, lasciando uno spazio intermedio.

Tuttavia, possono sorgere due potenziali difficoltà quando si costruisce un diagramma a stelo e foglia. In primo luogo, se i dati contengono troppe cifre significative, come nell'esempio fornito, utilizzando l'ultima cifra come foglia risulterebbe in oltre 400 steli. Per evitare ciò, si consiglia di arrotondare i dati. In questo caso, l'arrotondamento al centinaio più vicino fornisce un numero ragionevole di radici.

Il secondo problema si verifica quando ci sono troppi punti dati per stelo, come mostrato in un altro esempio. Per risolvere questo problema, sembra appropriato utilizzare i millesimi per le foglie e i decimi e i centesimi per i gambi. Tuttavia, ciò comporterebbe solo tre radici (2.1, 2.2 e 2.3). Sebbene tecnicamente accurato, questo grafico non riesce a rappresentare la forma di distribuzione desiderata.

Per ovviare a questo problema, possiamo dividere i gambi. Duplicando ogni gambo e assegnando la prima metà alle cifre finali (foglie) da 0 a 4 e la seconda metà alle cifre da 5 a 9, possiamo ottenere una rappresentazione migliore. Ad esempio, la radice 2.1 verrebbe suddivisa in 2.10-2.14 (prima metà) e 2.15-2.18 (seconda metà). Questo risolve la difficoltà precedente e fornisce una visione più informativa dei dati.

Questo dettaglio aggiuntivo può essere rivelatore, come si vede in questo esempio in cui i gambi divisi evidenziano una distribuzione simmetrica, contrariamente alla visualizzazione precedente che appariva inclinata a destra. I grafici a stelo e foglia offrono preziose informazioni sulla distribuzione dei dati preservando tutte le informazioni essenziali.

Stem-and-Leaf Plots
Stem-and-Leaf Plots
  • 2020.07.10
  • www.youtube.com
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Grafici a stelo e foglia in R


Grafici a stelo e foglia in R

Ciao a tutti! Oggi esploreremo l'affascinante mondo degli intrecci a stelo e foglia. Un grafico stem-and-leaf, noto anche come stem plot, è una rappresentazione visiva dei dati per una singola variabile. È particolarmente adatto per set di dati di piccole dimensioni, in quanto fornisce informazioni sulla forma, il centro e la diffusione dei dati. Per migliorare la nostra comprensione, lavoreremo su due esempi.

Innanzitutto, tuffiamoci nel set di dati "fedele" integrato. Questo set di dati è composto da 272 osservazioni della durata dell'eruzione e del tempo di attesa per il famoso geyser Old Faithful negli Stati Uniti. Tutte le misurazioni vengono registrate in pochi secondi. In R, il comando di base per creare uno stem plot è opportunamente chiamato "stem". Dobbiamo specificare il nome della variabile che vogliamo analizzare dal set di dati "fedele". Iniziamo con la variabile del tempo di attesa.

Osserva la chiave situata nella parte superiore della trama dello stelo. Il punto decimale è posizionato una cifra a destra della barra. Osservando il grafico delle radici, possiamo identificare la prima coppia di valori nel set di dati, che sono 43 e 45. In particolare, R suddivide automaticamente le radici per adattarsi a un intervallo di valori. Ad esempio, i 40 sono divisi nell'intervallo di 40-44 nel primo gambo e 45-49 nel secondo gambo, e così via.

Se desideriamo ignorare la divisione automatica della radice, possiamo utilizzare l'argomento "scala". Questo argomento ci consente di regolare l'altezza del grafico dello stelo specificando un fattore di scala. In questo caso, per evitare la divisione dei gambi, possiamo dimezzare l'altezza dei gambi impostando "scale = 0.5". Anche se potrebbe non migliorare l'attrattiva visiva, serve come preziosa illustrazione dell'uso dell'argomento "scala".

Passiamo ora al secondo esempio. Abbiamo un set di dati che comprende 20 osservazioni dei tempi di reazione in millisecondi a uno stimolo visivo da parte dei partecipanti a uno studio di ricerca. Come prima, inizieremo con un diagramma di radice di base. In questo caso, il punto decimale è due cifre a destra della barra. Ad esempio, "3/1" rappresenta "310".

Si noti che in questo grafico si verificano alcuni arrotondamenti. Il valore minimo nel set di dati è in realtà 309, con conseguente leggera perdita di informazioni. Come per l'esempio precedente, possiamo modificare le impostazioni predefinite usando il comando "scale". Sperimentiamo regolando il fattore di scala. Ad esempio, l'impostazione "scale = 0.5" può fornire ancora meno intuizioni sulla forma del set di dati rispetto al nostro stem plot originale. Tuttavia, se raddoppiamo la lunghezza dello stem plot, possiamo ottenere una migliore comprensione della distribuzione dei dati.

In questo grafico modificato, noterai che le radici sono passate da una cifra a due cifre. Ad esempio, quando leggiamo i primi pochi valori rappresentati nel set di dati, osserviamo 307 e 309. Inoltre, la successiva radice elencata è "32" invece di "31". Questa occorrenza si verifica perché i dati che iniziano con "30" e "31" sono combinati in un'unica radice. Di conseguenza, vi è una potenziale perdita di informazioni. Tuttavia, le foglie continuano ad aumentare in ordine.

Per evitare di saltare i valori nelle radici e acquisire tutti i dati senza omissioni, è necessario regolare ulteriormente il fattore di scala. In questo caso, possiamo rendere la trama del gambo cinque volte più lunga della versione originale. Questo ci consente di ottenere uno stem plot che include tutti i dati senza salti di stem, allineandosi con la nostra rappresentazione desiderata.

Anche se questa visualizzazione finale comprende il set di dati completo, potrebbe non essere la scelta ottimale a causa della sua lunghezza eccessiva. Diventa difficile percepire la forma, i modelli e le tendenze sottostanti nel set di dati. Considerando le alternative, le migliori opzioni per uno stem plot chiaro e informativo sono quella senza sovrascrivere lo stem splitting o lo stem plot originale con cui abbiamo iniziato.

Selezionando una di queste opzioni, raggiungiamo un equilibrio tra l'acquisizione dell'essenza dei dati e il mantenimento di una rappresentazione concisa e visivamente interpretabile. È importante ricordare che lo scopo di un grafico a stelo e foglia è fornire intuizione e comprensione della distribuzione dei dati, consentendoci di identificare tendenze centrali, variazioni e valori anomali.

Quindi, in conclusione, i grafici a stelo e foglia sono strumenti preziosi per analizzare piccoli set di dati. Offrono un mezzo diretto e visivo per cogliere la forma, il centro e la diffusione dei dati. Sperimentando il fattore di scala e la divisione del gambo, possiamo regolare la trama per soddisfare i nostri requisiti specifici. Tuttavia, è fondamentale trovare un equilibrio tra l'acquisizione del set di dati completo e il mantenimento di una rappresentazione chiara che faciliti l'analisi e l'interpretazione dei dati.

Ora che abbiamo esplorato i grafici a stelo e foglia attraverso due esempi, abbiamo acquisito preziose informazioni sul loro utilizzo e personalizzazione. Armati di questa conoscenza, possiamo applicare i grafici staminali e foglie ad altri set di dati per svelare le loro storie nascoste e prendere decisioni informate basate sull'analisi dei dati.

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...
Motivazione: