Tutorial di programmazione - pagina 17

 

Introduzione alla regressione lineare


Introduzione alla regressione lineare

Ciao a tutti! Oggi ci immergiamo nella regressione lineare. Abbiamo esaminato i grafici a dispersione e discusso situazioni in cui osserviamo una relazione lineare tra le variabili. In altre parole, all'aumentare della variabile X, la variabile Y tende ad aumentare o diminuire a un ritmo costante. Possiamo discutere di questo fenomeno quando abbiamo una relazione stretta, come mostrato sul lato sinistro del grafico, così come quando la relazione è più dispersa, come mostrato sul lato destro.

Per analizzare questa relazione lineare, possiamo tracciare una linea sul grafico a dispersione in modo intelligente. Questa linea è conosciuta come la linea del miglior adattamento o linea di regressione. Ora, approfondiamo gli aspetti matematici della regressione lineare. L'idea chiave implica la nozione di residui. Mettiamo una linea sui nostri dati e scegliamo un valore X specifico. Quindi, calcoliamo la differenza tra il valore Y effettivo nel set di dati e il valore Y previsto sulla linea. Questa differenza è chiamata residua e rappresenta la deviazione tra l'altezza effettiva e quella prevista. Calcolando i residui per ogni punto del nostro set di dati, elevandoli al quadrato e sommandoli, otteniamo una quantità che può essere minimizzata.

Usando il calcolo, possiamo minimizzare questa quantità e derivare l'equazione per la retta di regressione dei minimi quadrati. Si scopre che questa linea passa attraverso il punto (barra X, barra Y), dove barra X è la media campionaria per i valori X e barra Y è la media campionaria per i valori Y. La pendenza della retta di regressione dei minimi quadrati è data da r × (sy / SX), dove r è il coefficiente di correlazione, sy è la deviazione standard dei valori Y e SX è la deviazione standard dei valori X. In sintesi, l'equazione per la retta di regressione dei minimi quadrati è fornita in fondo alla diapositiva.

Il calcolo manuale di questi valori può essere complicato. Per semplificare il processo, si consiglia vivamente di utilizzare la tecnologia o il software. Consideriamo i dati corrispondenti al grafico a dispersione mostrato in una diapositiva precedente. Calcolando le medie e le deviazioni standard, troviamo che X barra è 5,4, Y barra è 2,4 e così via. Il coefficiente di correlazione è di circa 0,34, indicando una correlazione positiva da moderata a debole. Inserendo questi valori, otteniamo l'equazione per la retta di regressione dei minimi quadrati: 0,19x + 1,34.

Devo sottolineare che eseguire questi calcoli a mano può essere noioso. L'utilizzo della tecnologia è un approccio molto più efficiente. Ecco un esempio di come appare la retta di regressione dei minimi quadrati per questi dati. Sembra essere una misura ragionevole per i punti dati.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

Grafici a dispersione e linee di regressione in R


Grafici a dispersione e linee di regressione in R

Ciao a tutti! In questa guida rapida, ti mostrerò come creare una bella grafica utilizzando il pacchetto ggplot2 in RStudio. Questa discussione è adatta per i principianti al livello statistico. Sebbene siano disponibili metodi più potenti e sofisticati, mi concentrerò sugli approcci più intuitivi e diretti. Lavoreremo con un sottoinsieme del set di dati dell'iride, in particolare 50 righe corrispondenti al fiore virginica. Il nostro obiettivo è creare un grafico a dispersione della lunghezza del sepalo rispetto alla larghezza del sepalo.

Prima di iniziare, assicurati di caricare il pacchetto tidyverse o la sua famiglia di pacchetti. Se non l'hai ancora installato, usa il comando "install.packages('tidyverse')". Se si verificano errori durante l'installazione, si consiglia di cercare soluzioni online. Una volta caricato il pacco, siamo pronti per procedere.

Per creare un grafico a dispersione, useremo la sintassi di base "qplot". Innanzitutto, specifica il valore x, che è "virginica$sepal_length" per l'asse orizzontale, dove "virginica" è il set di dati e "sepal_length" è il nome della colonna. Quindi, indica il valore y come "virginica$sepal_width" per l'asse verticale. Successivamente, dobbiamo definire come devono essere visualizzati i dati. Per un grafico a dispersione, usiamo "geom = 'point'". Assicurati di scrivere "punto" correttamente. Questo genererà un grafico a dispersione di base.

Miglioriamo la trama regolando le etichette degli assi ed esplorando le opzioni di personalizzazione come la modifica dei colori e delle dimensioni dei punti. Per modificare l'etichetta dell'asse x, utilizzare "xlab = 'sepal length'". Allo stesso modo, imposta "ylab = 'sepal width'" per modificare l'etichetta dell'asse y. Per modificare il colore del punto, aggiungi "color = 'darkred'". Si noti che la sintassi per specificare il colore è un po' particolare a causa della raffinatezza di R.

Ora che le etichette e il colore dei punti sono stati regolati, puoi sperimentare ulteriormente. Ad esempio, è possibile modificare la dimensione in punti utilizzando "size = ...". Inoltre, puoi aggiungere un titolo principale alla trama. Ti incoraggio a esplorare ulteriormente le capacità di "qplot" utilizzando "?qplot" o effettuando una ricerca online.

Facciamo un ulteriore passo avanti e aggiungiamo una retta di regressione. Un vantaggio di ggplot2 e del tidyverse è che puoi aggiungere livelli alla tua trama semplicemente estendendo il comando esistente. Inizia con il comando "qplot" che abbiamo creato in precedenza e ora aggiungi "geom_smooth()". Questo genererà una linea adattata. Poiché siamo interessati alla regressione lineare, specifica "method = 'lm'" per utilizzare il modello lineare. È buona norma includere questo argomento, specialmente nelle lezioni introduttive di statistica.

Se desideri modificare il colore della linea di regressione, puoi includere "color = 'darkgray'" all'interno del comando "geom_smooth()". Ciò si tradurrà in un colore diverso.

Infine, affrontiamo la questione di cosa succede se rimuoviamo "se = FALSE". Senza questo argomento, R visualizzerà un nastro di errore. In parole povere, questo nastro rappresenta un intervallo di confidenza. Se dovessimo rappresentare graficamente tutti i grafici nel set di dati da cui sono state campionate queste 50 osservazioni, ci aspetteremmo che la linea di regressione si trovi all'interno di questo nastro di errore, fornendo una misura approssimativa dell'incertezza.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Utilizzo delle linee di regressione per fare previsioni


Utilizzo delle linee di regressione per fare previsioni

Ciao a tutti! Oggi approfondiremo le linee di regressione. Esploreremo come usarli per fare previsioni, discuteremo gli errori di previsione e capiremo quando è inappropriato usarli per le previsioni. Iniziamo!

Potresti riconoscere questo esempio dal mio video precedente. Abbiamo un piccolo set di dati con cinque valori e ho tracciato una linea di adattamento migliore: Ŷ = 0,19X + 1,34. Consideriamo ora un nuovo valore di input, x = 6. Usando l'equazione di regressione, possiamo prevedere il valore y corrispondente. In questo caso, la previsione è 2,54. Possiamo tracciare questo valore previsto sulla linea come un punto blu in (6, 2.54).

A volte facciamo previsioni quando abbiamo un valore x che corrisponde a un valore y nel set di dati. Ad esempio, in x = 3, abbiamo il punto (3, 1). In questo caso, di che tipo di errore stiamo parlando? Lo chiamiamo residuo. Il residuo per un punto dati è la differenza tra il valore y effettivo in quel punto e il valore y previsto dalla linea di regressione. A x = 3, il valore y effettivo è 1 e il valore y previsto è 1,97, risultando in un residuo di -0,97. Ciò significa che il punto (3, 1) si trova a circa 0,97 unità al di sotto della linea di regressione.

Quando si utilizzano le linee di regressione per fare previsioni, è fondamentale considerare l'intervallo del set di dati. Dovremmo solo fare previsioni per i valori x che rientrano nell'intervallo o in un'estensione ragionevole del set di dati. Un esempio classico è l'età rispetto al peso. Come mostrato nel grafico, esiste una relazione lineare per le persone di età inferiore ai 12 anni circa. All'interno di questo intervallo, possiamo fare previsioni di peso ragionevolmente accurate in base all'età utilizzando la relazione lineare. Questa è chiamata interpolazione, in cui prevediamo i valori all'interno dell'intervallo del set di dati.

Tuttavia, sarebbe errato utilizzare questa relazione lineare per fare previsioni al di fuori di tale intervallo, come per un individuo di quarant'anni. Se dovessimo applicare la relazione lineare per prevedere il loro peso, il risultato sarebbe di oltre trecentoquaranta libbre, il che è chiaramente irrealistico. Questo si chiama estrapolazione e dovrebbe essere evitato.

In sintesi, quando si utilizzano le linee di regressione, è essenziale comprendere gli errori di previsione e le limitazioni. I residui ci aiutano a quantificare le discrepanze tra i valori effettivi e previsti. Dovremmo solo fare previsioni all'interno dell'intervallo del set di dati o una sua ragionevole estensione. L'estrapolazione, che comporta la previsione di valori al di fuori dell'intervallo del set di dati, può portare a risultati imprecisi e inaffidabili.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

Regressione e previsione in R utilizzando il comando lm()


Regressione e previsione in R utilizzando il comando lm()

Ciao a tutti! Oggi calcoleremo le linee di regressione in R utilizzando il set di dati integrato "cars". Per iniziare, diamo un'occhiata al dataset e raccogliamo alcune informazioni su di esso utilizzando i comandi "view" e "question point". Il set di dati "cars" è composto da 50 voci che rappresentano velocità e distanze di arresto delle auto degli anni '20. Anche se non si tratta di dati recenti, possiamo ancora esplorare relazioni lineari.

Per visualizzare i dati, useremo il pacchetto "ggplot2" dalla libreria "tidyverse". Assicurati di caricare il pacchetto usando il comando "library(tidyverse)". Se non hai ancora installato il pacchetto "tidyverse", puoi farlo con il comando "install.packages('tidyverse')".

Successivamente, creeremo un grafico a dispersione dei dati utilizzando il comando "qplot". Tracciamo la velocità sull'asse x (variabile esplicativa) e la distanza sull'asse y (variabile di risposta). Per indicare che stiamo lavorando con il set di dati "cars" e vogliamo un grafico a dispersione, useremo "geom='point'". La trama rivela una relazione per lo più lineare, suggerendo che l'esecuzione di una regressione lineare è ragionevole.

Per aggiungere una linea di regressione al grafico, useremo "geom_smooth(method = 'lm', se = FALSE)". Questo specifica una regressione lineare più uniforme senza la barra di errore standard.

Ora determiniamo l'equazione della retta di regressione. Useremo il comando "lm", che sta per modello lineare. La sintassi segue uno schema "y ~ x", in cui la variabile di risposta (distanza) è correlata alla variabile esplicativa (velocità). Assegneremo il risultato a una variabile chiamata "modello". Inserendo "summary(model)", possiamo ottenere ulteriori informazioni sulla retta di regressione, inclusi coefficienti, residui e misure statistiche come R-quadrato multiplo e R-quadrato corretto.

Se vogliamo accedere a informazioni specifiche dall'oggetto "modello", possiamo trattarlo come un frame di dati e utilizzare "$" per estrarre le colonne desiderate. Ad esempio, "model$residuals" fornisce un vettore dei 50 residui.

Possiamo persino aggiungere i residui e i valori adattati come nuove colonne al set di dati "cars" originale utilizzando rispettivamente "cars$residuals" e "cars$predicted".

Infine, utilizziamo la funzione "predict" per ottenere previsioni per velocità non presenti nel dataset. Forniremo il "modello" come primo argomento e creeremo un frame di dati con una colonna denominata "velocità" (corrispondente alla variabile esplicativa). Utilizzando la funzione "data.frame", inseriremo i valori di velocità desiderati. Ad esempio, possiamo prevedere le distanze di arresto per velocità come 12,5, 15,5 e 17. Verranno visualizzati i valori previsti.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

Grafici residui in R


Grafici residui in R

Salve a tutti, nel video di oggi esploreremo i grafici residui in R utilizzando il comando qplot. In questo tutorial utilizzerò principalmente le funzioni di base R. Sto anche lavorando a un altro video sul pacchetto scopa, che è un modo standard per eseguire attività in R. Fornirò un collegamento a quel video una volta che sarà pronto.

In questo tutorial, ci concentreremo sulle variabili "vento" e "temp" dal set di dati sulla qualità dell'aria integrato in R. Questo set di dati contiene misurazioni giornaliere della qualità dell'aria a New York da maggio a settembre 1973.

Per cominciare, carichiamo il pacchetto tidyverse. Anche se useremo solo la funzione qplot, carichiamo l'intero pacchetto per coerenza.

Prima di immergersi nella modellazione, è essenziale visualizzare i nostri dati. Creiamo un qplot impostando "wind" come variabile esplicativa (air_quality$wind) e "temp" come variabile di risposta (air_quality$temp). Poiché abbiamo due variabili, R utilizzerà per impostazione predefinita un grafico a dispersione.

Esaminando la trama, possiamo osservare una relazione lineare tra le due variabili, anche se non particolarmente forte. Per quantificare questa relazione, calcoliamo il coefficiente di correlazione utilizzando la funzione cor. Il coefficiente di correlazione risultante è -0,458, che indica una correlazione negativa.

Ora che abbiamo stabilito una relazione lineare, possiamo aggiungere una retta di regressione al grafico. Modificheremo il comando qplot includendo la funzione geom_smooth con method = "lm" per indicare un modello lineare. Escludiamo il nastro di errore per semplicità.

Con la retta di regressione aggiunta, possiamo procedere alla costruzione di un modello lineare e ottenere l'equazione per la retta di regressione. Assegniamo il modello lineare a una variabile chiamata "modello" usando la funzione lm. Specificheremo "temp" come variabile di risposta e "wind" come variabile esplicativa. È importante menzionare esplicitamente il nome del frame di dati.

Per ottenere maggiori informazioni sul modello, possiamo utilizzare la funzione di riepilogo per ottenere un riepilogo del modello. Il riepilogo fornisce varie informazioni, tra cui l'intercetta (90,1349) e il coefficiente per la pendenza (-1,23). L'interpretazione del coefficiente di pendenza è che per ogni unità di aumento del vento, la temperatura diminuisce di circa 1,23 unità. Il controllo del file della guida fornirà informazioni sulle unità utilizzate, come il vento in miglia all'ora e la temperatura in gradi Fahrenheit.

Possiamo accedere direttamente ai coefficienti utilizzando la funzione dei coefficienti, che restituisce l'intercetta e il coefficiente del vento dal modello. Inoltre, possiamo ottenere i valori adattati utilizzando la funzione fitting.values, fornendoci un vettore di temperature previste per ciascun valore del vento. Possiamo aggiungerlo come una nuova colonna, "previsto", al frame di dati sulla qualità dell'aria.

Allo stesso modo, possiamo ottenere i residui utilizzando la funzione dei residui, che ci fornisce le differenze tra i valori osservati e previsti. L'aggiunta dei residui come un'altra colonna, "residui", al frame di dati completa la nostra esplorazione. Possiamo visualizzare nuovamente il data frame per confermare la presenza delle nuove colonne.

Per valutare la relazione tra i valori adattati e i residui, possiamo creare un grafico dei residui. Nel comando qplot, imposteremo i valori adattati come variabile dell'asse x (fitted.values(model)) ei residui come variabile dell'asse y (residuals(model)). Verrà generato un grafico a dispersione come specificato negli argomenti di qplot.

Lo scopo del grafico dei residui è identificare eventuali modelli o tendenze nei residui. In un modello lineare valido con varianza costante, il grafico dovrebbe assomigliare a una nuvola senza alcun motivo distinguibile. L'aggiunta di una linea di regressione con geom_smooth e method = "lm" aiuterà a verificarlo. Imposteremo anche se = FALSE per rimuovere la barra di errore standard.

Esaminando il grafico dei residui, possiamo vedere che non esiste alcun modello o tendenza distinguibile, indicando che il nostro modello cattura adeguatamente la relazione lineare. La retta di regressione, rappresentata da y = 0, conferma questa osservazione.

Questo conclude il nostro tutorial sulla creazione di grafici residui in R usando il comando qplot. Visualizzando e analizzando i residui, possiamo valutare la bontà dell'adattamento e l'adeguatezza del nostro modello lineare. Ricorda che ci sono diversi modi per ottenere gli stessi risultati in R ed esplorare diverse sintassi e funzioni può migliorare la tua comprensione della lingua.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Valori anomali: leva finanziaria, discrepanza e influenza


Valori anomali: leva finanziaria, discrepanza e influenza

Ciao a tutti! Oggi approfondiremo i concetti di leva finanziaria, discrepanza e influenza nel contesto della regressione lineare. Anche se mi concentrerò sullo scenario con una singola variabile esplicativa, tieni presente che tutto quanto discusso qui si applica direttamente anche alle dimensioni superiori.

In un set di dati con due variabili, le singole osservazioni possono presentare caratteristiche insolite nei loro valori x, y o entrambi. Quando usiamo il termine "outlier", ci riferiamo specificamente alle osservazioni che si discostano significativamente nella direzione y rispetto alla tendenza generale dei dati. Questi valori anomali sono punti con elevata discrepanza.

Tuttavia, nel linguaggio quotidiano, spesso usiamo il termine "anomalia" in modo più approssimativo. Per illustrare questo concetto, consideriamo tre insiemi di dati, ognuno dei quali mostra un trend lineare con un'osservazione insolita. Nei primi due grafici, noterai un punto che si trova molto lontano dalla linea di regressione, mostrando un'elevata discrepanza. Nel terzo caso, il valore insolito si allinea abbastanza bene con la tendenza generale dei dati, quindi non sarebbe considerato un valore anomalo basato solo sulla discrepanza.

Ora spostiamo la nostra attenzione sulla leva finanziaria. Le osservazioni con valori x insoliti hanno un potenziale maggiore di influire sull'adattamento del modello e si dice che tali osservazioni abbiano un effetto leva elevato. Esaminando gli stessi tre grafici dal punto di vista della leva, scopriamo che i due grafici più a destra contengono osservazioni con leva elevata. Questi valori anomali hanno valori x che sono significativamente distanti dalla maggior parte dei dati. Al contrario, il primo grafico presenta un valore anomalo con leva bassa poiché il suo valore x si allinea bene con gli altri valori nel set di dati.

Si ritiene che un'osservazione che altera sostanzialmente l'adattamento di un modello abbia un'influenza elevata. Tornando ai primi due valori anomali delle trame precedenti, esaminiamoli attraverso la lente dell'influenza. Nel primo grafico, osserviamo un valore anomalo con bassa influenza. Se rimuoviamo questo valore dal set di dati, la linea di regressione non subisce spostamenti significativi. In particolare, la pendenza rimane relativamente invariata. Al contrario, nel grafico più a destra, vediamo un valore anomalo con un'influenza elevata. Dopo averlo rimosso dal set di dati, la linea di regressione subisce modifiche sostanziali. In genere, le osservazioni influenti mostrano sia un'elevata discrepanza che un elevato effetto leva.

Mentre tutti questi concetti possono essere quantificati, non approfondirò i dettagli in questo video. Tuttavia, voglio indicarti la giusta direzione se desideri esplorare ulteriormente questo argomento. La discrepanza viene spesso misurata utilizzando residui studentizzati, che sono residui standardizzati che quantificano la deviazione delle osservazioni nella direzione y dalla previsione del modello. La leva finanziaria può essere valutata utilizzando i valori cappello, che misurano la distanza dei valori x dal valore x medio previsto. Infine, l'influenza viene spesso quantificata utilizzando la distanza di Cook.

Fortunatamente, non è necessario calcolare manualmente queste misure, poiché R fornisce metodi convenienti. La confezione della scopa è particolarmente utile in questo senso, e appena possibile creerò un video su di essa.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: il Coefficiente di Determinazione


R^2: il Coefficiente di Determinazione

L'argomento di oggi è R-quadrato, il coefficiente di determinazione. Misura la diffusione delle osservazioni attorno a una linea di regressione o qualsiasi modello statistico. Rappresenta la proporzione della varianza nella variabile di risposta (y) che può essere attribuita ai cambiamenti nella/e variabile/e esplicativa/e, specialmente nei casi di dimensione superiore.

Per i modelli lineari, R-quadrato è sempre compreso tra 0 e 1. I valori più vicini a 1 indicano che i punti dati sono strettamente raggruppati attorno alla linea di regressione, mentre i valori più vicini a 0 indicano una maggiore diffusione.

Per rendere più chiaro questo concetto, visualizziamo tre set di dati. Ogni set ha una varianza di 1 per i valori y, e ho tracciato la linea di regressione per ogni caso. Man mano che R-quadrato aumenta da 0,2 a 0,5 a 0,8, osserviamo una diffusione sempre più stretta dei dati attorno alla linea di regressione.

Ora, tuffiamoci in una definizione più precisa. R-quadrato viene calcolato come la varianza dei valori y adattati divisa per la varianza dei valori y osservati. Algebricamente, questo può essere espresso come 1 meno la varianza dei residui divisa per la varianza dei valori y osservati. In senso tecnico, possiamo scriverlo come:

R-quadrato = (varianza dei residui) / (varianza dei valori y osservati)

Per semplificare ulteriormente, spesso abbreviamo questa espressione algebrica come R-quadrato = 1 - (RSS / TSS), dove RSS rappresenta la somma residua dei quadrati e TSS denota la somma totale dei quadrati.

In un modello di regressione ai minimi quadrati con una singola variabile esplicativa, un fatto importante da notare è che il coefficiente di determinazione è uguale al quadrato del coefficiente di correlazione campionario (R). In altre parole, R-quadrato (grande R-quadrato) è uguale a piccolo r-quadrato.

Nel caso di modelli di dimensioni superiori, l'affermazione è simile. R-quadrato è uguale al quadrato della correlazione tra i valori y osservati e adattati. Questo vale anche per il caso a variabile singola, anche se di solito non lo pensiamo in questi termini.

Vale la pena ricordare che R-quadrato è spesso frainteso e male interpretato. Quindi, chiariamo il suo significato e i suoi limiti. R-quadrato misura la proporzione di variabilità in y che può essere spiegata dalla variabilità in x. Per definizione, sarà inferiore per i set di dati con un'elevata variabilità nei valori y. Pertanto, i modelli con R-quadrato vicino a 1 non sono necessariamente buoni, come dimostrato in un esempio in cui R-quadrato è 0,93, ma il modello lineare non si adatta bene ai dati.

Allo stesso modo, i modelli con un R-quadrato basso non sono necessariamente cattivi. Ad esempio, un modello con un R-quadrato di 0,16 può adattarsi molto bene ai dati, ma i dati stessi contengono intrinsecamente molta variabilità naturale e rumore.

Ricorda che R-quadrato misura solo la variabilità rispetto alla linea di regressione e non indica direttamente l'utilità o la ragionevolezza di un modello. Per valutare correttamente i modelli lineari, prendere in considerazione più strumenti e fattori, come l'errore standard residuo (la deviazione standard dei residui), che fornisce informazioni sulla variabilità dei dati rispetto ai valori previsti. Inoltre, è possibile esaminare il livello di significatività della regressione utilizzando la statistica t per gli adattamenti lineari e la statistica f per testare l'ipotesi nulla che tutti i coefficienti di regressione siano pari a zero nei modelli a dimensione superiore.

Quando si valutano i modelli, è fondamentale non fare affidamento esclusivamente su R-quadrato, ma considerarlo insieme ad altre metriche e analisi.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

Calcoli chi-quadrato in R


Calcoli chi-quadrato in R

Oggi eseguiremo alcuni calcoli chi-quadrato in R. Il test chi-quadrato è comunemente usato nelle statistiche inferenziali per vari scopi, come il test della bontà di adattamento e il test di ipotesi che coinvolgono varianze. Chi-quadrato è una variabile casuale continua che è inclinata verso destra. Il suo valore atteso è indicato con "r" e la sua varianza è 2r. Nella maggior parte delle applicazioni, r è un numero intero positivo, sebbene possa anche essere un numero non intero.

All'aumentare del valore di r, la funzione di densità di probabilità (PDF) della distribuzione del chi quadrato si sposta verso destra e inizia ad assomigliare a una curva a campana a causa del teorema del limite centrale. Il parametro r è noto come numero di gradi di libertà per la distribuzione chi quadrato.

In R, ci sono quattro funzioni di base per il calcolo delle distribuzioni chi quadrato:

  1. rchisq(r, n): questa funzione genera n valori casuali dalla distribuzione chi quadrato con r gradi di libertà. Ad esempio, rchisq(5, 16) genera 16 valori casuali dal chi quadrato con 5 gradi di libertà.

  2. pchisq(x, r): Questa è la funzione di distribuzione cumulativa (CDF) per la distribuzione chi quadrato con r gradi di libertà. Restituisce la probabilità di ottenere casualmente un valore minore o uguale a x in quella distribuzione. Ad esempio, pchisq(8, 5) fornisce la probabilità di ottenere un valore minore o uguale a 8 in chi quadrato con 5 gradi di libertà, che è approssimativamente 0,844.

  3. qchisq(p, r): questa è l'inversa CDF per la distribuzione chi quadrato con r gradi di libertà. Restituisce il valore x per il quale la probabilità di ottenere un valore minore o uguale a x è uguale a p. Ad esempio, qchisq(0.5, 12) fornisce la mediana del chi quadrato con 12 gradi di libertà, che è approssimativamente 0.5.

  4. dchisq(x, r): questa funzione fornisce il valore della funzione di densità di probabilità (PDF) della distribuzione chi quadrato con r gradi di libertà in x. Il PDF ha un'importanza teorica ma è usato meno comunemente nei calcoli numerici.

Ora, risolviamo alcuni problemi di esempio utilizzando queste funzioni:

Problema 1: calcola la probabilità di ottenere casualmente un valore x compreso tra 12 e 18 in chi quadrato con 15 gradi di libertà.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

La probabilità è di circa 0,4163.

Problema 2: Dato che c'è una probabilità dell'80% che un'estrazione casuale dal chi quadrato con 20 gradi di libertà sia maggiore di x, trova il valore di x.

x <- qchisq ( 0.2 , 20 )

Il valore di x è approssimativamente 14,57844.

Problema 3: simula diecimila estrazioni dalla distribuzione del chi quadrato con 4 gradi di libertà e genera un istogramma dei risultati.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Questo genererà un istogramma dei valori simulati.

Spero che questo ti aiuti a capire e applicare i calcoli del chi quadrato in R.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

Comprensione della distribuzione del chi quadrato


Comprensione della distribuzione del chi quadrato

Oggi parleremo della distribuzione del chi quadrato, un concetto fondamentale che incontrerai studiando l'inferenza statistica nel tuo viaggio nella scienza dei dati. La distribuzione del chi quadrato si verifica quando si desidera misurare quanto un insieme di osservazioni numeriche indipendenti devia dai valori previsti.

Per spiegarlo in modo più formale, si calcola un punteggio z per ogni osservazione sottraendo il valore atteso dall'osservazione e dividendolo per la deviazione standard. Dopo aver elevato al quadrato ciascuno di questi punteggi z e averli sommati, si ottiene la variabile casuale chi quadrato. Questa variabile quantifica la deviazione complessiva delle tue osservazioni dai valori attesi.

Ad esempio, se tutte le osservazioni si allineano perfettamente con i valori attesi, la statistica del chi quadrato sarebbe zero. Man mano che i risultati si discostano ulteriormente dai valori attesi, il valore del chi quadrato aumenta. Elevando al quadrato i punteggi z, ci assicuriamo che le deviazioni basse e alte non si annullino a vicenda.

La distribuzione del chi quadrato con r gradi di libertà rappresenta la distribuzione campionaria di questa variabile casuale. I gradi di libertà (r) corrispondono al numero di osservazioni indipendenti o z-score. Si noti che la variabile casuale condivide lo stesso nome della distribuzione, ma il contesto di solito li distingue.

Poiché ogni punteggio z è una variabile casuale continua, la somma dei loro quadrati segue una distribuzione chi quadrato. La funzione di densità di probabilità della distribuzione chi quadrato è positiva solo per valori chi quadrato non negativi. La distribuzione è distorta a destra perché i valori estremamente alti per i punteggi z individuali diventano sempre meno probabili.

Il tipico grafico della distribuzione del chi quadrato con 5 gradi di libertà mostra questa forte inclinazione verso destra. Il suo supporto (insieme di possibili esiti) è costituito esclusivamente da valori positivi. Due fatti importanti da ricordare sono che il valore atteso della distribuzione chi quadrato con r gradi di libertà è uguale a r e che il picco della distribuzione si verifica a R meno 2, dato che R è almeno due (altrimenti è zero ).

All'aumentare del numero di gradi di libertà, la distribuzione del chi quadrato si avvicina a una distribuzione normale secondo il teorema del limite centrale. Questa approssimazione è osservabile in uno schizzo che mostra la distribuzione del chi quadrato con R uguale a 50, che mostra ancora una leggera inclinazione verso destra.

La distribuzione chi-quadrato è usata frequentemente nelle statistiche inferenziali, come evidente dalla diapositiva iniziale. Alcune applicazioni comuni includono test di significatività per la varianza nell'ipotesi di una distribuzione normale, test di bontà di adattamento per variabili categoriali e test chi-quadrato per l'indipendenza.

Per calcolare le probabilità in una distribuzione chi quadrato, puoi utilizzare la funzione di distribuzione cumulativa (CDF). Il CDF, indicato come F(x), fornisce la probabilità di ottenere un valore minore o uguale a x nella distribuzione del chi quadrato specificata. Questo può essere meglio compreso con una rappresentazione visiva, dove l'area ombreggiata rappresenta la probabilità.

In R, puoi eseguire calcoli chi-quadrato usando il comando pchisq(), specificando il valore di interesse e il numero di gradi di libertà. Ad esempio, per calcolare la probabilità di ottenere un valore minore o uguale a 8 nella distribuzione chi-quadrato con cinque gradi di libertà, si utilizzerà pchisq(8, 5), ottenendo approssimativamente 0,843.

Se sei interessato a ulteriori dettagli o calcoli che coinvolgono la distribuzione del chi quadrato in R, ho video specifici che trattano questi argomenti. Sentiti libero di controllarli per spiegazioni più approfondite.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Test di bontà di adattamento


Test di bontà di adattamento

Ciao a tutti, oggi parleremo del test di bontà di adattamento utilizzando la distribuzione del chi quadrato. Supponiamo di avere una variabile categorica, come l'anno degli studenti universitari nelle lezioni di statistica in una grande università, e ci viene detto che segue una distribuzione specifica: 50% matricole, 30% studenti del secondo anno, 10% junior e 10% anziani. Come possiamo verificare se questa distribuzione si adatta ai nostri dati campione?

Per cominciare, impostiamo l'ipotesi nulla e alternativa. L'ipotesi nulla afferma che la popolazione di tutti gli studenti delle classi di statistica segue la distribuzione dichiarata (50% matricole, 30% studenti del secondo anno, ecc.), mentre l'ipotesi alternativa assume una distribuzione diversa. Per verificare tra queste ipotesi, confronteremo i conteggi osservati nei nostri dati di esempio con i conteggi previsti nell'ipotesi nulla.

Indichiamo i conteggi osservati come 'o' ei conteggi attesi come 'e'. Calcoleremo una statistica test chiamata chi quadrato, che è la somma di (o - e)^2 / e. Se l'ipotesi nulla è vera, questa statistica test segue una distribuzione chi quadrato con k - 1 gradi di libertà, dove k è il numero di categorie.

Nel nostro caso, abbiamo quattro categorie, quindi useremo la distribuzione del chi quadrato con tre gradi di libertà. Una statistica di test più ampia indica che i nostri dati campione sono meno compatibili con l'ipotesi nulla, suggerendo un adattamento più scarso.

Per eseguire il test di significatività e calcolare il chi quadrato, dobbiamo calcolare i conteggi attesi sotto l'ipotesi nulla. Per una dimensione del campione di 65, moltiplichiamo le percentuali per 65 per ottenere conteggi previsti di 32,5, 19,5, 6,5 e 6,5.

Successivamente, calcoliamo la statistica del test chi quadrato sottraendo il conteggio previsto dal conteggio osservato per ogni cella, elevando al quadrato il risultato, dividendo per il conteggio previsto e sommando questi valori in tutte le categorie. Nel nostro caso, la statistica del test è 3,58.

Per trovare la probabilità di ottenere un valore maggiore o uguale alla nostra statistica chi-quadrato osservata, usiamo la funzione di distribuzione cumulativa in R, rappresentata dal comando p chi-quadrato. Sottraendo il risultato da uno otteniamo il p-value. In questo esempio, il valore p è di circa 0,31, a indicare che i dati non forniscono una forte evidenza contro l'ipotesi nulla.

È essenziale notare che un valore p elevato non dimostra l'ipotesi nulla; suggerisce semplicemente una mancanza di prove contro di essa. Infine, dovremmo considerare quando è appropriato utilizzare un test di bontà di adattamento del chi quadrato. In primo luogo, si applica alle variabili categoriali. Se disponi di variabili quantitative, puoi trasformarle in variabili categoriali raggruppandole. Inoltre, i dati dovrebbero essere ottenuti attraverso un semplice campionamento casuale e i conteggi cellulari previsti dovrebbero generalmente essere almeno cinque. Se molti contenitori sono quasi vuoti, possono essere più appropriati metodi alternativi, come il test esatto di Fisher in determinate situazioni.

A parte le considerazioni che abbiamo menzionato in precedenza, ci sono altri punti da tenere a mente quando si decide se utilizzare un test di bontà di adattamento del chi quadrato. Questi includono:

  1. Indipendenza: le osservazioni all'interno di ciascuna categoria devono essere indipendenti l'una dall'altra. Questa assunzione è importante per la validità del test. Se le osservazioni non sono indipendenti, test statistici alternativi possono essere più adatti.

  2. Dimensione del campione: sebbene non esista una regola fissa, campioni di dimensioni maggiori tendono a fornire risultati più affidabili. Con campioni più grandi, anche piccole deviazioni dalla distribuzione prevista possono produrre risultati statisticamente significativi. Tuttavia, campioni di dimensioni molto grandi a volte possono portare a risultati significativi anche per deviazioni banali dalla distribuzione prevista, quindi è essenziale considerare anche il significato pratico.

  3. Stima dei parametri: in alcuni casi, i conteggi previsti per ciascuna categoria non sono noti con precisione ma sono stimati dai dati. Quando si stimano i parametri dagli stessi dati utilizzati per il test delle ipotesi, può portare a risultati distorti. In tali situazioni, dovrebbero essere presi in considerazione aggiustamenti o metodi alternativi.

  4. Variabili categoriali con più livelli: il test della bontà di adattamento del chi quadrato discusso finora è appropriato quando si verifica l'adattamento di una singola variabile categoriale a una distribuzione specificata. Tuttavia, se si dispone di più variabili categoriali e si desidera esaminare la loro distribuzione congiunta, altri test come il test di indipendenza del chi quadrato o i modelli log-lineari potrebbero essere più adatti.

Vale la pena notare che il test della bontà di adattamento del chi quadrato è uno strumento utile per esaminare se i dati osservati seguono una distribuzione prevista. Tuttavia, non fornisce informazioni sui motivi alla base di eventuali discrepanze né identifica quali categorie specifiche contribuiscono maggiormente alle differenze.

Come con qualsiasi test statistico, l'interpretazione dei risultati dovrebbe considerare il contesto, le conoscenze di base e gli obiettivi specifici dell'analisi. È fondamentale comprendere i limiti e le ipotesi del test e utilizzarlo come parte di un'analisi completa piuttosto che fare affidamento esclusivamente sul suo risultato.

In sintesi, il test della bontà di adattamento del chi quadrato è un metodo prezioso per valutare l'adattamento tra i dati osservati e una distribuzione prevista per le variabili categoriali. Confrontando i conteggi osservati e attesi, calcolando la statistica del test e determinando il p-value, possiamo valutare la compatibilità dei dati con l'ipotesi nulla. Tuttavia, è importante considerare le ipotesi, la dimensione del campione e altri fattori per garantire la validità e la pertinenza del test in un determinato contesto.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...
Motivazione: