Programlama öğreticileri - sayfa 17

 

Lineer Regresyona Giriş


Lineer Regresyona Giriş

Herkese merhaba! Bugün, lineer regresyona dalıyoruz. Dağılım grafiklerini inceliyoruz ve değişkenler arasında doğrusal bir ilişki gözlemlediğimiz durumları tartışıyoruz. Diğer bir deyişle, X değişkeni arttıkça Y değişkeni sabit bir oranda artma veya azalma eğilimi gösterir. Grafiğin sol tarafında gösterildiği gibi sıkı bir ilişkimiz olduğunda veya sağ tarafta görüldüğü gibi ilişkinin daha dağınık olduğu zamanlarda bu olguyu tartışabiliriz.

Bu doğrusal ilişkiyi analiz etmek için, dağılım grafiği üzerine akıllı bir şekilde bir çizgi çizebiliriz. Bu çizgi, en uygun çizgi veya regresyon çizgisi olarak bilinir. Şimdi, lineer regresyonun matematiksel yönlerini inceleyelim. Anahtar fikir artık kavramını içerir. Verilerimizin üzerine bir çizgi çekiyoruz ve belirli bir X değeri seçiyoruz. Ardından, veri setindeki gerçek Y değeri ile satırdaki tahmin edilen Y değeri arasındaki farkı hesaplıyoruz. Bu fark, gerçek ve beklenen yükseklikler arasındaki sapmayı temsil eden artık olarak adlandırılır. Veri setimizdeki her nokta için artıkları hesaplayarak, karelerini alarak ve toplayarak, minimize edilebilecek bir miktar elde ederiz.

Hesabı kullanarak, bu miktarı en aza indirebilir ve en küçük kareler regresyon doğrusu için denklemi türetebiliriz. Bu çizginin, X değerleri için örnek ortalamanın X bar olduğu ve Y değerleri için örnek ortalamanın Y bar olduğu noktadan (X bar, Y bar) geçtiği ortaya çıkıyor. En küçük kareler regresyon doğrusunun eğimi, r × (sy / SX) ile verilir; burada r, korelasyon katsayısı, sy, Y değerlerinin standart sapmasıdır ve SX, X değerlerinin standart sapmasıdır. Özet olarak, en küçük kareler regresyon çizgisinin denklemi slaydın altında verilmiştir.

Bu değerleri manuel olarak hesaplamak külfetli olabilir. Süreci basitleştirmek için teknoloji veya yazılım kullanılması şiddetle tavsiye edilir. Bir önceki slaytta gösterilen dağılım grafiğine karşılık gelen verileri ele alalım. Ortalamaları ve standart sapmaları hesaplayarak, X çubuğunun 5,4 olduğunu, Y çubuğunun 2,4 olduğunu vb. buluruz. Korelasyon katsayısı yaklaşık olarak 0,34'tür ve orta ila zayıf pozitif korelasyonu gösterir. Bu değerleri yerine koyarak en küçük kareler regresyon doğrusu denklemini elde ederiz: 0.19x + 1.34.

Bu hesaplamaları elle yapmanın sıkıcı olabileceğini vurgulamalıyım. Teknolojiden yararlanmak çok daha verimli bir yaklaşımdır. İşte bu veriler için en küçük kareler regresyon çizgisinin nasıl göründüğüne dair bir örnek. Veri noktalarına makul bir uyum gibi görünüyor.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

R'de Saçılım Grafikleri ve Regresyon Çizgileri


R'de Saçılım Grafikleri ve Regresyon Çizgileri

Herkese merhaba! Bu hızlı başlangıç kılavuzunda size RStudio'da ggplot2 paketini kullanarak nasıl güzel grafikler oluşturacağınızı göstereceğim. Bu tartışma, istatistik bir düzeyde yeni başlayanlar için uygundur. Daha güçlü ve gelişmiş yöntemler olsa da, en sezgisel ve basit yaklaşımlara odaklanacağım. İris veri setinin bir alt kümesiyle, özellikle virginica çiçeğine karşılık gelen 50 satırla çalışacağız. Amacımız sepal uzunluğuna karşı sepal genişliğinin dağılım grafiğini oluşturmaktır.

Başlamadan önce, budgetverse paketini veya onun paket ailesini yüklediğinizden emin olun. Henüz yüklemediyseniz, "install.packages('tidyverse')" komutunu kullanın. Yükleme sırasında herhangi bir hata oluşursa, çevrimiçi çözümler aramanız önerilir. Paket yüklendikten sonra, devam etmeye hazırız.

Dağılım grafiği oluşturmak için temel sözdizimini "qplot" kullanacağız. İlk olarak, yatay eksen için "virginica$sepal_length" olan x değerini belirtin; burada "virginica" veri kümesi ve "sepal_length" sütun adıdır. Ardından dikey eksen için y değerini "virginica$sepal_width" olarak belirtin. Ardından, verilerin nasıl görüntülenmesi gerektiğini tanımlamamız gerekiyor. Dağılım grafiği için "geom = 'nokta'" kullanırız. "Nokta" kelimesini doğru yazdığınızdan emin olun. Bu, temel bir dağılım grafiği oluşturacaktır.

Eksen etiketlerini ayarlayarak ve renkleri ve nokta boyutlarını değiştirmek gibi özelleştirme seçeneklerini keşfederek çizimi geliştirelim. X ekseni etiketini değiştirmek için "xlab = 'sepal length'" kullanın. Benzer şekilde, y ekseni etiketini değiştirmek için "ylab = 'sepal width'" ayarını yapın. Nokta rengini değiştirmek için "color = 'darkred'" ekleyin. Renk belirleme sözdiziminin, R'nin gelişmişliği nedeniyle biraz tuhaf olduğunu unutmayın.

Artık etiketler ve nokta rengi ayarlandığına göre, daha fazla deneme yapabilirsiniz. Örneğin, punto boyutunu "size = ..." kullanarak değiştirebilirsiniz. Ek olarak, olay örgüsüne bir ana başlık ekleyebilirsiniz. "?qplot" kullanarak veya çevrimiçi arama yaparak "qplot" yeteneklerini daha fazla keşfetmenizi tavsiye ederim.

Bir adım daha ileri götürelim ve bir regresyon çizgisi ekleyelim. ggplot2 ve düzenli evrenin bir avantajı, basitçe mevcut komutu genişleterek çiziminize katmanlar ekleyebilmenizdir. Daha önce oluşturduğumuz "qplot" komutuyla başlayın ve şimdi "geom_smooth()" komutunu ekleyin. Bu, uygun bir hat oluşturacaktır. Doğrusal regresyonla ilgilendiğimiz için, doğrusal modeli kullanmak için "method = 'lm'" belirtin. Bu argümana, özellikle giriş niteliğindeki istatistik derslerinde yer vermek iyi bir uygulamadır.

Regresyon çizgisinin rengini değiştirmek isterseniz, "geom_smooth()" komutu içerisine "color = 'darkgray'" ifadesini dahil edebilirsiniz. Bu farklı bir renk ile sonuçlanacaktır.

Son olarak "se=FALSE" ifadesini kaldırırsak ne olur sorusuna değinelim. Bu bağımsız değişken olmadan, R bir hata şeridi görüntüler. Kabaca söylemek gerekirse, bu şerit bir güven aralığını temsil eder. Bu 50 gözlemin örneklendiği veri kümesindeki tüm grafikleri çizecek olsaydık, regresyon çizgisinin kabaca bir belirsizlik ölçüsü sağlayarak bu hata şeridi içinde kalmasını beklerdik.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Tahmin Yapmak İçin Regresyon Çizgilerini Kullanma


Tahmin Yapmak İçin Regresyon Çizgilerini Kullanma

Herkese merhaba! Bugün, regresyon çizgilerini daha derinden inceleyeceğiz. Bunları tahmin yapmak için nasıl kullanacağımızı keşfedeceğiz, tahmin hatalarını tartışacağız ve tahminler için kullanmanın ne zaman uygun olmadığını anlayacağız. Başlayalım!

Bu örneği önceki videomdan hatırlayabilirsiniz. Beş değerli küçük bir veri setimiz var ve en uygun çizgiyi çizdim: Ŷ = 0.19X + 1.34. Şimdi yeni bir girdi değeri olan x = 6'yı ele alalım. Regresyon denklemini kullanarak karşılık gelen y değerini tahmin edebiliriz. Bu durumda, tahmin 2.54'tür. Bu tahmin edilen değeri (6, 2.54)'te mavi bir nokta olarak doğruya çizebiliriz.

Bazen, veri kümesindeki bir y değerine karşılık gelen bir x değerine sahip olduğumuzda tahminlerde bulunuruz. Örneğin, x = 3'te (3, 1) noktasına sahibiz. Bu durumda nasıl bir hatadan bahsediyoruz? Biz buna kalıntı diyoruz. Bir veri noktası için kalıntı, o noktadaki gerçek y değeri ile regresyon çizgisi tarafından tahmin edilen y değeri arasındaki farktır. x = 3'te, gerçek y değeri 1'dir ve tahmin edilen y değeri 1,97'dir, bu da -0,97'lik bir kalıntıyla sonuçlanır. Bu, (3, 1) noktasının regresyon çizgisinin yaklaşık 0,97 birim altında olduğu anlamına gelir.

Tahmin yapmak için regresyon çizgilerini kullanırken, veri kümesinin aralığını dikkate almak çok önemlidir. Yalnızca veri setinin aralığına veya makul bir uzantısına giren x değerleri için tahminler yapmalıyız. Klasik bir örnek, yaşa karşı kilodur. Grafikte gösterildiği gibi, yaklaşık 12 yaşın altındaki insanlar için doğrusal bir ilişki vardır. Bu aralık içinde, doğrusal ilişkiyi kullanarak yaşa dayalı oldukça doğru ağırlık tahminleri yapabiliriz. Buna, veri kümesinin aralığındaki değerleri tahmin ettiğimiz enterpolasyon denir.

Ancak bu doğrusal ilişkiyi, örneğin kırk yaşındaki bir birey için bu aralığın dışında tahminlerde bulunmak için kullanmak hatalı olacaktır. Ağırlıklarını tahmin etmek için doğrusal ilişkiyi uygularsak, sonuç üç yüz kırk poundun üzerinde olur ki bu açıkça gerçekçi değildir. Buna ekstrapolasyon denir ve bundan kaçınılmalıdır.

Özetle, regresyon çizgilerini kullanırken tahmin hatalarını ve sınırlamalarını anlamak çok önemlidir. Artıklar, gerçek ve tahmin edilen değerler arasındaki tutarsızlıkları ölçmemize yardımcı olur. Yalnızca veri kümesinin aralığında veya makul bir uzantısı içinde tahminler yapmalıyız. Veri kümesinin aralığı dışındaki değerleri tahmin etmeyi içeren ekstrapolasyon, yanlış ve güvenilmez sonuçlara yol açabilir.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

lm() Komutunu Kullanarak R'de Gerileme ve Tahmin


lm() Komutunu Kullanarak R'de Gerileme ve Tahmin

Herkese merhaba! Bugün, yerleşik "arabalar" veri kümesini kullanarak R'deki regresyon çizgilerini hesaplayacağız. Başlamak için, veri kümesine bir göz atalım ve "görüntüle" ve "soru işareti" komutlarını kullanarak veri kümesi hakkında biraz bilgi toplayalım. "Arabalar" veri seti, 1920'lerden arabaların hızlarını ve durma mesafelerini temsil eden 50 girişten oluşur. Yeni veriler olmasa da, yine de doğrusal ilişkileri keşfedebiliriz.

Verileri görselleştirmek için "tidyverse" kitaplığından "ggplot2" paketini kullanacağız. "library(tidyverse)" komutunu kullanarak paketi yüklediğinizden emin olun. Henüz "tidyverse" paketini kurmadıysanız "install.packages('tidyverse')" komutu ile kurabilirsiniz.

Ardından, "qplot" komutunu kullanarak verilerin dağılım grafiğini oluşturacağız. Hızı x eksenine (açıklayıcı değişken) ve mesafeyi y eksenine (tepki değişkeni) çizeceğiz. "arabalar" veri kümesiyle çalıştığımızı ve bir dağılım grafiği istediğimizi belirtmek için "geom='nokta'" kullanacağız. Arsa, çoğunlukla doğrusal bir ilişki ortaya koyuyor ve doğrusal bir regresyon gerçekleştirmenin makul olduğunu öne sürüyor.

Grafiğe bir gerileme çizgisi eklemek için "geom_smooth(method = 'lm', se = FALSE)" kullanacağız. Bu, standart hata çubuğu olmadan daha yumuşak bir doğrusal regresyon belirtir.

Şimdi regresyon doğrusunun denklemini belirleyelim. Doğrusal model anlamına gelen "lm" komutunu kullanacağız. Sözdizimi, yanıt değişkeninin (mesafe) açıklayıcı değişkenle (hız) ilişkili olduğu bir "y ~ x" modelini izler. Sonucu "model" adlı bir değişkene atayacağız. "Özet(model)" girerek, regresyon çizgisi hakkında katsayılar, artıklar ve çoklu R-kare ve düzeltilmiş R-kare gibi istatistiksel ölçümler dahil olmak üzere ek bilgiler elde edebiliriz.

"Model" nesnesinden belirli bilgilere erişmek istiyorsak, onu bir veri çerçevesi olarak ele alabilir ve istenen sütunları çıkarmak için "$" kullanabiliriz. Örneğin, "model$residuals", 50 kalıntının bir vektörünü verir.

Sırasıyla "cars$residuals" ve "cars$predicted" kullanarak artıkları ve takılan değerleri orijinal "arabalar" veri kümesine yeni sütunlar olarak ekleyebiliriz.

Son olarak, veri setinde bulunmayan hızlar için tahminler elde etmek için "tahmin" işlevini kullanalım. İlk bağımsız değişken olarak "model"i sağlayacağız ve "hız" (açıklayıcı değişkenle eşleşen) adlı bir sütun içeren bir veri çerçevesi oluşturacağız. "data.frame" işlevini kullanarak, istenen hız değerlerini gireceğiz. Örneğin 12.5, 15.5, 17 gibi hızlar için durma mesafelerini tahmin edebiliyoruz. Öngörülen değerler görüntülenecektir.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

R'de Kalan Grafikler


R'de Kalan Grafikler

Herkese merhaba, bugünkü videomuzda qplot komutunu kullanarak R'deki artık grafikleri keşfedeceğiz. Bu eğitimde öncelikle temel R işlevlerini kullanacağım. Ayrıca, R'de görevleri gerçekleştirmenin standart bir yolu olan süpürge paketi hakkında başka bir video üzerinde çalışıyorum. Hazır olduğunda o videoya bir bağlantı vereceğim.

Bu öğreticide, R'deki yerleşik hava kalitesi veri kümesindeki "rüzgar" ve "sıcaklık" değişkenlerine odaklanacağız. Bu veri kümesi, Mayıs'tan Eylül 1973'e kadar New York'ta yapılan günlük hava kalitesi ölçümlerini içerir.

Başlamak için, hadi timberverse paketini yükleyelim. Sadece qplot fonksiyonunu kullanacak olsak da tutarlılık için tüm paketi yükleyelim.

Modellemeye dalmadan önce, verilerimizi görselleştirmek çok önemlidir. "Rüzgar"ı açıklayıcı değişken (hava_kalitesi$rüzgar) ve "temp"i yanıt değişkeni (hava_kalitesi$temp) olarak ayarlayarak bir qplot oluşturalım. İki değişkenimiz olduğu için, R varsayılan olarak bir dağılım grafiğine sahip olacaktır.

Grafiği inceledikten sonra, özellikle güçlü olmasa da iki değişken arasında doğrusal bir ilişki gözlemleyebiliriz. Bu ilişkiyi ölçmek için, kore fonksiyonunu kullanarak korelasyon katsayısını hesaplayalım. Ortaya çıkan korelasyon katsayısı -0,458'dir ve negatif bir korelasyona işaret eder.

Artık doğrusal bir ilişki kurduğumuza göre, çizime bir regresyon çizgisi ekleyebiliriz. Doğrusal bir modeli belirtmek için geom_smooth işlevini method = "lm" ile dahil ederek qplot komutunu değiştireceğiz. Basit olması için hata şeridini hariç tutalım.

Eklenen regresyon çizgisi ile doğrusal bir model oluşturmaya devam edebilir ve regresyon çizgisi için denklemi elde edebiliriz. Lineer modeli lm fonksiyonunu kullanarak "model" isimli bir değişkene atayalım. Yanıt değişkeni olarak "temp" ve açıklayıcı değişken olarak "wind" belirteceğiz. Veri çerçevesinin adını açıkça belirtmek önemlidir.

Model hakkında daha fazla fikir edinmek için, modelin bir özetini elde etmek için özet işlevini kullanabiliriz. Özet, kesişme noktası (90.1349) ve eğim katsayısı (-1.23) dahil olmak üzere çeşitli bilgiler sağlar. Eğim katsayısının yorumlanması, rüzgardaki her birim artış için sıcaklığın yaklaşık 1,23 birim azalması şeklindedir. Yardım dosyasının kontrol edilmesi, kullanılan birimler hakkında saatte mil cinsinden rüzgar ve Fahrenheit cinsinden sıcaklık gibi bilgiler sağlayacaktır.

Modelden kesişme ve rüzgar katsayısını döndüren katsayılar işlevini kullanarak katsayılara doğrudan erişebiliriz. Ek olarak, her bir rüzgar değeri için tahmini sıcaklıkların bir vektörünü sağlayan fit.values işlevini kullanarak uygun değerleri elde edebiliriz. Bunu hava kalitesi veri çerçevesine "öngörülen" yeni bir sütun olarak ekleyebiliriz.

Benzer şekilde, artıkları, bize gözlenen ve tahmin edilen değerler arasındaki farkları veren artıklar fonksiyonunu kullanarak elde edebiliriz. Kalıntıları veri çerçevesine başka bir sütun olan "kalıntılar" olarak eklemek araştırmamızı tamamlar. Yeni sütunların varlığını doğrulamak için veri çerçevesini yeniden görselleştirebiliriz.

Uygun değerler ve artıklar arasındaki ilişkiyi değerlendirmek için bir artıklar grafiği oluşturabiliriz. qplot komutunda, uygun değerleri x ekseni değişkeni (fitted.values(model)) ve artıkları y ekseni değişkeni (residuals(model)) olarak ayarlayacağız. qplot bağımsız değişkenlerinde belirtildiği gibi bir dağılım grafiği oluşturulacaktır.

Artıklar grafiğinin amacı, artıklardaki herhangi bir modeli veya eğilimi belirlemektir. Sabit varyansa sahip geçerli bir lineer modelde, çizim herhangi bir fark edilebilir model olmaksızın bir buluta benzemelidir. geom_smooth ve method = "lm" ile bir regresyon satırı eklemek, bunu doğrulamaya yardımcı olacaktır. Ayrıca standart hata çubuğunu kaldırmak için se = FALSE ayarlayacağız.

Kalıntılar grafiğini inceleyerek, modelimizin doğrusal ilişkiyi yeterince yakaladığını gösteren fark edilebilir bir model veya eğilim olmadığını görebiliriz. y = 0 ile temsil edilen regresyon çizgisi bu gözlemi doğrulamaktadır.

Bu, qplot komutunu kullanarak R'de artık grafikler oluşturma konusundaki eğitimimizi sonlandırıyor. Artıkları görselleştirip analiz ederek, doğrusal modelimizin uyum iyiliğini ve uygunluğunu değerlendirebiliriz. R'de aynı sonuçları elde etmenin birden çok yolu olduğunu ve farklı sözdizimlerini ve işlevleri keşfetmenin dil anlayışınızı geliştirebileceğini unutmayın.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Aykırı Değerler: Kaldıraç, Tutarsızlık ve Etki


Aykırı Değerler: Kaldıraç, Tutarsızlık ve Etki

Herkese merhaba! Bugün, doğrusal regresyon bağlamında kaldıraç, tutarsızlık ve etki kavramlarını inceleyeceğiz. Tek bir açıklayıcı değişkene sahip senaryoya odaklanacak olsam da, burada tartışılan her şeyin doğrudan daha yüksek boyutlar için de geçerli olduğunu lütfen unutmayın.

İki değişkenli bir veri setinde, bireysel gözlemler x değerlerinde, y değerlerinde veya her ikisinde olağan dışı özellikler sergileyebilir. "Aykırı değer" terimini kullandığımızda, özellikle verilerin genel eğilimine kıyasla y yönünde önemli ölçüde sapan gözlemleri kastediyoruz. Bu aykırı değerler, yüksek tutarsızlık içeren noktalardır.

Bununla birlikte, günlük dilde "aykırı" terimini genellikle daha gevşek kullanırız. Bu kavramı açıklamak için, her biri sıra dışı bir gözlemle doğrusal bir eğilim gösteren üç veri setini ele alalım. İlk iki grafikte, regresyon çizgisinden çok uzakta bulunan ve yüksek tutarsızlık sergileyen bir nokta fark edeceksiniz. Üçüncü durumda, olağandışı değer, genel veri eğilimiyle oldukça iyi bir şekilde hizalanır, dolayısıyla yalnızca tutarsızlığa dayalı bir aykırı değer olarak değerlendirilmez.

Şimdi, odağımızı kaldıraca kaydıralım. Alışılmadık x değerlerine sahip gözlemler, modelin uyumunu etkilemek için daha büyük bir potansiyele sahiptir ve bu tür gözlemlerin yüksek kaldıraç gücüne sahip olduğu söylenir. Aynı üç grafiği kaldıraç perspektifinden inceleyerek, en sağdaki iki grafiğin yüksek kaldıraçlı gözlemler içerdiğini görüyoruz. Bu aykırı değerler, verilerin çoğundan önemli ölçüde uzak olan x değerlerine sahiptir. Tersine, ilk grafik, x değeri veri kümesindeki diğer değerlerle iyi bir şekilde hizalandığından, düşük kaldıraçlı bir aykırı değer içerir.

Bir modelin uyumunu büyük ölçüde değiştiren bir gözlemin yüksek etkiye sahip olduğu kabul edilir. Önceki grafiklerden ilk iki aykırı değere dönersek, onları etki merceğinden inceleyelim. İlk grafikte, düşük etkiye sahip bir aykırı değer gözlemliyoruz. Bu değeri veri kümesinden çıkarırsak, regresyon çizgisi önemli kaymalara uğramaz. Özellikle, eğim nispeten değişmeden kalır. Tersine, en sağdaki arsada, yüksek etkiye sahip bir aykırı değer görüyoruz. Veri kümesinden çıkarıldıktan sonra, regresyon çizgisi önemli değişiklikler yaşar. Tipik olarak, etkili gözlemler hem yüksek tutarsızlık hem de yüksek kaldıraç sergiler.

Tüm bu kavramlar ölçülebilir olsa da, bu videoda ayrıntılara girmeyeceğim. Ancak, bunu daha fazla araştırmak isterseniz sizi doğru yöne yönlendirmek istiyorum. Tutarsızlık genellikle, modelin öngörüsünden y yönündeki gözlemlerin sapmasını ölçen standartlaştırılmış artıklar olan öğrenci artıkları kullanılarak ölçülür. Kaldıraç, x değerlerinin beklenen ortalama x değerinden uzaklığını ölçen şapka değerleri kullanılarak değerlendirilebilir. Son olarak, etki genellikle Cook'un mesafesi kullanılarak ölçülür.

Neyse ki, R uygun yöntemler sağladığından, bu ölçüleri elle hesaplamak zorunda değilsiniz. Süpürge paketi bu konuda özellikle kullanışlı ve en kısa zamanda bununla ilgili bir video oluşturacağım.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: Belirleme Katsayısı


R^2: Belirleme Katsayısı

Bugünün konusu belirleme katsayısı R-kare. Gözlemlerin bir regresyon çizgisi veya herhangi bir istatistiksel model etrafındaki dağılımını ölçer. Özellikle yüksek boyutlu durumlarda, açıklayıcı değişken(ler)deki değişikliklere atfedilebilen yanıt değişkenindeki (y) varyansın oranını temsil eder.

Doğrusal modeller için, R-kare her zaman 0 ile 1 arasındadır. 1'e yakın değerler, veri noktalarının regresyon çizgisi etrafında sıkı bir şekilde kümelendiğini gösterirken, 0'a yakın değerler daha fazla yayılmayı gösterir.

Bu kavramı daha net hale getirmek için üç veri setini görselleştirelim. Her kümenin y değerleri için 1 varyansı vardır ve ben her durum için regresyon çizgisini çizdim. R-kare 0,2'den 0,5'e 0,8'e yükseldikçe, verilerin regresyon çizgisi etrafında daha sıkı ve daha sıkı bir şekilde yayıldığını gözlemliyoruz.

Şimdi daha kesin bir tanıma geçelim. R-kare, takılan y değerlerinin varyansının gözlemlenen y değerlerinin varyansına bölünmesiyle hesaplanır. Cebirsel olarak bu, 1 eksi artıkların varyansı bölü gözlenen y değerlerinin varyansı olarak ifade edilebilir. Teknik anlamda şöyle yazabiliriz:

R-kare = (kalıntıların varyansı) / (gözlenen y değerlerinin varyansı)

Daha fazla basitleştirmek için, genellikle bu cebirsel ifadeyi R-kare = 1 - (RSS / TSS) şeklinde kısaltırız; burada RSS, kalan kareler toplamını ve TSS, toplam kareler toplamını gösterir.

Tek bir açıklayıcı değişkene sahip en küçük kareler regresyon modelinde dikkat edilmesi gereken önemli bir gerçek, belirleme katsayısının örnek korelasyon katsayısının (R) karesine eşit olmasıdır. Başka bir deyişle, R-kare (büyük R-kare), küçük r-kare'ye eşittir.

Daha yüksek boyutlu modeller söz konusu olduğunda, ifade benzerdir. R-kare, gözlemlenen ve uydurulan y-değerleri arasındaki korelasyonun karesine eşittir. Bu, genellikle bu terimlerle düşünmesek de, tek değişkenli durum için bile geçerlidir.

R-karenin genellikle yanlış anlaşıldığını ve yanlış yorumlandığını belirtmekte fayda var. Öyleyse, anlamını ve sınırlamalarını açıklığa kavuşturalım. R-kare, y'deki değişkenliğin x'teki değişkenlikle açıklanabilen oranını ölçer. Tanım olarak, y değerlerinde yüksek değişkenliğe sahip veri kümeleri için daha düşük olacaktır. Bu nedenle, R-karenin 0,93 olduğu bir örnekte gösterildiği gibi, R-karesi 1'e yakın modeller mutlaka iyi değildir, ancak doğrusal model veriler için zayıf bir uyumdur.

Benzer şekilde, düşük R-kare değerine sahip modeller mutlaka kötü değildir. Örneğin, R-karesi 0,16 olan bir model verilere çok iyi uyabilir, ancak verilerin kendisi doğası gereği çok fazla doğal değişkenlik ve gürültü içerir.

R-karenin yalnızca regresyon çizgisiyle ilgili değişkenliği ölçtüğünü ve doğrudan bir modelin yararlılığını veya mantıklılığını göstermediğini unutmayın. Doğrusal modelleri düzgün bir şekilde değerlendirmek için, tahmin edilen değerlerle karşılaştırıldığında verilerin değişkenliği hakkında bilgi sağlayan artık standart hata (artıkların standart sapması) gibi birden çok aracı ve faktörü göz önünde bulundurun. Ek olarak, doğrusal uyum için t istatistiğini ve daha yüksek boyutlu modellerde tüm regresyon katsayılarının sıfır olduğu sıfır hipotezini test etmek için f istatistiğini kullanarak regresyonun önem düzeyini inceleyebilirsiniz.

Modelleri değerlendirirken, yalnızca R-kare değerine güvenmek değil, onu diğer metrikler ve analizlerle birlikte değerlendirmek çok önemlidir.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

R cinsinden Ki-Kare Hesaplamaları


R cinsinden Ki-Kare Hesaplamaları

Bugün R'de bazı ki-kare hesaplamaları yapacağız. Ki-kare testi, uyum iyiliği testi ve varyansları içeren hipotez testi gibi çeşitli amaçlar için çıkarımsal istatistiklerde yaygın olarak kullanılır. Ki-kare, sağa çarpık sürekli bir rastgele değişkendir. Beklenen değeri "r" ile gösterilir ve varyansı 2r'dir. Çoğu uygulamada, r pozitif bir tam sayıdır, ancak tam sayı olmayan da olabilir.

r değeri arttıkça, ki-kare dağılımının olasılık yoğunluk fonksiyonu (PDF) sağa kayar ve merkezi limit teoremi nedeniyle çan eğrisine benzemeye başlar. r parametresi, ki-kare dağılımı için serbestlik derecesi sayısı olarak bilinir.

R'de, ki-kare dağılımlarını hesaplamak için dört temel fonksiyon vardır:

  1. rchisq(r, n): Bu fonksiyon r serbestlik dereceli ki-kare dağılımından n rasgele değer üretir. Örneğin, rchisq(5, 16), 5 serbestlik dereceli ki-kareden 16 rasgele değer üretir.

  2. pchisq(x, r): r serbestlik dereceli ki-kare dağılımı için kümülatif dağılım fonksiyonudur (CDF). Bu dağılımda rastgele x'e eşit veya daha küçük bir değer alma olasılığını döndürür. Örneğin, pchisq(8, 5), 5 serbestlik dereceli ki-karede 8'den küçük veya ona eşit bir değer elde etme olasılığını verir ki bu yaklaşık olarak 0,844'tür.

  3. qchisq(p, r): Bu, r serbestlik dereceli ki-kare dağılımı için ters CDF'dir. x'ten küçük veya x'e eşit bir değer alma olasılığının p'ye eşit olduğu x değerini döndürür. Örneğin, qchisq(0,5, 12), yaklaşık 0,5 olan 12 serbestlik dereceli ki-karenin medyanını verir.

  4. dchisq(x, r): Bu fonksiyon, x'te r serbestlik dereceli ki-kare dağılımının olasılık yoğunluk fonksiyonunun (PDF) değerini verir. PDF teorik öneme sahiptir, ancak sayısal hesaplamalarda daha az kullanılır.

Şimdi bu fonksiyonları kullanarak birkaç örnek problem çözelim:

Problem 1: 15 serbestlik dereceli ki-karede rastgele 12 ile 18 arasında bir x değeri alma olasılığını hesaplayın.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

Olasılık yaklaşık 0,4163'tür.

Problem 2: 20 serbestlik dereceli ki-kareden rastgele bir çekilişin x'ten büyük olma ihtimalinin %80 olduğuna göre, x'in değerini bulun.

x <- qchisq ( 0.2 , 20 )

X'in değeri yaklaşık olarak 14.57844'tür.

Problem 3: 4 serbestlik dereceli ki-kare dağılımından on bin çizim simüle edin ve sonuçların bir histogramını oluşturun.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Bu, simüle edilmiş değerlerin bir histogramını oluşturacaktır.

Umarım bu, R'deki ki-kare hesaplamalarını anlamanıza ve uygulamanıza yardımcı olur.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

Ki-kare dağılımını anlama


Ki-kare dağılımını anlama

Bugün, veri bilimi yolculuğunuzda istatistiksel çıkarım üzerinde çalışırken karşılaşacağınız temel bir kavram olan ki-kare dağılımını tartışacağız. Ki-kare dağılımı, bir dizi bağımsız sayısal gözlemin beklenen değerlerinden ne kadar saptığını ölçmek istediğinizde ortaya çıkar.

Bunu daha resmi bir şekilde açıklamak için, gözlemden beklenen değeri çıkararak ve bunu standart sapmaya bölerek her gözlem için bir z-puanı hesaplarsınız. Bu z-skorlarının her birinin karesini alıp topladıktan sonra, ki-kare rasgele değişkenini elde edersiniz. Bu değişken, gözlemlerinizin beklenen değerlerinden genel sapmasını ölçer.

Örneğin, tüm gözlemler beklenen değerleriyle mükemmel bir şekilde hizalanırsa, ki-kare istatistiği sıfır olur. Sonuçlar beklenen değerlerden uzaklaştıkça ki-kare değeri yükselir. Z puanlarının karesini alarak, düşük ve yüksek sapmaların birbirini iptal etmemesini sağlıyoruz.

r serbestlik dereceli ki-kare dağılımı, bu rastgele değişkenin örnekleme dağılımını temsil eder. Serbestlik dereceleri (r), bağımsız gözlemlerin sayısına veya z-skorlarına karşılık gelir. Rastgele değişkenin dağıtımla aynı adı paylaştığına, ancak bağlamın genellikle aralarında ayrım yaptığına dikkat edin.

Her z-puanı sürekli bir rasgele değişken olduğundan, karelerinin toplamı bir ki-kare dağılımını takip eder. Ki-kare dağılımının olasılık yoğunluk fonksiyonu yalnızca negatif olmayan ki-kare değerleri için pozitiftir. Dağılım sağa çarpık çünkü bireysel z-puanları için aşırı yüksek değerler giderek daha az olası hale geliyor.

5 serbestlik dereceli ki-kare dağılımının tipik grafiği, sağa doğru bu güçlü eğimi gösterir. Desteği (olası sonuçlar kümesi) kesinlikle pozitif değerlerden oluşur. Hatırlanması gereken iki önemli gerçek, r serbestlik dereceli ki-kare dağılımının beklenen değerinin r'ye eşit olduğu ve R'nin en az iki olduğu (aksi halde sıfır olduğu) verildiğinde, dağılımın zirvesinin R eksi 2'de meydana geldiğidir. ).

Serbestlik derecesi sayısı arttıkça ki-kare dağılımı, merkezi limit teoremine göre normal bir dağılıma yaklaşır. Bu yaklaşım, R'nin 50'ye eşit olduğu ki-kare dağılımını gösteren bir çizimde gözlemlenebilir, ki bu hala hafif sağa doğru bir eğri sergiler.

Ki-kare dağılımı, ilk slayttan da anlaşılacağı gibi, çıkarımsal istatistiklerde sıklıkla kullanılır. Bazı yaygın uygulamalar, normal dağılım varsayımı altında varyans için anlamlılık testi, kategorik değişkenler için uyum iyiliği testi ve bağımsızlık için ki-kare testleri içerir.

Bir ki-kare dağılımındaki olasılıkları hesaplamak için kümülatif dağılım fonksiyonunu (CDF) kullanabilirsiniz. F(x) olarak gösterilen CDF, belirtilen ki-kare dağılımında x'e eşit veya ondan küçük bir değer elde etme olasılığını sağlar. Bu, gölgeli alanın olasılığı temsil ettiği görsel bir sunumla daha iyi anlaşılabilir.

R'de, ilgilenilen değeri ve serbestlik derecesi sayısını belirterek pchisq() komutunu kullanarak ki-kare hesaplamaları yapabilirsiniz. Örneğin, beş serbestlik dereceli ki-kare dağılımında 8'den küçük veya 8'e eşit bir değer elde etme olasılığını hesaplamak için pchisq(8, 5) kullanırsınız, sonuç yaklaşık 0,843'tür.

R'deki ki-kare dağılımını içeren daha fazla ayrıntı veya hesaplamalarla ilgileniyorsanız, bu konuları kapsayan özel videolarım var. Daha ayrıntılı açıklamalar için onları kontrol etmekten çekinmeyin.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Uyum İyiliği Testi


Uyum İyiliği Testi

Herkese merhaba, bugün ki-kare dağılımını kullanarak uyum iyiliği testini tartışacağız. Diyelim ki, büyük bir üniversitede istatistik sınıflarındaki üniversite öğrencilerinin yılı gibi kategorik bir değişkenimiz var ve bize bunun belirli bir dağılım izlediği söylendi: %50 birinci sınıf öğrencileri, %30 ikinci sınıf öğrencileri, %10 gençler ve %10 son sınıflar. Bu dağılımın örnek verilerimize uyup uymadığını nasıl test edebiliriz?

Başlamak için boş ve alternatif hipotezleri kuralım. Sıfır hipotezi, istatistik sınıflarındaki tüm öğrencilerin popülasyonunun iddia edilen dağılımı (%50 birinci sınıf, %30 ikinci sınıf vb.) takip ettiğini belirtirken, alternatif hipotez farklı bir dağılım varsayar. Bu hipotezleri test etmek için, örnek verilerimizde gözlemlenen sayıları boş hipotez altında beklenen sayılarla karşılaştıracağız.

Gözlenen sayıları 'o' ve beklenen sayıları 'e' olarak gösterelim. (o - e)^2 / e'nin toplamı olan ki-kare adlı bir test istatistiği hesaplayacağız. Sıfır hipotezi doğruysa, bu test istatistiği k - 1 serbestlik dereceli bir ki-kare dağılımı izler; burada k, kategori sayısıdır.

Bizim durumumuzda dört kategorimiz var, dolayısıyla üç serbestlik dereceli ki-kare dağılımını kullanacağız. Daha büyük bir test istatistiği, örnek verilerimizin boş hipotezle daha az uyumlu olduğunu ve daha zayıf bir uyum olduğunu gösterir.

Anlamlılık testini gerçekleştirmek ve ki-kareyi hesaplamak için sıfır hipotezi altında beklenen sayıları hesaplamamız gerekir. 65'lik bir örneklem büyüklüğü için, 32.5, 19.5, 6.5 ve 6.5'lik beklenen sayıları elde etmek için yüzdeleri 65 ile çarpıyoruz.

Ardından, her hücre için gözlemlenen sayıdan beklenen sayıyı çıkararak, sonucun karesini alarak, beklenen sayıya bölerek ve bu değerleri tüm kategorilerde toplayarak ki-kare testi istatistiğini hesaplıyoruz. Bizim durumumuzda, test istatistiği 3.58'dir.

Gözlemlenen ki-kare istatistiğimizden büyük veya ona eşit bir değer elde etme olasılığını bulmak için, p ki-kare komutuyla temsil edilen R'deki kümülatif dağılım fonksiyonunu kullanırız. Sonucu birden çıkarmak bize p değerini verir. Bu örnekte, p değeri yaklaşık olarak 0,31'dir ve bu, verilerin sıfır hipotezine karşı güçlü kanıtlar sağlamadığını gösterir.

Büyük bir p değerinin sıfır hipotezini kanıtlamadığına dikkat etmek önemlidir; sadece ona karşı kanıt olmadığını öne sürüyor. Son olarak, ki-kare uyum iyiliği testi kullanmanın ne zaman uygun olacağını düşünmeliyiz. İlk olarak, kategorik değişkenler için geçerlidir. Nicel değişkenleriniz varsa bunları bindirerek kategorik değişkenlere dönüştürebilirsiniz. Ek olarak, veriler basit rasgele örnekleme yoluyla elde edilmeli ve beklenen hücre sayısı genellikle en az beş olmalıdır. Birçok kutu neredeyse boşsa, belirli durumlarda Fisher'in kesin testi gibi alternatif yöntemler daha uygun olabilir.

Daha önce bahsettiğimiz hususlar dışında, ki-kare uyum iyiliği testi kullanıp kullanmamaya karar verirken akılda tutulması gereken birkaç nokta daha vardır. Bunlar şunları içerir:

  1. Bağımsızlık: Her kategorideki gözlemler birbirinden bağımsız olmalıdır. Bu varsayım testin geçerliliği için önemlidir. Gözlemler bağımsız değilse, alternatif istatistiksel testler daha uygun olabilir.

  2. Örnek büyüklüğü: Sabit bir kural olmasa da, daha büyük örneklem boyutları daha güvenilir sonuçlar verme eğilimindedir. Daha büyük örneklerle, beklenen dağılımdan küçük sapmalar bile istatistiksel olarak anlamlı sonuçlar verebilir. Bununla birlikte, çok büyük örneklem büyüklükleri bazen beklenen dağılımdan önemsiz sapmalar için bile önemli sonuçlara yol açabilir, bu nedenle pratik önemi de dikkate almak önemlidir.

  3. Parametre tahmini: Bazı durumlarda, her bir kategori için beklenen sayımlar tam olarak bilinmemekle birlikte verilerden tahmin edilmektedir. Hipotez testi için kullanılan aynı verilerden parametreler tahmin edilirken, yanlı sonuçlara yol açabilir. Bu gibi durumlarda, ayarlamalar veya alternatif yöntemler düşünülmelidir.

  4. Çok seviyeli kategorik değişkenler: Şimdiye kadar tartıştığımız ki-kare uyum iyiliği testi, tek bir kategorik değişkenin belirli bir dağılıma uyumunu test ederken uygundur. Ancak, birden çok kategorik değişkeniniz varsa ve bunların ortak dağılımını incelemek istiyorsanız, ki-kare bağımsızlık testi veya log-lineer modeller gibi diğer testler daha uygun olabilir.

Ki-kare uyum iyiliği testinin, gözlemlenen verilerin beklenen bir dağılımı takip edip etmediğini incelemek için yararlı bir araç olduğunu belirtmekte fayda var. Ancak, herhangi bir tutarsızlığın arkasındaki nedenler hakkında bilgi sağlamaz veya farklılıklara en çok hangi kategorilerin katkıda bulunduğunu belirlemez.

Herhangi bir istatistiksel testte olduğu gibi, sonuçların yorumlanmasında bağlam, arka plan bilgisi ve analizin özel hedefleri dikkate alınmalıdır. Testin sınırlamalarını ve varsayımlarını anlamak ve yalnızca sonucuna güvenmek yerine kapsamlı bir analizin parçası olarak kullanmak çok önemlidir.

Özet olarak, ki-kare uyum iyiliği testi, gözlenen veriler ile kategorik değişkenler için beklenen dağılım arasındaki uyumu değerlendirmek için değerli bir yöntemdir. Gözlemlenen ve beklenen sayıları karşılaştırarak, test istatistiğini hesaplayarak ve p-değerini belirleyerek, verilerin sıfır hipotezi ile uyumluluğunu değerlendirebiliriz. Ancak, belirli bir bağlamda testin geçerliliğini ve uygunluğunu sağlamak için varsayımları, örneklem büyüklüğünü ve diğer faktörleri dikkate almak önemlidir.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...
Neden: