Programlama öğreticileri - sayfa 11

 

Düzenli veri


Düzenli veri

Herkese merhaba, bugün veri bilimi uygulamalarında özellikle uygun ve yaygın bir format olan derli toplu verileri tartışacağız. Bilgileri bir elektronik tabloya kaydetmenin çeşitli yolları olsa da düzenli veriler, düzenini ve kullanışlılığını sağlamak için üç basit ilkeyi takip eder.

İlk olarak, düzenli verilerdeki her satır bir ve yalnızca bir gözlemi temsil eder. Bu, her satırın tek bir deneysel birim için tüm ölçümleri ve ayrıntıları yakaladığı anlamına gelir.

İkincisi, her sütun bir ve yalnızca bir değişkeni temsil eder. Değişkenler, tüm deneysel birimlerde ölçülen niteliklerdir ve her sütun belirli bir özelliğe veya yöne odaklanır.

Son olarak, elektronik tablonun tamamı tam olarak bir tür gözlemden oluşmalıdır. Bu, elektronik tablodaki tüm verilerin aynı tür deney veya çalışma ile ilgili olmasını sağlar.

Düzenli verilerin önemli bir avantajı, genişleme kolaylığıdır. Tıbbi bir deneydeki yeni denekler gibi yeni gözlemler veya veri noktaları elde ederseniz, elektronik tablonun altına yeni bir satır ekleyebilirsiniz. Benzer şekilde, ek değişkenler eklemek isterseniz, mevcut sütunların sağına yeni sütunlar ekleyebilirsiniz.

Bir iki örneğe bakalım. R'de bulunan "mtcars" veri kümesi düzenli bir veri kümesidir. Her satır tek bir arabayı temsil eder ve her sütun arabaların belirli bir özelliğini temsil eder. İdeal olarak, düzenli veri setlerine her değişkenin anlamını açıklayan ve ölçü birimleri hakkında bilgi sağlayan bir veri sözlüğü eşlik etmelidir. Veri sözlüğü, kayıt detayları gibi veri seti hakkında meta veriler de içerebilir.

Öte yandan, "ggplot2" paketindeki "diamonds" veri seti, düzenli verilere bir başka örnektir. Her sıra tek bir yuvarlak kesim pırlantaya karşılık gelir ve her sütun pırlantanın bir özelliğini temsil eder.

Ancak, tüm veri kümeleri düzenli değildir. Örneğin, "tidyverse" paketindeki "inşaat" verileri düzenli değildir çünkü iki değişken, birim sayısı ve bölge, birden çok sütuna yayılmıştır.

Gerçek dünyadaki elektronik tabloların genellikle belirli amaçlar için kendi kuralları olduğundan, düzensiz verilerin mutlaka kötü olmadığına dikkat etmek önemlidir. Bununla birlikte, veri bilimi ve çok sayıda gözlem arasındaki değişkenler arasındaki ilişkileri keşfetme söz konusu olduğunda, düzenli veriler genellikle görselleştirme ve modelleme için daha uygundur.

Toparlamak için, düzenli olmayan veriler için yaygın bir format olan beklenmedik durum tablolarından bahsetmek istiyorum. Acil durum tabloları, kategorik değişkenlerin farklı kombinasyonları için sayıları görüntüler. Yararlı olsalar da, her değişken için ayrı sütunlar ve ilgili sayıları olan düzenli verilere dönüştürmek, verileri daha yönetilebilir ve analiz edilmesini kolaylaştırabilir.

Özetle, derli toplu veriler, her satırda bir gözlem, sütunda bir değişken ve elektronik tablo boyunca tek bir gözlem türü ilkelerini izler. Bu ilkelere bağlı kalarak düzenli veriler, veri bilimi uygulamalarında veri keşfini, görselleştirmeyi ve modellemeyi kolaylaştıran yapılandırılmış ve organize bir format sağlar.

Tidy data
Tidy data
  • 2022.06.08
  • www.youtube.com
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
 

Deneyler ve Gözlemsel Çalışmalar


Deneyler ve Gözlemsel Çalışmalar

Herkese merhaba, bugün istatistikte araştırma çalışmalarının iki temel türü olan deneyler ve gözlemsel araştırmalardan bahsedeceğiz. Aralarındaki farkı anlamak çok önemlidir. Her türü ve temel özelliklerini keşfedelim.

Deneyler: Bir deneyde, numunenin farklı bölgelerine farklı işlemler uygulanır ve ortaya çıkan değişimler gözlemlenir. Temel amaç neden ve sonucu belirlemektir. Tedavi grupları arasında belirgin sonuçlar varsa, bu farklılıkları spesifik tedavilere atfetmeyi amaçlıyoruz. Deneysel çalışmalar, değişkenleri aktif olarak etkilemeyi ve manipüle etmeyi içerir.

Gözlemsel Çalışmalar: Öte yandan, gözlemsel çalışmalar, yanıtları hiçbir şekilde etkilemeye çalışmadan, ilgilenilen popülasyonun özelliklerini ölçen araştırmacıları içerir. En yaygın gözlemsel çalışma türü, araştırmacıların bilgileri gözlemleyerek ve kaydederek veri topladığı örnek bir ankettir. Odak noktası, gözlemlenen veriler içindeki ilişkileri ve kalıpları anlamaktır.

Deneyler ve gözlemsel çalışmalar arasında ayrım yapmak için birkaç örneği inceleyelim:

Bir grup doktor, yeni bir kolesterol düşürücü ilacın etkisini yüksek tansiyonu olan hastalarına uygulayarak inceler. Bu bir deney çünkü doktorlar bir tedavi uyguluyor ve sonuçlarını analiz ediyor.

Bir primatolog, 10 şempanzeyi doğal ortamlarında gözlemliyor ve sosyal davranışları hakkında ayrıntılı notlar alıyor. Bu, gözlemsel bir çalışmadır, çünkü primatolog davranışı etkilemeden sadece gözlemler ve kaydeder.

Bir döşemeci, 500 erkek ve 500 kadınla iletişime geçerek, her bireye yaklaşan bir seçimde tercih ettikleri adayı soruyor. Bu, gözlemsel çalışmanın başka bir örneğidir. Anketör, katılımcıları veya yanıtlarını manipüle etmeden veri topluyor.

Gözlemsel araştırmalar, önceki örnekte olduğu gibi, analiz amacıyla kadın ve erkeklerle ayrı ayrı temasa geçildiği karşılaştırmalı olabilir. Ancak herhangi bir tedavi uygulanmadığı için gözlemsel bir çalışma olarak kalmaktadır.

Bazı özellikler iyi bir deneyi tanımlar. Randomize, kontrollü ve tekrarlanabilir olmalıdır:

  • Rastgeleleştirme, araştırma konularının farklı tedavi gruplarına rastgele atanmasını sağlar. Kimin hangi tedaviyi alacağına ne araştırmacılar ne de denekler karar verir. Bu, önyargıyı ve kafa karıştırıcı değişkenleri en aza indirmeye yardımcı olur.
  • Kontrol, tedavi gruplarının, aldıkları spesifik tedaviler dışında mümkün olduğunca aynı olduğunu ima eder. Bir kontrol grubu oluşturmak, doğru karşılaştırmalara izin verir ve neden-sonuç ilişkilerinin kurulmasına yardımcı olur.
  • Çoğaltma, deneyi tekrar etme ve benzer sonuçlar elde etme yeteneğini ifade eder. Bulguları doğrulamak ve çalışmanın güvenilirliğini sağlamak için tekrarlanabilir deneyler gereklidir.

Deneylerde, genellikle bir grup kontrol olarak görev yapan iki veya daha fazla tedavi grubu arasında karşılaştırmalar yapılır. Kontrol grubu, belirli müdahaleler alan gruplarla karşılaştırma için bir temel sağlar.

Deneyciler, ölçülebilir bir etkisi olmasa bile deneklerin tedavilere yanıt verdiği plasebo etkisini ele almak için, kontrol grubuna bir plasebo ekler. Plasebolar, şeker hapı veya eğitim çalışmaları için ilgisiz bir ders gibi gerçek bir etkisi olmadığı bilinen tedavilerdir.

Rastgeleleştirme ve kontrole ek olarak, deneklerin tedavi gruplarına atanması için mümkün olduğunda çift kör olması avantajlıdır. Bu, ne deneklerin ne de veri toplayıcıların kimin hangi tedavi grubunda olduğunun farkında olmadığı anlamına gelir. Çift körleme önyargıyı ortadan kaldırmaya yardımcı olur ve tarafsız gözlemler ve ölçümler sağlar.

Dikkate alınması gereken üç önemli deneysel tasarım vardır:

  • Tamamen Rastgele Tasarım: Denekler, herhangi bir ek gruplama veya özellik dikkate alınmadan rastgele farklı tedavi gruplarına atanır.
  • Rastgele Blok Tasarımı: Denekler önce yaş veya cinsiyet gibi belirli özelliklere dayalı olarak gruplara ayrılır ve ardından her blok içindeki tedavi gruplarına rastgele atanır. Bu tasarım, araştırmacıların tedavilerin farklı grupları nasıl etkilediğini ayrı ayrı analiz etmelerini sağlar.
  • Eşleştirilmiş Çift Tasarımı: Denekler benzerlik temelinde eşleştirilir ve daha sonra rastgele farklı tedavi gruplarına atanır. Bu tasarım, tedavi etkilerini değerlendirmek için çiftler arasında doğrudan karşılaştırmalar sağlar.

Bu tasarım türlerini anlamak, araştırmacıların deneyleri etkili bir şekilde planlamasına ve verilerden anlamlı sonuçlar çıkarmasına yardımcı olur. Araştırmacılar, uygun deneysel tasarımları uygulayarak bulgularının geçerliliğini ve güvenilirliğini artırabilir.

Özetle, deneyler ve gözlemsel çalışmalar, istatistikteki iki temel araştırma çalışması türüdür. Deneyler, neden ve sonucu belirlemek için farklı tedavilerin uygulanmasını ve etkilerinin gözlemlenmesini içerir. Öte yandan, gözlemsel çalışmalar, yanıtları aktif olarak etkilemeden özellikleri gözlemlemeye ve ölçmeye odaklanır.

İyi bir deney, randomizasyon, kontrol ve tekrarlanabilirliği içermelidir. Rastgeleleştirme, deneklerin tedavi gruplarına tarafsız bir şekilde atanmasını sağlar, kontrol, karıştırıcı değişkenleri en aza indirir ve replikasyon, sonuçların doğrulanmasına izin verir. Ek olarak, bir kontrol grubunun dahil edilmesi ve plasebo etkisinin dikkate alınması deneysel tasarımın önemli yönleridir.

Tamamen rastgele tasarım, rastgele blok tasarımı ve eşleştirilmiş çift tasarımı gibi farklı deneysel tasarımlar, belirli araştırma sorularını ele almada ve farklı çalışma senaryolarını barındırmada esneklik sunar.

Araştırmacılar, deneyler ve gözlemsel çalışmalar arasındaki farkları anlayarak ve uygun deneysel tasarımları kullanarak, titiz çalışmalar yürütebilir, anlamlı sonuçlar çıkarabilir ve kendi alanlarında bilginin ilerlemesine katkıda bulunabilirler.

Bir araştırma çalışmasını planlarken, ister deney ister gözlemsel bir çalışma olsun, en uygun yaklaşımı belirlemek için araştırma sorusunu, değişkenlerin doğasını ve mevcut kaynakları dikkatlice değerlendirin.

Experiments and Observational Studies
Experiments and Observational Studies
  • 2020.07.02
  • www.youtube.com
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
 

İstatistiksel Örneklemeye Giriş


İstatistiksel Örneklemeye Giriş

Herkese iyi günler! Bugün, istatistiksel örneklemenin büyüleyici dünyasına giriyoruz. İdeal bir senaryoda, bir araştırma çalışması yürütmek, bir nüfus sayımına benzer şekilde, ilgili popülasyonun tamamından veri toplamayı içerecektir. Bununla birlikte, pratikte bu genellikle pratik değildir veya imkansızdır. Aşağıdaki araştırma sorularını göz önünde bulundurun: New York'taki güvercinlerin ortalama ömrü ne kadardır? Yeni bir ilaç 45 yaş üstü hastalarda LDL kolesterolü düşürmede etkili midir? Seçmenlerin yüzde kaçı Başkan'ın performansını onaylıyor? Her durumda, tüm popülasyondan veri toplamak mümkün değildir. Bu nedenle, daha yönetilebilir bir yaklaşıma dönüyoruz: örnekleme.

Örnekleme, tüm popülasyonu temsil etmek ve hakkında sonuçlar çıkarmak için popülasyondan bir alt küme veya örnek seçmeyi içerir. Ancak, tüm örnekleme yöntemleri eşit derecede güvenilir değildir. Örneklemeye yönelik birkaç yanlış yaklaşımı tartışalım. İlk olarak, araştırmacının tanıdığı kişilerin kişisel tanıklıklarından oluşan anekdot niteliğindeki kanıtlar şüpheyle karşılanmalıdır. Örneğin, "Bu hap bütün ailemde işe yaradı" veya "Bugün Cumhurbaşkanı'nı onaylayan üç kişiyle görüştüm" gibi ifadelere güvenmek taraflı sonuçlara yol açabilir. Benzer şekilde, yakınlardaki bir parkta yürütülen siyasi bir anket veya profesörün öğrencilerinin kullanıldığı psikolojik bir çalışma gibi kolay erişilebilir kaynaklardan verilerin toplandığı uygun örnekleme, katılımcıların rastgele seçilmemesi nedeniyle yanlılık getirebilir.

Bulgularımızın geçerliliğini sağlamak için rastgele bir örneklem kullanmak çok önemlidir. Rastgele bir örneklemede, rastgele bir süreç, popülasyondan hangi bireylerin dahil edileceğini belirler ve her üye eşit seçilme şansına sahiptir. Rastgele bir örneklemin amacı, örneklemden türetilen istatistiğin popülasyon parametresini sistematik olarak olduğundan fazla veya olduğundan az tahmin etmesi durumunda ortaya çıkan örnekleme yanlılığından kaçınmaktır. Rastgele seçim sürecinden dolayı bireysel örnekler popülasyondan farklı olabileceğinden, rastgele örneklerden elde edilen istatistiklerin hala değişkenlik gösterdiğine dikkat etmek önemlidir. Bununla birlikte, ortalama olarak, istatistik popülasyon parametresine eşit olacaktır.

Bazı rastgele örnekleme türlerini keşfedelim. En basit ve en sezgisel yaklaşım, aynı büyüklükteki her örneğin eşit seçilme şansına sahip olduğu basit bir rastgele örnektir (SRS). Bu, tipik olarak popülasyon üyelerinin bir listesini elde ederek, onlara numaralar atayarak ve istenen sayıda bireyi seçmek için bir rasgele sayı üreteci kullanarak elde edilir. Tabakalı bir örneklemde, popülasyon yaş, cinsiyet veya ırk gibi önemli özelliklere göre gruplara veya katmanlara ayrılır. Daha sonra, popülasyon içindeki farklı alt grupların ayrı ayrı analiz edilmesine izin verecek şekilde her gruptan basit bir rastgele örnek alınır. Bir küme örneğinde, popülasyon doğal olarak oluşan veya benzer gruplara veya kümelere bölünür. Rastgele bir küme örneği seçilir ve seçilen kümenin her üyesi örneğe dahil edilir. Çok aşamalı örnekleme, kümeleri seçerek, ardından her küme içinde rastgele örnekler alarak ve gerekirse işlemi tekrarlayarak bu teknikleri birleştirir.

Şimdi bu kavramları bazı örneklere uygulayalım ve kullanılan örnekleme yöntemlerini belirleyelim. İlk örnekte, bir anketör rastgele 400 erkek ve 400 kadınla iletişime geçerek yaklaşan bir seçimde tercih ettikleri adayı soruyor. Bu, her grup içinde basit bir rasgele örnekleme alırken hem erkekler hem de kadınlar hakkında bilgi topladığı için tabakalı örneklemenin bir örneğidir. İkinci örnekte, araştırmacılar rastgele 50 lise seçiyor ve bu okullardaki tüm öğrencilere bir matematik yeterlilik sınavı uyguluyor. Bu, rastgeleleştirmenin okul düzeyinde gerçekleştiği ve seçilen okullarda bir nüfus sayımının yapıldığı bir küme örneğini temsil eder.

Üçüncü örnekte, bir otomobil bayisi bir müşteri listesi kullanarak önceki 200 otomobil alıcısını rastgele seçer ve memnuniyet anketi için her biriyle iletişime geçer. Bu, 200 müşteriden oluşan her grubun eşit seçilme şansı olduğundan, basit bir rasgele örneklemin tipik bir örneğidir. Son olarak, bir tıp grubu rastgele 35 ABD hastanesi seçer ve ardından bakım maliyetlerini incelemek için her hastaneden rastgele 50 hasta örneği alır. Bu senaryo, çok aşamalı bir örneği göstermektedir. Başlangıçta, kümeler (hastaneler) rasgele seçilir, ardından seçilen her hastane içinde basit bir rasgele örnekleme yapılır.

Bitirmeden önce, sistematik örnekleme olarak bilinen başka bir örnekleme yönteminden bahsetmeye değer. Rastgele örnekleme biçimi olmasa da, belirli koşullar altında bir yedek olarak kullanılabilir. Sistematik bir örneklemede, popülasyonun üyeleri önceden belirlenmiş bir model kullanılarak seçilir. Örneğin, bir bakkal, müşteri memnuniyetini ölçmek için mağazadan çıkan her 20 kişide bir anket yapabilir. Sistematik bir örneklem, popülasyon homojen olduğunda rastgele bir örneklem kadar etkili olabilir, yani popülasyon içinde ilgili modeller yoktur. Bununla birlikte, önyargıya yol açabileceğinden, örnekleme modelinin popülasyondaki herhangi bir mevcut modelle aynı hizada olmadığından emin olmak için dikkatli olunmalıdır.

Özetlemek gerekirse, istatistiksel örnekleme, tüm popülasyondan veri toplamanın pratik olmadığı veya imkansız olduğu durumlarda hayati bir araçtır. Basit rasgele örnekler, katmanlı örnekler, küme örnekleri ve çok aşamalı örnekler gibi rastgele örnekleme yöntemleri, örnekleme yanlılığını azaltmaya ve temsili ve yansız sonuçlar elde etme olasılığını artırmaya yardımcı olur. Rastgele örnekler değişkenlik getirirken, bunlardan elde edilen istatistikler ortalama olarak popülasyon parametreleriyle uyumludur. Farklı örnekleme yöntemlerinin güçlü yanlarını ve sınırlamalarını anlamak, güvenilir ve doğru araştırma çalışmaları yürütmek için çok önemlidir.

Introduction to Statistical Sampling
Introduction to Statistical Sampling
  • 2020.07.06
  • www.youtube.com
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
 

İstatistiklerde Yanlılık ve Değişkenlik


İstatistiklerde Yanlılık ve Değişkenlik

Herkese merhaba! Bugün, istatistikte yanlılık ve değişkenlik kavramlarına dalıyoruz. İstatistiksel çıkarımın kapsayıcı amacı, örnek verilere dayalı olarak popülasyonlar hakkında sonuçlar çıkarmaktır. Bunu başarmak için, popülasyonların sayısal tanımları olan karşılık gelen parametreleri tahmin etmek için genellikle örneklerin sayısal tanımları olan istatistikleri kullanırız.

Bunu açıklamak için bir örnek ele alalım. 1.200 seçmenden oluşan bir anketin, A Adayının B Adayını yüzde 8 puan önde götürdüğünü ortaya koyduğunu varsayalım. Bu 8 puanlık farkı bir istatistik, A Adayının ne kadar farkla kazanmasının beklendiğinin bir tahmini olarak görebiliriz. Öte yandan, adaylar arasındaki gerçek destek farkı olan seçimin fiili sonucu parametreyi temsil ediyor.

Bazı durumlarda, istatistik ve parametre mükemmel şekilde hizalanır. Bununla birlikte, çoğu zaman, bir dereceye kadar farklılık göstereceklerdir. Örneğin, seçimin gerçek sonucu, A Adayının yüzde 7,8 puanla kazandığını gösterebilir. Bu tür sapmalar tesadüfen meydana gelebilse de, bir istatistiğin kalitesini değerlendirirken sorun teşkil edebilirler.

Bu da bizi önyargı kavramına götürür. P-hat olarak temsil edilen bir istatistik, ortalama olarak P olarak gösterilen karşılık gelen parametreye eşitse yansız olarak kabul edilir. Diğer bir deyişle, iyi bir istatistik, parametreyi sistematik olarak fazla veya hafife almamalıdır. Burada "önyargı" terimini önyargı veya ayrımcılıkla ilgisi olmayan teknik anlamda kullandığımıza dikkat etmek önemlidir.

Birkaç yaygın önyargı kaynağı anketleri etkileyebilir. Örnekleme yanlılığı, popülasyonun tüm üyelerinin rastgele bir örnekte seçilme şansının eşit olmadığı durumlarda ortaya çıkar. Örneğin, bir telefon anketi cep telefonlarını hariç tutarsa, sonuçları potansiyel olarak genel nüfusun görüşlerinden farklı olan yaşlı bireylere doğru saptırabilir. Yanıtlamama yanlılığı, bir ankete katılmayı reddedenlerin katılanlardan farklı olması durumunda ortaya çıkar ve bu da toplanan verilerde potansiyel yanlılıklara yol açar.

Asimetrik sorular veya taraflı ifadeler, yanıtlayanların belirli bir şekilde yanıt vermesini etkileyerek sonuçlara önyargı getirebilir. Sosyal istenirlik önyargısı, yanıt verenler sosyal olarak kabul edilebilir veya olumlu olarak görülen yanıtlar verme eğiliminde olduğunda ortaya çıkar. Örneğin, bireylere diş hijyeni uygulamaları sorulduğunda, sosyal arzu edilirlik önyargısı nedeniyle dişlerini fırçalama sayısını abartabilirler.

Deneysel çalışmalarda önyargı, kontrol eksikliği veya körleme gibi faktörlerden kaynaklanabilir. Deney grupları uygulanan tedavinin ötesinde farklılık gösteriyorsa, sonuçlara yanlılık getirebilir. Rastgeleleştirme, tekdüzeliği sağlamak ve yanlılığı azaltmak için çok önemlidir.

Tarafsız bir istatistik, parametreyi doğru bir şekilde tahmin etmeyi amaçlarken, değişkenlik, istatistiklerin farklı rastgele örnekler arasında değişiklik gösterme eğilimini açıklar. Tarafsız bir örnekleme yöntemiyle bile, her rastgele örneğin yalnızca şans nedeniyle farklı bir istatistik vermesi muhtemeldir. Değişkenliğin bir tür önyargı olmadığına dikkat etmek önemlidir. Bir anketin bir seçim sonucunu kesin olarak öngörmemesi, mutlaka kusurlu olduğu anlamına gelmez.

Önyargı ve değişkenlik arasındaki farkı görselleştirmeye yardımcı olması için hedef tahtasına dart attığınızı hayal edin. Düşük değişkenlik ve düşük yanlılık, dartlarınızın tam hedef çevresinde sıkıca kümelenmiş olarak hedefi tutarlı bir şekilde vuracağı anlamına gelir. Yüksek değişkenlik ancak düşük yanlılık, hala tam hedef çevresinde ortalanmış dağınık dartlarla sonuçlanacaktır. Tersine, yüksek değişkenlik ve yüksek yanlılık, geniş çapta dağılmış dartlara yol açacak ve hedefi sürekli olarak ıskalayacaktır. Bununla birlikte, en kötü durum senaryosunda bile, bir çalışmanın hedefi bir kez tutturması mümkündür, bu da yüksek yanlılık ve değişkenliğe rağmen ara sıra doğru sonuçların ortaya çıkabileceğini gösterir.

Yanlılığı ve değişkenliği anlamak, istatistiklerin kalitesini değerlendirmek ve araştırma bulgularını doğru bir şekilde yorumlamak için gereklidir.

Bias and Variability in Statistics
Bias and Variability in Statistics
  • 2020.07.02
  • www.youtube.com
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
 

Frekans Dağılımlarını Oluşturma


Frekans Dağılımlarını Oluşturma

Herkese merhaba! Bugün, nicel verileri özetlemek ve analiz etmek için frekans dağılımlarını oluşturmaya başlayacağız. Bir dizi sayısal gözlemimiz olduğunda, verilerin şeklini, merkezini ve dağılımını anlamak çok önemlidir. Bunu başarmak için sadece verilere bakmak yeterli olmayacaktır. Bunu anlamlı bir şekilde özetlememiz gerekiyor ve işte burada frekans dağılımları devreye giriyor.

Bir frekans dağılımı, verilerin birkaç sınıfa veya aralığa bölünmesini ve ardından her sınıfa kaç gözlemin düştüğünü belirlemeyi içerir. 11'den 25'e kadar bir değer aralığına sahip olduğumuz bir örneği ele alalım. Bir frekans dağılımı oluşturmak için bu aralığı beş sınıfa bölebilir ve her sınıftaki gözlem sayısını sayabiliriz.

Aralık gösterimi için kullanılan notasyonda, soldaki sert parantez [ her aralığa sol uç noktanın dahil olduğunu, sağdaki esnek parantez ) ise sağ uç noktanın dahil olmadığını gösterir. Bu, 14, 17, 20 ve 23 gibi sınır değerlerinin her zaman bir üst sınıfa girdiği anlamına gelir. Ek olarak, sınıf genişliklerinin tümü eşittir, bu durumda her biri üç birimdir.

Frekans dağılımını inceleyerek, veriler hakkında şimdiden bazı içgörüler elde edebiliriz. Verilerin merkezi, daha yüksek bir frekansa sahip olan 17 ila 20 sınıfına giren 18 civarında görünmektedir. Verilerin geri kalanı, bu merkezi sivri uç etrafında göreli simetri gösterir.

Şimdi, bir frekans dağılımı oluşturmak için adım adım bir süreçten geçelim. Öncelikle kullanacağımız sınıf sayısına karar vermemiz gerekiyor. Katı bir kural olmasa da, iyi bir başlangıç noktası genellikle 5 ila 20 ders arasıdır. Çok az sınıf kullanırsak, dağıtımda yeterince ayrıntı yakalayamayız ve bu da verileri anlama yeteneğimizi engeller. Öte yandan, çok fazla sınıf kullanmak, sınıf başına düşük sayılarla sonuçlanarak verilerin şeklini ayırt etmeyi zorlaştırır.

Sınıf sayısını belirledikten sonra sınıf genişliğini hesaplamaya geçiyoruz. Bunu yapmak için, minimum değeri maksimum değerden çıkararak veri aralığını hesaplıyoruz. Ardından, aralığı sınıf sayısına böleriz. Tüm gözlemlerin sınıflardan birine düşmesini sağlamak için sınıf genişliğini yuvarlamak çok önemlidir. Aşağı yuvarlama, bazı veri noktalarının dağıtımdan çıkarılmasına neden olabilir.

Ardından, her sınıf için alt sınırları buluyoruz. Birinci sınıfın alt sınırı olarak minimum değerle başlıyoruz. Ardından, ikinci sınıfın alt sınırını elde etmek için sınıf genişliğini ekleriz ve bu böyle devam eder. Her sınıfın üst sınırı, bir sonraki sınıfın alt sınırının hemen altındadır.

Son olarak, veri setini inceleyerek her sınıfa kaç tane gözlem düştüğünü sayıyoruz. Örneğin, belirli bir veri seti için sekiz sınıf kullanarak bir frekans dağılımı oluşturduğumuz bir senaryo düşünelim. 115.5 - 52.0 = 63.5 olan veri aralığını hesaplıyoruz. Bu aralığı sekize bölerek, 8.0'a yuvarladığımız 7.9'luk bir sınıf genişliği elde ederiz. Minimum 52 değerinden başlayarak, her sınıf için alt sınırları elde etmek için 8.0 ekliyoruz: 52, 60, 68, vb.

Veri setini inceleyerek ve her sınıfa düşen gözlemleri sayarak frekansları elde ederiz. Sınıfların çakışmaması ve genişliklerinin aynı kalması gerektiğine dikkat etmek önemlidir. Bu, her gözlemin tek bir sınıfa atanmasını sağlar.

Frekans dağılımı anlayışımızı geliştirmek için sınıf orta noktaları, göreli frekanslar ve kümülatif frekanslar için sütunlar ekleyerek tabloyu genişletebiliriz. Sınıf orta noktaları, her aralıktaki ortalama değeri temsil eder. Her sınıfın alt ve üst sınırlarının ortalamasını alarak hesaplıyoruz. Örneğin, 52'den 60'a kadar olan sınıf için orta nokta (52 + 60) / 2 = 56 ve 60'dan 68'e kadar olan sınıf için (60 + 68) / 2 = 64 vb.

Göreceli frekanslar, veri setinin toplam boyutuna göre her bir sınıftaki gözlemlerin oranı hakkında fikir verir. Göreceli frekansları hesaplamak için, her sınıfın frekansını veri setinin toplam boyutuna böleriz. Örneğin, 11 frekansını 50 veri seti boyutuna bölmek bize 0,22'lik bir göreli frekans verir. Benzer şekilde, 8'i 50'ye bölmek, 0,16'lık bir göreli frekans verir.

Kümülatif frekanslar, her aralık ve ondan önce gelen tüm aralıklar için frekanslar toplanarak elde edilir. 52'den 60'a kadar olan ilk aralığın kümülatif frekansı, 11 olan frekansıyla aynı kalır. Bir sonraki aralığın kümülatif frekansını bulmak için, frekansını (8) önceki aralığın kümülatif frekansına ekleriz. Örneğin, 60'tan 68'e kadar olan ikinci aralığın kümülatif frekansı 11 + 8 = 19'dur. Sonraki aralıkların kümülatif frekanslarını elde etmek için frekansları ve önceki kümülatif frekansları toplayarak bu işleme her aralık için devam ediyoruz.

Tüm frekansların toplamının veri setinin toplam boyutuna (bu durumda 50) eşit olması gerektiğine dikkat etmek önemlidir. Göreceli frekansların toplamı her zaman 1 olmalıdır ve veri setinin tamamını gösterir. Son olarak, kümülatif frekanslar sütunundaki son değer, veri setinin boyutuyla eşleşmelidir.

Sıklık dağılımı tablosunu sınıf orta noktaları, göreli sıklıklar ve kümülatif sıklıklar için sütunlarla genişletmek, veri dağılımının daha kapsamlı bir şekilde anlaşılmasına yardımcı olur. Verilerin merkezi eğilimlerini, oranlarını ve kümülatif oranlarını daha organize ve anlayışlı bir şekilde gözlemlememizi sağlar.

Özet olarak, bir frekans dağılımı oluşturmak, verileri sınıflara ayırmayı, sınıf genişliklerini belirlemeyi, alt sınırları hesaplamayı, her sınıftaki gözlemleri saymayı ve ortaya çıkan frekansları analiz etmeyi içerir. Tabloyu, sınıf orta noktaları, göreli frekanslar ve kümülatif frekanslar gibi ek bilgilerle genişletmek, veri setinin özelliklerini daha iyi anlamamızı sağlayabilir.

Constructing Frequency Distributions
Constructing Frequency Distributions
  • 2020.07.04
  • www.youtube.com
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
 

Histogramlar, Frekans Poligonları ve Ogive'ler


Histogramlar, Frekans Poligonları ve Ogive'ler

Herkese merhaba, bugün veri grafiği dünyasına dalıyoruz. Hepsi tek değişkenli dağılımların görsel temsilleri olan histogramları, frekans poligonlarını ve ogivleri keşfedeceğiz. Bu farklı görüntü türlerini keşfederken, örnek olarak önceki videoda oluşturduğumuz genişletilmiş frekans dağılımını kullanacağız. Hafızanızı tazelemek için yaklaşık 52 ile 116 arasında değişen 50 değerden oluşan bir veri seti ile başladık. Veri setini eşit genişlikte sekiz sınıfa ayırdık ve frekans dağılımını oluşturmak için her sınıftaki değer sayısını belirledik.

Tek değişkenli bir veri kümesinin en önemli ve yaygın olarak kullanılan görsel temsiliyle başlayalım: frekans histogramı. Bir histogramda, veri değerlerini yatay eksende ve frekansları dikey eksende çizeriz. Spesifik olarak, yatay eksende 56, 64, 72 gibi sınıf orta noktalarını etiketliyoruz. Her orta noktanın üzerine, yüksekliği o sınıfın frekansına karşılık gelen bir çubuk çiziyoruz. Örneğin, ilk birkaç sınıfın frekansları 11, 8, 9 vb. ise, çubuklar ilgili yüksekliklere sahip olacaktır.

Histogramların frekans kullanım alanını temsil ettiğine dikkat etmek önemlidir. Daha fazla alan, daha büyük miktarda veriyi gösterir. Arsaya baktığımızda, gözlerimiz doğal olarak daha fazla veri içeren alanlara çekilir ve bu da bize veri kümesinin şekli, merkezi ve dağılımı hakkında sezgisel bir anlayış sağlar. Örneğin, bu histogramda, verilerin 112 yerine 56 civarında kümelenme olasılığının daha yüksek olduğunu görebiliriz. Ek olarak, bir histogram çizerken, bir çubuk grafiğin aksine, bitişik sınıflar arasında boşluk bırakmadığımızı belirtmekte fayda var. burada boşluklar tipik olarak kategorik değişkenleri temsil eden çubuklar arasında bulunur.

Bazen histogramlar, orta noktalar yerine sınıfların bitiş noktalarıyla etiketlenmiş yatay eksenle çizilir ve bu kesinlikle kabul edilebilir. Grafik, hangi etiketleme yaklaşımı kullanılırsa kullanılsın aynı bilgiyi taşır. Diğer bir seçenek de benzer bir şekil vermesi gereken histogramda frekans yerine göreli frekansı çizmektir. Tek fark, göreceli frekans değerlerine uyum sağlamak için yatay eksenin ölçeklemesindeki bir değişiklik olacaktır.

Histograma benzer bir başka görsel görüntüleme yöntemi de frekans poligonudur. Burada yine yatay eksende veri değerlerini çiziyoruz ve dikey eksende frekansları temsil ediyoruz. Ancak çubuklar çizmek yerine her sınıf için bir nokta çiziyoruz. Bu noktalar, yatay eksende orta noktalara ve dikey eksende ilgili frekanslarına karşılık gelir. Daha sonra bu noktaları çizgilerle birleştiriyoruz. Çokgenin eksiksiz görünmesini sağlamak için, her biri bir sınıf genişliği kadar uzanan, ilk orta noktanın altına ve son orta noktanın üzerine birer ekstra nokta ekliyoruz.

Son olarak, kümülatif frekansları gösteren bir ogive kullanarak verileri temsil edebiliriz. Bir ogiv oluştururken yatay eksende üst sınıf sınırlarını, dikey eksende kümülatif frekansları çizeriz. Birinci alt sınıf sınırına karşılık gelen yatay eksende bir nokta ile başlıyoruz. Ojivin amacı, herhangi bir x değeri için, dağılımımızdaki kaç veri noktasının bu değerin altına düştüğünü göstermektir.

Umarım bu, histogramlar, frekans poligonları ve ogives kullanarak veri grafiği oluşturma kavramlarını açıklığa kavuşturur. Bu görsel görüntüler, tek değişkenli veri kümelerinin dağılımına ilişkin değerli bilgiler sağlar.

Histograms, Frequency Polygons, and Ogives
Histograms, Frequency Polygons, and Ogives
  • 2020.07.05
  • www.youtube.com
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
 

İlk RStudio Oturumunuz


İlk RStudio Oturumunuz

Herkese merhaba, bugünkü oturumda stüdyomuzu ilk kez açmış olmanın heyecanını yaşıyoruz. Ana odak noktamız, temel işlevleri keşfetmek ve bu ortamda rahatça çalışmak olacaktır. Stüdyomuzu ilk açtığınızda üç farklı bölme göreceksiniz ancak bu videoda öncelikle en soldaki bölmede yer alan konsol sekmesine odaklanacağız. Ancak, ilerledikçe diğer bölmelerden kısaca bahsedeceğiz ve daha ayrıntılı bir tartışmayı gelecekteki videolara saklayacağız.

Başlamak için, R'de bilimsel hesap makinesi işlevi gören konsol sekmesini keşfedelim. Toplama, çıkarma, çarpma ve bölme gibi temel aritmetik işlemleri gerçekleştirebilirsiniz. Örneğin, 8 artı 12'yi hesaplarsak, cevap 20'dir. Cevabın, bu videoda daha sonra açıklayacağımız köşeli parantezler olmadan görüntülendiğini belirtmek önemlidir. Ek olarak, R komut satırına girildiğinde boşlukları yok saydığından, okunabilirlik için boşluklar ekleyebilirsiniz.

R, karekök işlevi gibi çok çeşitli yerleşik işlevler sağlar. Örneğin 9'un karekökü 3'tür. Benzer şekilde trigonometrik işlemler, mutlak değer hesaplamaları ve daha fazlasını yapabilirsiniz. İşlev adları genellikle sezgiseldir, ancak emin değilseniz, hızlı bir Google araması doğru sözdizimini bulmanıza yardımcı olacaktır.

RStudio'daki faydalı özelliklerden biri, yukarı ok tuşunu kullanarak önceki komutları geri çağırma yeteneğidir. Bu, önceki bir komutu almanıza ve gerekirse düzenlemeler yapmanıza olanak tanır. Örneğin, 9 yerine 10'un karekökünü hesaplamak istiyorsanız, yukarı ok tuşuna basıp 9'u silebilir ve 10 girerek yaklaşık 3.162278 elde edebilirsiniz.

Varsayılan olarak R, ondalık noktanın sağında altı basamaklı doğruluk gösterir. Ancak bu ayarı tercihler menüsünden ihtiyaçlarınıza göre ayarlayabilirsiniz.

Şimdi değişkenleri tanımlamaya geçelim. R'de, sol ok ( <- ) veya eşittir işareti ( = ) olan atama operatörünü kullanarak değişkenlere değer atayabilirsiniz. Ödevler için sol oku kullanmanız önerilir. Örneğin "x" adında bir değişken tanımlayalım ve 3'e eşitleyelim. Atamadan sonra sağ üst bölmedeki ortam sekmesinde bize atamayı hatırlatmak için "x = 3" görüntülenecektir. Konsola basitçe "x" değişken adını yazıp enter'a basarsak, R bu durumda 3 olan değerini yazdıracaktır.

Sayısal değerlerde olduğu gibi değişkenleri kullanarak aritmetik işlemler yapabilirsiniz. Örneğin, 3 artı x'i hesaplarsak sonuç 6'dır. R işlem sırasına uyar, bu nedenle 1 artı 2 çarpı x gibi ifadeler 9 yerine 7 olarak değerlendirilir.

Değişkenleri vektörler olarak atadığımızda R daha güçlü hale gelir. Bir vektör oluşturmak için, birleştirme işlevini (c) ve ardından parantezleri ve dahil etmek istediğimiz değerleri kullanırız. Örneğin "y" vektörünü 1, 5, 6 ve 9 değerlerine atayalım. Vektörü tanımladıktan sonra "y" yazıp enter'a bastığımızda 1, 5, 6 ve 9 değerlerini görüntüleyeceğiz. vektör üzerinde her öğeye 2 eklemek (y + 2) veya karekök (sqrt(y)) gibi matematiksel işlevleri uygulamak gibi aritmetik işlemler gerçekleştirebilir.

Aritmetik işlemlere ek olarak vektörleri de özetleyebiliriz. Örneğin, vektörün ortancasını (medyan(y)) veya toplamını (toplam(y)) hesaplayabiliriz. R, vektörleri işlemek için çok sayıda işlev sağlar ve belirli bir işlevden emin değilseniz, hızlı bir Google araması gerekli bilgileri sağlayacaktır. Devam etmeden önce RStudio'da bahsetmek istediğim iki ek özellik daha var. ilki

Konsolun üst kısmında bulunan Geçmiş sekmesi. Üzerine tıklayarak, en son komutlarınızın listesine erişebilirsiniz. Zaman kazandıran bir özellik olabilecek önceki komutları gözden geçirmek ve yeniden kullanmak için geçmişe göz atabilirsiniz. RStudio'dan çıkıp daha sonra geri dönseniz bile, komut geçmişi kullanılabilir durumda olacaktır.

Geçmişten bir komutu yeniden kullanmak için üzerine çift tıklayın ve konsolda görünecektir. Daha sonra gerekli düzenlemeleri yapabilir ve komutu yeniden değerlendirebilirsiniz. Bu özellik, önceki komutlarınızı kolayca yeniden ziyaret etmenizi ve değiştirmenizi sağlar.

Vurgulamak istediğim ikinci özellik ise birden fazla harften oluşan değişken isimleri verebilme özelliği. Örneğin, "sayılar" adında bir değişken oluşturmak ve ona 1, 2, 3, 4, 5 ve 6 değerlerini atamak istediğimizi varsayalım. Bunu "sayılar <- c(1, 2, 3) girerek yapabiliriz. , 4, 5, 6)" öğesini seçin. Atama yapıldıktan sonra, değişken üzerinde "sayıların" (sqrt(sayılar)) karekökünü hesaplamak gibi çeşitli işlemler yapabiliriz.

Şimdi bir veri seti yüklemeye ve yüklenen verilerle yapabileceğimiz bazı işlemleri keşfetmeye geçelim. RStudio'nun sağ alt bölmesinde bir dosya tarayıcısı bulacaksınız. Veri kümenizin konumuna gidin ve onu seçin. Örneğin "body" veri setini seçelim. Veri setini RStudio'ya aktarmak için "Veri Kümesini İçe Aktar" düğmesine tıklayın.

İçe aktarma işlemi sırasında, veri kümesinin elektronik tablo biçiminin bir önizlemesini göreceksiniz. Sağ üst bölmede, ortam sekmesi "body_data" adlı yeni bir nesne görüntüler. Bu nesne, 300 gözlem ve 15 değişken içeren bir veri çerçevesini temsil eder. Esasen 300 satır ve 15 sütundan oluşan bir tablodur. Sütunları sıralayarak, daha fazla sütun görüntülemek için yatay olarak kaydırarak ve ona bir Excel dosyası gibi davranarak veri kümesiyle etkileşim kurabilirsiniz.

Veri çerçevesinde belirli değişkenlerle çalışmak için, onları dolar işareti ($) notasyonu kullanarak belirtmemiz gerekir. Örneğin "yaş" değişkeni ile ilgileniyorsak konsola "body_data$age" yazabiliriz. Siz yazmaya başladığınızda RStudio, kullanılabilir değişkenlerin bir listesini sağlayacaktır. Enter tuşuna bastığınızda, veri kümesindeki tüm yaşların bir listesini göründükleri sırayla görürsünüz.

"body_data$age" gibi belirli bir değişkeni izole ettikten sonra, diğer değişkenler gibi onun üzerinde işlemler gerçekleştirebiliriz. Örneğin, konsola "mean(body_data$age)" yazarak veri setindeki tüm bireylerin ortalama yaşını hesaplayabiliriz. Bu durumda yaş ortalaması 47.0 olarak belirlenmiştir.

Ortalamaya ek olarak, uygun işlevleri kullanarak standart sapma, medyan, toplam, minimum, maksimum ve daha fazlası gibi diğer istatistikleri keşfedebilirsiniz. Gelecekteki videolarda bu veri işleme tekniklerini daha derinlemesine inceleyeceğiz ve istatistiksel analiz için R'nin gücünü keşfedeceğiz.

Bu, stüdyomuzu açmaya, temel işlevlere ve değişkenler ve veri kümeleriyle çalışmaya ilişkin genel bakışımızı sonlandırıyor. RStudio'da daha gelişmiş özellikleri ve teknikleri keşfedeceğimiz gelecekteki videolar için bizi izlemeye devam edin.

Your First RStudio Session
Your First RStudio Session
  • 2020.08.16
  • www.youtube.com
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
 

R'de Histogramlar ve Frekans Çokgenleri


R'de Histogramlar ve Frekans Çokgenleri

Herkese merhaba, bugünkü videomuzda R de qplot komutunu kullanarak görsel olarak çekici histogramlar ve frekans poligonları oluşturacağız. R'de grafik oluşturmanın çeşitli yolları vardır, ancak kişisel olarak ggplot2 paketinin en iyi görünen görüntüleri ürettiğine inanıyorum. Başlamak için ggplot2'de qplot komutunu kullanacağız.

Gösterimiz için, R ile yerleşik olan "sadık" veri kümesiyle çalışacağız. Bu veri kümesi, ABD, Yellowstone Ulusal Parkı'ndaki Old Faithful gayzerinden dakikalar içinde patlama süresi ve patlamalar arasındaki bekleme süresine ilişkin 272 gözlemden oluşur. .

"Bekliyor" değişkeni için histogramları ve frekans poligonlarını çizmek için önce ggplot2 paketini kurmamız gerekecek. Henüz yüklemediyseniz, bunu "install.packages('ggplot2')" yazarak yapabilirsiniz. Kurulduktan sonra, her yeni oturum başlattığınızda "library(ggplot2)" yazarak paketi yüklemeniz gerekir.

Şimdi kurguya odaklanalım. Bir histogram oluşturmak için, "x" argümanını kullanarak x eksenindeki değişkeni şu şekilde belirtiriz: "qplot(x = bekliyor, veri = sadık, geom = 'histogram')". Bu, temel R'nin hist komutu tarafından üretilenden daha iyi görünen bir histogram üretecektir.

Ancak, yapabileceğimiz birkaç iyileştirme var. Grafiğe etiketler ve bir ana başlık ekleyerek başlayalım. x ekseni etiketi için "xlab", y ekseni etiketi için "ylab" ve ana başlık için "main" argümanlarını kullanabiliriz. Örneğin: "qplot(x = bekliyor, data = sadık, geom = 'histogram', xlab = 'Bekleme Süresi', ylab = 'Frekans', ana = 'Eski Sadık')".

Ardından, çubukların görünümüne değinelim. Varsayılan olarak, çubuklar birlikte çalışıyor gibi görünebilir. Bunları ayırt etmek için "color" argümanını kullanarak "color = 'darkblue'" gibi bir sınır rengi ekleyebiliriz. Ek olarak, "fill = 'lightblue'" gibi "fill" argümanını kullanarak çubukların dolgu rengini değiştirebiliriz.

Şimdi histogram yerine frekans poligonu oluşturmak istiyorsak "geom" argümanını "geom = 'freqpoly'" olarak değiştirebiliriz. Bu, x ekseninde aynı değişkeni kullanarak frekans poligonunu çizecektir. Bu durumda geçerli olmadığı için "doldurma" bağımsız değişkenini kaldırmayı unutmayın.

Ayrıca histogramdaki bölme sayısını "kutu" bağımsız değişkenini kullanarak ayarlamak isteyebilirsiniz. Varsayılan olarak, R 30 bölme kullanır, ancak daha fazla veya daha az bölmeye sahip olmak için bunu "kutular = 20" gibi farklı bir değerle değiştirebilirsiniz.

Son olarak, verileri belirtmenin alternatif bir yolundan bahsetmek istiyorum. "$" gösterimini kullanmak yerine, "qplot(x = bekliyor, veri = sadık, geom = 'histogram')" gibi "veri" bağımsız değişkenini kullanarak veri kümesini doğrudan belirleyebilirsiniz. Bu, birden çok değişkenle çalışırken yararlı olabilir.

Bu, qplot komutunu kullanarak R'de histogramlar ve frekans çokgenleri oluşturma konusundaki eğitimimizi tamamlıyor. Görsel olarak çekici ve bilgilendirici grafikler oluşturmak için farklı ayarları keşfetmekten ve denemekten çekinmeyin.

Histograms and Frequency Polygons in R
Histograms and Frequency Polygons in R
  • 2020.07.09
  • www.youtube.com
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
 

Gövde ve Yaprak Grafikleri


Gövde ve Yaprak Grafikleri

Herkese merhaba, bugünkü tartışmamızda, dal-yaprak grafikleri kavramını keşfedeceğiz. Gövde ve yaprak grafikleri, tek bir değişkenin dağılımını görselleştirmenin basit ve bilgilendirici bir yolunu sunar. Görselleştirme sırasında herhangi bir kayıp olmadan tüm bilgileri sakladıkları için özellikle küçük veri kümeleri için etkilidirler. Onları daha iyi anlamak için, bazı örneklere dalalım.

Tipik bir gövde grafiği, çubuğun sağındaki her bir rakamın bir veri noktasını temsil ettiği dikey bir çubuktan oluşur. Bu basamaklar, her gözlemin son önemli basamağını temsil ederken, çubuğun solundaki değerler daha yüksek basamak değeri basamaklarını temsil eder. Örneğin verilen dağılımda başlangıç değerleri 27, 29 ve 32'dir.

Ondalık noktanın eğik çizginin sağında bir basamak olduğu üst kısımdaki tuşa dikkat edin. Gövde ve yaprak çizimleri ondalık sayıları doğrudan içermez; bunun yerine, anahtar basamak değerini gösterir. Bu şekilde 27, 2.7 veya 0.27 arasında ayrım yapabiliriz.

Şimdi aşağıdaki veri seti için bir dal-yaprak grafiği oluşturalım. Burada onda birlik kısım yapraklar, virgülün solundaki iki hane ise gövdeler olacaktır. Böylece, ilk birkaç giriş 34.3, 34.9 olacak ve ardından bir sonraki kök olan 35/1'e geçilecek (ondalık nokta eğik çizgi ile hizalanır).

Tam arsa aşağıdaki gibidir: 34.3 34/9 vb.

Karşılık gelen yaprak olmasa bile, ilk ve sonuncu arasındaki her gövdenin dahil edildiğini not etmek önemlidir. Bu, verilerin şeklini tarafsız bir şekilde gözlemlememizi sağlar. Örneğin, 39.0 ve 39.1 değerleri, 37.5'in hemen yanında değildir ve aralarında biraz boşluk bırakır.

Bununla birlikte, bir gövde ve yaprak grafiği oluştururken iki potansiyel zorluk ortaya çıkabilir. İlk olarak, verilen örnekte olduğu gibi veriler çok fazla anlamlı rakam içeriyorsa, yaprak olarak son rakamı kullanmak 400'den fazla gövdeye neden olur. Bunu önlemek için verilerin yuvarlanması önerilir. Bu durumda, en yakın yüzlüğe yuvarlama, makul sayıda gövde sağlar.

İkinci sorun, başka bir örnekte gösterildiği gibi, kök başına çok fazla veri noktası olduğunda ortaya çıkar. Bunu ele almak için, yapraklar için binde birlik, gövdeler için onda birlik ve yüzde birliklerin kullanılması uygun görünmektedir. Ancak, bu yalnızca üç gövdeyle (2.1, 2.2 ve 2.3) sonuçlanacaktır. Teknik olarak doğru olmasına rağmen, bu grafik istenen dağılım şeklini gösterememektedir.

Bu sorunu aşmak için sapları ayırabiliriz. Her bir gövdeyi çoğaltarak ve ilk yarıyı 0'dan 4'e kadar olan son rakamlara (yapraklara) ve ikinci yarıyı 5'ten 9'a kadar olan rakamlara atayarak daha iyi bir temsil elde edebiliriz. Örneğin, kök 2.1, 2.10 - 2.14 (ilk yarı) ve 2.15 - 2.18 (ikinci yarı) olarak bölünecektir. Bu, önceki zorluğu çözer ve verilerin daha bilgilendirici bir görünümünü sağlar.

Bu ek ayrıntı, sağa çarpık görünen önceki ekranın aksine, bölünmüş gövdelerin simetrik bir dağılımı vurguladığı bu örnekte görüldüğü gibi açıklayıcı olabilir. Gövde ve yaprak grafikleri, tüm temel bilgileri korurken veri dağılımlarına ilişkin değerli bilgiler sunar.

Stem-and-Leaf Plots
Stem-and-Leaf Plots
  • 2020.07.10
  • www.youtube.com
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

R'de Gövde ve Yaprak Grafikleri


R'de Gövde ve Yaprak Grafikleri

Herkese merhaba! Bugün, dal ve yaprak çizimlerinin büyüleyici dünyasını keşfedeceğiz. Gövde grafiği olarak da bilinen gövde ve yaprak grafiği, tek bir değişken için verilerin görsel bir temsilidir. Verilerin şekli, merkezi ve dağılımı hakkında bilgi sağladığı için özellikle küçük veri kümeleri için çok uygundur. Anlayışımızı geliştirmek için iki örnek üzerinde çalışacağız.

İlk olarak, yerleşik "sadık" veri setini inceleyelim. Bu veri seti, Amerika Birleşik Devletleri'ndeki ünlü Old Faithful şofben için 272 patlama uzunluğu ve bekleme süresi gözleminden oluşur. Tüm ölçümler saniye cinsinden kaydedilir. R'de, bir kök çizimi oluşturmak için temel komut uygun bir şekilde "stem" olarak adlandırılır. "Sadık" veri setinden analiz etmek istediğimiz değişkenin adını belirtmemiz gerekiyor. Bekleme süresi değişkeni ile başlayalım.

Gövde grafiğinin üst kısmında bulunan anahtarı gözlemleyin. Ondalık nokta, eğik çizginin sağında bir basamak bulunur. Gövde grafiğine bakarak, veri kümesindeki 43 ve 45 olan ilk değer çiftini belirleyebiliriz. Özellikle, R, bir değer aralığını barındırmak için gövdeleri otomatik olarak böler. Örneğin, 40'lar birinci kökte 40-44, ikinci gövdede 45-49 aralığına bölünür ve bu böyle devam eder.

Otomatik kök ayırmayı geçersiz kılmak istiyorsak, "ölçek" argümanını kullanabiliriz. Bu argüman, bir ölçekleme faktörü belirleyerek gövde grafiğinin yüksekliğini ayarlamamıza izin verir. Bu durumda gövde yarılmasını önlemek için "ölçek = 0,5" ayarlayarak gövdelerin yüksekliğini yarıya indirebiliriz. Görsel çekiciliği artırmasa da, "ölçek" argümanını kullanmanın değerli bir örneği olarak hizmet ediyor.

Şimdi ikinci örneğe geçelim. Bir araştırma çalışmasında katılımcıların görsel bir uyarana milisaniye cinsinden 20 tepki süresi gözlemini içeren bir veri setimiz var. Daha önce olduğu gibi, temel bir gövde planıyla başlayacağız. Bu durumda, ondalık nokta eğik çizginin sağındaki iki basamaktır. Örneğin, "3/1", "310"u temsil eder.

Lütfen bu grafikte bazı yuvarlamaların meydana geldiğini unutmayın. Veri setindeki minimum değer aslında 309'dur ve bu da hafif bir bilgi kaybına neden olur. Önceki örnekte olduğu gibi, "scale" komutunu kullanarak varsayılan ayarları değiştirebiliriz. Ölçekleme faktörünü ayarlayarak bunu deneyelim. Örneğin, "ölçek = 0,5" ayarı, orijinal kök çizimimize kıyasla veri setinin şekli hakkında daha az sezgi sağlayabilir. Bununla birlikte, gövde grafiğinin uzunluğunu iki katına çıkarırsak, verilerin dağılımını daha iyi anlayabiliriz.

Bu değiştirilmiş grafikte, gövdelerin tek haneden iki haneye geçtiğini fark edeceksiniz. Örneğin, veri setinde temsil edilen ilk birkaç değeri okuduğumuzda 307 ve 309'u görüyoruz. Ayrıca, bir sonraki listelenen gövde "31" yerine "32". Bu oluşum, "30" ve "31" ile başlayan verilerin tek bir gövdede birleştirilmesi nedeniyle ortaya çıkar. Sonuç olarak, potansiyel bir bilgi kaybı vardır. Ancak yapraklar sırayla artmaya devam eder.

Gövdelerdeki değerleri atlamaktan kaçınmak ve tüm verileri atlamadan yakalamak için ölçekleme faktörünü daha fazla ayarlamamız gerekiyor. Bu durumda, gövde grafiğini orijinal versiyondan beş kat daha uzun yapabiliriz. Bu, herhangi bir kök atlama olmadan, arzu ettiğimiz gösterimle hizalanan tüm verileri içeren bir kök grafiği elde etmemizi sağlar.

Bu son görüntü tüm veri setini kapsıyor olsa da, aşırı uzunluğundan dolayı en uygun seçim olmayabilir. Veri setindeki şekli, kalıpları ve altta yatan eğilimleri algılamak zorlaşır. Alternatifler göz önüne alındığında, net ve bilgilendirici bir gövde grafiği için en iyi seçenekler, ya gövde ayrılmasını geçersiz kılmayan ya da başlangıçtaki orijinal gövde grafiğidir.

Bu seçeneklerden herhangi birini seçerek, verinin özünü yakalamak ile özlü ve görsel olarak yorumlanabilir bir sunum sağlamak arasında bir denge kurarız. Bir dal-yaprak grafiğinin amacının, veri dağılımına ilişkin sezgi ve içgörü sağlamak olduğunu ve merkezi eğilimleri, varyasyonları ve aykırı değerleri belirlememize olanak tanıdığını unutmamak önemlidir.

Sonuç olarak, gövde ve yaprak grafikleri, küçük veri kümelerini analiz etmek için değerli araçlardır. Verilerin şeklini, merkezini ve dağılımını kavramak için basit ve görsel bir araç sunarlar. Ölçekleme faktörü ve gövde yarma ile deneyler yaparak, arsayı özel gereksinimlerimizi karşılayacak şekilde ayarlayabiliriz. Ancak, tüm veri setini yakalamak ile veri analizini ve yorumlamayı kolaylaştıran net bir temsili sürdürmek arasında bir denge kurmak çok önemlidir.

Artık iki örnekle gövde ve yaprak grafiklerini incelediğimize göre, bunların kullanımı ve özelleştirilmesi hakkında değerli bilgiler edindik. Bu bilgiyle donanmış olarak, diğer veri kümelerine dal-yaprak grafikleri uygulayarak onların gizli hikayelerini çözebilir ve veri analizine dayalı bilinçli kararlar verebiliriz.

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...
Neden: