Makine Öğrenimi ve Sinir Ağları - sayfa 71

 

8.4 Önyargı ve Varyans - Fazla Uyum ve Yetersiz Uyum (L08: Model Değerlendirme Bölüm 1)



8.4 Önyargı ve Varyans - Fazla Uyum ve Yetersiz Uyum (L08: Model Değerlendirme Bölüm 1)

Bu videoda amacım bu dersteki en kısa video rekorunu kırmak. Kısa ve öz tutmak ve konuyu çok uzun süre uzatmamak istiyorum. Sadece iki slaytım var, bu yüzden fazla zaman almayacak. Bu videoda, önyargı-varyans ayrışımı ile yetersiz uydurma ve fazla uydurma kavramları arasındaki ilişkiyi keşfedeceğiz.

Bu derste daha önce gösterilen grafiğe bakarak başlayalım. Lütfen bunun basit bir çizim olduğunu ve gerçek sayılara dayanmadığını unutmayın. Pratikte, bu terimler arasındaki ilişki, gerçek dünyadaki veri kümeleriyle uğraşırken gürültülü olabilir. Grafik, modelin karmaşıklığına veya eğitim verilerini sığdırma becerisine ilişkin kapasitesine karşı çizilen hata kaybının karesini göstermektedir.

Kapasite, modelin eğitim setine ne kadar iyi uyabileceğini ifade eder. Daha yüksek bir kapasite, modelin verileri uydurma konusunda daha yetenekli olduğu anlamına gelir. Örneğin, regresyon gibi parametrik modellerde kapasite genellikle parametre veya terim sayısına göre belirlenir. Kapasite arttıkça eğitim hatası azalır çünkü daha karmaşık bir model eğitim verilerine daha iyi uyabilir.

Ancak, düşük bir eğitim hatasına sahip olmak, yeni verilerde iyi performansı garanti etmez. Genelleme hatası olarak bilinen yeni verilerde hatanın artmasına yol açabilecek şekilde, eğitim verilerini çok yakından uydurarak gereğinden fazla uydurmak mümkündür. Genelleme hatası, bağımsız bir test seti kullanılarak tahmin edilebilir. Başlangıçta, kapasite arttıkça genelleme hatası bir ölçüde düzelir. Ancak belli bir noktaya geldikten sonra hata tekrar artmaya başlar ve bu da fazla uyumu gösterir.

Eğitim hatası ile genelleme hatası arasındaki boşluk, fazla uydurmanın derecesini temsil eder. Modelin kapasitesi arttıkça boşluk artar çünkü model, verilerdeki gürültü de dahil olmak üzere verilere çok yakındır. Fazla uydurma derecesi, modelin eğitim verilerine ne kadar fazla uyduğunu ve yeni verilere iyi bir şekilde genellemede başarısız olduğunu gösterir.

Şimdi bu kavramları bias ve varyans ile ilişkilendirelim. Grafikte, yanlılık ve varyans terimlerini kırmızı ile ekledim. Modelin kapasitesi arttıkça varyansı da artmaktadır. Bu, kısa karar ağaçlarına kıyasla derin karar ağaçları durumunda gözlemlenebilir. Daha yüksek varyansa sahip modeller, fazla uydurmaya daha yatkındır. Varyans ne kadar yüksek olursa, eğitim hatası ile genelleme hatası arasındaki boşlukla temsil edilen fazla uydurma derecesi de o kadar büyük olur.

Tersine, varyans arttıkça yanlılık azalır. Daha karmaşık bir model genellikle daha düşük bir önyargıya sahiptir. Grafik, eğilimin aşağı ve sonra tekrar yukarı gittiğini gösteriyor gibi görünebilir, ancak bu yalnızca kötü bir çizimin sonucudur. Gerçekte, modelin kapasitesi arttıkça varyans arttıkça yanlılık asimptotik olarak azalır.

Öte yandan, model düşük kapasiteye sahip olduğunda (basit bir model gibi), verilerin altında kalır ve bu da hem eğitim hem de test setlerinde düşük performansa neden olur. Bu, yüksek bir önyargı ile ilişkilidir. Yetersiz uydurma, model, verilerdeki temel kalıpları yakalayamayacak kadar basit olduğunda ortaya çıkar.

Özetlemek gerekirse, yüksek yanlılık yetersiz uyum ile ilişkilidir, yüksek varyans ise fazla uyum ile ilişkilidir. Bir sonraki videoda, sınıflandırma görevleriyle daha ilgili olan 0-1 kaybının sapma-varyans ayrıştırmasını kısaca keşfedeceğiz. Kare hata kaybını ayrıştırmaktan daha az sezgisel olsa da, bir sınıflandırma bağlamında önyargı ve varyans bileşenlerine ilişkin içgörüler sağlar.

8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
  • 2020.11.04
  • www.youtube.com
This brief video discusses the connection between bias & variance and overfitting & underfitting.-------This video is part of my Introduction of Machine Lear...
 

8.5 0/1 Kaybının Önyargı-Varyans Ayrıştırması (L08: Model Değerlendirme Bölüm 1)


8.5 0/1 Kaybının Önyargı-Varyans Ayrıştırması (L08: Model Değerlendirme Bölüm 1)

Bu tartışmada, kare hata kaybının yanlılık-varyans ayrıştırmasını ve bunun fazla uydurma ve yetersiz uydurma ile ilişkisini inceledik. Şimdi, parçalı yapısı nedeniyle biraz daha karmaşık olan 0/1 kaybının önyargı-varyans ayrıştırmasına odaklanacağız. 0/1 kaybı, gerçek etiket tahmin edilen etiketle eşleşirse 0, aksi takdirde 1 değerini atar. Sürekli bir fonksiyon olmadığı için bu kayıp fonksiyonunu analiz etmek daha zordur.

0/1 kaybı bağlamında sapma-varyans ayrışmasını keşfetmek için Pedro Domingo ve Common Dieterich'in çalışmalarına başvuracağız. Pedro Domingo'nun "The Unified Bias Variance Decomposition" adlı makalesi, 0/1 kaybıyla ilgili çeşitli bias-varyans ayrıştırmalarını birleştirmeyi amaçlıyordu. Birkaç yazar farklı ayrıştırmalar önerdi, ancak her birinin önemli eksiklikleri var.

Bu derste öncelikle sapma-varyans ayrışımı ile 0/1 kaybı arasındaki köprünün arkasındaki sezgiye odaklanacağız. 1995'teki kombinatorik çalışmasını ve Pedro Domingo'nun bu çalışma hakkındaki açıklamasını kısaca tartışacağız. Daha ayrıntılı bir anlayış için başvurulan belgelere başvurabilirsiniz.

Gerçek değer ile tahmin edilen değer arasındaki farkın karesi olarak tanımladığımız hata kaybının karesini tekrar gözden geçirerek başlayalım. Daha önce, farklı eğitim setlerinde bu kaybın beklentisine baktık ve bunu yanlılık ve varyans terimlerine ayırdık. Şimdi, kaybı temsil etmek ve bu fonksiyonun beklentisini almak için L fonksiyonunu kullanarak genelleştirilmiş bir notasyon tanıtacağız.

Kare hata kaybının yanlılık-varyans ayrıştırmasını tartışırken, onu yanlılık ve varyans terimlerine ayırdık. Önyargı(Y) olarak gösterilen yanlılık terimi, gerçek etiket (Y) ile ortalama tahmin (E[Y_hat]) arasındaki farkı temsil eder. Var(Y_hat) olarak gösterilen varyans terimi, tahminlerin ortalama tahmin etrafındaki değişkenliğini ölçer. Bu terimler, tahminlerin sırasıyla gerçek etiketten ne kadar saptığını ve ne kadar dağıldığını gösterir.

Şimdi, ana tahmin adı verilen yeni bir terim tanımlayacağız. Kare hata kaybı durumunda, ana tahmin, farklı eğitim kümelerindeki ortalama tahmindir. Bununla birlikte, 0/1 kaybı ile uğraşırken, ana tahmin, tahminlerin modu, yani en sık tahmin alınarak elde edilir. Bu ayrım, sınıflandırma bağlamında önyargı-varyans ayrışmasını anlamak için çok önemlidir.

Sapma ve varyansın 0/1 kaybı açısından nasıl tanımlanabileceğini inceleyelim. Önceki slaydın temizlenmiş versiyonuna bakacağız. Sağ tarafta, önyargı terimini tanıtıyoruz. Kong ve Dieterich'in makalelerinde, ana tahmin (E[Y_hat]) gerçek etikete (Y) eşit değilse sapma 1, aksi takdirde 0 olarak tanımlanır. Bu tanım, ana tahminin gerçek etiketle eşleşip eşleşmediğini yakalar.

Şimdi, önyargının sıfır olduğu, ana tahminin gerçek etiketle eşleştiğini gösteren duruma odaklanalım. Bu senaryoda, kayıp varyansa eşittir. Tanım olarak kayıp, tahminin gerçek etiketle eşleşmemesi olasılığını temsil eder. Böylece varyansı, tahminin (Y_hat) ana tahmine (E[Y_hat]) eşit olmama olasılığı olarak yorumlayabiliriz. Bu olasılık, önyargı sıfır olduğunda tahminlerdeki değişkenliği yansıtır.

Şimdi, sapmanın bir olduğu ve biraz daha karmaşık olan durumu inceleyelim. Kaybı bir eksi tahminin gerçek etiketle eşleşme olasılığı olarak yeniden yazarak başlıyoruz. Bu, bir eksi doğruluğa eşdeğerdir. İki hususu ele alacağız: Y ana tahmine eşit olmadığında ve Y ana tahmine eşit olduğunda.

Y ana tahmine eşit olmadığında, kayıp bire eşittir ve yanlış sınıflandırma olduğunu gösterir. Bu durumda, ana tahmin gerçek etiketten farklı olduğundan ve tahminlerdeki değişkenlik önemsiz olduğundan, varyans terimi kayba katkıda bulunmaz. Tüm kayıp, ana tahminin gerçek etiketle eşleşmediği gerçeğini yakalayan yanlılık terimine atfedilebilir.

Öte yandan, Y ana tahmine eşit olduğunda, kayıp bir eksi tüm diğer tahminlerin ana tahminden farklı olma olasılığına eşittir. Bu olasılık, önyargı bir olduğunda tahminlerdeki değişkenliği temsil eder. Bu nedenle, varyans terimi bu durumda kaybı açıklar ve ana tahmin etrafındaki tahminlerdeki belirsizliği yansıtır.

Özetlemek gerekirse, 0/1 kaybının yanlılık-varyans ayrıştırmasında, yanlılık terimi, ana tahmin gerçek etiketle eşleşmediğinde yanlış sınıflandırma hatasını yakalar. Varyans terimi, ana tahmin gerçek etiketle eşleştiğinde tahminlerdeki değişkenliği açıklar.

0/1 kaybı için yanlılık-varyans ayrışımının, kayıp fonksiyonunun ayrık yapısından dolayı karesel hata kaybına kıyasla daha incelikli ve karmaşık olduğuna dikkat etmek önemlidir. Önyargı ve varyans terimleri, ana tahmin kavramına dayalı olarak tanımlanır ve sınıflandırma performansının farklı yönlerini yakalar.

0/1 kaybı bağlamında sapma-varyans takasını anlamak, sınıflandırma modellerini değerlendirmek ve geliştirmek için çok önemlidir. Önyargı ve varyans bileşenlerini analiz ederek, hata kaynaklarına ilişkin içgörüler elde edebilir ve gereğinden az uydurma veya fazla uydurma sorunlarını azaltmak için bilgiye dayalı kararlar verebiliriz.

0/1 kaybı için önyargı-varyans ayrışımının daha ayrıntılı bir araştırması ile ilgileniyorsanız, Pedro Domingo'nun "Birleşik Önyargı Varyans Ayrışımı" makalesini ve Kong ve Dieterich'in ilgili çalışmalarını okumanızı tavsiye ederim. Bu makaleler, ayrışma için derinlemesine açıklamalar ve matematiksel biçimcilikler sağlar.

Yanlılık-varyans değiş tokuşu, makine öğreniminde modelin gereğinden az uydurma ve fazla uydurma arasında denge kurma becerisiyle ilgili temel bir kavramdır. Yanlılık terimi, modelin varsayımlarından veya basitleştirmelerinden kaynaklanan hatayı temsil eder ve modelin verilerdeki temel kalıpları yakalayamayacak kadar basit olduğu bir yetersiz uyum senaryosuna yol açar. Öte yandan, varyans terimi, modelin eğitim verilerindeki küçük dalgalanmalara duyarlılığından kaynaklanan hatayı temsil eder, bu da modelin çok karmaşık olduğu ve genelleştirilebilir kalıplardan ziyade gürültüyü yakaladığı bir aşırı uyum senaryosuyla sonuçlanır.

0/1 kaybı durumunda, yanlılık terimi, ana tahmin gerçek etiketten farklı olduğunda yanlış sınıflandırma hatasını yakalar. Yüksek sapma, modelin sürekli olarak yanlış tahminler yaptığını ve verilerdeki gerçek temel kalıpları yakalayamadığını gösterir. Bu genellikle model çok basit olduğunda veya sorunun karmaşıklığını yakalamak için gerekli karmaşıklıktan yoksun olduğunda ortaya çıkar.

Öte yandan varyans terimi, ana tahmin gerçek etiketle eşleştiğinde tahminlerdeki değişkenliği yakalar. Modelin farklı eğitim veri örneklerine duyarlılığını ve tahminlerinin istikrarsızlığını yansıtır. Yüksek bir varyans, modelin eğitim verilerindeki küçük değişikliklere aşırı duyarlı olduğunu ve muhtemelen gereğinden fazla uyumlu olduğunu gösterir. Bu, modelin eğitim verilerinde iyi performans gösterebileceği, ancak görünmeyen verilere genelleme yapamayacağı anlamına gelir.

İdeal olarak, önyargı ve varyans arasında bir denge kuran ve her iki tür hatayı da en aza indiren bir model bulmak istiyoruz. Bununla birlikte, ikisi arasında genellikle bir değiş tokuş vardır. Önyargıyı azaltmak varyansı artırabilir ve bunun tersi de geçerlidir. Bu, önyargı-varyans değiş tokuşu olarak bilinir.

Doğru dengeyi sağlamak için çeşitli teknikler kullanılabilir. L1 veya L2 düzenlileştirme gibi düzenlileştirme yöntemleri, modelin karmaşıklığını azaltmaya ve varyansı kontrol etmeye yardımcı olabilir. Çapraz doğrulama, modelin farklı veri alt kümelerindeki performansını değerlendirmek ve potansiyel fazla uydurmayı belirlemek için kullanılabilir. Birden çok modeli birleştirerek varyansı azaltmak için torbalama veya artırma gibi topluluk yöntemleri de kullanılabilir.

Yanlılık-varyans takasını anlamak, model seçimi ve hiperparametre ayarı için çok önemlidir. Modelin genelleştirme performansını değerlendirmemize ve doğruluğunu ve güvenilirliğini artırmak için bilinçli kararlar almamıza olanak tanır.

8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the tricky topic of decomposing the 0/1 loss into bias and variance terms.-------This video is part of my Introduction of Machine Learni...
 

8.6 "Önyargı" Teriminin Farklı Kullanımları (L08: Model Değerlendirme Bölüm 1)



8.6 "Önyargı" Teriminin Farklı Kullanımları (L08: Model Değerlendirme Bölüm 1)

Ders, makine öğreniminde yanlılık ve varyans ayrışımı konusuna değindiği için özellikle heyecan verici değildi. Konuşmacı konunun sıkıcılığını kabul etti. Ancak, makine öğrenimindeki farklı önyargı biçimleriyle ilgili olarak konuşmacının değinmek istediği son bir önemli nokta daha vardı.

"Makine öğrenimi yanlılığı" terimi, aşırı yüklenmiş bir terim olarak açıklandı, yani farklı bağlamlarda farklı şeylere atıfta bulunmak için kullanılıyor. Konuşmacı tarafından verilen önceki bir makine öğrenimi kursunda önyargı birimi ve sinir ağları tartışılmıştı, ancak bu, bu derste tartışılan istatistiksel önyargıdan farklıydı. Makine öğrenimi bağlamında önyargı, tümevarımsal önyargı olarak da bilinen makine öğrenimi algoritmasının tercihlerini veya kısıtlamalarını ifade eder.

Konuşmacı, endüktif önyargıyı göstermek için bir karar ağacı algoritması örneği verdi. Karar ağaçları, daha büyük ağaçlara göre daha küçük ağaçları tercih eder. Bir eğitim setinde iki karar ağacı aynı performansa sahipse, algoritma daha küçük olan ağacı tercih eder ve iyileştirme yapılamazsa ağacın büyümesini durdurur. Daha küçük ağaçlar için bu tercih, bir karar ağacı algoritmasını etkileyen endüktif yanlılığın bir örneğidir.

Konuşmacı, Dieterich ve Khan'ın makine öğrenimi önyargısını istatistiksel önyargıyla karşılaştıran bir makalesine atıfta bulundu. Mutlak önyargı ile ilgili olarak uygun ve uygun olmayan önyargılar tartışılmıştır. Uygun olmayan önyargılar, hedef işleve iyi bir yaklaşım içermez, bu da algoritmanın soruna pek uygun olmadığı anlamına gelir. Öte yandan, uygun önyargılar, hedef fonksiyona iyi yaklaşımlara izin verir.

Göreceli önyargı, çok güçlü veya çok zayıf olarak tanımlandı. Çok güçlü bir yanlılık, iyi tahminleri dışlamayabilir, bunun yerine daha zayıf hipotezleri tercih eder. Tersine, çok zayıf bir önyargı, çok fazla hipotezi dikkate alır ve potansiyel olarak fazla uydurmaya yol açar.

Konuşmacı, önyargı ve varyans arasındaki etkileşimi göstermek için karar ağacı modellerini içeren bir simülasyon çalışmasının örneğini paylaştı. Çalışma, ortalama hata oranını değerlendirdi ve bazı hataların yanlılıktan, bazılarının ise varyanstan kaynaklandığını buldu.

Tartışılan bir diğer önemli yanlılık türü, algoritmik sistemlerde toplumsal nedenlerle sakıncalı olan demografik eşitsizliklere atıfta bulunan adalet yanlılığıydı. Makine öğrenimi modelleri, belirli demografik bilgileri adil olmayan bir şekilde ele alabilir ve bu önyargı, dengesiz veri kümelerinden veya diğer faktörlerden kaynaklanabilir. Konuşmacı, makine öğreniminde adalet hakkında daha fazla bilgi için Fair ML Book'a başvurmayı önerdi.

Konuşmacı, eşleme doğruluğunu korurken yüz görüntülerinden yumuşak biyometrik bilgileri gizlemeyi içeren üzerinde çalıştıkları bir projeden kısaca bahsetti. Amaç, algoritmaların yüz görüntülerinden cinsiyet bilgilerini çıkarmasını engelleyerek mahremiyeti korumaktı. Konuşmacı, ticari yazılımın ten rengine dayalı ikili cinsiyet sınıflandırıcısındaki önyargılara dikkat çekerek, sistemlerinin ve ticari yüz eşleştirme algoritmalarının performansını değerlendirdi.

Konuşmacı, önyargıları en aza indirmenin ve sınıflandırıcıların farklı demografilerde nasıl performans gösterdiğine dikkat etmenin önemini vurguladı. Önyargıları ele almak ve daha adil sonuçlar elde etmek için yüksek hızda örnekleme gibi tekniklere duyulan ihtiyacın altını çizdiler.

Ders, tümevarımsal önyargı, istatistiksel önyargı ve adalet önyargısı dahil olmak üzere makine öğrenimindeki çeşitli önyargı biçimlerini ele aldı. Örnekler ve tartışmalar, makine öğrenimi algoritmalarında önyargıyı azaltma ve adaleti teşvik etmeyle ilgili zorluklara ve düşüncelere ışık tutuyor.

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 Giriş (L09 Model Değerlendirme 2: Güven Aralıkları)



9.1 Giriş (L09 Model Değerlendirme 2: Güven Aralıkları)

Herkese merhaba! Bugün önümüzde oldukça ilgi çekici ve bilgilendirici bir ders var. Kurulum ve yanlılık-varyans ayrıştırma gibi oldukça kuru konuların derinlemesine incelendiği önceki dersin aksine, bu oturum daha heyecan verici olmayı vaat ediyor. Yeniden örneklemenin algoritma eğitimini nasıl etkilediğini gözlemlemek için çeşitli yeniden örnekleme tekniklerini tartışacağız ve farklı veri kümeleri üzerinde simülasyonlar yürüteceğiz. Bir veri setini eğitim ve test setlerine bölerek, model performansını potansiyel olarak etkileyen mevcut eğitim boyutunu azaltırız.

Ayrıca, güven aralıklarını ve bunları oluşturmak için farklı yöntemleri keşfedeceğiz. Bu, normal yaklaşım aralıklarının ve çeşitli önyükleme tekniklerinin kullanılmasını içerir. Güven aralıkları, makine öğreniminde önem kazandı ve son makale gönderimleri bunların dahil edilmesini gerektirdi. Gözden geçirenler ayrıca güven aralıklarını artık daha ciddiye alıyor. Alan içinde bir beklenti sağlarlar ve yalnızca incelemeciler için değil, aynı zamanda modellerinizi inceleyen diğer okuyucular için de yararlı olduklarını kanıtlarlar.

Şimdi ders konularına geçelim. Bir girişle başlayacağız, ardından model değerlendirmesi için uzatma yöntemi izleyeceğiz. Ardından, uzatma yönteminin model seçimi için nasıl kullanılabileceğini keşfedeceğiz. İleride, normal yaklaşım aralığından başlayarak farklı teknikler kullanarak güven aralıkları oluşturmaya başlayacağız.

Yeniden örnekleme yöntemleri de önemli bir odak noktası olacaktır. Uzatma yönteminin eğitim setinin yeniden örneklenmiş sürümlerine uygulandığı tekrarlanan uzatma yöntemini analiz edeceğiz. Ayrıca, yeniden örnekleme tekniklerine dayanan ampirik güven aralıklarını inceleyeceğiz. Burada, torbalama ve topluluk modeli dersinde tartışılan tanıdık önyükleme tekniğiyle karşılaşacağız.

Bootstrap yöntemini kullanarak ampirik güven aralıklarını nasıl oluşturacağımızı anladıktan sonra, iki geliştirilmiş sürümü inceleyeceğiz: point 632 bootstrap ve point 632 plus bootstrap. Bu dersin bağlamını, model değerlendirmesinin daha geniş çerçevesi içinde not etmek önemlidir. Yeni makine öğrenimi algoritmalarını tanıtmayacağız, bunun yerine modelleri karşılaştırmak ve seçmek için temel tekniklere odaklanacağız.

Bu teknikler çok önemlidir çünkü belirli bir veri kümesinde hangi makine öğrenimi algoritmasının iyi performans gösterdiğini belirlemek zordur. En iyi performansı göstereni bulmak için genellikle çok sayıda algoritmayı denememiz ve karşılaştırmamız gerekir. Ek olarak, model performansını değerlendirmek, görüntü etiketlerini doğru bir şekilde tahmin etmenin çok önemli olduğu iPhone'larda görüntü tanıma gibi uygulamalar geliştirmek için hayati önem taşır.

Görünmeyen veriler için genelleme performansını tahmin etmenin yanı sıra, farklı modelleri de karşılaştırırız. Aynı algoritmayı ve eğitim setini kullanarak, farklı hiperparametre ayarlarına sahip birden fazla model elde edebiliriz. En iyisini seçmek için bu modelleri karşılaştırıyoruz. Ayrıca, farklı algoritmalar kullanabilir ve bunların resimler veya metin gibi belirli veri türleri üzerindeki performanslarını değerlendirmek isteyebiliriz.

En iyi modeli seçmek için mutlak genelleme performansını doğru bir şekilde tahmin edebiliriz veya modelleri mutlak performans değerleri olmadan sıralayabiliriz. İkinci yaklaşım, aynı test setini birden çok kez kullanırken ortaya çıkan sapmaların önlenmesine yardımcı olur. Bir sıralama sistemi, genelleme performansının doğru tahminlerine dayanmadan en iyi modeli seçmemize olanak tanır.

Gelecek derslerde, çapraz doğrulama tekniklerini, model değerlendirmesi için istatistiksel testleri ve kesinlik, geri çağırma ve alıcı işletim karakteristiği (ROC) eğrileri gibi doğruluğun ötesinde değerlendirme metriklerini ele alacağız.

Bu dersler, farklı makine öğrenimi algoritmalarını karşılaştırmak ve en uygun modeli seçmek için araçlar sağladıkları için kritik öneme sahiptir. Yeni algoritmalar sunmamakla birlikte, model performansını değerlendirmek için pratik içgörüler ve teknikler sunarlar.

Özetle, bugünkü dersimiz yeniden örnekleme tekniklerini, güven aralıklarını ve bunların makine öğrenimindeki önemini kapsayacaktır. Bu ders dizisinin sonunda, makine öğreniminde bilinçli kararlar almak için gerekli olan model değerlendirme ve araçlar hakkında kapsamlı bir anlayışa sahip olacaksınız. Bu konuları keşfetmeye başlayalım!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 Kalıcı Değerlendirme (L09 Model Değerlendirme 2: Güven Aralıkları)



9.2 Kalıcı Değerlendirme (L09 Model Değerlendirme 2: Güven Aralıkları)

Bu videoda, model değerlendirmesi için uzatma yöntemini tartışacağız. Bu yöntem yeni olmasa da daha önce keşfetmediğimiz bazı ilginç yönler var. Uzatma yöntemi, veri setini bir eğitim seti ve bir test seti olarak bölmeyi içerir. Eğitim seti, modeli eğitmek veya uydurmak için kullanılırken test seti, modelin performansını değerlendirmek için kullanılır.

Ancak, akılda tutulması gereken birkaç husus vardır. İlk olarak, eğitim seti hatası, genelleme hatasının iyimser olarak önyargılı bir tahminidir. Bu, eğitim hatasının modelin performansını güvenilir bir şekilde tahmin edemeyebileceği anlamına gelir, çünkü eğitim verilerini gereğinden fazla uydurabilir. Öte yandan, test seti, eğitim setinden bağımsızsa, genelleme hatasının tarafsız bir tahminini sağlar. Bununla birlikte, kavramsal bir bakış açısından, test seti kötümser bir şekilde önyargılı olabilir. Bu önyargı, veri setini eğitim ve test setlerine böldüğümüzde değerli verileri kaybetmemizden kaynaklanır. Küçük bir veri kümesiyle bile, değerlendirme için verilerin %30'unun kaldırılması modelin performansını önemli ölçüde etkileyebilir.

Bu noktayı açıklamak için basit bir örnek ele alalım. Sadece 10 veri noktasından oluşan bir veri setimiz olduğunu hayal edin. Değerlendirme için verilerin %30'unu kaldırırsak, model verilerin yalnızca %70'i üzerinde eğitilecektir. Bu sınırlı eğitim verileri, model performansının düşmesine neden olabilir çünkü makine öğrenimi modelleri genellikle daha fazla veriden yararlanır. Bir öğrenme eğrisi çizersek, genellikle veri kümesi boyutu arttıkça genelleme performansının arttığını gözlemleriz. Bu nedenle, değerlendirme için verilerin önemli bir kısmının saklanması, modeli daha da kötüleştirebilir.

Bu dezavantaja rağmen, modelin değerlendirilmesi gereklidir. Akademide, genellikle test seti performansını rapor ederiz ve görevimizin tamamlandığını düşünürüz. Bununla birlikte, endüstride, genellikle modeli test setinde değerlendirdikten sonra tüm veri setinde eğitiriz. Bu, modelin performansını proje yöneticileri gibi paydaşlara doğru bir şekilde raporlamamıza olanak tanır. Ancak tüm veri kümesi üzerinde eğitim, test kümesi performans tahmininde kötümser bir önyargıya yol açabilir. Örneğin, model test setinde %95 doğruluk elde ettiyse, tam veri setinde eğitim modelin performansını %96'ya çıkarabilir. Bu durumda, %95 doğrulukla ilgili ilk tahmin kötümser bir şekilde yanlıdır.

Uzatma yöntemini tek başına kullanmak her zaman ideal değildir. Eğitim verilerindeki varyansı hesaba katmamak gibi sınırlamaları vardır. Verileri rasgele böldüğümüzde, farklı bölmeler model performansının değişmesine neden olabilir. Bu değişkenlik, yalnızca bir nokta tahmini sağladığı için test seti tahminini daha az güvenilir hale getirir. Ek olarak, uzatma yöntemi, test seti modelleri ayarlamak ve karşılaştırmak için birden çok kez kullanıldığında iyimser yanlılık olasılığını dikkate almaz.

Önyargıların etkisini daha iyi anlamak için kötümser önyargı kavramını ele alalım. Model seçimi açısından, %10'luk kötümser bir önyargı, modellerin tahmin doğruluğuna dayalı sıralamasını etkilemez. Üç modelimiz olduğunu varsayalım: h2, h1 ve h3. Tüm doğruluk tahminleri kötümser bir şekilde %10 önyargılı olsa bile, sıralama aynı kalır. Model seçiminin amacı, mevcut en iyi modeli seçmektir ve tüm modellerde tutarlı bir kötümser önyargı göreceli sıralamayı değiştirmez.

Benzer şekilde, test seti hatasının iyimser olarak önyargılı olduğu durumlar olabilir. Bu, farklı modelleri ayarlamak ve karşılaştırmak için aynı test seti birden çok kez kullanıldığında ortaya çıkar. Test setinin art arda kullanılması, yalnızca test setinde iyi performans gösteren modellerin dikkate alındığı hayatta kalma yanlılığına yol açabilir. Bunun bir örneği "CIFAR-10 sınıflandırıcıları CIFAR-10'a genelleniyor mu?" CIFAR-10 görüntü veri setinde eğitilen ve değerlendirilen sınıflandırıcılardaki fazla uydurma ve iyimser yanlılıkları inceleyen makale.

Sonuç olarak, uzatma yöntemi, model değerlendirmesi için yaygın olarak kullanılan bir yaklaşım olsa da, sınırlamaları ve potansiyel yanlılıkları vardır. Bu sınırlamaların üstesinden gelmek için çapraz doğrulama ve önyükleme gibi alternatif teknikler geliştirilmiştir.

Çapraz doğrulama, veri kümesini birden çok alt kümeye veya katlamaya bölmeyi içeren bir yöntemdir. Model, bu katların bir kombinasyonu üzerinde eğitilir ve kalan kat üzerinde değerlendirilir. Bu işlem, her kat bir kez test seti olarak hizmet verecek şekilde birkaç kez tekrarlanır. Çapraz doğrulama, eğitim ve test için verilerin farklı alt kümelerini kullandığı için modelin performansının daha kapsamlı bir değerlendirmesini sağlar. Rastgele veri bölmelerinin etkisini azaltmaya yardımcı olur ve modelin genelleştirme performansına ilişkin daha güvenilir bir tahmin sağlar.

Önyükleme, uzatma yönteminin sınırlamalarını ele alan başka bir yeniden örnekleme tekniğidir. Birden çok önyükleme örneği oluşturmak için veri kümesini değiştirerek rastgele örneklemeyi içerir. Her önyükleme örneği bir eğitim seti olarak kullanılır ve geri kalan veriler bir test seti olarak kullanılır. Önyükleme, değiştirme ile tekrar tekrar örnekleme yaparak, modelin performansının daha sağlam bir şekilde değerlendirilmesine olanak tanıyan birden çok eğitim-test ayrımı oluşturur.

Hem çapraz doğrulama hem de önyükleme, uzatma yöntemiyle ilişkili önyargıları hafifletmeye yardımcı olur. Mevcut verileri daha verimli kullanarak ve eğitim-test ayrımlarındaki değişkenliği hesaba katarak modelin performansına ilişkin daha güvenilir tahminler sağlarlar.

Uzatma yöntemi, model değerlendirmesi için basit bir yaklaşım olsa da, sınırlamaları ve potansiyel yanlılıkları vardır. Bu sorunları azaltmak için, çapraz doğrulama ve önyükleme gibi teknikler, modelin performansına ilişkin daha sağlam ve güvenilir tahminler sunar. Eldeki sorunun özel gereksinimlerine ve kısıtlamalarına bağlı olarak bu alternatif yöntemleri dikkate almak önemlidir.

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 Dayanma Modeli Seçimi (L09 Model Değerlendirme 2: Güven Aralıkları)



9.3 Dayanma Modeli Seçimi (L09 Model Değerlendirme 2: Güven Aralıkları)

Bir önceki videoda, model değerlendirmesi için uzatma yöntemini ele almıştık. Şimdi, model seçimi için bu yöntemi nasıl değiştirebileceğimizi keşfedeceğiz. Özetlemek gerekirse, önceki videoda veri setini bir eğitim seti ve bir test seti olarak ayırmıştık. Bir makine öğrenimi algoritması ve sabit hiperparametre ayarları kullanarak eğitim setinde bir model eğittik. Ardından modeli test seti üzerinde değerlendirdik. Ek olarak, daha fazla veriden yararlanmak için modeli isteğe bağlı olarak tüm veri kümesine sığdırırız ve daha iyi performans bekleriz.

Şimdi hiperparametre ayarı ile yakından ilgili olan model seçimi için holdout yöntemini kullanmayı hedefliyoruz. Model seçimi, farklı hiperparametre ayarları arasından en iyi modeli seçmeyi içerir. Hiperparametre ayarlama sürecinde, her biri belirli bir hiperparametre ayarına karşılık gelen birden fazla model üretiriz. Model seçimi, modeli en uygun hiperparametre ayarıyla tanımlamamıza yardımcı olur.

Model seçimi için değiştirilen uzatma yöntemini açıklamak için, adımları parçalara ayıralım. İlk olarak, veri setini sadece bir eğitim ve test setine bölmek yerine, onu üç sete ayırıyoruz: eğitim seti, doğrulama seti ve test seti. Bu ayrım, model seçimi için bağımsız bir veri kümesine, doğrulama kümesine sahip olmamızı sağlar.

Ardından, farklı hiperparametre ayarlarını göz önünde bulunduruyoruz ve eğitim verilerini kullanarak birden fazla model uyduruyoruz. Örneğin, k=3, k=5 ve k=7 hiperparametre değerlerine sahip bir K-en yakın komşu algoritması kullanabilir ve üç model elde edebiliriz.

Model seçim adımı, doğrulama seti kullanılarak bu modellerin değerlendirilmesini içerir. Modeller eğitim verilerine fazla uyabileceğinden, en iyi modelin seçilmesi için uygun değildir. Bu nedenle, modelleri değerlendirmek için bağımsız doğrulama setine güveniyoruz. Her model için tahmin doğruluğu gibi performans metriklerini hesaplıyoruz ve en iyi hiperparametre ayarlarına karşılık gelen en iyi performansa sahip olanı en uygun model olarak seçiyoruz.

Ancak doğrulama setini model seçimi için birden çok kez kullanmak, önceki videodaki test setinde karşılaştığımız soruna benzer şekilde önyargıya neden olabilir. Modelin performansının tarafsız bir tahminini elde etmek için bağımsız bir test seti ayırdık. En iyi modeli seçtikten sonra test setindeki performansını değerlendiriyor ve sonuçları raporluyoruz.

İsteğe bağlı olarak, son değerlendirmeden önce, birleşik eğitim ve doğrulama verilerini kullanarak modeli yeniden düzenleyebiliriz. Bu adım, modelin performansını potansiyel olarak iyileştirmek için daha fazla veriden yararlanır. Son olarak, nihai modeli bağımsız test setinde değerlendiriyor ve performansını raporluyoruz. Birleştirilmiş verilerle donatılmış modeli daha fazla değerlendirecek bir test setimiz olmasa da, artan veri miktarı nedeniyle genellikle daha iyi olması beklenir.

Uygulamada, model seçimi için uzatma yöntemi değişebilir ve tüm adımlar tam olarak takip edilmez. Bazı uygulayıcılar, birleştirilmiş veriler üzerinde yeniden eğitim almadan, seçilen modeli doğrudan test setinde değerlendirir. Bununla birlikte, ana fikir, tarafsız performans tahmini sağlamak ve en iyi modelin seçimini kolaylaştırmak için eğitim, doğrulama ve test için ayrı veri kümelerine sahip olmaktır.

Bir sonraki videoda güven aralıkları kavramını inceleyeceğiz.

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

Normal Yaklaşım Yoluyla 9,4 ML Güven Aralıkları (L09 Model Değerlendirme 2: Güven Aralıkları)



Normal Yaklaşım Yoluyla 9,4 ML Güven Aralıkları (L09 Model Değerlendirme 2: Güven Aralıkları)

Bu videoda, özellikle bir test setinden sınıflandırma hatasını veya sınıflandırma doğruluğunu tahmin etmeye yönelik güven aralıklarına odaklanıyoruz. En basit yaklaşım olan normal yaklaşım yöntemini kullanacağız. Bununla birlikte, gelecekteki videolarda yeniden örneklemeye dayalı daha iyi yöntemleri de tartışacağız.

Şu anda, normal yaklaşım yöntemini kullanarak güven aralıklarını araştıran temel bölümdeyiz. Sonraki videolarda, farklı yeniden örnekleme tekniklerini inceleyeceğiz, tekrarlanan uzatma yöntemiyle başlayıp ardından ampirik güven aralıkları oluşturmak için önyükleme gibi geleneksel makine öğreniminde yaygın olarak karşılaşılan daha küçük veri kümeleriyle uğraşırken daha etkili olan yöntemlere geçeceğiz.

Diğer istatistik derslerinden zaten aşina olabileceğiniz iki terimli dağılımı tartışarak başlayalım. Binom dağılımı, sırasıyla deneme sayısını ve başarı olasılığını temsil eden n ve p parametreleriyle başarı sayısını sağlar. Binom dağılımının ortalaması n çarpı p ile verilir. Örneğin, %33 başarı olasılığı olan 100 denememiz varsa, ortalama 30 olur.

Sol taraftaki şekilde, farklı p ve n değerleri için binom dağılımının olasılık yoğunluk fonksiyonunu görebilirsiniz. Bu yoğunluk işlevi, farklı başarı sayılarının olasılığını gösterir. Ek olarak, binom dağılımının varyansı, daha sonra kullanacağımız n çarpı p çarpı (1 - p) olarak hesaplanır. Bu modeli tanımak için bir dakikanızı ayırın.

Şimdi, binom dağılımını makine öğrenimine bağlayalım. 0-1 mağlubiyetini, iki olasılığımız olan bir Bernoulli denemesi olarak görebiliriz: doğru sınıflandırma (başarı) ve yanlış sınıflandırma (başarısızlık). Yanlış sınıflandırmayı başarı, doğru sınıflandırmayı başarısızlık olarak değerlendirebiliriz. Bu bakış açısı yazı tura atmada yazı ve tura kavramıyla uyumludur. Başarı olasılığını tahmin etmek için (yanlış sınıflandırma), çok sayıda deneme yaparak ve başarı sayısını toplam deneme sayısına bölerek sayarak ampirik olarak hesaplayabiliriz. Ortalama başarı sayısı, binom dağılımının ortalamasına karşılık gelen n çarpı p'dir.

0-1 kaybı ve binom dağılımı arasındaki ilişki, makine öğrenimindeki hata kavramını anlamamıza yardımcı olur. 0-1 mağlubiyetini bir Bernoulli denemesi, gerçek hatayı doğru tahminlerin olasılığı olarak değerlendirebiliriz. Gerçek hatayı tahmin etmek için bir test seti kullanırız ve yanlış tahminlerin oranını hesaplarız. Bu oran, sıfır ile bir arasında bir değer elde etmek için test setinin boyutuna bölünebilen sınıflandırma hatasını temsil eder.

Güven aralıklarını oluştururken, diğer istatistik sınıflarından tek örnekli güven aralıklarında kullanılan aynı yöntemleri kullanırız. Güven aralığı, ilgilenilen parametreyi belirli bir olasılıkla içermesi beklenen bir aralıktır. En yaygın güven düzeyi %95'tir ancak %90 veya %99 gibi diğer düzeyler de kullanılabilir. Güven düzeyi seçimi, aralığın genişliğini belirler ve daha yüksek düzeyler daha geniş aralıklarla sonuçlanır.

Resmi olarak bir güven aralığı tanımlamak için, varsayılan dağılımdan tekrar tekrar alınan birden fazla örneği dikkate alıyoruz. Bizim durumumuzda, normal bir dağılım varsayıyoruz. Bu yöntemi kullanarak %95 güven aralığı oluştururken, sonsuz sayıda örneğe dayalı olarak sonsuz sayıda aralık oluşturacak olsaydık, bu aralıkların %95'inin gerçek parametreyi içermesini beklerdik.

Verilerin neden normal dağılımdan alınabileceğini varsaydığımızı merak ediyor olabilirsiniz. Bunun nedeni, deneme sayısı fazla olduğunda binom dağılımının normal dağılıma benzemesidir. Nispeten az sayıda deneme için bile, veriler zaten standart bir normal dağılıma benzer bir şekil sergiliyor. Bu yüzden normal yaklaşımı kullanıyoruz

Bu durumda güven aralıkları oluşturma yöntemi.

Şimdi, normal yaklaşım yöntemini kullanarak sınıflandırma hatası için bir güven aralığı oluşturmanın ayrıntılarına inelim. Öncelikle, binom dağılımının standart sapmasını hesaplamamız gerekiyor. Daha önce bahsedildiği gibi, binom dağılımının varyansı n çarpı p çarpı (1 - p) ile verilir. Bu nedenle standart sapma, varyansın kareköküdür.

Ardından, istenen güven düzeyine karşılık gelen z-skorunu belirleriz. z-skoru, standart normal dağılımın ortalamasından uzaklaşan standart sapmaların sayısını temsil eder. %95 güven düzeyi için z-puanı yaklaşık 1,96'dır. Z-skorunu hesaplamak için genel formül (x - μ) / σ şeklindedir; burada x, istenen güven düzeyidir, μ ortalamadır ve σ standart sapmadır.

Güven aralığını oluşturmak için, nokta tahminimizi temsil eden test setinden tahmin edilen hata oranıyla başlarız. Ardından, z-skoru ile nokta tahmininden standart sapmanın çarpımını çıkarır ve ekleriz. Bu bize sırasıyla güven aralığının alt ve üst sınırlarını verir. Ortaya çıkan aralık, gerçek sınıflandırma hatasının belirtilen güven düzeyine düşmesini beklediğimiz değer aralığını temsil eder.

Normal yaklaşım yönteminin, deneme sayısının (test setinin boyutu) yeterince büyük olduğunu varsaydığına dikkat etmek önemlidir. Test seti küçükse, bu yaklaşım doğru olmayabilir. Bu gibi durumlarda, önyükleme gibi yeniden örnekleme yöntemleri daha güvenilir güven aralıkları sağlayabilir.

Özetle, normal yaklaşım yöntemini kullanarak sınıflandırma hatası için güven aralıkları oluşturmak aşağıdaki adımları içerir:

  1. Binom dağılımının standart sapmasını, sqrt(n * p * (1 - p)) formülünü kullanarak hesaplayın.
  2. İstenen güven düzeyine karşılık gelen z-skorunu belirleyin.
  3. Sırasıyla nokta tahmininden z-skoru ve standart sapmanın çarpımını çıkararak ve ekleyerek güven aralığının alt ve üst sınırlarını hesaplayın.

Sonraki videolarda, özellikle küçük veri kümeleri için yararlı olan yeniden örnekleme tekniklerine dayalı daha gelişmiş yöntemleri keşfedeceğimizi unutmayın. Bu yöntemler ampirik güven aralıkları sağlar ve genellikle normal yaklaşım yönteminden daha doğrudur.

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
 

9.5 Yeniden Örnekleme ve Tekrarlanan Bekletme (L09 Model Değerlendirme 2: Güven Aralıkları)



9.5 Yeniden Örnekleme ve Tekrarlanan Bekletme (L09 Model Değerlendirme 2: Güven Aralıkları)

Bu videoda, yeniden örnekleme konusuna değineceğiz ve özellikle tekrarlanan uzatma yöntemini tartışacağız. Daha önce, veri kümesinin eğitim ve test kümelerine ayrıldığı normal uzatma yöntemini inceledik. Test setinde tahmin edilen performansa dayalı olarak güven aralıkları oluşturmak için normal yaklaşım yönteminin nasıl kullanılabileceğini de araştırdık. Şimdi tekrarlanan uzatma yönteminden başlayarak odağımızı yeniden örnekleme yöntemlerine kaydıracağız.

Görsel bir örnek sağlamak için öğrenme eğrilerini ele alalım. Öğrenme eğrileri, modelimizin ek eğitim verilerinden fayda sağlayıp sağlayamayacağının göstergesi olarak hizmet eder. Grafikte, x ekseni eğitim setinin boyutunu temsil ederken, y ekseni doğruluk olarak ölçülen performansı temsil eder. Bununla birlikte, aynı çizim, hatayı ters çevirerek ölçmek için kullanılabilir. Burada gösterilen performans, Af Örgütü'nün el yazısıyla yazılmış rakam veri kümesine dayanmaktadır, ancak hesaplamayı hızlandırmak için yalnızca 5000 görüntünün bir alt kümesi kullanılmıştır. Bu 5000 görüntüden 3000 adedi eğitime, 1500 adedi ise test seti olarak ayrılmıştır. 3500 görüntüden oluşan başka bir veri seti de oluşturulmuş ve buradan farklı boyutlarda eğitim setleri oluşturulmuştur.

Grafikteki her veri noktası, belirli bir eğitim seti boyutuna karşılık gelirken, test seti boyutu 1500'de sabit kalır. Gözlemlenen eğilim, eğitim seti boyutu küçüldükçe eğitim doğruluğunun artmasıdır. Ancak eğitim seti boyutu arttıkça eğitim doğruluğu azalır. Bu eğilimin olası bir açıklaması, daha küçük bir eğitim seti ile modelin, herhangi bir aykırı değer veya gürültü dahil olmak üzere verileri ezberlemesinin daha kolay olmasıdır. Eğitim seti boyutu büyüdükçe, daha çeşitli aykırı değerlerin varlığından dolayı verileri ezberlemek daha zor hale gelir. Bununla birlikte, daha büyük bir eğitim seti, daha iyi genellemeyi kolaylaştırarak test setinde performansın artmasına yol açar.

Daha büyük bir veri kümesi olmadığı için grafiğin 3500 eğitim kümesi boyutunda durduğunu belirtmekte fayda var. Kırmızı ile gösterilen test seti 1500 numunede sabit kaldı. Bu örnekleri test için ayırarak, model tam kapasitesine ulaşmamış olabileceğinden kötümser bir sapma ortaya çıktı. Kapasite, modelin daha fazla veriyle gelişme potansiyelini ifade eder. Bu durumda, verimlilik amacıyla çok terimli bir lojistik regresyon olan basit bir softmax sınıflandırıcı kullanılmıştır. Bununla birlikte, benzer deneyler için başka sınıflandırıcılar kullanılabilir.

Öğrenme eğrileriyle bağlantılı olarak, veri setinin boyutunu ve bunun sınıflandırıcı performansı üzerindeki etkisini dikkate almak önemlidir. Veri kümesi boyutunu artırmak, özellikle öğrenme eğrileri, eğitim kümesi boyutu büyüdükçe azalan bir test hatası gösterdiğinde, sınıflandırıcının performansını artırabilir. Örneğin, film derecelendirme tahmini içeren bir proje üzerinde çalışırken, IMDb gibi kaynaklardan daha fazla film incelemesi toplamak, sınıflandırıcının performansını artırabilir.

Ofis saatlerinde, öğrenciler genellikle projeleri için sınıflandırıcı performansını iyileştirme hakkında bilgi alırlar. Bir sınıflandırıcının geliştirilmesi, parametre değişiklikleri, özellik seçimi veya özellik çıkarma gibi çeşitli stratejileri içerebilir. Ancak, veri kümesi boyutunu artırmak, olumlu sonuçlar verebilecek basit ama etkili bir yöntemdir. Öğrenme eğrilerini incelemek, yalnızca hiperparametreleri ayarlamaya odaklanmak yerine daha fazla verinin modele fayda sağlayıp sağlayamayacağını belirlemeye yardımcı olur.

Veri setini eğitim ve test setlerine bölmekten kaynaklanan kötümser önyargıyı kabul etmek önemlidir. Verilerin önemli bir bölümünü test için alıkoyan model, sınırlı eğitim verileri nedeniyle tam potansiyeline ulaşmamış olabilir. Çözümlerden biri, bu yanlılığı gidermek için test setinin boyutunu azaltmaktır. Bununla birlikte, test seti boyutunun küçültülmesi başka bir zorluğu beraberinde getirir: varyansta bir artış. Modelin performans tahmininin varyansı, daha küçük test kümeleriyle artar ve potansiyel olarak daha az güvenilir tahminlere yol açar.

Bu zorlukları azaltmak için, uzatma yöntemini birçok kez tekrarlamayı ve sonuçların ortalamasını almayı içeren Monte Carlo çapraz doğrulama adı verilen bir teknik kullanabiliriz. Bu teknik genellikle tekrarlanan uzatma yöntemi olarak bilinir.

Tekrarlanan uzatma yönteminde, veri setini rastgele eğitim ve test setlerine böldüğümüz uzatma işleminin birden çok yinelemesini gerçekleştiririz. Her yineleme, farklı bir rasgele bölme kullanır ve her yinelemede eğitim ve test için verilerin farklı alt kümelerinin kullanılmasını sağlar. Bu işlemi birkaç kez tekrarlayarak modelimiz için birden çok performans tahmini elde edebiliriz.

Tekrarlanan uzatma yönteminin en önemli avantajı, tek bir uzatma ayrımına kıyasla modelin performansının daha sağlam ve güvenilir bir tahminini sağlamasıdır. Her yineleme farklı bir rasgele bölme kullandığından, verilerdeki rasgelelikten dolayı performanstaki değişkenliği yakalayabiliriz. Bu, modelin görünmeyen veriler üzerindeki gerçek performansının daha doğru bir tahminini elde etmemize yardımcı olur.

Her yinelemeden elde edilen performans tahminlerini aldıktan sonra, ortalama performansı hesaplayabilir ve bunu son tahminimiz olarak kullanabiliriz. Ek olarak, sonuçlardaki değişkenlik hakkında bir fikir edinmek için performans tahminlerinin varyansını veya standart sapmasını da hesaplayabiliriz.

Tekrarlanan uzatma yönteminde, modelin görünmeyen veriler üzerinde değerlendirilmesini sağlamak için eğitim ve test setlerinin her yinelemede ayrık olması gerektiğine dikkat etmek önemlidir. Ayrıca, eğitim ve test setlerinin boyutu, mevcut veri setinin boyutuna ve eğitim ve değerlendirme verileri arasında istenen değiş tokuşa göre belirlenmelidir.

Yinelenen uzatma yöntemi, veri kümesi birden fazla rasgele bölmeye izin verecek kadar büyük olduğunda özellikle yararlıdır. Modelin performansının daha sağlam bir şekilde değerlendirilmesine yardımcı olur ve sınırlı verilerle çalışırken özellikle faydalı olabilir.

Özetle, tekrarlanan uzatma yöntemi, veri kümesinin farklı rasgele bölmeleri ile uzatma işleminin birçok kez tekrarlanmasını içeren bir yeniden örnekleme tekniğidir. Daha güvenilir performans tahminleri elde etmeye ve modelin performansındaki değişkenliği yakalamaya yardımcı olur. Tekrarlanan uzatma yinelemelerinin sonuçlarının ortalamasını alarak, modelin gerçek performansının daha iyi bir tahminini elde edebiliriz.

9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about learning curves and how to assess whether a model can benefit from more data. Then it covers the repeated holdout method.-------This v...
 

9.6 Bootstrap Güven Aralıkları (L09 Model Değerlendirme 2: Güven Aralıkları)



9.6 Bootstrap Güven Aralıkları (L09 Model Değerlendirme 2: Güven Aralıkları)

Tekrar hoşgeldiniz! Şimdi bu dersin daha ilginç kısımlarına ulaştık. Bu videoda, bootstrap yöntemini kullanarak ampirik güven aralıklarına odaklanacağız. Hızlı bir özet olarak, daha önce torbalama yöntemlerinden bahsederken önyükleme yönteminden bahsetmiştik. Torbalamada eğitim setinden bootstrap örnekleri çizdik. Peki buna neden 'bootstrap' yöntemi dendiğini hiç merak ettiniz mi?

Pekala, 'bootstrap' terimi, mecazi olarak imkansız bir görevi tanımlamak için kullanılan 'kendini çizme kayışlarıyla çekmek' ifadesinden kaynaklanmıştır. Önyükleme yöntemi, tek bir örnekten örnekleme dağılımının tahmin edilmesini içerdiğinden gerçekten de zorlu bir tekniktir. Yani, bir bakıma, bu zor göreve girişerek, mecazi olarak kendimizi önyükleme kayışlarımızdan yukarı çekmeye çalışıyoruz.

Zamanla, 'önyükleme'nin anlamı, titiz, yardımsız çabayla kendini iyileştirme kavramını içerecek şekilde genişledi. Bununla birlikte, önyükleme yöntemi bağlamında, yalnızca tekniğin kendisine odaklanıyoruz ve 'kişinin çizme kayışlarıyla kendini yukarı çekmesi' ile ilişkili siyasi çağrışımlara değil.

Şimdi, önyükleme yöntemini ve bunun örnekleme dağılımını ve performans tahminlerimizin belirsizliğini tahmin etmemize nasıl izin verdiğini inceleyelim. İlk kez 1979'da Bradley Efron tarafından ortaya atılan önyükleme yöntemi, yalnızca tek bir veri kümesine erişimimiz olduğunda bir örnekleme dağılımını tahmin etmek için kullanılan bir yeniden örnekleme tekniğidir.

Konsepti anlamak için, yalnızca bir veri kümeniz olduğunu ve çeşitli örnek istatistikleri tahmin etmek için bundan yararlanmak istediğinizi hayal edin. Bu istatistikler, örnek ortalaması, standart sapma, R-kare veya korelasyonlar gibi ilgi çekici herhangi bir şey olabilir. Bootstrap yöntemi, popülasyondan örnek çekme sürecini simüle ederek, orijinal veri kümesinden tekrar tekrar örnekleme yaparak yeni veri kümeleri oluşturmamızı sağlar. Değiştirmeden örnek alan tekrarlanan uzatma yönteminin aksine, örneklemenin değiştirme ile yapıldığına dikkat etmek önemlidir.

Bu önyükleme örneklerini çizerek ve örnek ortalaması gibi istenen örnek istatistiği hesaplayarak, örnek ortalamalarının dağılımının normal bir dağılım izlediğini gözlemleyebiliriz. Ortalamanın standart hatası olarak bilinen bu dağılımın standart sapması, örnek boyutunun kareköküne bölünen örnek standart sapmasından tahmin edilebilir.

Bootstrap yöntemi, standart sapmayı tahmin ederek ve performans tahminlerimizle ilişkili belirsizliği belirlemek için kullanarak güven aralıkları oluşturmamızı sağlar. Güven aralıkları, gerçek popülasyon parametresi için bir dizi makul değer sağlar. Önyükleme yöntemi durumunda, standart sapmayı ampirik olarak hesaplar ve güven aralıklarını hesaplamak için kullanırız.

Şimdi, önyükleme prosedüründeki adımları anlayalım. İlk olarak, orijinal veri setinden değiştirme ile bir örnek çiziyoruz. Ardından, bu önyükleme örneğini kullanarak istenen örnek istatistiğini hesaplıyoruz. Örnek istatistiklerinin bir dağılımını elde etmek için bu iki adımı çok sayıda tekrarlıyoruz, genellikle yaklaşık 200 veya daha fazla olması önerilir. Bu dağılımın standart sapması, numune istatistiğinin standart hatasının bir tahmini olarak hizmet eder. Son olarak, performans tahminimiz etrafında bir belirsizlik ölçüsü sağlayan güven aralıklarını hesaplamak için standart hatayı kullanabiliriz.

Önyükleme yöntemini kullanarak bir sınıflandırıcının performansını değerlendirmeye gelince, yaklaşımı biraz değiştirebiliriz. n boyutunda bir veri kümesi düşünün. Bu durumda, her turda orijinal veri kümesinden bir önyükleme örneği çizdiğimiz p önyükleme turu gerçekleştiririz. Daha sonra, bu önyükleme örneklerinin her birine bir model uydururuz ve önyükleme örneğine dahil olmayan örnekler olan, çantadan çıkan örneklerin doğruluğunu hesaplarız. Tüm önyükleme turlarındaki doğrulukların ortalamasını alarak, önyükleme doğruluğunu elde ederiz. Bu yaklaşım, modeli eğitim için kullanılan örnekler yerine görünmeyen veriler üzerinde değerlendirerek fazla uydurma sorununu ele alır. Ek olarak, önyükleme doğruluğu, modelin performans değişkenliğinin bir ölçüsünü sağlar.

Önyükleme yöntemini kullanarak bir sınıflandırıcının performansını değerlendirmede yer alan adımları özetlemek gerekirse:

  1. Orijinal veri kümesinden n boyutunda (değiştirilerek) rastgele bir önyükleme örneği seçin.
  2. Önyükleme örneğinde bir sınıflandırıcı eğitin.
  3. Eğitimli sınıflandırıcıyı torbadan çıkan örneklerde (önyükleme örneğine dahil olmayan örnekler) değerlendirin ve doğruluğu hesaplayın.
  4. Çok sayıda önyükleme turu (p kez) için 1-3 arasındaki adımları tekrarlayın.
  5. Önyükleme doğruluğunu elde etmek için tüm önyükleme turlarındaki ortalama doğruluğu hesaplayın.

Önyükleme doğruluğu, sınıflandırıcının görünmeyen veriler üzerindeki performansının bir tahmini olarak hizmet edebilir ve performans tahminiyle ilişkili belirsizliğin bir ölçüsünü sağlar. Ayrıca, sınıflandırıcının kararlılığının ve sağlamlığının değerlendirilmesine yardımcı olabilir.

Bootstrap yöntemini kullanarak, modellerimizin performansı hakkında değerli bilgiler edinebilir ve performans tahminlerimizle ilgili belirsizliği tahmin edebiliriz. Bu teknik, sınırlı veriye sahip olduğumuzda ve mevcut veri setinden en iyi şekilde yararlanmak istediğimizde özellikle yararlıdır. Önyükleme yöntemi, örnekleme dağılımına yaklaşmamıza, güven aralıkları oluşturmamıza ve sınıflandırıcıların performansını etkili bir şekilde değerlendirmemize olanak tanır.

Sonuç olarak, önyükleme yöntemi, örnekleme dağılımını tahmin etmemizi ve tek bir veri kümesi kullanarak performans tahminlerinin belirsizliğini değerlendirmemizi sağlayan güçlü bir yeniden örnekleme tekniğidir. Çeşitli istatistiksel zorlukların üstesinden gelmek için pratik bir yaklaşım sağlar ve makine öğrenimi, istatistik ve veri analizi dahil olmak üzere çok çeşitli alanlarda uygulama bulmuştur. Önyükleme yöntemini anlayıp uygulayarak, bilinçli kararlar alma ve sınırlı verilerden güvenilir sonuçlar çıkarma becerimizi geliştirebiliriz.

9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about the Leave One Out Bootstrap (i.e., computing the model performances on out-of-bag samples) for constructing confidence intervals.-----...
 

9.7 .632 ve .632+ Bootstrap yöntemleri (L09 Model Değerlendirme 2: Güven Aralıkları)



9.7 .632 ve .632+ Bootstrap yöntemleri (L09 Model Değerlendirme 2: Güven Aralıkları)

Bu videoda, bir önceki videoda tartışılan konuları daha derinlemesine inceleyeceğiz. Bir önceki videoda, önyükleme yöntemini, özellikle ampirik güven aralıkları oluşturmak için kullanılan çantadan çıkma önyükleme yöntemini ele almıştık. Bu videoda, iki gelişmiş önyükleme tekniğini keşfedeceğiz: 0.632 önyükleme ve 0.632+ önyükleme. Bu teknikler birbiriyle ilişkilidir ve kökenleri bu videoda daha ayrıntılı olarak açıklanacaktır.

Önyükleme prosedürünü kısaca özetlemek için, bir veri kümesiyle başlıyoruz ve değiştirme ile örnekleme yoluyla önyükleme örnekleri oluşturuyoruz. Her önyükleme örneği için, bir model uydurur ve torbadan çıkmış örnekler üzerindeki performansını değerlendiririz. Bir önceki videoda, nesne yönelimli bir yaklaşım kullanarak bu prosedürü Python'da nasıl uygulayacağımızı da gösterdik.

Mevcut videoda sunum yapan kişi, süreci basitleştiren bir kod uygulamasını tanıtıyor. Önyükleme turlarının sayısını ve girdi olarak rastgele bir tohum alan "BootstrapOutOfBag" adlı bir sınıf oluşturdular. Bu sınıf, veri kümesini eğitim ve test alt kümelerine bölen "bölme" adı verilen bir yöntem sağlar. Eğitim alt kümeleri, önyükleme örneklerine karşılık gelirken, test alt kümeleri, çantadan çıkan örnekleri temsil eder. Sunum yapan kişi, bu bölmeleri yineleyerek, önyükleme prosedürünün nasıl gerçekleştirileceğini ve modelin performansının nasıl değerlendirileceğini gösterir.

Sunucu daha sonra "bootstrap_0.632_score" adlı başka bir uygulamayı tanıtır. Bu uygulama, kullanıcıların çantadan çıkma veya önyükleme puanlarını uygun bir şekilde hesaplamasına olanak tanır. Kullanıcılar, sınıflandırıcı, eğitim seti, bölme sayısı ve rastgele tohum sağlayarak, yüzdelik yöntemi kullanarak ortalama doğruluğu hesaplayabilir ve güven aralıkları elde edebilir.

Ardından, video, kötümser önyargı olarak bilinen, kullanıma hazır önyükleme yönteminin bir eksikliğini ele alıyor. Bradley Efron, bu önyargıyı ele almanın bir yolu olarak 0,632 tahminini önerdi. Önyükleme örnekleri, orijinal veri kümesine kıyasla daha az benzersiz veri noktası içerdiğinden kötümser önyargı ortaya çıkar. Aslında, önyükleme örneklerindeki veri noktalarının yalnızca %63,2'si benzersizdir. Sunucu, bu şeklin arkasındaki olasılık hesaplamalarını açıklar ve farklı örneklem büyüklükleri için nasıl davrandığını göstermek için bir görselleştirme sağlar.

Kötümser önyargının üstesinden gelmek için video, 0.632 önyükleme yöntemini tanıtıyor. Bu yöntem, her turda çantadan çıkan numunelerin ve önyükleme numunelerinin doğruluğunu birleştirir. Her turdaki doğruluk, iki terimin toplamı olarak hesaplanır: torbadan çıkma doğruluğu ve yeniden ikame doğruluğu. Torbadan çıkma doğruluğu, önyükleme örneğine dahil olmayan örnekler üzerindeki performansı temsil ederken, yeniden ikame doğruluğu, modele uyması için kullanılan aynı veriler üzerindeki performansı ölçer.

0.632 önyükleme yöntemi, bu iki terimi birleştirerek, modelin performansına ilişkin daha az yanlı bir tahmin sağlamayı amaçlar. Bu yöntem, torbadan çıkma doğruluğunu dahil ederek yeniden ikame doğruluğunun aşırı iyimser doğasını ele alır.

Sonuç olarak, bu video, gelişmiş önyükleme teknikleri sunarak önceki videoda tartışılan kavramları temel alır: 0.632 önyükleme ve 0.632+ önyükleme. Bu yöntemler, hem torbadan çıkma hem de önyükleme örnek doğruluklarını göz önünde bulundurarak, torbadan çıkma önyüklemesinin kötümser yanlılığını azaltmayı amaçlar. Video, bu tekniklerin anlaşılmasını ve uygulanmasını kolaylaştırmak için kod uygulamalarını ve açıklamalarını sağlar.

9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
In this video, we discuss the .632 bootstrap, which addresses the pessimistic bias of the OOB bootstrap covered in the previous video. Then, we discuss the ....
Neden: