Makine Öğrenimi ve Sinir Ağları - sayfa 58

 

Ders 12.2 — İstatistikleri almanın daha verimli yolları [Makine Öğrenimi için Sinir Ağları


Ders 12.2 — İstatistikleri almanın daha verimli yolları [Makine Öğrenimi için Sinir Ağları

Bu videoda konuşmacı, Markov zincirlerini denge dağılımına yakın tutmak için akıllı teknikler kullanarak ve ortalama alan yöntemlerini kullanarak Boltzmann makine öğrenimi algoritmasının nasıl hızlandırılacağı hakkında ayrıntılı bilgi sağlar. Konuşmacı, materyalin ileri düzeyde olduğunu ve kurs müfredatının bir parçası olmadığını kabul ederken, izleyicilere derin Boltzmann makinelerini optimize etmeye yoğun ilgileri olmadıkça bu videoyu atlayabileceklerini garanti eder.

Konuşmacı, önemli miktarda zaman alabileceğinden, rastgele bir durumdan başlarken termal dengeye ulaşmanın getirdiği zorlukları tartışıyor. Ek olarak, termal dengeye ulaşılıp ulaşılmadığını belirlemenin kolay bir yolu yoktur. Bunu ele almak için konuşmacı, belirli bir veri vektörü için önceki yinelemede elde edilen durumdan başlamayı önerir. "Parçacık" olarak adlandırılan bu depolanmış durum, gizli birimlerdeki veri vektörünün yorumlanması işlevi görerek sıcak bir başlangıç avantajı sunar. Ağırlıklar minimum düzeyde güncellendiyse, bir parçacığı tekrar dengeye getirmek için birimlerin birkaç kez güncellenmesi yeterlidir. Parçacıklar hem pozitif faz (bir veri faktörü kenetlendiğinde) hem de negatif faz (hiçbir şey kenetlenmediğinde) için kullanılabilir.

İstatistikleri verimli bir şekilde toplamak için, konuşmacı 1992'de Radford Neal tarafından yazılan bir yöntemi tanıtıyor. Pozitif aşamada, veriye özgü parçacıklar kullanılıyor ve her parçacık ilişkili veri vektörüyle birlikte gizli birimlerin bir konfigürasyonunu temsil ediyor. İlgili veri vektörü kenetlenmiş olarak, her bir parçacıktaki gizli birimlerde sıralı güncellemeler gerçekleştirilir. Bağlı birim çiftlerinin olasılıklarının daha sonra tüm parçacıklar arasında ortalaması alınır. Olumsuz aşamada, küresel konfigürasyonları temsil eden fantezi parçacıklarından yararlanılır. Her ağırlık güncellemesinden sonra, her fantezi parçacığındaki birimler sırayla güncellenir. Yine, bağlantılı birim çiftlerinin olasılıklarının tüm fantazi parçacıklarının ortalaması alınır. Öğrenme kuralı, veriler ve fantezi parçacıkları ile elde edilen ortalamalar arasındaki farkla orantılı olarak ağırlıklardaki değişim olarak tanımlanır.

Bu öğrenme kuralı, tam toplu öğrenme için iyi çalışsa da, onu mini gruplara uygulamak zorluklar doğurur. Mini toplu öğrenmedeki çoklu ağırlık güncellemeleri nedeniyle, her veri vektörü için depolanan verilere özgü parçacıklar artık termal dengeye yakın olmayabilir. Bu sorunun üstesinden gelmek için konuşmacı, bir veri vektörü kenetlendiğinde iyi açıklamalar kümesinin (bir veri vektörünü yorumlayan gizli birimlerin durumları) tek modlu olduğu varsayımında bulunmayı önerir. Bu varsayım, termal dengeye yaklaşmak için verimli bir yöntem sağlayan bir ortalama alan yaklaşımının veya verilerle bunun bir yaklaşımının kullanılmasını sağlar.

Boltzmann makinelerinde verimli mini toplu öğrenmeyi uygulamak için konuşmacı, derin Boltzmann makinesi adı verilen özel bir mimarinin kullanılmasını önerir. Bu mimaride, bağlantı içermeyen katmanlara izin vererek ve katman atlama bağlantılarını atlayarak fantezi parçacıkları için dönüşümlü paralel güncellemeler gerçekleştirilir. Tüm birimlerin durumlarının yalnızca yarısını paralel olarak güncelleyerek verimli güncellemeler elde edilebilir.

Konuşmacı, pozitif faz öğrenimi için ortalama alanı ve negatif faz için dönüşümlü katman güncellemelerini kullanan derin Boltzmann makinelerinin başarılı uygulamasını tartışıyor. Örneğin Russ Salakhutdinov, bu yaklaşımı MNIST rakamlarını modellemek için kullandı ve üretilen veriler gerçek MNIST veri setine çok benziyordu.

Ayrıca konuşmacı, negatif istatistikleri tahmin etmenin zorluğunu yalnızca sınırlı sayıda negatif örnekle (fantezi parçacıklar) ele alıyor. Tipik olarak, ilginç problemler için genel yapılandırma alanı oldukça çok modludur. Bununla birlikte, öğrenme süreci, negatif istatistikleri toplamak için kullanılan Markov zinciri ile etkileşime girerek, karıştırma oranını etkili bir şekilde artırır. Konuşmacı, enerji yüzeyinin bir modunda fantezi parçacıklarının sayısı pozitif verileri aştığında, enerjinin yükseldiğini ve parçacıkların bu moddan kaçmasına yol açtığını açıklıyor. Öğrenme ve Markov zinciri arasındaki bu etkileşim, sınırlı sayıda parçacıkla bile çoklu modların keşfedilmesini sağlar.

Öğrenme algoritmasının, enerji yüzeyinin Markov zincirinin karıştırma oranını artırmak için manipüle edildiği bu özelliği, Boltzmann makinesinin etkinliğinin çok önemli bir yönüdür. Öğrenme süreci, fantezi parçacıklarını aktif olarak enerji yüzeyinin farklı modlarını keşfetmeye yönlendirir ve modelin, Markov zincirinin tek başına makul bir sürede üstesinden gelmek için mücadele edeceği yerel minimumlardan kaçmasına izin verir.

Bu kavramı daha iyi açıklamak için, enerji yüzeyini farklı modları temsil eden vadiler ve tepeler içeren bir manzara olarak hayal edin. Fantezi parçacıkları, bu manzarada gezinen kaşifler olarak hareket eder. Başlangıçta, bazı modlar mevcut verilere kıyasla daha yüksek konsantrasyonda fantezi parçacıklarına sahip olabilir ve bu da bu bölgelerde yüksek bir enerji yüzeyiyle sonuçlanır. Öğrenme algoritması bu tutarsızlığı tanır ve enerji yüzeyini yükselterek etkili bir şekilde parçacıkların hareketini engelleyen engeller oluşturur.

Öğrenme algoritması, enerji yüzeyini yükselterek fantezi parçacıklarını aşırı nüfuslu modlardan uzaklaşmaya ve daha az parçacıklı alternatif modlar aramaya teşvik eder. Enerji manzarasının farklı bölgelerini keşfettikçe, parçacıklar sonunda başlangıçtaki baskın modlardan kaçarlar ve veri dağılımına daha uygun olarak kendilerini çoklu modlara dağıtırlar.

Bu süreç, Boltzmann makinesinin enerji yüzeyinin çeşitli modlarını ortaya çıkarmasına ve altta yatan veri dağılımının karmaşık çok modlu yapısını etkili bir şekilde yakalamasına olanak tanır. Markov zinciri tek başına yerel minimumlardan kaçmak için mücadele ederken, enerji yüzeyinin öğrenme algoritması tarafından aktif olarak manipüle edilmesi, farklı modların keşfedilmesini sağlayarak verilerin daha doğru bir şekilde temsil edilmesini sağlar.

Özetle, öğrenme algoritması ile negatif istatistikleri toplamak için kullanılan Markov zinciri arasındaki etkileşim, Boltzmann makinesinin etkinliğinde kilit bir faktördür. Öğrenme süreci, enerji yüzeyini dinamik olarak ayarlayarak fantezi parçacıklarını farklı modları keşfetmeye ve yerel minimumlardan kaçmaya teşvik eder. Bu enerji ortamını keşfetme yeteneği, modelin temeldeki verilerin karmaşık dağılımını yakalama kapasitesini artırarak performansın iyileştirilmesine ve verilerin daha doğru temsiline yol açar.

Lecture 12.2 — More efficient ways to get the statistics [Neural Networks for Machine Learning]
Lecture 12.2 — More efficient ways to get the statistics [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 12.3 — Kısıtlı Boltzmann Makineleri



Ders 12.3 — Sınırlı Boltzmann Makineleri [Makine Öğrenimi için Sinir Ağları]

Boltzmann makineleri, gizli birimler arasında bağlantı olmayan basitleştirilmiş bir mimariye sahiptir, bu da görünür birimler kenetlendiğinde gizli birimlerin denge dağılımının hesaplanmasını kolaylaştırır. Boltzmann makineleri için öğrenme algoritması yavaştır, ancak 1998'de kısıtlı Boltzmann makineleri (RBM'ler) için verimli bir öğrenme algoritmasına yol açan bir kısayol keşfedildi. RBM'ler, tek katmanlı gizli birimlerle sınırlı bağlantıya sahiptir ve gizli veya görünür birimler arasında bağlantı yoktur. RBM mimarisi, her birim için bağımsız hesaplamalar içeren iki parçalı bir grafiktir.

Kısayol, paralel olarak görünen ve gizlenen birimler arasındaki bağlantıların beklenen değerlerinin hızlı bir şekilde hesaplanmasını sağlar. 2008'de tanıtılan RBM'ler için bir öğrenme algoritması, görünür birimlerde bir veri vektörünün kenetlenmesini, bağlantıların beklenen değerlerinin hesaplanmasını ve bunların mini partideki veri vektörleri üzerinden ortalamasının alınmasını içerir. Negatif aşamada, fantezi parçacıkları (küresel konfigürasyonlar) her parçacığı birkaç kez güncellemek için kullanılır ve bağlantıların beklenen değerlerinin fantezi parçacıkları üzerinden ortalaması alınır. Bu algoritma, ikili vektörler için iyi yoğunluk modelleri oluşturur.

RBM'ler için başka bir öğrenme algoritması daha hızlıdır ancak yoğunluk modellerinin oluşturulmasında o kadar etkili değildir. Görünür ve gizli birimler arasında dönüşümlü bir güncelleme zinciri çalıştırmayı içerir. Öğrenme kuralı, zincirin başındaki ve sonundaki bağlantıların beklenen değerleri arasındaki farka göre ağırlıkları günceller. Termal dengeye ulaşmak için zincirin uzun süre çalıştırılması gerekli değildir; kısa bir zincir bile etkili öğrenme sağlar.

Kısa yol işe yarar çünkü Markov zinciri verilerden denge dağılımına doğru uzaklaşır. Yeniden oluşturma olasılığını azaltmak ve bir tam adımdan sonra verilerin olasılığını artırmak için ağırlıkları değiştirerek, zincir verilerden uzaklaşmayı durdurur. Veriler ve yeniden yapılandırmalar aynı dağılıma sahip olduğunda öğrenme durur. Küresel konfigürasyon uzayındaki enerji yüzeyi, öğrenme sırasında veri noktasında bir minimum enerji oluşturmak için değiştirilir.

Ancak kısayol, verilerden uzak bölgeler için başarısız olur. Durumlarını hatırlayan ve ek güncellemelerden geçen kalıcı parçacıklar bu sorunun çözülmesine yardımcı olabilir. Hız ve doğruluk arasında bir uzlaşma, küçük ağırlıklarla başlamak ve ağırlıklar büyüdükçe birkaç adımda (CD-1, CD-3, CD-5, vb.) kontrastlı sapma (CD) kullanmaktır. Bu yaklaşım, Markov zincirinin karıştırma oranı azalsa bile etkili öğrenmeyi sürdürür.

Bu yaklaşımı kullanarak, kısıtlı Boltzmann makineleri (RBM'ler) için öğrenme algoritması, hız ve doğruluk arasında bir denge kurar. Küçük ağırlıklarla başlar ve ağırlıklar kademeli olarak arttıkça CD-1 gibi az sayıda adımla kontrastlı sapmayı (CD) kullanır. Bu strateji, Markov zincirinin karıştırma hızı yavaşladığında bile öğrenme sürecinin oldukça iyi çalışmaya devam etmesini sağlar.

Modelin desteklediği, ancak herhangi bir gerçek veri noktasından uzak olan veri alanının bölgelerini dikkate almak önemlidir. Düşük enerjili delikler olarak bilinen bu bölgeler, normalleşme döneminde sorunlara neden olabilir. Bunu ele almak için kalıcı parçacıklar adı verilen bir teknik kullanılabilir. Kalıcı parçacıklar durumlarını korur ve her ağırlık güncellemesinden sonra ek güncellemelere tabi tutulur. Bunu yaparak, modelin performansını iyileştirerek bu düşük enerjili delikleri keşfedebilir ve sonunda doldurabilirler.

Kısayol ve farklı sayıda adım içeren CD ve kalıcı parçacıkların kullanımı gibi çeşitli teknikleri kullanan RBM öğrenme algoritması, verimli öğrenmeye ve ikili vektör kümeleri için etkili yoğunluk modellerinin oluşturulmasına olanak tanır. Kestirme, maksimum olasılıklı öğrenmeden sapmasına ve teorik sınırlamalara sahip olmasına rağmen, pratikte iyi çalıştığını kanıtladı ve Boltzmann makine öğrenimine olan ilginin yeniden canlanmasına yol açtı.

Lecture 12.3 — Restricted Boltzmann Machines [Neural Networks for Machine Learning]
Lecture 12.3 — Restricted Boltzmann Machines [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 12.4 — RBM öğrenimine bir örnek



Ders 12.4 — Bir RBM öğrenimi örneği [Makine Öğrenimi için Sinir Ağları]

Bu videoda, el yazısıyla yazılmış ikili bir model öğrenen kısıtlı bir Boltzmann makinesinin (RBM) basit bir örneğini göstereceğiz. Model eğitildikten sonra, ikileri yeniden oluşturma yeteneğini değerlendireceğiz ve yeniden yapılandırması için farklı bir rakam verildiğinde davranışını gözlemleyeceğiz. Ek olarak, çeşitli rakam sınıflarını yeniden yapılandırmak ve modellemek için etkili olan çok çeşitli özellikleri öğrenen tüm rakam sınıflarında daha büyük bir RBM çalıştırarak elde edilen ağırlıkları inceleyeceğiz.

Bu örnekte kullanılan RBM, 16x16 piksel ikili görüntüye ve özellik algılayıcı olarak işlev gören 50 ikili gizli birime sahiptir. Bir veri durumu sunulduğunda, RBM, piksellerden özellik dedektörlerine giden ağırlıkları ve bağlantıları kullanarak özellik dedektörlerini etkinleştirir. Her ikili nöron, 1 veya 0 durumunu benimsemek için stokastik bir karar verir. Daha sonra RBM, her piksel için ikili kararlar vererek verileri yeniden yapılandırmak için bu aktivasyonları kullanır. Ağırlıklar, veri işleme sırasında aktif pikseller ve aktif özellik dedektörleri arasındaki ağırlıklar artırılarak ve yeniden oluşturma sırasında ağırlıklar azaltılarak güncellenir.

Başlangıçta, ağırlıklar rastgeledir ve yeniden yapılandırmalar verilerden daha düşük enerjiye sahiptir. Yüzlerce rakam örneği ve ağırlık ayarlamaları üzerinde eğitim yoluyla, ağırlıklar yavaş yavaş desenler oluşturur. Birçok özellik algılayıcı, eğitim ilerledikçe daha yerel hale gelen küresel algılayıcılar olarak başlar. Nihai ağırlıklar, her nöronun farklı bir özellik dedektörü haline geldiğini ve çoğu dedektörün doğası gereği yerel olduğunu ortaya koyuyor. Örneğin, bir özellik detektörü, ikilinin tepesi mevcut olduğunda beyaz piksellerini ve hiçbir şey olmadığında siyah piksellerini etkinleştirerek ikilinin tepesini algılayabilir.

Modeli öğrendikten sonra, yeniden oluşturma yeteneklerini değerlendirebiliriz. Bir iki test örneği verildiğinde, yeniden yapılandırma biraz bulanık olsa da genellikle sadıktır. Ancak, üç gibi farklı bir rakam sınıfından bir test örneği sağlarsak, RBM üç yerine ikiye benzeyen bir görüntüyü yeniden oluşturur. Bu davranış, RBM'nin öncelikle ikilere özgü özellik algılayıcıları öğrendiği ve diğer basamakların belirli özellikleri için algılayıcılardan yoksun olduğu için oluşur.

Ayrıca, on basamaklı sınıfların tümü üzerinde eğitilmiş daha büyük bir RBM'nin ilk gizli katmanında öğrenilen özellik algılayıcıları sergiliyoruz. Bu özellik dedektörleri çok çeşitli modeller sergiler. Bazıları eğimli çizgiler gibi belirli özellikleri algılarken, diğerleri verilerin normalleştirilmesiyle ortaya çıkan uzun menzilli veya uzamsal düzenlilikleri yakalar. Genel olarak, RBM, giriş verilerindeki özellikleri temsil etmenin ve algılamanın karmaşık yollarını öğrenme yeteneğini gösterir.

Ek olarak, bu gösteride kullanılan RBM'nin 500 gizli birimden oluştuğunu ve on basamaklı sınıfın tümünü modellemesine izin verdiğini belirtmek isterim. Bu model, kontrastlı sapma adı verilen bir teknik kullanılarak kapsamlı bir eğitimden geçmiştir. Sonuç olarak, çok çeşitli özellik dedektörleri edinmiştir.

Gizli katmandaki özellik algılayıcıları incelerken ilgi çekici örüntüler gözlemliyoruz. Örneğin, çapraz çizgilerin varlığını algılamak için uygun görünen, mavi kutu ile gösterilen bir özellik dedektörü vardır. Öte yandan, kırmızı kutudaki özellik dedektörü benzersiz bir özellik sergiliyor. Görüntünün altına çok yakın olan pikselleri etkinleştirmeyi tercih eder ve alttan 21 piksel yukarıya konumlandırılan belirli bir satırdaki pikselleri sevmez. Bu davranış, rakamların 20 piksel yüksekliğini aşamadığı verilerin normalleştirilmesinden kaynaklanmaktadır. Sonuç olarak, pozitif ağırlık bölgesinde etkinleştirilen bir piksel aynı anda negatif ağırlık bölgesinde etkinleşemez ve bu uzun menzilli düzenliliğin öğrenilmesiyle sonuçlanır.

Ayrıca, yeşil kutuda vurgulanan başka bir özellik dedektörü ilginç bir özelliği gösterir. Dikey vuruşun alt konumunu algılar ve ara konumları göz ardı ederek birden çok konumda algılayabilir. Bu davranış, sayının büyüklüğü arttıkça aktif ve pasif olma arasında gidip gelen bir ikili sayıdaki en önemsiz basamağa benzer. RBM'nin uzamsal ilişkilerin ve konumların karmaşık temsillerini geliştirme yeteneğini gösterir.

Bu örnekler, RBM'nin girdi verilerinden anlamlı özellikler öğrenme ve çıkarma kapasitesini göstermektedir. RBM, öğrenme sürecinde ağırlıkları ayarlayarak, yeniden yapılandırmalar için daha yüksek enerjiyi korurken verilerin düşük enerjiye sahip olmasını sağlamayı amaçlar. Bu öğrenme mekanizması, RBM'nin basamak görüntülerini etkili bir şekilde modellemesini ve yeniden oluşturmasını, öğrenilen gösterimlerinde basamakların hem genel hem de yerel özelliklerini yakalamasını sağlar.

Lecture 12.4 — An example of RBM learning [Neural Networks for Machine Learning]
Lecture 12.4 — An example of RBM learning [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 12.5 — İşbirlikçi filtreleme için RBM'ler



Ders 12.5 — İşbirlikçi filtreleme için RBM'ler [Makine Öğrenimi için Sinir Ağları]

Bu videoda, işbirlikçi filtrelemede Kısıtlı Boltzmann Makinelerinin (RBM'ler) uygulamasını, özellikle Netflix yarışması bağlamında tartışacağız. İşbirlikçi filtreleme, bir kullanıcının diğer ürünlere yönelik tercihlerine ve diğer kullanıcıların tercihlerine dayalı olarak bir ürünü ne kadar seveceğini tahmin etmeyi içerir. Netflix yarışması, katılımcıları, diğer filmlere verdikleri puanlara göre bir kullanıcının bir filmi ne kadar seveceğini tahmin etmeye zorlar.

Bu yarışma için eğitim verileri, yarım milyon kullanıcı tarafından on sekiz bin film için yüz milyon derecelendirmeye sahip büyük bir veri setinden oluşuyor. Çoğu film için eksik derecelendirme sorununun üstesinden gelmek için, RBM'leri kullanırken önemli bir numara kullanılır. Bu numara kullanılarak, modeller etkili bir şekilde eğitilebilir ve yarışmada kazanan girişin gösterdiği gibi pratikte yararlı oldukları kanıtlanabilir.

İşbirlikçi filtreleme için RBM'leri kullanma yaklaşımı, her kullanıcının bir film derecelendirme vektörü olarak temsil edildiği bir eğitim durumu olarak ele alınmasını içerir. Her film için, ikili birimler yerine beş alternatif değere (beş yollu softmax) sahip görünür bir birim kullanılır. RBM mimarisi, filmleri ve ikili gizli birimleri temsil eden görünür birimlerden oluşur. RBM'ler, aynı filmi derecelendiren kullanıcılar arasında ağırlıkları paylaşarak, ağırlık paylaşımına izin verir ve parametre sayısını azaltır. CD (karşıtlıklı sapma) öğrenimi, başlangıçta CD1 ile ve daha sonra CD3, CD5 ve CD9 ile RBM'leri eğitmek için uygulanır.

RBM modelleri, işbirlikçi filtrelemede yaygın olarak kullanılan matris çarpanlara ayırma yöntemleriyle karşılaştırılabilir şekilde performans gösterir. Ancak farklı hatalar veriyorlar. RBM'lerin tahminlerini matris çarpanlarına ayırma modellerinin tahminleriyle birleştirmek, önemli gelişmeler sağlar. Netflix yarışmasını kazanan grup, daha iyi tahminler elde etmek için birden fazla RBM modelini ve matris çarpanlara ayırma modellerini bir araya getirdi.

Özetle, Netflix yarışması için işbirlikçi filtrelemede Kısıtlı Boltzmann Makinelerinin (RBM'ler) uygulanması, filmleri ve ikili gizli birimleri temsil eden görünür birimlerle RBM'ler kullanarak her kullanıcıyı bir eğitim vakası olarak ele almayı içeriyordu. RBM'ler, aynı filmi derecelendiren kullanıcılar arasında ağırlık paylaşımından yararlanarak, büyük veri kümesini etkili bir şekilde işleyebilir.

RBM'ler, CD1, CD3, CD5 ve CD9 yinelemeleriyle CD öğrenimi kullanılarak eğitildi ve işbirlikçi filtrelemede yaygın olarak kullanılan matris çarpanlarına ayırma modellerine benzer şekilde performans gösterdiler. Bununla birlikte, RBM'ler ve matris çarpanlara ayırma modellerinin kombinasyonu, tahminlerde önemli bir gelişme sağladı. Netflix yarışmasında kazanan katılımcı, bu yaklaşımın etkinliğini sergileyen birden fazla RBM modeli ve matris çarpanlarına ayırma modelleri kullandı.

İşbirlikçi filtrelemede RBM'lerin kullanılması, milyonlarca derecelendirmeye sahip Netflix veri kümesi gibi büyük ve seyrek veri kümelerini işleme yeteneklerini gösterir. RBM'ler, kullanıcılar ve filmler arasındaki ilişkileri modelleyerek doğru tahminler yapmak ve öneri sistemlerini geliştirmek için güçlü bir araç sağlar.

İşbirlikçi filtrelemede RBM'lerin başarılı bir şekilde uygulanması, bunların makine öğrenimi ve öneri sistemleri alanındaki yararlılığını gösterir ve tahmin doğruluğunu daha da artırmak için topluluk yaklaşımlarını kullanma potansiyelini vurgular.

Lecture 12.5 — RBMs for collaborative filtering [Neural Networks for Machine Learning]
Lecture 12.5 — RBMs for collaborative filtering [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 13.1 — Geri yayılımın iniş ve çıkışları



Ders 13.1 — Geri yayılımın iniş ve çıkışları [Makine Öğrenimi için Sinir Ağları]

Video, 1970'ler ve 1980'lerdeki kökenlerini ve 1990'larda neden gözden düştüğünü vurgulayarak geri yayılımın tarihini tartışıyor. Geri yayılımın, birden çok doğrusal olmayan özellik katmanını işleyemediği için başarısız olduğu şeklindeki yaygın inanca meydan okur. Bunun yerine, terk edilmesinin ana nedenleri, o sırada mevcut olan sınırlı bilgi işlem gücü ve küçük veri kümeleriydi.

Geri yayılım, 1960'ların sonlarında Bryson ve Ho, 1974'te Paul Wallace, 1981'de Rama Hart ve Williams, 1985'te David Parker ve Youngocar dahil olmak üzere farklı araştırmacılar tarafından bağımsız olarak birçok kez icat edildi. Başlangıçta, belirli görevler için iyi çalışmadı, araştırmacıların onu terk etmesine neden olur. Bununla birlikte, 1986'da bir makale, doğrusal olmayan özellik dedektörlerinin çoklu katmanlarını öğrenme potansiyelini gösterdi.

1990'ların sonlarında, çoğu makine öğrenimi araştırmacısı geri yayılımdan vazgeçti ve bunun yerine destek vektör makinelerini (SVM'ler) tercih etti. Popüler açıklama, geri yayılımın çoklu gizli katmanlar ve tekrarlayan ağlarla mücadele etmesiydi. Bununla birlikte, tarihsel bir bakış açısından, başarısızlığının gerçek nedenleri, sınırlı bilgi işlem gücü ve geri yayılımın görme ve konuşma gibi karmaşık görevlerde parlamasını önleyen küçük etiketli veri kümeleriydi.

Farklı makine öğrenimi görevlerinin farklı gereksinimleri vardır. İstatistikte, gürültülü düşük boyutlu veriler, gerçek yapının gürültüden ayrılmasını gerektirir. Bayes sinir ağları bunu iyi bir şekilde halledebilirken, geri yayılım gibi Bayes olmayan sinir ağları o kadar etkili değildir. Destek vektör makineleri ve Gauss süreçleri bu tür görevler için daha uygundur. Yapay zekada, karmaşık yapıya sahip yüksek boyutlu veriler, geri yayılımın birden çok katmandan ve geniş hesaplama gücünden yararlanarak öğrenebileceği uygun temsillerin bulunmasını gerektirir.

Çekirdek hilesi ile algılayıcıların bir uzantısı olarak görüldüklerine dikkat çekilerek destek vektör makinelerinin sınırlamaları tartışıldı. Uyarlanabilir olmayan özelliklere ve bir uyarlanabilir ağırlık katmanına güvenirler. İyi çalıştıkları halde, çoklu temsil katmanlarını öğrenemezler. Video ayrıca, geri yayılımla eğitilmiş büyük sinir ağlarının teorik olarak anlaşılması ve gelecekteki kullanımına ilişkin Larry Jackel ve Vladimir Vapnik arasında bir iddia olan 1995 tarihli tarihi bir belgeden de kısaca bahsediyor. Nihayetinde, sınırlamalar teorik olmaktan çok pratik olduğundan, bahsin her iki tarafının da yanlış olduğu kanıtlandı.

1990'lardaki geri yayılımın başarısızlığı, içsel yeteneklerinden ziyade bilgi işlem gücünün ve küçük veri kümelerinin sınırlamalarına bağlanabilir. Hâlâ karmaşık görevler için potansiyele sahipti ve sonunda daha büyük veri kümeleri ve daha güçlü bilgisayarlar kullanıma sunulduğunda başarılı oldu. Video, uygun algoritmaları seçerken farklı makine öğrenimi görevlerini ve bunların özel gereksinimlerini dikkate almanın önemini vurguluyor.

Lecture 13.1 — The ups and downs of backpropagation [Neural Networks for Machine Learning]
Lecture 13.1 — The ups and downs of backpropagation [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 13.2 - İnanç Ağları



Ders 13.2 — İnanç Ağları [Makine Öğrenimi için Sinir Ağları]

1990'larda, o zamanlar kıt olan çok sayıda etikete dayanması nedeniyle geri yayılımı terk ettim. Ancak, birkaç açık etiketle öğrenmenin başarısından ilham aldım. Kapsamlı etiketlere ihtiyaç duymadan gradyan iniş öğreniminin faydalarını korumak için alternatif amaç fonksiyonlarını araştırdım. Etiketleri tahmin etmek yerine girdi verilerini modellemeyi amaçlayan üretken modeller, bu arayışla çok iyi uyum sağladı. Ayrık grafik yapılarını gerçek değerli hesaplamalarla birleştiren bir kavram olan grafik modeller, istatistik ve yapay zekada umut verici bir yaklaşım olarak ortaya çıktı. Boltzmann makineleri, yönlendirilmemiş grafik modellerin ilk örnekleriyken, 1992'de Bradford Neil, Boltzmann makinelerine benzer birimler kullanan sigmoid inanç Ağları adı verilen yönlendirilmiş grafik modelleri tanıttı. O zaman zorluk, bu sigmoid inanç Ağlarının nasıl öğrenileceği oldu.

Sigmoid inancını öğrenmek Nets birden fazla sorunla karşılaştı. Birden fazla gizli katmana sahip derin ağlar, yavaş öğrenmeden muzdaripti. Zayıf ağırlık başlatmanın bu soruna katkıda bulunduğu keşfedildi. Geri yayılım ayrıca, oldukça iyi olmasına rağmen, derin Ağlar için optimal olmaktan uzak olan, yetersiz yerel optimumda takılıp kalma eğilimindeydi. Dışbükey optimizasyona izin veren daha basit modellere geri çekilmek bir olasılık olsa da, gerçek dünya verilerinin karmaşıklığını ele almıyordu. Bu sınırlamaların üstesinden gelmek için denetimsiz öğrenme bir çözüm olarak ortaya çıktı. Denetimsiz öğrenmeyi kullanarak, gradyan yöntemlerinin verimliliğinden ve basitliğinden ve ağırlık ayarı için stokastik mini toplu inişten yararlanabildik. Bununla birlikte, odak, girdi-çıktı ilişkisinden ziyade duyusal girdinin yapısını modellemeye kaydırıldı. Ağırlıklar, gözlemlenen duyusal girdiyi üreten üretken modelin olasılığını maksimize edecek şekilde ayarlanacaktır.

İki temel sorun ortaya çıktı: çıkarım sorunu ve öğrenme sorunu. Çıkarım problemi, gözlemlenmemiş değişkenlerin durumlarının çıkarımını içermekte olup, birbirlerinden bağımsız olmadıkları düşünüldüğünde bu değişkenler üzerinden olasılık dağılımları türetmeyi amaçlamaktadır. Öğrenme problemi, ağın eğitim verilerini üretme olasılığını artırmak için değişkenler arasındaki etkileşimleri ayarlamayı içeriyordu. Hangi düğümlerin diğerlerini etkilediğini ve etkilerinin gücünü belirlemeyi gerektiriyordu.

Grafik modellerin ve sinir ağlarının evliliğinin benzersiz bir dinamiği vardı. İlk grafik modeller, çıkarım problemini çözmeyi amaçlayan uzman tanımlı grafik yapılarına ve koşullu olasılıklara dayanıyordu. Öte yandan, sinir ağları öğrenmeye öncelik verdi ve elle kablolama bilgisinden kaçındı. Sinir ağları, kolay çıkarım için yorumlanabilirlikten ve seyrek bağlantıdan yoksun olsa da, eğitim verilerinden öğrenme avantajına sahipti. Bununla birlikte, inanç ağlarının sinir ağı versiyonları geliştirildi. İdealleştirilmiş nöronları kullanarak üretken modeller oluştururken, iki tür ortaya çıktı: enerji tabanlı modeller ve nedensel modeller. Enerji tabanlı modeller, Boltzmann makinelerinde sonuçlanan ikili stokastik nöronlar arasındaki simetrik bağlantıları kullandı. Boltzmann makinelerini öğrenmek zor olsa da, bağlanabilirliği kısıtlamak, kısıtlı Boltzmann makineleri için öğrenmeyi kolaylaştırdı. Ancak bu yaklaşım, birden çok gizli katmana sahip sinir ağlarının gücünü sınırlamıştır. İkili stokastik nöronlarla yönlendirilmiş asiklik grafikler kullanan nedensel modeller, sigmoid inanç Ağlarına yol açtı. 1992'de Neil, sigmoid inanç Ağlarının Boltzmann makinelerine kıyasla öğrenmenin biraz daha kolay olduğunu gösterdi. Bir sigmoid inanç Ağında, tüm değişkenler ikili stokastik nöronlardır ve veri üretimi, nihai olarak görünür değerlerin tarafsız örneklerini üreten, katman katman stokastik kararlar vermeyi içerir.

Nedensel modelleri veya hibrit yaklaşımları benimseyerek, geri yayılımın sınırlamalarının üstesinden gelebilir ve duyusal girdinin yapısını etkili bir şekilde modellemek için denetimsiz öğrenmeden yararlanabiliriz.

Nöronlardan oluşan nedensel inanç ağlarına girmeden önce, yapay zeka (AI) ile olasılık arasındaki ilişki hakkında biraz bilgi vermek önemlidir. 1970'lerde ve 1980'lerin başında, AI topluluğu içinde olasılığa karşı güçlü bir direniş vardı. Olasılık elverişsiz olarak kabul edildi ve yapay zeka araştırmacıları, olasılıksal unsurları dahil etmeden ayrı sembol işlemeyi tercih ettiler. Bununla birlikte, kayda değer bir istisna, biçimsel mantık ile termodinamik arasındaki bağlantı potansiyelini, özellikle Boltzmann'ın çalışmasını fark eden John von Neumann'dı. Ne yazık ki, von Neumann'ın fikirleri yaşamı boyunca ilgi görmedi.

Sonunda olasılıklar, grafik teorisini ve olasılık teorisini birleştiren grafik modellerin geliştirilmesi yoluyla yapay zekanın yolunu buldu. 1980'lerde yapay zeka araştırmacıları, tıbbi teşhis veya maden arama gibi belirsizliği içeren pratik problemler üzerinde çalışıyorlardı. Olasılıklara karşı bir isteksizlik olmasına rağmen, olasılıkları kullanmanın geçici yöntemlerden daha etkili olduğu ortaya çıktı. Perl Hackerman Lauritzen ve diğerleri tarafından tanıtılan grafik modeller, belirsizliği temsil etmek ve grafik yapılarına dayalı olasılık hesaplamaları yapmak için bir çerçeve sağladı.

Grafik modeller, çeşitli model türlerini kapsar ve bir alt küme, inanç ağlarıdır. İnanç Ağları, stokastik değişkenlerden oluşan yönlendirilmiş asiklik grafiklerdir. Bu grafikler genellikle seyrek bağlantılı düğümlere sahiptir ve gözlemlenmemiş düğümlerin olasılıklarını hesaplayan verimli çıkarım algoritmalarına izin verir. Bununla birlikte, bu algoritmalar, yoğun şekilde bağlı ağlara uygulandığında katlanarak karmaşık hale gelir.

Bir inanç ağı, üretken bir model olarak hizmet eder ve onun çıkarım problemi, bu değişkenler üzerinde olasılık dağılımları ile sonuçlanan, gözlemlenmemiş değişkenlerin durumlarını belirlemeyi içerir. Öğrenme problemi, gözlemlenen eğitim verilerini oluşturma olasılığını artırmak için değişkenler arasındaki etkileşimleri ayarlamaya odaklanır.

Sinir ağları bağlamında, grafik modeller ile sinir ağları arasında bir bağlantı vardır. İlk grafik modeller, öncelikle çıkarım problemini ele alan, uzman tanımlı grafik yapılarına ve koşullu olasılıklara dayanıyordu. Öte yandan, sinir ağları, eğitim verilerinden öğrenmeyi vurguladı ve el yapımı bilgiden kaçındı. Sinir ağları yorumlanabilirlikten ve seyrek bağlantıdan yoksun olsa da, öğrenme yoluyla uyarlanabilirlik avantajı sunuyordu.

İdealleştirilmiş nöronlarla üretken modeller oluşturmak için iki ana tip düşünülebilir. Boltzmann makineleri gibi enerji tabanlı modeller, ikili stokastik nöronları simetrik olarak bağlar. Ancak Boltzmann makinelerini öğrenmek zordur. Diğer bir seçenek, ikili stokastik nöronlardan oluşan yönlendirilmiş asiklik grafikleri kullanan nedensel modellerdir. 1992'de Neil, öğrenmesi Boltzmann makinelerinden daha kolay olan sigmoid inanç ağlarını tanıttı. Sigmoid inanç ağları, tüm değişkenlerin ikili stokastik nöronlar olduğu nedensel modellerdir.

Sigmoid inanç Ağı gibi nedensel bir modelden veri üretmek için stokastik kararlar, en üst katmandan başlayarak ve görünür etkilere kadar kademeli olarak katman katman verilir. Bu süreç, sinir ağının inançlarına göre tarafsız bir görünür değer örneği verir.

Denetimsiz öğrenmeyi benimseyerek ve nedensel modelleri veya hibrit yaklaşımları kullanarak, geri yayılımın sınırlamalarının üstesinden gelmek ve duyusal girdinin yapısını etkili bir şekilde modellemek için denetimsiz öğrenmenin gücünden yararlanmak mümkündür. Bu ilerlemeler, derin sinir ağlarının ortaya çıkardığı zorlukları ele almak için umut verici bir yol sağlıyor ve daha sofistike ve verimli öğrenme algoritmalarının önünü açıyor.

Sonuç olarak, inanç ağlarının keşfi ve bunların sinir ağlarıyla bağlantısı yapay zeka ve olasılıksal modelleme için yeni olanaklar açtı. Yapay zekada olasılığa karşı ilk direncin üstesinden gelindi ve belirsizliği temsil etmek ve olasılık hesaplamaları yapmak için güçlü bir çerçeve olarak grafik modeller ortaya çıktı.

İnanç Ağları, özellikle sigmoid inanç Ağları, Boltzmann makineleri gibi enerji tabanlı modellere kıyasla üretken modellemeye alternatif bir yaklaşım sunar. Sigmoid inanç ağları, yönlendirilmiş asiklik grafikleri ve ikili stokastik nöronları kullanarak, veri oluşturmak ve eğitim setlerinden daha etkili bir şekilde öğrenmek için bir araç sağlar.

Denetimsiz öğrenmenin nedensel modeller veya hibrit yaklaşımlarla entegrasyonu, derin sinir ağlarında geri yayılımın sınırlamalarını ele alma potansiyeline sahiptir. Duyusal girdinin yapısını modelleyerek ve gözlemlenen verilerin olasılığını en üst düzeye çıkaran bu yaklaşımlar, gerçek dünya verilerinin karmaşıklığını yakalarken gradyan yöntemlerinin verimliliğinden ve basitliğinden yararlanmanın bir yolunu sunar.

Yapay zekanın evrimi ve olasılığın benimsenmesi, alanı yeniden şekillendirerek araştırmacıların daha sağlam ve uyarlanabilir modeller geliştirmesini sağladı. Yolculuk devam ederken, olasılıksal modelleme, sinir ağları ve denetimsiz öğrenmede daha fazla ilerlemenin ortaya çıkması muhtemeldir ve bu da daha sofistike ve akıllı yapay zeka sistemlerine yol açacaktır.

Araştırmacılar, grafik modellerin ve sinir ağlarının güçlü yönlerini birleştirerek, karmaşık ve belirsiz ortamlarda anlama, öğrenme ve karar verme için yeni olasılıkların kilidini açarak yapay zekanın sınırlarını zorlamaya devam edebilirler.

Lecture 13.2 — Belief Nets [Neural Networks for Machine Learning]
Lecture 13.2 — Belief Nets [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 13.3 — Sigmoid inanç ağlarını öğrenmek



Ders 13.3 — Sigmoid inanç ağlarını öğrenme [Makine Öğrenimi için Sinir Ağları]

Video, sigmoid inanç ağlarını öğrenmenin zorluklarını tartışıyor ve bu zorlukların üstesinden gelmek için iki farklı yöntem sunuyor. Boltzmann makinelerinden farklı olarak, sigmoid inanç ağları öğrenme için iki farklı aşama gerektirmez, bu da süreci basitleştirir. Bunlar, bölme işlevleri ve türevleriyle uğraşma ihtiyacını ortadan kaldıran, yerel olarak normalleştirilmiş modellerdir.

Sigmoid inanç ağlarında öğrenme, gözlemlenen veriler üzerinden gizli birimler üzerinden sonsal dağılımdan yansız örnekler elde edebilirsek kolaylaşır. Bununla birlikte, sonsal dağılımı etkileyen "açıklama" adı verilen bir olgu nedeniyle yansız örneklem elde etmek zordur. Bu fenomen, gözlemlenen bir etki meydana geldiğinde gizli nedenler arasındaki anti-korelasyondan kaynaklanır.

Birden fazla gizli değişken katmanına sahip derin sigmoid inanç ağlarında öğrenmek daha da zorlaşıyor. Gizli değişkenlerin ilk katmanı üzerindeki sonsal dağılım, açıklama nedeniyle faktöriyel değildir ve gizli değişkenler arasındaki korelasyonlar hem önceki hem de sonda mevcuttur. İlk katman için önceki terimi hesaplamak, öğrenme sürecini karmaşık hale getirerek daha yüksek katmanlardaki tüm olası aktivite modellerini entegre etmeyi gerektirir.

Derin inanç ağlarını öğrenmek için iki yöntem tartışılmaktadır: Monte Carlo yöntemi ve varyasyonel yöntemler. Monte Carlo yöntemi, sonsal dağılıma yaklaşmak ve örnekler elde etmek için bir Markov zinciri çalıştırmayı içerir. Ancak, büyük derin inanç ağları için yavaş olabilir. Varyasyonel yöntemler ise, posteriora yaklaşan farklı bir dağılımdan yaklaşık örnekler elde etmeyi amaçlar. Tarafsız olmamakla birlikte, bu örnekler yine de maksimum olasılıklı öğrenme için kullanılabilir ve log olasılığının alt sınırını yükselterek, verilerin modellenmesinde iyileştirmeler yapılabilir.

Sigmoid inanç ağlarında öğrenme, özellikle derin ağlarda zorluklar ortaya çıkarır, ancak Monte Carlo yöntemi ve varyasyonel yöntemler, bu zorlukları ele alan ve öğrenmeyi mümkün kılan yaklaşımlar sağlar.

Lecture 13.3 — Learning sigmoid belief nets [Neural Networks for Machine Learning]
Lecture 13.3 — Learning sigmoid belief nets [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 13.4 — Uyanık uyku algoritması



Ders 13.4 — Uyanık uyku algoritması [Makine Öğrenimi için Sinir Ağları]

Uyandırma-uyku algoritması, sigmoid inanç ağları gibi yönlendirilmiş grafik modeller için kullanılan bir öğrenme yöntemidir. İki aşamadan oluşur: uyanıklık aşaması ve uyku aşaması. Yönsüz grafik modeller için kullanılan Boltzmann makinelerinden farklı olarak, uyandırma-uyku algoritması özellikle sigmoid inanç ağları için tasarlanmıştır.

Algoritma, karmaşık grafik modelleri öğrenmek için sonsal dağılıma yaklaşan bir makine öğrenimi yaklaşımı olan varyasyonel öğrenmenin bir parçasıdır. Genellikle zor olan kesin sonsal dağılımı hesaplamak yerine, varyasyonel öğrenme ona daha ucuz bir yaklaşımla yaklaşır. Daha sonra, bu yaklaşıma dayalı olarak maksimum olabilirlik öğrenmesi uygulanır.

Şaşırtıcı bir şekilde, öğrenme süreci hala etkili bir şekilde çalışıyor, iki faktör tarafından yönlendiriliyor: modelin gözlemlenen verileri üretme becerisini geliştirmek ve yaklaşık arkayı gerçek arkaya uydurmak. Bu etki, varyasyonel öğrenmenin sigmoid inanç ağları için iyi çalışmasına izin verir.

Uyandırma-uyku algoritması iki ağırlık seti kullanır: üretken ağırlıklar ve tanıma ağırlıkları. Uyanma aşamasında, veriler görünür katmana beslenir ve tanıma ağırlıkları kullanılarak bir ileri geçiş gerçekleştirilir. Stokastik ikili kararlar, her gizli birim için bağımsız olarak yapılır ve stokastik ikili durumlar üretilir. Bu durumlar, gerçek sonsal dağılımdan örnekler olarak ele alınır ve üretken ağırlıklara maksimum olasılıklı öğrenme uygulanır.

Uyku fazında süreç tersine çevrilir. En üst gizli katmandaki rastgele bir vektörden başlayarak, üretici ağırlıklar kullanılarak her katman için ikili durumlar oluşturulur. Amaç, verilerden gizli durumları kurtarmaktır. Tanıma ağırlıkları bunu başarmak için eğitilir.

Uyandırma-uyku algoritması, tanıma ağırlıklarının doğru gradyanı takip etmemesi ve bağımsızlık yaklaşımı nedeniyle yanlış mod ortalama alma gibi kusurlara sahiptir. Bu sınırlamalara rağmen, Karl Friston gibi bazı araştırmacılar beynin çalışma şekline benzediğine inanıyor. Ancak diğerleri gelecekte daha iyi algoritmaların keşfedileceğini düşünüyor.

Uyandırma-uyku algoritması, arka dağılıma yaklaşır ve üretken bir model öğrenmek için uyanma ve uyku aşamaları arasında geçiş yapar. Sınırlılıklarına rağmen, makine öğrenimi alanında etkili olmuştur.

Lecture 13.4 — The wake sleep algorithm [Neural Networks for Machine Learning]
Lecture 13.4 — The wake sleep algorithm [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 14.1 — RBM'leri istifleyerek özellik katmanlarını öğrenme



Ders 14.1 — RBM'leri istifleyerek özellik katmanlarını öğrenme [Makine Öğrenimi için Sinir Ağları]

Bu videoda, konuşmacı sigmoid inanç ağlarını öğrenmeye yönelik farklı bir yaklaşımı tartışıyor. Sigmoid inanç ağları üzerinde çalışırken odak noktalarını Boltzmann makinelerine kaydırdıklarını ve kısıtlayıcı Boltzmann makinelerinin verimli bir şekilde öğrenilebileceğini keşfettiklerini açıklıyorlar. Kısıtlayıcı bir Boltzmann makinesi tarafından öğrenilen özellikleri veri olarak ele alarak, bu özellikler arasındaki korelasyonları modellemek için başka bir kısıtlayıcı Boltzmann makinesini uygulayabileceklerini fark ettiler. Bu, derin sinir ağlarına olan ilginin yeniden canlanmasına yol açan birden çok doğrusal olmayan özellik katmanını öğrenmek için birden çok Boltzmann makinesini bir araya getirme fikrine yol açtı.

Konuşmacı daha sonra istiflenmiş Boltzmann makinelerini tek bir modelde birleştirmenin zorluğunu araştırıyor. Çok katmanlı bir Boltzmann makinesi beklenirken, Yitay adlı bir öğrenci, sonucun bir sigmoid inanç ağına daha çok benzediğini keşfetti. Bu beklenmedik bulgu, Boltzmann makineleri gibi yönlendirilmemiş modelleri öğrenmeye odaklanarak derin sigmoid inanç ağlarını öğrenme sorununu çözdü.

Konuşmacı, doğrudan piksellerden girdi alan bir özellik katmanını eğitme sürecini ve bu özelliklerin aktivasyon modellerini başka bir özellik katmanını öğrenmek için kullanma sürecini açıklar. Bu işlem, her katmanın aşağıdaki katmandaki ilişkili aktiviteyi modellediği birden fazla katmanı öğrenmek için tekrarlanabilir. Başka bir özellik katmanı eklemenin, veri üretmenin günlük olasılığı üzerindeki varyasyonel bir alt sınırı iyileştirdiği kanıtlanmıştır.

Boltzmann makinelerini tek bir modelde birleştirmek için konuşmacı, her makineyi ayrı ayrı öğrenme ve ardından bunları bir araya getirme prosedürünü açıklıyor. Ortaya çıkan birleşik model, kısıtlayıcı bir Boltzmann makinesine benzeyen üst katmanlardan ve sigmoid bir inanç ağına benzeyen alt katmanlardan oluşan derin inanç ağı olarak adlandırılır. Konuşmacı ayrıca Boltzmann makinelerini istiflemenin faydalarını tartışıyor ve faktör dağılımlarının ortalamasının alınması kavramını açıklıyor. İki faktörlü dağılımın ortalamasının nasıl bir faktöriyel dağılımla sonuçlanmadığını gösterirler. Video, Boltzmann makinelerini istifleme ve uyandırma-uyku algoritmasının bir varyasyonunu kullanarak bileşik modelde ince ayar yapma öğrenme sürecini daha ayrıntılı olarak ele alıyor. Üç öğrenme aşaması, üretken ve tanıma ağırlıklarının ayarlanmasını, gizli ve görünür birimleri örneklemeyi ve kontrastlı sapma kullanarak ağırlıkları güncellemeyi içerir.

28x28 piksel görüntülerdeki on basamaklı sınıfın tümünü öğrenmek için 500 ikili gizli birimin kullanıldığı bir örnek sunulmuştur. RBM'yi eğittikten sonra, öğrenilen özellikler tanıma ve oluşturma görevleri için kullanılır.

Video, derin inanç ağlarını öğrenmek için yığılmış Boltzmann makinelerini kullanmanın beklenmedik keşfini vurguluyor ve ilgili öğrenme ve ince ayar süreçlerine ilişkin içgörüler sağlıyor.

Lecture 14.1 — Learning layers of features by stacking RBMs [Neural Networks for Machine Learning]
Lecture 14.1 — Learning layers of features by stacking RBMs [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Ders 14.2 — DBN'ler için ayrımcı öğrenme



Ders 14.2 — DBN'ler için ayrımcı öğrenme [Makine Öğrenimi için Sinir Ağları]

Bu videoda, derin bir inanç ağını öğrenme sürecini keşfediyoruz. İlk katmanları oluşturmak için kısıtlayıcı Boltzmann makinelerini istifleyerek başlıyoruz ve bunlar daha sonra derin bir sinir ağı olarak ele alınıyor. Üretken yöntemler yerine ayrımcı yöntemler kullanarak bu ağa ince ayar yapıyoruz ve sınıflar arasında ayrım yapma yeteneğini geliştirmeyi amaçlıyoruz. Bu yaklaşımın konuşma tanıma üzerinde önemli bir etkisi oldu ve önde gelen birçok grubun bu alandaki hata oranlarını azaltmak için derin sinir ağlarını benimsemesine yol açtı.

Derin ağda ince ayar yapmak için, istiflenmiş kısıtlayıcı Boltzmann makinelerini kullanarak her seferinde bir özellik katmanı öğrendiğimiz bir ön eğitim aşamasını takip ediyoruz. Bu ön eğitim aşaması, derin sinir ağı için iyi bir başlangıç ağırlık seti sağlar. Daha sonra, ağı ayrımcılık için daha da iyileştirmek ve optimize etmek için yerel bir arama prosedürü olan geri yayılımı kullanırız. Ön eğitim ve ince ayarın bu kombinasyonu, geleneksel geri yayılımın sınırlamalarının üstesinden gelir, derin sinir ağlarını öğrenmeyi kolaylaştırır ve genelleme yeteneklerini geliştirir.

Ön eğitim, optimizasyon ve genelleme açısından faydalar sunar. Özellikle her katman yerellik gösterdiğinde, büyük ağlar için iyi ölçeklenir. Geniş ölçüde ayrılmış konumlar arasında daha az etkileşim olduğu için öğrenme süreci daha paralel hale gelir. Ek olarak, ön eğitim, mantıklı özellik algılayıcılarla geri yayılımı başlatmamıza izin vererek, rasgele ağırlıklara kıyasla daha anlamlı ilk gradyanlarla sonuçlanır. Ayrıca, önceden eğitilmiş ağlar daha az aşırı uyum sergiler çünkü nihai ağırlıklardaki bilgilerin çoğu, tipik olarak etiketlerin kendisinden daha fazla bilgi içeren girdi dağılımının modellenmesinden gelir.

Ön eğitimin kullanılması, eldeki ayırt edici görev için ilgisiz özelliklerin öğrenilmesine yol açabileceği itirazını da ele alır. Hiç kullanılmayan özellikleri öğrenebileceğimiz doğru olsa da, modern bilgisayarların hesaplama gücü bu verimsizliği karşılamamızı sağlıyor. Öğrenilen özellikler arasında, ham girdileri aşan ve kullanılmayan özellikleri telafi eden oldukça faydalı olanlar her zaman olacaktır. Ayrıca ön eğitim, yeni özellikleri keşfetmek için geriye yayılım üzerindeki yükü azaltarak büyük miktarda etiketlenmiş veriye olan ihtiyacı azaltır. Etiketlenmemiş veriler, eğitim öncesi aşamada iyi özelliklerin keşfedilmesi için değerli olmaya devam eder.

Eğitim öncesi ve ince ayarın etkinliğini göstermek için video, MNIST veri kümesinin modellenmesini tartışır. Üç gizli özellik katmanı, tamamen denetimsiz bir şekilde öğrenilir ve farklı sınıflardan gerçekçi görünen rakamlar üretilir. Ayrım için bu özelliklerin yararlılığını değerlendirmek için son bir on yollu softmax katmanı eklenir ve ince ayar için geri yayılım kullanılır. Sonuçlar, özellikle standart geri yayılımın düşük hata oranlarına ulaşmakta zorlandığı permütasyon-değişmez görevlerde tamamen ayrımcı eğitime kıyasla gelişmiş performans gösteriyor.

Çeşitli deneyler, ön eğitimin faydalarını göstermektedir. Ön eğitim ve ince ayar için bir yığın Boltzmann makinesi kullanırken, permütasyonla değişmeyen MNIST görevindeki hata oranı %1,0'a kadar düşürülebilir. Doğrudan önceden eğitilmiş Boltzmann makinelerinin üzerine 10 yollu bir softmax katmanı eklenerek, bazı ayarlamalarla hata oranı %1,15'e kadar daha da iyileştirilebilir. Yan Lecun'un grubuyla birlikte Micro Yerin'in çalışması, ön eğitimin daha fazla veri ve daha iyi önceliklerle özellikle etkili olduğunu gösteriyor. Ek bozuk rakam görüntüleri ve evrişimli bir sinir ağı içeren deneyleri, %0,39'a kadar düşük hata oranları elde ederek konuşma tanımada yeni rekorlar kırdı.

Eğitim öncesi ve derin sinir ağlarının ince ayarındaki bu ilerleme, konuşma tanıma üzerinde önemli bir etkiye sahip oldu ve bu alanda gelişmelere yol açtı. Microsoft Research dahil olmak üzere birçok araştırmacı ve grup, bu yaklaşımın mümkün kıldığı başarı ve ilerlemelere atıfta bulunarak konuşma tanıma görevleri için derin sinir ağlarını benimsemiştir.

Ön eğitimin ve derin sinir ağlarında ince ayar yapmanın başarısı, konuşma tanımanın ötesinde çeşitli uygulamalar için sinir ağlarına olan ilgiyi yeniden ateşledi. Araştırmacılar bilgisayar görüşü, doğal dil işleme ve diğer alanlarda derin sinir ağlarının potansiyelini keşfetmeye başladılar. Ön eğitim ve ince ayarın birleşiminin, hiyerarşik temsilleri öğrenmek ve sinir ağlarının performansını iyileştirmek için güçlü bir teknik olduğu kanıtlanmıştır.

Ön eğitimin etkili olmasının nedenlerinden biri, özellikle derin ağlarla uğraşırken geleneksel geri yayılımın sınırlamalarının üstesinden gelmeye yardımcı olmasıdır. Birçok katmana sahip derin ağlar, yok olan gradyan probleminden muzdarip olabilir; burada gradyanlar katmanlar arasında yayıldıkça azalır ve bu da ağın etkili bir şekilde eğitilmesini zorlaştırır. Ağı katman katman önceden eğiterek ve öğrenilen özelliklere dayalı olarak ağırlıkları başlatarak, daha verimli optimizasyona yol açan geri yayılım için iyi bir başlangıç noktası sağlıyoruz.

Ön eğitimin bir başka avantajı da, girdi verilerinin anlamlı ve hiyerarşik temsillerini yakalamaya yardımcı olmasıdır. Ağın katmanları, ağın derinliklerine indikçe giderek daha karmaşık ve soyut özellikleri öğrenir. Bu hiyerarşik temsil, ağın ayrım için faydalı olan yüksek seviyeli özellikleri çıkarmasına izin verir. Ağı girdi vektörlerinin dağılımını modellemek için önceden eğiterek, öğrenilen özelliklerin verilerdeki önemli kalıpları ve varyasyonları yakalamasını sağlıyoruz, bu da ağın genelleştirme performansını iyileştirmeye yardımcı oluyor.

Üretken ön eğitim ve ayırt edici ince ayarın birleşimi, derin öğrenmede popüler bir paradigma haline geldi. Yararlı başlangıç özelliklerini öğrenmek için denetimsiz öğrenmenin faydalarından yararlanır ve daha sonra belirli ayırt edici görev için etiketlenmiş verileri kullanarak bu özelliklerde ince ayar yapar. Bu yaklaşımın çeşitli uygulamalarda başarılı olduğu kanıtlanmıştır ve performansta atılımlara yol açmıştır.

Derin öğrenme alanı gelişmeye devam ederken, araştırmacılar derin sinir ağlarının eğitimini ve performansını iyileştirmek için sürekli olarak yeni teknikler ve mimariler keşfediyor. Ön eğitim ve ince ayarın başarısı, önceden eğitilmiş modellerin yeni görevler için başlangıç noktası olarak kullanıldığı transfer öğrenimi ve modellerin öğrendiği kendi kendini denetleyen öğrenme gibi diğer alanlarda ilerlemelerin yolunu açtı. verilerin belirli yönlerini tahmin ederek etiketlenmemiş veriler.

Sonuç olarak, ön eğitim ve ince ayarın birleşimi, derin öğrenme alanında devrim yarattı. İlk özellikleri öğrenmek için denetimsiz öğrenmeden yararlanarak ve ardından denetimli öğrenmeyi kullanarak bu özellikleri iyileştirerek, derin sinir ağları daha iyi performans ve genelleme yetenekleri elde edebilir. Bu yaklaşımın konuşma tanıma, bilgisayar görüşü ve doğal dil işleme dahil olmak üzere çeşitli uygulamalar üzerinde önemli bir etkisi oldu ve derin öğrenme alanındaki ilerlemeleri yönlendirmeye devam ediyor.

Lecture 14.2 — Discriminative learning for DBNs [Neural Networks for Machine Learning]
Lecture 14.2 — Discriminative learning for DBNs [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Neden: