Makine Öğrenimi ve Sinir Ağları - sayfa 33

 

CS 198-126: Ders 3 - Derin Öğrenmeye Giriş, Bölüm 2



CS 198-126: Ders 3 - Derin Öğrenmeye Giriş, Bölüm 2

Dersin bu bölümünde, gereksiz işlemler gerçekleştirmeden gradyan iniş algoritması için gerekli tüm kısmi türevleri almanın daha hızlı bir yolu olan geri yayılım kavramı açıklanmaktadır. Öğretim görevlisi ayrıca derin öğrenme optimizasyonu için normal gradyan inişinin nasıl geliştirileceğini tartışır ve optimizasyon yöntemleri olarak momentum, RMSprop ve Adam'ı tanıtır. Bir modelin eğitim geçmişini takip etmenin önemi, toplu normalleştirmenin kullanımı ve model performansını iyileştirmek için bir teknik olarak birleştirmenin yanı sıra, bırakma ve atlama bağlantıları gibi aşırı uydurmayı azaltmaya yardımcı olmak için derin öğrenmede yaygın olarak kullanılan teknikler de tartışılmaktadır. Son olarak öğretim görevlisi, PyTorch'un kullanım kolaylığına kısaca değinir ve soruları yanıtlar.

  • 00:00:00 Dersin bu bölümünde, konuşmacı kodlama ödevi ve ilk sınav için yaklaşan son tarih hakkında bazı hızlı duyurular yapar. İlk ödev, öğrencilerin kursun geri kalanı için gerekli araçları öğrenmeleri için bir şanstır ve kısa sınav, bir anlama kontrolü görevi görür. Konuşmacı daha sonra, geri yayılım ve modern derin öğrenme araçları da dahil olmak üzere derste ele alınacak konuların ana hatlarını çizer ve öğrencilere, geri yayılımın matematiksel ayrıntılarını anlamamaları halinde, üst düzey fikri anladıkları sürece sorun olmayacağı konusunda güvence verir. . Modern derin öğrenmenin iyi çalışmasını sağlayan araçları kapsayan dersin ikinci yarısı önemlidir.

  • 00:05:00 Dersin bu bölümünde, fonksiyonlar için hesaplamalı bir grafik oluşturma ve kısmi türevleri hesaplamak için zincir kuralını kullanma kavramı tartışılır. Hesaplama grafiği, tek tek düğümlere göre türevlerin verimli bir şekilde hesaplanmasına izin verir. Bu kavram daha sonra, zincir kuralının her ağırlık ve yanlılık parametresine göre kaybın kısmi türevlerini hesaplamak için kullanıldığı bir oyuncak sinir ağı örneğinde geri yayılıma uygulanır. Her parametreden kayıp düğümüne giden yol boyunca tüm kısmi türevleri çarparak, gereksiz hesaplamalardan kaçınılabilir.

  • 00:10:00 Bu bölümde, fazladan işlemler yapmadan gradyan iniş algoritması için gerekli tüm kısmi türevleri almanın daha hızlı bir yolu olan geri yayılım kavramı açıklanmaktadır. Ağın derinliği arttıkça, birçok hesaplama tekrarlanır ve gereksiz hale gelir, bu da onları derin ağların eğitimi için uygun hale getirmez. Geri yayılım, kısmi türevleri hesaplarken ileri geçiş sırasında değerleri önbelleğe alarak ve geri geçiş sırasında bunları yeniden kullanarak çalışır. Bununla birlikte, kısmi türevler artık matrisleri ve matrisleri içerdiğinden, tipik olarak daha pahalı olan çoklu işlemlerden tasarruf sağladığı için önbelleğe alma daha kritik hale gelir. Video, bizim için gerekli değerleri otomatik olarak önbelleğe almak için pyTorch gibi araçları kullanabileceğimizi açıklıyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, derin öğrenme optimizasyonu için normal gradyan inişinin nasıl geliştirileceğini tartışıyor. Vanilla gradyan inişiyle ilgili bir sorun, gradyanın sıfır olduğu yerel minimumlarda veya düz noktalarda mücadele etmesi ve algoritmanın daha iyi çözümler bulmasını engellemesidir. Bunu çözmek için öğretim görevlisi, tepeden aşağı yuvarlanan bir toptan esinlenerek momentum kavramını tanıtır. Geçmiş gradyanların ağırlıklı ortalamasını alıp mevcut gradyana ekleyerek momentum, küçük yerel minimumları ve düz noktaları geçmeye yardımcı olabilir. Teknik olarak gerçek gradyan inişi olmasa da, momentum, algoritmanın bu engelleri aşmasına ve umarız daha iyi çözümler bulmasına olanak sağlayabilir. Öğretim görevlisi ayrıca mevcut gradyanı çok fazla küçültmemek için geçmiş gradyanların ağırlıklı ortalamasının nasıl ölçeklendirileceğini tartışır.

  • 00:20:00 Bu bölümde, eğimli inişte momentum kavramı tartışılmaktadır. Ders, adım boyutlarının çok büyük ve tutarsız hale gelmemesi için adım boyutlarını kontrol etmek için betaların kullanıldığını açıklar. Ders, momentumu adım boyutlarının yokuş aşağı yuvarlanırken aynı kalmasının, ancak aynı zamanda eğimin tarihsel olarak işaret ettiği yönde hareket etmeye devam etmesinin bir yolu olarak açıklıyor. Ders daha sonra, önceki gradyanların karesi alınmış bileşenlerinin ağırlıklı bir ortalamasını depolayan RMS prop optimizasyon yöntemini tanıtır.

  • 00:25:00 Bu bölümde eğitmen, bir gradyan iniş şekli olan RMSprop kavramını ve geleneksel yöntemlere kıyasla nasıl çalıştığını açıklar. RMSprop'un gradyanları, küçük ve büyük gradyan örnekleri kullanarak gösterdiği gradyanların hareketli ortalamalarının kareköküne böldüğünü açıklıyor. Algoritma bunu yaparak, uyarlanabilir öğrenme oranı olarak bilinen öğrenme oranını uyarlanabilir şekilde ayarlayabilir. Nihayetinde, hem RMSprop hem de geleneksel yöntemlerin avantajlarına sahip olduğu için Adam'ın en iyi gradyan iniş biçimi olduğu sonucuna varır.

  • 00:30:00 Bu bölümde öğretim görevlisi, derin öğrenme modellerinde gradyan iniş için tercih edilen optimizasyon yöntemi olarak RMSProp ve momentumun bir kombinasyonu olan Adam'ı tanıtıyor. Adam, ivme ile yerel minimumlardan kaçınmanın avantajlarına izin verirken, bunların içinden yükseltme gerektiren düz noktalarla ilgili sorunları da hesaba katar. Degradenin yönünü değiştirmez, yalnızca ölçeklendirmesini değiştirir. Ders, yerel bir minimuma ulaştıktan sonra Adam veya RMSProp ile ortaya çıkabilecek düzensiz davranışlarla mücadele etmenin bir yolu olarak model kontrol noktası belirlemeyi önerir. İkinci dereceden optimizasyon yöntemleri de kullanılabilir, ancak bunlar daha fazla bilgi işlem gücü gerektirir ve daha az yaygındır.

  • 00:35:00 Bu bölümde eğitmen, bir modelin eğitim geçmişini takip etmenin önemini ve hangi kontrol noktasının en iyi olduğunu etkili bir şekilde belirlemek için daha önce görmediği yeni veriler üzerinde ne kadar iyi performans gösterdiğini açıklıyor. Bir sinir ağındaki her bir aktivasyon için ortalamanın çıkarılmasını ve standart sapmaya bölünmesini ve ardından ağın her ağırlığı bir değer gammasıyla çarparak uygun gördüğü şekilde yeniden ölçeklendirmesine izin vermeyi içeren, toplu normalleştirme adı verilen bir normalleştirme tekniği de tartışılmaktadır. ve yanlılığın eklenmesi. Bu teknik, verileri normalleştirmeye yardımcı olur ve gradyan iniş ile gönderilmesi çok daha kolay olan normal görünümlü kayıp yüzeyler oluşturarak hayatı çok daha kolaylaştırır.

  • 00:40:00 Bu bölümde, belirli bir katmandan çıktıların ortalamasını ve standart sapmasını hesaplayarak bir sinir ağının nöronlarının aktivasyonlarını normalleştirmek için kullanılan bir yöntem olan toplu normalleştirmeyi öğreniyoruz. Bu normalleştirme, sinir ağının varsayılan davranışını normalleştirilmiş aktivasyonlara sahip hale getirerek onları iyi huylu hale getirir. Bu yöntem modele anlamlılık katmasa da, ağın tüm katmanlarında girdi olarak daha iyi gradyanlara ve daha normalleştirilmiş bir değer aralığına izin verir. Ek olarak, birden fazla modeli eğiterek ve tahminlerinin ortalamasını alarak model performansını iyileştirmek için kullanılan bir teknik olarak birleştirme hakkında bilgi ediniyoruz.

  • 00:45:00 Bu bölümde ders, fazla uydurmayı azaltmaya yardımcı olmak için derin öğrenmede yaygın olarak kullanılan iki tekniği tartışır: bırakma ve bağlantıları atlama. Bırakma, her bir nöronu kendisinden önce gelen tüm özellikleri nasıl kullanacağını öğrenmeye zorlamak ve onu diğer nöronlarla aynı çıktıyı öğrenmeye zorlamak için eğitimden önce belirli sayıda nöronun rastgele çıkarılmasını içerir. Buna karşılık, atlama bağlantıları, gürültü veya karışıklık eklemeden bilgilerin yayılmasına yardımcı olan bir kimlik işlevinin öğrenilmesine izin verir; tüm ağırlıklar için sıfırların öğrenilmesini içerir, bu da doğru bir şekilde sınıflandırmak için iyi bilgilerin son katmana geçirilmesine önemsiz bir şekilde izin verir. Her iki teknik de, bu derste tartışılan diğerleriyle birlikte, fazla uydurmayı azaltarak ve isteğe bağlı olarak derin ağlara izin vererek performansı artırmaya yardımcı olur.

  • 00:50:00 Bu bölümde öğretim görevlisi, sinir ağları oluştururken atlama bağlantılarının nasıl yararlı bir araç olabileceğini açıklıyor. Bu bağlantılar, performansı artırmak ve ağınızı daha iyi hale getirmek için eklenebilir. Öğretim görevlisinin PyTorch'u tam olarak tartışmak için zamanı yoktu, ancak ev ödevinde anlatılıyor. Numpy'yi nasıl kullanacağınızı zaten biliyorsanız, PyTorch'un kullanımının gerçekten kolay olabileceğini açıklıyorlar. Bir değeri alan ve onu döndüren işlevler oluşturarak, belirli bir girdi üzerindeki gradyan değerinin hesaplanmasını mümkün kılarlar. Öğretim görevlisi, sözü sorulara açarak bitirir.
CS 198-126: Lecture 3 - Intro to Deep Learning, Part 2
CS 198-126: Lecture 3 - Intro to Deep Learning, Part 2
  • 2022.12.03
  • www.youtube.com
Lecture 3 - Intro to Deep Learning, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berke...
 

CS 198-126: Ders 3 - Derin Öğrenmeye Giriş, Bölüm 2



CS 198-126: Ders 3 - Derin Öğrenmeye Giriş, Bölüm 2

Dersin bu bölümünde, gereksiz işlemler gerçekleştirmeden gradyan iniş algoritması için gerekli tüm kısmi türevleri almanın daha hızlı bir yolu olan geri yayılım kavramı açıklanmaktadır. Öğretim görevlisi ayrıca derin öğrenme optimizasyonu için normal gradyan inişinin nasıl geliştirileceğini tartışır ve optimizasyon yöntemleri olarak momentum, RMSprop ve Adam'ı tanıtır. Bir modelin eğitim geçmişini takip etmenin önemi, toplu normalleştirmenin kullanımı ve model performansını iyileştirmek için bir teknik olarak birleştirmenin yanı sıra, bırakma ve atlama bağlantıları gibi aşırı uydurmayı azaltmaya yardımcı olmak için derin öğrenmede yaygın olarak kullanılan teknikler de tartışılmaktadır. Son olarak öğretim görevlisi, PyTorch'un kullanım kolaylığına kısaca değinir ve soruları yanıtlar.

  • 00:00:00 Dersin bu bölümünde, konuşmacı kodlama ödevi ve ilk sınav için yaklaşan son tarih hakkında bazı hızlı duyurular yapar. İlk ödev, öğrencilerin kursun geri kalanı için gerekli araçları öğrenmeleri için bir şanstır ve kısa sınav, bir anlama kontrolü görevi görür. Konuşmacı daha sonra, geri yayılım ve modern derin öğrenme araçları da dahil olmak üzere derste ele alınacak konuların ana hatlarını çizer ve öğrencilere, geri yayılımın matematiksel ayrıntılarını anlamamaları halinde, üst düzey fikri anladıkları sürece sorun olmayacağı konusunda güvence verir. . Modern derin öğrenmenin iyi çalışmasını sağlayan araçları kapsayan dersin ikinci yarısı önemlidir.

  • 00:05:00 Dersin bu bölümünde, fonksiyonlar için hesaplamalı bir grafik oluşturma ve kısmi türevleri hesaplamak için zincir kuralını kullanma kavramı tartışılır. Hesaplama grafiği, tek tek düğümlere göre türevlerin verimli bir şekilde hesaplanmasına izin verir. Bu kavram daha sonra, zincir kuralının her ağırlık ve yanlılık parametresine göre kaybın kısmi türevlerini hesaplamak için kullanıldığı bir oyuncak sinir ağı örneğinde geri yayılıma uygulanır. Her parametreden kayıp düğümüne giden yol boyunca tüm kısmi türevleri çarparak, gereksiz hesaplamalardan kaçınılabilir.

  • 00:10:00 Bu bölümde, fazladan işlemler yapmadan gradyan iniş algoritması için gerekli tüm kısmi türevleri almanın daha hızlı bir yolu olan geri yayılım kavramı açıklanmaktadır. Ağın derinliği arttıkça, birçok hesaplama tekrarlanır ve gereksiz hale gelir, bu da onları derin ağların eğitimi için uygun hale getirmez. Geri yayılım, kısmi türevleri hesaplarken ileri geçiş sırasında değerleri önbelleğe alarak ve geri geçiş sırasında bunları yeniden kullanarak çalışır. Bununla birlikte, kısmi türevler artık matrisleri ve matrisleri içerdiğinden, tipik olarak daha pahalı olan çoklu işlemlerden tasarruf sağladığı için önbelleğe alma daha kritik hale gelir. Video, bizim için gerekli değerleri otomatik olarak önbelleğe almak için pyTorch gibi araçları kullanabileceğimizi açıklıyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, derin öğrenme optimizasyonu için normal gradyan inişinin nasıl geliştirileceğini tartışıyor. Vanilla gradyan inişiyle ilgili bir sorun, gradyanın sıfır olduğu yerel minimumlarda veya düz noktalarda mücadele etmesi ve algoritmanın daha iyi çözümler bulmasını engellemesidir. Bunu çözmek için öğretim görevlisi, tepeden aşağı yuvarlanan bir toptan esinlenerek momentum kavramını tanıtır. Geçmiş gradyanların ağırlıklı ortalamasını alıp mevcut gradyana ekleyerek momentum, küçük yerel minimumları ve düz noktaları geçmeye yardımcı olabilir. Teknik olarak gerçek gradyan inişi olmasa da, momentum, algoritmanın bu engelleri aşmasına ve umarız daha iyi çözümler bulmasına olanak sağlayabilir. Öğretim görevlisi ayrıca mevcut gradyanı çok fazla küçültmemek için geçmiş gradyanların ağırlıklı ortalamasının nasıl ölçeklendirileceğini tartışır.

  • 00:20:00 Bu bölümde, eğimli inişte momentum kavramı tartışılmaktadır. Ders, adım boyutlarının çok büyük ve tutarsız hale gelmemesi için adım boyutlarını kontrol etmek için betaların kullanıldığını açıklar. Ders, momentumu adım boyutlarının yokuş aşağı yuvarlanırken aynı kalmasının, ancak aynı zamanda eğimin tarihsel olarak işaret ettiği yönde hareket etmeye devam etmesinin bir yolu olarak açıklıyor. Ders daha sonra, önceki gradyanların karesi alınmış bileşenlerinin ağırlıklı bir ortalamasını depolayan RMS prop optimizasyon yöntemini tanıtır.

  • 00:25:00 Bu bölümde eğitmen, bir gradyan iniş şekli olan RMSprop kavramını ve geleneksel yöntemlere kıyasla nasıl çalıştığını açıklar. RMSprop'un gradyanları, küçük ve büyük gradyan örnekleri kullanarak gösterdiği gradyanların hareketli ortalamalarının kareköküne böldüğünü açıklıyor. Algoritma bunu yaparak, uyarlanabilir öğrenme oranı olarak bilinen öğrenme oranını uyarlanabilir şekilde ayarlayabilir. Nihayetinde, hem RMSprop hem de geleneksel yöntemlerin avantajlarına sahip olduğu için Adam'ın en iyi gradyan iniş biçimi olduğu sonucuna varır.

  • 00:30:00 Bu bölümde öğretim görevlisi, derin öğrenme modellerinde gradyan iniş için tercih edilen optimizasyon yöntemi olarak RMSProp ve momentumun bir kombinasyonu olan Adam'ı tanıtıyor. Adam, ivme ile yerel minimumlardan kaçınmanın avantajlarına izin verirken, bunların içinden yükseltme gerektiren düz noktalarla ilgili sorunları da hesaba katar. Degradenin yönünü değiştirmez, yalnızca ölçeklendirmesini değiştirir. Ders, yerel bir minimuma ulaştıktan sonra Adam veya RMSProp ile ortaya çıkabilecek düzensiz davranışlarla mücadele etmenin bir yolu olarak model kontrol noktası belirlemeyi önerir. İkinci dereceden optimizasyon yöntemleri de kullanılabilir, ancak bunlar daha fazla bilgi işlem gücü gerektirir ve daha az yaygındır.

  • 00:35:00 Bu bölümde eğitmen, bir modelin eğitim geçmişini takip etmenin önemini ve hangi kontrol noktasının en iyi olduğunu etkili bir şekilde belirlemek için daha önce görmediği yeni veriler üzerinde ne kadar iyi performans gösterdiğini açıklıyor. Bir sinir ağındaki her bir aktivasyon için ortalamanın çıkarılmasını ve standart sapmaya bölünmesini ve ardından ağın her ağırlığı bir değer gammasıyla çarparak uygun gördüğü şekilde yeniden ölçeklendirmesine izin vermeyi içeren, toplu normalleştirme adı verilen bir normalleştirme tekniği de tartışılmaktadır. ve yanlılığın eklenmesi. Bu teknik, verileri normalleştirmeye yardımcı olur ve gradyan iniş ile gönderilmesi çok daha kolay olan normal görünümlü kayıp yüzeyler oluşturarak hayatı çok daha kolaylaştırır.

  • 00:40:00 Bu bölümde, belirli bir katmandan çıktıların ortalamasını ve standart sapmasını hesaplayarak bir sinir ağının nöronlarının aktivasyonlarını normalleştirmek için kullanılan bir yöntem olan toplu normalleştirmeyi öğreniyoruz. Bu normalleştirme, sinir ağının varsayılan davranışını normalleştirilmiş aktivasyonlara sahip hale getirerek onları iyi huylu hale getirir. Bu yöntem modele anlamlılık katmasa da, ağın tüm katmanlarında girdi olarak daha iyi gradyanlara ve daha normalleştirilmiş bir değer aralığına izin verir. Ek olarak, birden fazla modeli eğiterek ve tahminlerinin ortalamasını alarak model performansını iyileştirmek için kullanılan bir teknik olarak birleştirme hakkında bilgi ediniyoruz.

  • 00:45:00 Bu bölümde ders, fazla uydurmayı azaltmaya yardımcı olmak için derin öğrenmede yaygın olarak kullanılan iki tekniği tartışır: bırakma ve bağlantıları atlama. Bırakma, her bir nöronu kendisinden önce gelen tüm özellikleri nasıl kullanacağını öğrenmeye zorlamak ve onu diğer nöronlarla aynı çıktıyı öğrenmeye zorlamak için eğitimden önce belirli sayıda nöronun rastgele çıkarılmasını içerir. Buna karşılık, atlama bağlantıları, gürültü veya karışıklık eklemeden bilgilerin yayılmasına yardımcı olan bir kimlik işlevinin öğrenilmesine izin verir; tüm ağırlıklar için sıfırların öğrenilmesini içerir, bu da doğru bir şekilde sınıflandırmak için iyi bilgilerin son katmana geçirilmesine önemsiz bir şekilde izin verir. Her iki teknik de, bu derste tartışılan diğerleriyle birlikte, fazla uydurmayı azaltarak ve isteğe bağlı olarak derin ağlara izin vererek performansı artırmaya yardımcı olur.

  • 00:50:00 Bu bölümde öğretim görevlisi, sinir ağları oluştururken atlama bağlantılarının nasıl yararlı bir araç olabileceğini açıklıyor. Bu bağlantılar, performansı artırmak ve ağınızı daha iyi hale getirmek için eklenebilir. Öğretim görevlisinin PyTorch'u tam olarak tartışmak için zamanı yoktu, ancak ev ödevinde anlatılıyor. Numpy'yi nasıl kullanacağınızı zaten biliyorsanız, PyTorch'un kullanımının gerçekten kolay olabileceğini açıklıyorlar. Bir değeri alan ve onu döndüren işlevler oluşturarak, belirli bir girdi üzerindeki gradyan değerinin hesaplanmasını mümkün kılarlar. Öğretim görevlisi, sözü sorulara açarak bitirir.
CS 198-126: Lecture 3 - Intro to Deep Learning, Part 2
CS 198-126: Lecture 3 - Intro to Deep Learning, Part 2
  • 2022.12.03
  • www.youtube.com
Lecture 3 - Intro to Deep Learning, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berke...
 

CS 198-126: Ders 4 - Ön Eğitim ve Büyütmelere Giriş



CS 198-126: Ders 4 - Ön Eğitim ve Büyütmelere Giriş

Bu derste konuşmacı, makine öğreniminde özellik çıkarmanın evrimini, derin öğrenmenin avantajlarını ve modellerin doğruluğunu ve hızını artırmak için transfer öğrenmenin nasıl kullanılabileceğini açıklıyor. Ayrıca sinir ağlarında katmanları dondurma ve ince ayar kavramını ve katıştırmaların kategorik değişkenlerin boyutsallığını azaltmadaki önemini tartışıyorlar. Ders, modelleri önceden eğitmek ve öğrenilen temsilleri sonraki görevlere aktarmak için kullanılabilecek yapboz, döndürme ve maskelenmiş sözcük tahmini görevleri dahil olmak üzere kendi kendine denetimli öğrenmeyi ve farklı görevlerini tanıtıyor. Son olarak, bilgisayarla görüde kendi kendine denetimli öğrenmeye yönelik yenilenen ilgi tartışılıyor ve ders, öğrencileri yüksek Crush not defterinde ödevlerini tamamlamaya teşvik ediyor.

  • 00:05:00 Dersin bu bölümünde yazar temsili öğrenme ve yüzeysel öğrenmeyi tartışır. Sığ öğrenme ile, makine öğrenimi boru hattı bir X girişi ile başlar, özellikler bir özellik çıkarıcı kullanılarak buradan çıkarılır ve ardından çıkarılan özellikler bir Y çıktısı elde etmek için bir makine öğrenimi algoritmasına geçirilir. Kolaylaştırıcı, özellik çıkarmanın bağımlı olduğunu açıklar. veriler üzerinde ve olabilir
    tablo verileri için basit, ancak metin, ses veya resimler gibi veriler için karmaşıktır. Bununla birlikte, görüntüler için, klasik bilgisayar görüşünde bulunan özel özellik çıkarıcılar mevcuttur.

  • 00:10:00 Bu bölümde öğretim görevlisi, özellik çıkarma kavramını ve makine öğreniminde nasıl geliştiğini açıklıyor. Klasik makine öğreniminde, modeller oluşturmak için bir görüntüdeki uç bilgileri yakalayan Hog gibi elle programlanmış bir özellik çıkarıcı kullanılır. Ancak, özellik çıkarıcılar farklı görevler için değişiklik gösterdiğinden bu süreç zordur. Derin öğrenme, hem özellik çıkarma hem de çıktı tahminini öğrenerek uçtan uca bir süreç sağlar. Öğretim görevlisi, bu sürecin, bir sinir ağında öğrenilen özellik çıkarıcı katmanlarından geçirilen ve hiyerarşik temsillerle sonuçlanan girdi verilerinin soyut temsillerinin öğrenilmesine izin verdiğini açıklar. Ders, derin sinir ağlarının araba görüntülerinin temsillerini nasıl öğrendiğine dair bir örnek sunuyor.

  • 00:15:00 Bu bölümde, konuşmacı sinir ağlarındaki derinliğin temsilleri iyileştirmeye nasıl yardımcı olduğunu açıklıyor. Ağın ilk katmanları, kenarlar gibi düşük düzeyli ayrıntıları algılarken sonraki katmanlar, bir görüntüdeki kapılar veya pencereler gibi daha somut özelliklere odaklanır. Son katmanlar, girdi görüntüsünün gerçekten modelin tanımayı öğrendiği şey olup olmadığını belirlemeye çalışıyor ve soyut bir zihinsel model yaratıyor. Konuşmacılar daha sonra önceden eğitilmiş modellerden yararlanmanın ve zaman, bilgi işlem ve veri açısından maliyetli olabilecek sıfırdan modelleri eğitme zorunluluğundan kaçınmanın bir yolu olarak transfer öğrenimini tartışıyorlar.

  • 00:20:00 Bu bölümde, konuşmacı sinir ağlarında katman oluşturma kavramını ve modellerin doğruluğunu ve hızını artırmak için ön eğitim ve transfer öğrenmenin nasıl kullanılabileceğini tartışıyor. Konuşmacı, önceki katmanların şekiller ve desenler gibi genel özellikleri nasıl yakaladığını, sonraki katmanların ise nesneler ve insanlar gibi daha soyut özellikleri nasıl yakaladığını açıklar. Belirli katmanların korunduğu ve sonraki modellerde kullanıldığı donma kavramı, modelleri belirli görevler için özelleştirmenin bir yolu olarak da tartışılmaktadır. Dondurma tekniği, model eğitimini hızlandırabilir ve doğruluğu artırabilir, ancak katmanların uygun seviyede dondurulduğundan emin olmak için özen gösterilmelidir.

  • 00:25:00 Bu bölümde eğitmen, sinir ağlarında aktarım öğrenimini, özellikle önceden eğitilmiş modelin çıktı katmanları ve donmamış katmanlar üzerinde daha fazla eğitildiği ince ayar tekniğini tartışır. Önceden eğitilmiş modeli dondurmaya veya ince ayar yapmaya karar verirken yeni veri kümesinin boyutunu ve orijinal veri kümesine benzerliğini dikkate almanın önemini vurguluyorlar. Ek olarak, sinir ağlarındaki gömmelerin önemini ve kategorik değişkenlerin boyutsallığını nasıl azaltabileceklerini ve bunların bir dönüşüm uzayında temsil edilmelerini nasıl kolaylaştırabileceklerini açıklarlar. Yerleştirmelerin kullanımı, kitap türlerinin daha düşük boyutlu bir vektör uzayına eşlenmesini içeren bir örnek aracılığıyla gösterilmektedir.

  • 00:30:00 Dersin bu bölümünde profesör, yüksek boyutlu verilerden ve onu temsil etmeye çalışırken ortaya çıkan zorluklardan bahsediyor. Profesör, yüksek boyutlu verileri temsil eden tüm önemli bilgilerin daha düşük boyutlu bir alana kodlanmasını içeren düşük boyutlu gizli alan kavramını tanıtıyor. Amaç, bu bilgiyi gizli özellikler alanı adı verilen bir şey aracılığıyla yakalamaktır ve çoğu durumda bu, gömme yoluyla elde edilebilir. Profesör, tek boyutlu bir yapının 3B uzayda üç değişken yerine sadece bir değişken kullanılarak nasıl temsil edilebileceğine dair bir örnek veriyor, böylece veriler yüksek boyutlu bir uzayda dağınık bir şekilde dağılmıyor. Son olarak profesör, softmax kayıp işlevini kullanarak MNIST veri kümesindeki görüntüleri sınıflandırmak için bir model eğiterek ve görüntünün bir temsili olarak modeldeki bazı katmanların çıktısını alarak gömmelerin nasıl öğrenileceğini açıklar.

  • 00:35:00 Bu bölümde konuşmacı, daha iyi sonuçlar elde ederken zamandan ve bilgi işlem gücünden tasarruf sağlayabilen önceden eğitilmiş ağların ve aktarım öğreniminin avantajlarını tartışıyor. Önceden eğitilmiş ağlar, daha iyi temsillere yol açabilecek daha büyük veri kümelerinde eğitilebilir. Transfer öğrenimi, önceden eğitilmiş bir ağdan öğrenilen bilgilerin başka bir göreve uygulanmasına izin verir ve bu da onu özellikle doğal dil işlemede kullanışlı hale getirir. Ardından, ham verilerden öğrenerek etiketlerden denetim olmadan öğrenmeye izin veren, kendi kendini denetleyen ön eğitim başlatılır.

  • 00:40:00 Bu bölümde öğretim görevlisi, etiketlerin sağlanmadığı bir öğrenme türü olan denetimsiz öğrenmeyi tartışıyor, ancak model yine de veri kümesi içindeki kalıpları ve ilişkileri öğreniyor. Denetimsiz öğrenmeye örnek olarak ana bileşen analizi (PCA) ve kümeleme verilebilir. Öğretim görevlisi daha sonra dış etiketlerden ziyade verilerin kendisinden denetim sağlamayı içeren kendi kendine denetimli öğrenmeden bahseder. Teknik, gözlemlenen kısımlardan verilerin gizli kısımlarını veya özelliklerini tahmin etmeyi içerir. Kendi kendini denetleyen öğrenme, etiketli verilerin kıt veya toplanmasının pahalı olduğu durumlarda faydalıdır.

  • 00:45:00 Dersin bu bölümünde, konuşmacı özdenetimli öğrenmeyi ve bahane görevi ve sonraki görev gibi ilgili farklı görevleri tartışır. Bu görevler, bilgisayar görüşü, NLP ve RL gibi çeşitli alanlarda kullanılabilir. Konuşmacı daha sonra, bir görüntünün dokuz parçaya bölündüğü, karıştırıldığı ve modelden orijinal sırayı tahmin etmesinin istendiği yapboz görevi gibi kendi kendini denetleyen öğrenme görevlerinden örnekler verir. Başka bir görev, bir görüntünün belirli bir açıyla döndürüldüğü ve modelden dönüş açısını tahmin etmesinin istendiği döndürme görevidir. Bu görevler, modelleri önceden eğitmek ve öğrenilen temsilleri görüntü sınıflandırma ve nesne algılama gibi aşağı akış görevlerine aktarmak için kullanılabilir.

  • 00:50:00 Dersin bu bölümünde, kendi kendine denetimli öğrenme (SSL) kullanan ön eğitim modelleri kavramı tanıtılmaktadır. Bilgisayar görüşünde SSL'ye bir örnek, bir görüntünün dönüş açısını tahmin etmek ve düşük seviyeli ayrıntılar yerine nesne yönüne, konuma, poza ve türe odaklanmak için bir modeli eğitmektir. Bu fikir, CV ile sınırlı değildir, çünkü SSL, NLP'ye ve sese de uygulanabilir, örneğin cümlelerden bir veya birden çok kelimeyi tahmin etmek gibi. NLP'de BERT adlı ünlü bir model, iki cümleden aynı anda maskelenmiş kelimeleri tahmin etmek için bir Transformer modeli kullanır ve kelime seviyesinde ve cümle seviyesinde yerleştirmeyi öğrenir. BERT, NLP'de büyük bir başarıydı.

  • 00:55:00 Dersin bu bölümünde, konuşmacı doğal dil işlemede (NLP) BERT'nin başarısından sonra bilgisayarla görüde (CV) öz denetimli öğrenmeye (SSL) yönelik yeniden ilgiyi tartışıyor. CV'deki mevcut en son teknolojinin BERT'ye benzer olduğu söyleniyor. Ders, temsili öğrenme, transfer öğrenimi ve SSL'ye genel bir bakış sağlar ve farklı kavram ve metodolojileri tanıtır. Bu dersin ödevi olmasa da, yüksek Crush not defterinde tüm küme için önümüzdeki Salı günü verilmesi gereken bir ev ödevi var ve CV için Gelişmiş SSL ile ilgili gelecekteki bir dersin bir ödevi olacak. Slayt destesine inceleme için web sitesinden erişilebilir.
CS 198-126: Lecture 4 - Intro to Pretraining and Augmentations
CS 198-126: Lecture 4 - Intro to Pretraining and Augmentations
  • 2022.12.03
  • www.youtube.com
Lecture 4 - Intro to Pretraining and AugmentationsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://...
 

CS 198-126: Ders 5 - Bilgisayarla Görmeye Giriş



CS 198-126: Ders 5 - Bilgisayarla Görmeye Giriş

Bilgisayarla görme üzerine olan bu ders, bilgisayarla görmenin tarihi ve yıllar içindeki gelişimi dahil olmak üzere çeşitli konuları kapsar. Eğitmen ayrıca derin öğrenmeyi ve bunun klasik bilgisayarla görme yöntemlerinde nasıl geliştiğini açıklar. Ders, evrişim kavramını ve bunların bilgisayar görüşünde özellik çıkarıcılar olarak nasıl kullanıldığını ve evrişimli sinir ağlarının (CNN'ler) oluşturulmasına yol açar. Buna ek olarak ders, alıcı alanların rolünü tartışır ve CNN'lerin alıcı alanını artırmak için bir yöntem olarak havuzlama katmanlarını tanıtır. Genel olarak ders, bir alan olarak bilgisayar görüşüne ve görüntülerden bilgi çıkarmak için kullanılan tekniklere genel bir bakış sunar. Dersin ikinci bölümünde, kıvrımlar sırasında bir görüntünün boyutunu korumak için dolgu ve aynı dolgu dahil olmak üzere çeşitli teknikler tartışılmaktadır. Evrişimli katmanlardaki adım kavramı da kapsanarak, bir havuzlama katmanının etkisini nasıl taklit edebileceğini gösterir. Bir CNN'nin anatomisi ve çekirdek boyutu, adım, dolgu ve havuzlama katmanları dahil olmak üzere hiper parametreleri, evrişimli bir katmanın, özelliklerin düşük boyutlu bloklarını tam olarak bağlı bir ağ ortamına geçiren bir özellik çıkarıcı olarak nasıl davrandığına vurgu yapılarak açıklanır. sınıflandırma için ağ Dersler ayrıca, el yazısı rakamları sınıflandırmak için LeNet ağ mimarisini ve görüntü verilerini bir sinir ağından geçirmeden önce normalleştirmenin önemini de kapsar. Son olarak, ek eğitim verileri oluşturmak için bir teknik olarak veri artırma ele alınmış ve eğitim sırasında model kontrol noktasının önemi vurgulanmıştır.

  • 00:00:00 Bu bölümde eğitmen, yapay zekada bir görüntüden semantik düzeyde bilgi çıkarmakla ilgilenen bir alan olarak bilgisayar görüşünü tanıtıyor. Bir makine öğrenimi modelinin gerçekleştirebileceği görevler olarak sınıflandırma, algılama ve segmentasyonu ana hatlarıyla belirtirler. Bir makinenin bir görüntüyü anlamasını ve bu görevleri gerçekleştirmesini sağlamak için, görüntünün içeriğini daha yüksek düzeyde anlaması gerekir, bu nedenle modeller, görüntüleri sınıflandırmak için kenarlar gibi özellikleri çıkarmak üzere tasarlanmıştır. Eğitmen, 1959'da kediler üzerinde yapılan bir deneyden gelen domuz gibi özellik çıkarıcılardaki gelişmelerle birlikte, bilgisayarla görme alanının köklerinin bilişsel bilim ve psikolojiye dayandığını açıklıyor.

  • 00:05:00 Dersin bu bölümünde eğitmen, öznitelik çıkarıcıların elle programlandığı klasik bilgisayarla görme yöntemlerinin yerini nasıl derin öğrenmenin aldığını tartışır. Derin öğrenme, modellerin yalnızca özelliklerden çıktılara eşlemeleri değil, aynı zamanda özellik çıkarıcıların kendilerini de öğrenmelerini sağlar ve bu atılım 2012'de Alex Krajevski'nin sinir ağı ile geldi. Eğitmen, ImageNet görsel tanıma zorluğundan ve AlexNet'in hata oranını nasıl büyük ölçüde düşürerek derin öğrenme için bir dönüm noktası haline geldiğinden bahsediyor. Ders daha sonra görüntülerin dijital olarak matrisler olarak nasıl temsil edildiğini ve gri tonlamalı görüntüleri temsil etmek için parlaklık değerlerinin kullanıldığını tartışarak devam eder.

  • 00:10:00 Dersin bu bölümünde eğitmen renk kavramını ve görsellerdeki kanalları tartışır. Her bir renkli piksel, üç farklı değere bölünebilir; bu, bir RGB görüntüsünün her bileşen için üç matrisle temsil edilebileceği anlamına gelir. Bu matrisler daha sonra tensör adı verilen 3 boyutlu bir matris oluşturmak için üst üste istiflenebilir. Eğitmen, bunun evrişimli sinir ağlarını (CNN'ler) anlamak için önemli bir kavram olduğunu belirtiyor çünkü düzenli sinir ağları veya çok katmanlı algılayıcılar, 3D tensörü bir vektöre dönüştürme ihtiyacı nedeniyle büyük görüntüleri işlemek için yardımcı olmuyor, bu da çok büyük bir sonuçla sonuçlanıyor. eleman sayısı.

  • 00:15:00 Bu bölümde, konuşmacı bilgisayarlı görüde tamamen bağlantılı bir katman için parametre sayısını tartışıyor. Katman 120.000 boyutlu bir girdi alır ve 10 boyutlu bir vektör verir; bu, ağırlık matrisinin 10'a 120.000 boyutlara sahip olması gerektiği anlamına gelir; bu da 1,2 milyon ağırlık ve yanlılık vektöründen 10 parametre ile sonuçlanır. Bu parametre sayısı, özellikle daha yüksek boyutlu bir çıktı isteniyorsa, ağı çok büyük ve eğitilmesi zor hale getirir. Ek olarak, insanlar görüntüleri farklı parçalara ayırma ve bu bilgiyi zihinsel bir model oluşturmak için kullanma eğiliminde olduğundan, her pikseli ayrı bir özellik olarak ele almak görüntü sınıflandırmasında alışılmışın dışındadır. Konuşmacı, verileri daha iyi anlamak için tek tek pikseller yerine görüntünün yerel bölgelerine bakmayı önerir.

  • 00:20:00 Bu bölümde öğretim görevlisi, bilgi toplamak için bir görüntüdeki komşu piksellere bakmanın önemini ve bunun tipik olarak her pikseli ayrı ayrı ele alan sinir ağları için nasıl bir zorluk oluşturduğunu tartışıyor. Bilgisayar görüşüyle ilgili olan ve bir görüntünün yapısıyla ilgilenen yerel bölgeler kavramını tanıtıyor. Ders ayrıca bir girdiden hiyerarşik temsilleri çıkarma ihtiyacından ve bu temsillerin birbirine nasıl bağlı olduğundan bahsederek modelin bir yüzün neye benzediği gibi soyut kavramları öğrenmesine olanak tanır. Son olarak ders, tutarlılığı korumak için bir görüntünün temsillerinin pikselleriyle birlikte çevrilmesi gereken çeviri eşdeğerliği kavramını açıklar.

  • 00:25:00 Bu bölümde, bilgisayarla görmede öteleme değişmezliği ve yerel bölge işleme kavramı tartışılmaktadır. Geleneksel ağ mimarisi bu gereksinimleri karşılayamaz ve araştırmacıları bunun yerine evrişimli sinir ağları (CNN'ler) geliştirmeye yönlendirir. CNN'lerde yer alan evrişim işlemi, bir görüntü üzerinde kayabilen ve yeni çıktılar oluşturmak için nokta ürünlerini hesaplayabilen bir ağırlık filtresi kullanılarak açıklanır. Aynı temsili elde etmek için her bir yamanın aynı ağırlıklara ve sapmalara sahip bir katmandan geçirildiği ağırlık paylaşım tekniği de tanıtılır ve bu da CNN'leri bilgisayar görüşü için belirlenen kriterleri karşılayabilir hale getirir.

  • 00:30:00 Dersin bu bölümünde, konuşmacı, bir giriş yaması üzerindeki bir filtrenin eleman bazında çarpımını almayı ve sonuçları toplamayı içeren evrişim sürecini açıklıyor. Bu işlem, bilgisayarla görme algoritmalarının tüm görüntü yerine giriş görüntüsünün tekli yamalarına odaklanmasını ve ağırlıkları paylaşarak her yama için aynı filtreyi kullanmasını sağlar. Filtreleri stratejik olarak tasarlayarak, algoritmalar kenar algılama gibi farklı türden bilgileri çıkarabilir. Hoparlör, kıvrımlı çıkışın ortasındaki yüksek aktivasyonları kenarlarda düşük aktivasyonlarla vurgulayarak dikey kenarları algılamak için tasarlanmış bir filtre örneği sağlar.

  • 00:35:00 Dersin bu bölümünde eğitmen, bilgisayarla görmede konvolüsyon kavramını ve bunların özellik çıkarıcı olarak nasıl kullanıldığını açıklar. Evrişimli Sinir Ağları (CNN'ler), bir görüntüden farklı özellikler çıkarabilen filtreler kullanır ve bu filtreler, derin öğrenme süreciyle öğrenilebilir. Daha fazla filtre kullanarak, CNN'ler bir girdi görüntüsünden farklı türden özellikler çıkarabilir ve hepsi hakkındaki bilgileri kullanabilir. Eğitmen ayrıca evrişim sürecinin çoklu kanallara sahip bir girdi görüntüsüne nasıl genelleştirileceğini tartışır ve bu sürecin çıktısına farklı özelliklerin aktivasyonunu temsil eden bir aktivasyon haritası denir.

  • 00:40:00 Bu bölümde konuşmacı, görüntüleri RGB formatında temsil etme konseptini ve aktivasyon haritasının nasıl 3 boyutlu bir yapıya sahip olabileceğini tartışıyor. Süreç, farklı özelliklerin çıkarılmasını ve bir 3D çıktı elde etmek için bunların birleştirilmesini içerir. Bu evrişim işlemi geneldir ve derin sinir ağlarına yol açan evrişimli katmanları üst üste istiflemeye izin veren herhangi bir 3D girişe uygulanabilir. Ek olarak, konuşmacı, yalnızca evrişimli sinir ağlarıyla sınırlı olmayan alıcı alan konseptiyle ilgili uygulama ayrıntılarına giriyor.

  • 00:45:00 Bu bölümde aktivasyon haritalarındaki alıcı alan kavramı ele alınmaktadır. Alıcı alan, bir aktivasyon haritasının her bir öğesini etkileyen girdi bölgesini ifade eder. Bu bölüm, alıcı alanların nasıl çalıştığını ve alıcı alan boyutunu artırmanın ağ performansını nasıl etkileyebileceğini açıklamaktadır. Ayrıca, alıcı alanların farklı evrişimli filtrelerden etkilenebileceği ve aşırı büyük veya küçük bir alıcı alana sahip olmanın girdide önemli bilgilerin kaybolmasına neden olabileceği de belirtilmiştir.

  • 00:50:00 alıcı alan, dersin bu bölümünde, profesör alıcı alan boyutunun bir evrişimli sinir ağının (CNN) bir görüntüyü sınıflandırma yeteneğini nasıl etkilediğini açıklıyor. Küçük bir alıcı alana sahip olmak, ağın görüntü sınıflandırma görevi için yeterli bilgiyi işleyememesine yol açarken, büyük bir alıcı alana fazla sığdırmaya yol açabilir. Ders ayrıca, bir CNN'de aktivasyon fonksiyonlarının kullanımı yoluyla doğrusal olmama durumlarını tanıtmanın önemine de değiniyor. Profesör, iki farklı konvolüsyon aynı alıcı alana sahip olabilse de, aktivasyon fonksiyonları yoluyla doğrusal olmama durumunun ortaya çıkması nedeniyle çıktılarının aynı olmayacağını açıklıyor.

  • 00:55:00 Bu bölümde öğretim görevlisi, modeli çok büyük hale getirebilecek çok fazla katman eklemeden evrişimli sinir ağlarının alıcı alanını artırmak için bir yöntem olarak havuzlama katmanlarını tanıtıyor. Havuzlama katmanları, girdilerin kare bölgelerine bakmayı ve maksimum veya ortalama işlemleri uygulamayı içerir. Örneğin, ikiye iki maksimum havuzlama, modelin dört piksellik her yığından yalnızca bir değer seçmesini sağlar, böylece girdinin boyutlarını iki azaltır. Öğretim görevlisi ayrıca maksimum havuzlamanın yerel bir alandan gelen önemli bilgileri nasıl koruduğunu ve aktivasyonun uzamsal boyutlarını azaltmada yaygın hale getirdiğini açıklar.

  • 01:00:00 Bu bölümde konuşmacı, kıvrımlar sırasında bir görüntünün yüksekliğini ve genişliğini korumak için doldurma işlemi ve aynı dolgu dahil olmak üzere farklı teknikleri tartışıyor. Etkinleştirme haritasının uzamsal boyutlarını korumak için girdinin boyutunu sıfırlarla veya diğer sabitlerle çevreleyerek yapay olarak artırdığınızda aynı dolgu yapılır. Bu, derin öğrenme topluluğunda bir tercihtir, ancak normal doldurmaya göre daha iyi performans sağladığına dair ampirik bir kanıt yoktur. Ek olarak, konuşmacı kıvrımlarda adım kavramını ve bunun bir havuzlama katmanıyla aynı etkiye nasıl sahip olabileceğini tartışıyor.

  • 01:05:00 Bu bölümde öğretim görevlisi, bilgisayar görüşünde bir havuzlama katmanına bir yaklaşım olarak işlev görebilen evrişimli katmanlarda adım kullanımını tartışıyor. Birden daha büyük bir adım kullanmanın, evrişimi ve havuzlama katmanlarını bir araya getirmeye benzer olduğunu, ancak bunu yapmanın herhangi bir özel avantajı sağlamadığını açıklıyor. Ayrıca orijinal giriş boyutları, filtre boyutu, dolgu boyutu ve adımlar gibi faktörlere bağlı olan çıkış aktivasyonunun boyutlarını belirlemek için bir formül sunar. Öğretim görevlisi daha sonra, PyTorch'un birden fazla parametre kullanarak evrişimli katmanları tanımlamayı kolaylaştırdığını vurgulayarak, gradyanların geri yayılımının evrişimli katmanlar aracılığıyla nasıl yapılabileceğini açıklar.

  • 01:10:00 Bu bölümde öğretim görevlisi, evrişimli katmanların hiper parametrelerini ve bunların bir CNN'nin anatomisini nasıl oluşturduğunu tartışır. Bu hiper parametreler, çekirdek boyutu, adım, dolgu ve havuzlama katmanlarını içerir. Öğretim görevlisi, evrişimli bir katmanın, yüksek boyutlu girdiyi, bir sınıflandırma görevi için tamamen bağlı bir ağa aktarılabilen düşük boyutlu özellik bloklarına dönüştüren bir özellik çıkarıcı olarak görülebileceğini açıklıyor. Sondaki evrişimli katmanın çıktısı, sınıflandırıcı olan kırmızı kutunun içindeki MLP'ye aktarılabilen düşük boyutlu bir öznitelik bloğudur. Son olarak öğretim görevlisi, farklı havuzlama katmanları olduğunu, ancak Derin Öğrenme topluluğundaki normun ortalama havuzlama yerine maksimum havuzlama kullanmak olduğunu açıklar.

  • 01:15:00 Bu bölümde, video bir Evrişimli Sinir Ağı'nın (CNN) yapısını gerçek hayattan bir örnek kullanarak açıklıyor. LeNet adlı ağ, el yazısı rakamları sınıflandırmak için Jan Lacun tarafından geliştirildi. Video, LeNet ağının bir girdi aldığını ve onu özellik haritalarına dönüştürdüğünü, bu haritaları daha küçük boyutlara çektiğini, bir çıktı elde etmek için tamamen bağlı katmanlardan geçirmeden önce girdinin daha küçük bir temsilini elde edene kadar başka bir evrişim ve havuzlama uyguladığını açıklıyor. olası on basamaktan birini temsil eder. Video, kümeleme evrişimi, ReLU ve havuzlama katmanları gibi CNN mimarileri için tasarım seçeneklerini ve eğitimi daha kararlı hale getirmek için toplu normalleştirme katmanlarının kullanımını açıklamaya devam ediyor. Son olarak, video, MNIST el yazısı rakam sınıflandırma veri seti ve CIFAR-10 veri seti gibi bilgisayar görüşünde yaygın olarak kullanılan veri setlerinden bazılarını tartışıyor.

  • 01:20:00 Dersin bu bölümünde eğitmen, MNIST, CIFAR-10 ve ImageNet dahil olmak üzere birkaç popüler bilgisayarla görme veri setini tartışır. Özellikle ImageNet veri seti, bilgisayarla görme algoritmalarını değerlendirmek için yaygın olarak bir kıyaslama noktası olarak kullanılan bir milyon resimlik bir veri setidir. Eğitmen ayrıca, görüntü verilerini bir sinir ağına geçirmeden önce normalleştirmenin önemini ve verilerin benzer bir dağıtımdan geldiğinden emin olmak için dikkatli bir değerlendirme gerektiren verileri toplama ve etiketlemenin zorluğunu vurgular. Ek olarak, daha fazla veri fazla uydurmayı önlemeye yardımcı olabilir, ancak büyük veri kümelerini toplamak maliyetli ve zaman alıcı olabilir.

  • 01:25:00 Bu bölümde, ders, parlaklığında, kontrastında, renginde küçük değişiklikler yaparak, görüntüyü kırparak, çevirerek veya döndürerek ve atayarak tek bir görüntüden yapay olarak daha fazla veri oluşturabileceğiniz veri artırma konusunu kapsar. yeni eğitim veri kümeleri oluşturmak için aynı etiketi kullanın. Bu yöntem, önceden var olan veri kümelerinden yeni veriler oluşturmanın çok ucuz ve kolay bir yoludur. Ayrıca ders, evrişimli sinir ağlarını eğitirken model kontrol noktası belirlemenin önemini de vurguluyor çünkü eğitim süresi genellikle saatler, günler, hatta haftalar sürüyor ve makinenin çökmesi veya kazara kapanma gibi ani bir kesinti nedeniyle ilerlemeyi kaybetmek maliyetli olabiliyor. Eğitim kesintiye uğrarsa en son anlık görüntüden devam etmek için model hızı anlık görüntülerini eğitim sürecinin farklı noktalarında depolamak çok önemlidir.
CS 198-126: Lecture 5 - Intro to Computer Vision
CS 198-126: Lecture 5 - Intro to Computer Vision
  • 2022.12.03
  • www.youtube.com
Lecture 5 - Intro to Computer VisionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.ed...
 

CS 198-126: Ders 6 - Gelişmiş Bilgisayar Görüsü Mimarileri



CS 198-126: Ders 6 - Gelişmiş Bilgisayar Görüsü Mimarileri

Gelişmiş bilgisayarla görme mimarileri üzerine olan bu ders, evrişimli sinir ağlarına (CNN'ler) ve bunların çeşitli tekniklerine odaklanmaktadır. Öğretim görevlisi, daha yüksek doğruluk ve daha basit mimariler için geriye dönük artık değerleri korumak için kalıntılar gibi gelişmiş tekniklere geçmeden önce AlexNet ve VGG mimarisini açıklar. Darboğazlar ve tek tek evrişimlerin kullanımı ve ayrıca bilgisayarla görme mimarilerinde kimliği öğrenebilmenin önemi tartışılmaktadır. Ders ayrıca, sinir ağlarında kaybolan gradyanlar ve bunun toplu normalleştirme ve artık ağlarla nasıl hafifletilebileceği konularını da kapsar. Küresel ortalama havuzlama ve derinlemesine ayrılabilir evrişim gibi teknikler derinlemesine açıklanır, ardından mobil ağ mimarisi ve faydaları tartışılır.

Ayrıca öğretim görevlisi, gelişmiş bilgisayarla görme mimarilerini inceler ve adım yerel evrişimleri ve tek tek evrişimleri kullanarak evrişimli sinir ağı modellerini optimize etmeye odaklanır. Gelecekteki ağları verimli bir şekilde oluşturmak için bu optimizasyonları ve belirli optimizasyonlarla ortaya çıkabilecek sorunları anlamanın önemini vurguluyor. Ders, verimli ağ modelinin diğer ağlarla karşılaştırılmasıyla vurgulanan doğruluk, performans ve model boyutu arasındaki ödünleşim üzerine bir tartışma ile sona erer. Öğrenciler yaklaşan bir kısa sınav ve bir sonraki Cuma günü teslim edilecek bir ev ödevi hakkında bilgilendirilir.

  • 00:05:00 Bu bölümde, konuşmacı daha gelişmiş CNN mimarilerine geçmeden önce önceki dersi özetleyerek başlar. Son dersteki kaba giriş için özür dilerler ve başlamadan önce bazı son dakika düzenlemeleri yaparlar. Bir mikrofon hakkında kısa bir değiş tokuş olur, ancak daha sonra konuşmacı derse atlar.

  • 00:10:00 Bu bölümde, konuşmacı evrişimli sinir ağının (CNN) mimarisini ve bunun standart yoğun sinir ağından nasıl farklı olduğunu gözden geçiriyor. Konuşmacı, bir CNN'deki evrişimli katmanın, filtreler ve yanlılık terimleri gibi öğrenilmiş parametrelerle, yoğun bir sinir ağındaki bir katmana benzer olduğunu açıklığa kavuşturur. Konuşmacı, bir filtrenin girişteki her konum için bir çıktı haritasını nasıl oluşturduğunu ve çoklu filtrelerin farklı çıkış kanalları oluşturduğunu açıklar. Konuşmacı ayrıca çıkış hacminin boyutunu azaltmak için bir havuzlama katmanının nasıl kullanılabileceğini açıklar. Genel olarak, konuşmacı, bir CNN'nin mekaniğinin, matris çarpımının yerini alan konvolüsyonlarla yoğun bir sinir ağına benzer olduğunu vurgular.

  • 00:15:00 Bu bölümde konuşmacı, özellik hacminin boyutunu azaltmak ve kıvrımları hızlandırmak için evrişimli sinir ağlarında maksimum havuzlamanın kullanımını açıklıyor. Bu teknik, özellik hacminin her bir küçük karesindeki maksimum değeri almayı ve bunu çıktı olarak kullanmayı içerir. Konuşmacı ayrıca bir görüntüdeki her pikselin belirli bir sınıflandırma ile etiketlenmesini içeren segmentasyon kavramına da değiniyor ve bu görev için çıktı boyutunun girdi boyutuyla aynı olacağını belirtiyor. Bölüm, dersten alınacak en önemli şey olarak ResNet'e odaklanarak, gelişmiş CNN mimarilerine kısa bir girişle sona eriyor.

  • 00:20:00 Bu bölümde öğretim görevlisi, evrişimli sinir ağlarına (CNN'ler) odaklanarak çeşitli bilgisayarla görme mimarilerini tartışıyor. Ders, düşük seviyeli özelliklerden bilgi sentezlemek ve daha yüksek özelliklere doğru ilerlemek için evrişimli katmanları istiflemeyi ve katmanları birleştirmeyi içeren CNN'lerin arkasındaki motivasyonu tartışarak başlar. Ders daha sonra, 2012'de ImageNet'te yaklaşık %17'lik bir hata oranına ulaşan çığır açan bir başarı olan AlexNet'in mimarisini tartışmaya devam ediyor. Ancak öğretim görevlisi, bu mimarilerin artık son teknoloji olmadığını belirtiyor. çünkü sonraki derslerde tartışılacak olan transformatör mimarilerinde ilerlemeler olmuştur.

  • 00:25:00 Bu bölümde konuşmacı, yaygın olarak kullanılan iki bilgisayarlı görü sinir ağı olan AlexNet ve VGG'nin mimarisini tartışıyor. AlexNet, beş evrişimli katman içerir; nihai çıktı, üç yoğun katmandan geçen düzleştirilmiş tek boyutlu bir vektör ve tahmin edilen bir sınıf oluşturmak için bir softmax işlevidir. Öte yandan, VGG'de 23 evrişimli katman ve üç yoğun katman bulunur. Ek olarak, konuşmacı bire bir kıvrımların bir doldurma ve boyutsallık ekleme ve azaltma biçimi olarak kullanıldığını vurgular.

  • 00:30:00 Bu bölümde öğretim görevlisi, evrişimli sinir ağlarına (CNN'ler) odaklanarak gelişmiş bilgisayarla görme mimarilerini tartışıyor. Ders, girdi boyutunu korumak için tek tek evrişimlerin kullanımının yanı sıra hesaplama verimliliğini artırmak için derinlemesine ve noktasal evrişimlerin kombinasyonunu vurgular. Ders ayrıca, sınıflandırıcının önceki aşamalarında düşük seviyeli özellikleri öğrenmenin önemini vurgular ve katmanları körü körüne istiflemeyle ilgili sorunları açıklar. Ders, bu sorunları ele almak için artıkların geriye dönük artık değerleri korumak için kullanımını açıklayarak daha yüksek doğruluk ve daha basit mimarilere yol açar.

  • 00:35:00 Bu bölümde ders, derin evrişimli sinir ağlarında kalıntı kavramını tartışıyor. Kimlik dönüşümü öğrenilebileceği için daha fazla katman eklemek doğruluğu azaltmamalı, pratikte daha fazla katman eklemek, dönüşüm sonrası önceki kimlikleri etkileyerek yok olan gradyanlara, patlayan gradyanlara ve paramparça gradyanlara neden olur. Artıklar, önceki aşamalardan gelen bilgileri gelecekteki hesaplamalarda saklayarak bu sorunu çözer ve kimlik dönüşümünü öğrenmeyi kolaylaştırır. Ders ayrıca, artıkların eklenmesinin yakınsama süresini artıracağı, ancak sonuçları zorunlu olarak artırmayacağı, artıkların işlenmesindeki darboğazları tartışır. Buna bir çözüm, darboğazın boyutunu ve sıklığını ayarlamaktır.

  • 00:40:00 Dersin bu bölümünde, konuşmacı bilgisayarla görme mimarilerinde kimliği öğrenebilmenin önemini tartışıyor. Bir ağın ağırlıkları ve yanlılıklarının tümü sıfırsa, ağın aldığı çıktının aynısını vereceğini, bu da ağın iyi bir sınıflandırma yapmak ve öğrenmeyi durdurmak için yeterli bilgiye sahip olduğunda bunu fark etmesini kolaylaştıracağını açıklar. daha karmaşık özellikler. Konuşmacı ayrıca bir ağdaki katman sayısını seçme konusuna da değiniyor, ResNet mimarisinde iki katman yaygın bir seçimdir.

  • 00:45:00 Dersin bu bölümünde sunum yapan kişi, sinir ağlarında kaybolan gradyanlar konusunu ve bunun ağırlık güncellemelerini nasıl etkileyebileceğini tartışıyor. Kaybolan gradyan sorunu, bireysel adımların kısmi türevleri bir çarpma zincirinde çok küçük veya çok büyük olduğunda ortaya çıkar ve bu da ağırlıkların tutarlı bir şekilde güncellenmesinde sorunlara neden olabilir. Sunum ayrıca toplu normalleştirme ve artık ağların yok olan gradyan sorununu hafifletmeye nasıl yardımcı olduğundan bahsediyor. Ders daha sonra, Konvolüsyonel Sinir Ağlarında (CNN'ler) tamamen bağlı katmanları değiştirmek ve sınıflandırma görevlerinde her kategori için özellik haritaları oluşturmak için kullanılan küresel ortalama havuzlamayı tartışmaya geçer.

  • 00:50:00 Dersin bu bölümünde, konuşmacı sinir ağlarında yoğun katman kullanımının genellikle nasıl aşırı uyum ve performansta düşüşle sonuçlandığını tartışıyor. Bunu önlemek için, özellik haritaları oluşturan, bunların ortalamasını alan ve herhangi bir parametreyi ayarlamadan bunları bir softmax işlevine besleyen küresel ortalama havuzu (GAP) kullanmanızı önerirler. Konuşmacı ayrıca, hesaplamayı azaltmak ve her kanaldan veri tutmak için akıllı bir şekilde birleştirmeden önce her kanalda daha düşük boyutlu özellik haritalarını ayrı ayrı kullanan derinlemesine ayrılabilir evrişim kavramını da tanıtıyor. Bu teknik, derin sinir ağlarında çok çeşitli filtreler üzerinde hesaplamaları ölçeklendirmek için özellikle önemlidir.

  • 00:55:00 Dersin bu bölümünde konuşmacı, bir görüntü için gereken hesaplama sayısını azaltmak için derinlik ve noktasal evrişim kullanan mobil ağ mimarisini tartışıyor. Görüntünün her kanalına bire bir-üç katman uygulayarak ve ardından sonuçları birleştirerek ve buna daha küçük bir noktasal evrişim uygulayarak, çıktı elde edilir ve hesaplama sayısı önemli ölçüde azaltılır. Mobil ağ mimarisi daha az parametreye sahiptir ve D3'ün Başlangıcının doğruluğu ile eşleşirken daha hızlı yakınsar. Konuşmacı ayrıca yoğun katmanları ve hesaplama açısından daha az yoğun olan yeniden ölçeklendirmeyi kullanarak özellik haritalarını sıkıştırabileceğiniz ve genişletebileceğiniz sıkışık ve heyecan verici ağları tartışmaya devam ediyor.

  • 01:00:00 Bu bölümde öğretim görevlisi, bir evrişimli sinir ağı (CNN) modelini optimize etmek için adım yerel evrişimlerin ve tek tek evrişimlerin nasıl kullanılabileceğini tartışır. Ayrıca, optimizasyonları ve belirli optimizasyonların karşılaştığı sorunları anlamanın, gelecekteki ağları daha verimli bir şekilde oluşturmaya nasıl yardımcı olabileceğinden bahseder. Ders, verimli ağ modelinin doğruluğunun, performansının ve model boyutunun diğer ağlarla karşılaştırılmasıyla sona erer ve bu ölçümler arasında her zaman bir değiş tokuş olduğunu vurgular.
CS 198-126: Lecture 6 - Advanced Computer Vision Architectures
CS 198-126: Lecture 6 - Advanced Computer Vision Architectures
  • 2022.12.03
  • www.youtube.com
Lecture 6 - Advanced Computer Vision ArchitecturesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://...
 

CS 198-126: Ders 7 - Nesne Algılama



CS 198-126: Ders 7 - Nesne Algılama

Ders, nesne algılamayı, özellikle basit bir CNN sınıflandırmasına yerelleştirmeyi, nesne algılama için IOU yöntemini, R-CNN sistemini ve YOLO ile işlem süresini en aza indirmek için nesne algılama algoritmalarını optimize etmeyi tartışır. Video, bir görüntüyü keserek YOLO'yu açıklıyor ve belirsizliği ortadan kaldırmak için bağlantı kutuları kullanmak da dahil olmak üzere YOLO nesne algılamanın zorluklarını tartışıyor. Son olarak, nesne tespiti için tamamen evrişimli bir sinir ağı olan YOLO mimarisi keşfedildi ve sınıflandırma için çok sayıda sınıfın depolanması devam eden bir araştırma sorusu olarak sunuldu. Konuşmacı, okunamazlık nedeniyle RCNN'ye karşı tavsiyede bulunurken "Sarı Kağıt" ın okunmasını tavsiye ediyor.

  • 00:00:00 Bu bölümde öğretim görevlisi, yer işareti tespiti için basit bir CNN sınıflandırmasına yerelleştirme ekleme sürecini tartışıyor. Ağa bir X ve Y çıktısı ekleyerek, ağ, bir görüntüdeki hayvanın burnu gibi belirli bir özelliğin tam konumunu verir. Öğretim görevlisi daha sonra, bir bütün olarak kedi için bir sınırlayıcı kutu oluşturmak üzere daha fazla çıktı ekleyerek bu ağın nasıl genişletileceğini açıklar. Öğretim görevlisi ayrıca bir sınırlayıcı kutu bulmak için ağ genişletmeye yönelik farklı fikirleri ve bu genişletilmiş görevde ağı eğitme sürecini araştırır.

  • 00:05:00 Bu bölümde öğretim görevlisi, nesne algılama için IOU (Union üzerinden kesişme) yöntemini tartışır. Bu yaklaşım, kesişme alanını hesaplayarak ve bunu Birliğin alanına bölerek tahmin edilen sınırlayıcı kutu ile gerçek sınırlayıcı kutu arasındaki örtüşmeyi maksimize etmeyi amaçlar. Öğretim görevlisi, bu değer 1'e ne kadar yakınsa, algılamanın o kadar iyi olduğunu açıklar. Ek olarak, öğretim görevlisi, kapsamlı bir arama veya kayan pencereler kullanmanın temel çözümünden bahsederek, aynı görüntüde birden çok nesneyi algılamanın zorluklarına değinir. Ancak bu yaklaşımın verimsizlik ve çok fazla işlem gücü gerektirmesi gibi önemli sorunları vardır.

  • 00:10:00 Bu bölümde konuşmacı, R-CNN adı verilen sistem olan nesne algılamada düşük en boy oranları sorununa önerilen çözümü tartışıyor. Temel fikri, bir görüntüyü bölümlere ayırmak ve nesneler için bir grup sınırlayıcı kutu önermek için klasik makine dışı öğrenme algoritmalarını kullanarak olası sınırlayıcı kutuları tahmin etmek ve bunlar üzerinde sınıflandırma yapmaktır. Bu yaklaşım, bir görüntüdeki kenarların bir sınırlayıcı kutunun sınırları olması muhtemel olduğundan işe yarar. Algoritma, aynı nesnenin birden çok kez potansiyel olarak sınıflandırılmasının neden olduğu fazlalığı ortadan kaldırmak için maksimum olmayan bastırmayı da kullanır. Ancak, klasik algoritmanın nasıl tanımlandığına bağlı olarak çoğu görüntünün binlerce farklı bölümleme bölgesi olması nedeniyle bu sistem hala yavaştır.

  • 00:15:00 Bu bölümde öğretim görevlisi, işlem süresini en aza indirmek için nesne algılama algoritmalarının nasıl optimize edileceğini açıklar. Bunun bir yolu, görüntüden önemli bilgileri çıkaran bir özellik haritası oluşturmak ve ardından, her seferinde tam evrişimli sinir ağını yeniden çalıştırma ihtiyacını ortadan kaldırarak, özellik haritasının yalnızca her nesne tespiti için gereken bölümünde sınıflandırma yapmaktır. Öğretim görevlisi daha sonra, bir görüntüdeki birden çok nesnenin konumunu ve sınırlayıcı kutularını çıkarmak için tek bir evrişimli sinir ağı kullanan bir nesne algılama algoritması olan YOLO'yu tanıtır. YOLO'nun mimarisi, daha hızlı işlem süresine ve aynı anda birden fazla nesnenin algılanmasına izin veren evrişimli katmanlardan ve bir sınıflandırma katmanından oluşur.

  • 00:20:00 Bu bölümde video, YOLO'nun (Yalnızca Bir Kez Bakarsınız) bir görüntüyü bir ızgaraya bölerek nasıl çalıştığını açıklar; her ızgara bir sınıflandırma vektörünü veya sınırlayıcı kutuyu temsil eder. Bu teorik olarak, sınıflandırılabilecek nesne sayısının görüntüdeki ızgara sayısına eşit olduğu anlamına gelir. YOLO ayrıca XY genişliğini ve yüksekliğini kullanır, XY koordinatı sınırlayıcı kutunun orta noktasıdır ve genişlik ve yükseklik kutunun boyutudur. Ardından video, çakışmaları ortadan kaldıran ve her bir sınıflandırma grafiği için en yüksek güvenliğe sahip en iyi sınırlayıcı kutuyu seçen bir süreç olan maksimum olmayan bastırmayı açıklamaya devam ediyor.

  • 00:25:00 Bu bölümde, birden çok nesnenin aynı hücrede merkezlenmesi sorunu ve birden çok sınıflandırmanın ve sınırlayıcı kutuların tek bir hücrede nasıl çıkarılacağı da dahil olmak üzere YOLO nesne algılamanın zorluklarını öğreniyoruz. Bunun çözümü, sınıflandırmadan önce genel sınırlayıcı kutuların tanımlandığı ve veri setinin bu bağlantı kutularına olan benzerliğine göre sınıflandırıldığı bağlantı kutularını kullanmaktır. Bu, hangi nesnenin hangi vektörde sınıflandırılması gerektiğini belirlemek için deterministik bir yol sağlar ve yinelenen sınırlayıcı kutuların belirsizliğini ortadan kaldırır.

  • 00:30:00 Bu bölümde, nesne algılama için tamamen evrişimli bir sinir ağı olan YOLO mimarisi ele alınmaktadır. YOLO ağı görüntü üzerinden tek geçiş gerçekleştirir ve tasarımı basittir, sürgülü pencereler gibi klasik bileşenleri ortadan kaldırır. Çapa kutuları ve diğer teknikleri kullanarak YOLO, hızını büyük ölçüde artırırken RCNN'nin doğruluğunu eşleştirme yeteneğine sahiptir. Ek olarak, bir görüntüdeki nesnelere karşılık gelen geometrik şekiller olan bağlantı kutuları kavramı araştırılır. Aynı şekil ve boyutta olan ve üst üste binen bağlantı kutuları olan nesneleri tespit etmek zordur. Ancak, bu nesneleri ayırmak için matematiksel olarak en uygun bağlantı kutularını bulabilen algoritmalar vardır. Son olarak, tartışma, şu anda araştırmacılar tarafından araştırılan bir sınıflandırma sorusu olan sınıflandırma için çok sayıda sınıfın depolanmasını ele almaktadır.

  • 00:35:00 Bu bölümde konuşmacı, nesne algılama hakkında okumak isteyenler için "Sarı Kağıt" adlı teknik bir makale önerir. Öte yandan konuşmacı, okunamazlığı nedeniyle RCNN'nin okunmasını önermiyor. Konuşmacı, dersi bitirmeden önce dinleyicileri herhangi bir soru sormaya davet eder.
CS 198-126: Lecture 7 - Object Detection
CS 198-126: Lecture 7 - Object Detection
  • 2022.12.03
  • www.youtube.com
Lecture 7 - Object DetectionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/...
 

CS 198-126: Ders 8 - Anlamsal Bölümleme



CS 198-126: Ders 8 - Anlamsal Bölümleme

Ders, anlamsal bölümleme ve örnek bölümleme dahil olmak üzere görüntü bölümlemeyi tartışır. Segmentasyonun temel amacı, bir görüntüdeki tüm nesneleri algılamak ve onları ayırmaktır. Öğretim görevlisi, anlamsal bölümleme için evrişimli bir sinir ağının (CNN) nasıl kullanılabileceğini ve alt örneklemenin, hesaplama açısından pahalı olan tam çözünürlüklü görüntülerde nasıl yardımcı olabileceğini açıklar. Küçük bir hacmi tekrar görüntü boyutuna dönüştürmek için farklı yaklaşımlar da tartışılmaktadır. Ders, önceki iyileştirmeleri atlama bağlantıları ile birleştiren bir semantik bölümleme modeli olan U-Net'i tanıtıyor ve Mask R-CNN yaklaşımı kullanılarak örnek bölümlemeye nasıl genişletilebileceğini açıklıyor. Önceden eğitilmiş bir semantik segmentasyon modeli gösterilir ve konuşmacı eğitim öncesi ve yaklaşan kurs ödevlerinden bahseder.

  • 00:00:00 Bu bölümde ders, görüntü bölümlendirmeyi, özellikle semantik bölümleme ve örnek bölümlemeyi kapsar. Anlamsal bölümleme, görüntüde bir nesnenin bulunduğu belirli pikselleri bulmayı içerirken, örnek bölümleme, her sınıfın her bir örneğinin görüntüde nerede olduğunu tanımlar. Segmentasyonun nihai amacı, bir görüntüdeki tüm nesneleri algılamak ve onları ayırmaktır. Bu teknik yararlıdır, çünkü insanlar nesneleri bireysel bileşenlerin bir kombinasyonu aracılığıyla algılar ve bu bileşenleri daha spesifik olarak tanımlayıp sınıflandırabilmek önemlidir. Segmentasyon, nesne algılama ve nesne ilişkilerini belirleme gibi yararlı uygulamalar sunar.

  • 00:05:00 Bu bölümde öğretim görevlisi, segmentasyon kavramını ve ona nasıl yaklaşılacağını tartışır. Fikir, bir çeşit benzerlik kriterine göre gruplandırarak bağlantılı bölümler oluşturmaktır. Buna yönelik klasik yaklaşım, pikselleri yoğunluk gibi bazı metriklerdeki benzerliklerine göre gruplandırmak için bir işlev tanımlamaktı. Ancak öğretim görevlisi, sabit bir algoritma kullanmak yerine segmentasyonun nasıl gerçekleştirileceğini öğrenebilen kayan pencereler gibi daha yeni derin öğrenme yaklaşımlarından bahseder.

  • 00:10:00 Bu bölümde konuşmacı, evrişimli sinir ağının (CNN) semantik bölümleme için nasıl kullanılabileceğini açıklıyor. CNN kayan pencere yaklaşımını birden çok kez çalıştırmak yerine, evrişimli bir işlem kullanılabilir. Bu, paylaşılan özellikleri yeniden hesaplamanın verimsizliği olmadan istenen etkilerin elde edilmesini sağlar. Evrişim katmanı, görüntü üzerinde bir filtre olarak çalıştırılabilir ve çıktı katmanı, boyutu ne olursa olsun, orijinal görüntü ile bire bir eşlenir. Dolgu, giriş boyutunun filtre boyutundan küçük olduğu durumları işlemek için de kullanılabilir.

  • 00:15:00 Bu bölümde öğretim görevlisi, tam çözünürlüklü görüntülerin işlenmesi hesaplama açısından pahalı olabileceğinden, semantik bölümlemeyi daha uygun hale getirmek için büyük görüntüleri altörnekleme konusunu tartışıyor. Çözüm, her evrişim katmanıyla görüntüyü kademeli olarak alt örneklemek ve gereksiz bilgileri kaldırarak çalışmak için daha küçük bir birim oluşturmaktır. Bu altörneklenmiş görüntü daha sonra, maksimum sınıflandırma çıktısına dayalı olarak her pikselin belirli bir sınıfa bölündüğü orijinal görüntünün bir bölümleme haritası oluşturmak için sonunda üst örneklenir. Ders ayrıca, görüntülerin kenarlarını doldurma ve işlemeye yönelik farklı yaklaşımları da kısaca tartışır.

  • 00:20:00 Bu bölümde eğitmen, segmentasyon haritası gibi küçük bir hacmi orijinal giriş görüntüsü boyutunda bir görüntüye dönüştürmek için farklı yaklaşımları tartışır. Klasik yaklaşım, görüntüyü büyütmeyi ve fazladan boşluğu doldurmak için en yakın komşu veya doğrusal enterpolasyon gibi enterpolasyon fonksiyonlarını kullanmayı içerir. Ancak, bu yaklaşım bir miktar ayrıntı kaybına yol açabilir. Eğitmen, girdi katmanını çıktı katmanı üzerinden geçirmeyi ve orijinal girdi görüntüsündeki pikselleri birer birer kaldırmayı içeren ters evrişimi kullanan öğrenilmiş bir yaklaşım önerir. Eğitmen evrişimlerin kısa bir incelemesini sağlar ve giriş ve çıkış katmanlarının konumlarını ters çevirerek ters evrişimin nasıl çalıştığını açıklar.

  • 00:25:00 Bu bölümde öğretim görevlisi basit bir girdi görüntüsü örneği çizer ve girdi görüntüsünün her bir pikseline bakmayı ve bunu çıktı görüntüsüne yansıtmak için bir filtre kullanmayı içeren bir ayrıştırma yöntemini açıklar. Öğretim görevlisi, önceden yazılmış olan değerlerin üzerine yazabilmesi nedeniyle bu yöntemin bir sınırlamasına dikkat çeker. Bunu ele almak için öğretim görevlisi, giriş görüntüsünü düşük çözünürlüklü bir temsile alt örneklemek için evrişimli evrişimleri içeren ve ardından orijinal boyutuna geri üst örneklemek için D evrişimlerini kullanan artımlı bir yaklaşım sunar. Öğretim görevlisi, bu yöntemin yararlı olduğunu, çünkü yukarı örneklemenin, şekillerin daha fazla uyarlanabilirliğini ve rafine edilmesini sağlayan klasik bir algoritmadan ziyade öğrenildiğini belirtiyor.

  • 00:30:00 Bu bölümde, önceki iyileştirmeleri atlama bağlantıları ile birleştiren bir semantik bölümleme modeli olan U-Net'i öğreniyoruz. Atlanan bağlantılar, yukarı örnekleme sırasında aşağı örnekleme yolunun farklı düzeylerinden bilgi çekmeye izin verir. Derin düz aile modelleri ve Sendformer gibi Transformer tabanlı modeller gibi U-Net'in farklı varyasyonları da vardır. U-Net ayrıca, tanımlanan değer içindeki nesnelerin konumunu tahmin eden Mask R-CNN yaklaşımı kullanılarak örnek bölümleme problemini çözmek için genişletilebilir.

  • 00:35:00 Bu bölümde öğretim görevlisi, arabalar, yayalar veya sırt çantaları gibi nesnelerin ana hatlarını algılayan kendi kendine giden araçlar için kullanışlı olan Mask R-CNN kullanarak tam örnek segmentasyonunu tartışıyor. Öğretim görevlisi, potansiyel sınırlayıcı kutunun nasıl sabit boyutlu bir görüntüye sıkıştırıldığını ve sınıflandırıldığını açıklar. Nesnelerin etiketleri, insanlara yaptırmak veya yardımcı yöntemler kullanmak gibi çeşitli yöntemlerle toplanır. Matris, bir filtreyle aynı şekilde öğrenilir ve bir görüntüyü devre dışı bırakırken öğretim görevlisi, bunun, filtrenin karşılık gelen her piksel değeriyle çarpıldığı ve ardından görüntü üzerinde yinelenen, aslında bir evrişimi tersine çevirmeyen bir projeksiyon olduğunu açıklar. .

  • 00:40:00 Bu bölümde öğretim görevlisi ve bir öğrenci, Cloud GPU üzerinde eğitilmiş, önceden eğitilmiş bir semantik segmentasyon modelini gösteriyor. Model, Japonya'dan bir görüntü üzerinde çalıştırılır ve sonuçlar, modelin değişen doğruluklarla birden çok nesneyi algılayabildiğini gösterir. Öğrenci ayrıca, düşük doğruluk puanlarına sahip bilgileri filtrelemek için modele bir puan eşiği uygulanabileceğinden bahseder. Genel olarak demo, anlamsal bölümlendirmenin gerçek dünya görüntülerine nasıl uygulanabileceğinin bir örneği olarak hizmet eder.

  • 00:45:00 Bu bölümde konuşmacı, ön eğitimden ve modelin AWS ve diğer boşaltılmış hizmetlerde nasıl önceden eğitilebileceğinden bahsediyor. Ayrıca zorunlu bir yerleşik atamadan ve bölümlemeyi içeren önerilen bir isteğe bağlı birimden bahsederler. Son tarihler ve bağlantılar dersin web sitesindedir ve öğrencileri herhangi bir soru ile ofis saatlerine gelmeye teşvik eder. Genel olarak, bu bölüm kurs ve yaklaşan ödevler hakkında bazı lojistik bilgiler sağlamıştır.
CS 198-126: Lecture 8 - Semantic Segmentation
CS 198-126: Lecture 8 - Semantic Segmentation
  • 2022.12.03
  • www.youtube.com
Lecture 8 - Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/d...
 

CS 198-126: Ders 9 - Otokodlayıcılar, VAE'ler, Üretken Modelleme



CS 198-126: Ders 9 - Otokodlayıcılar, VAE'ler, Üretken Modelleme

Bu derste, bir veri kümesine dayalı olarak yeni görüntüler oluşturmak için makine öğreniminin kullanılmasını içeren üretken modelleme kavramı tanıtılmaktadır. Özellik öğrenme için kullanılan bir tür sinir ağı olan otomatik kodlayıcılar, yapılarına ve sıkıştırma ve yeniden oluşturma yoluyla girdi verilerinin özelliklerini nasıl öğrenebileceklerine odaklanılarak açıklanmaktadır. Ders aynı zamanda değişken otomatik kodlayıcıları ve bunların faydalarını ve ayrıca otomatik kodlayıcılarda görüntüler arasında enterpolasyon yapmak için yapılandırılmış gizli boşlukların kullanımını kapsar. Ayrık verilerle çalışmak için vektör nicelemenin önemi tartışılır ve giriş verilerinin kodlanmasını önlemek için bir yeniden yapılandırma kaybı ve bir taahhüt kaybı içeren bir varyasyonel otomatik kodlayıcı için kayıp fonksiyonu açıklanır. Ders, işlenen konuların tekrarı ile sona erer.

  • 00:00:00 Bu bölümde ders, bir veri kümesine dayalı olarak yeni görüntüler oluşturmak için makine öğrenimini kullanmayı içeren üretken modelleme konusunu tanıtıyor. Ancak kediler gibi farklı nesneleri birbirinden neyin ayırdığını anlamak makineler için zor bir problem olabilir. Ders, JPEG sıkıştırma örneğinde görüldüğü gibi, otomatik kodlayıcı kavramını ve bunların görüntüleri sıkıştırmak ve sıkıştırmayı açmak için nasıl kullanılabileceğini tanıtıyor. Ders ayrıca bir sonraki derste tartışılacak olan varyasyonel otomatik kodlayıcılar konusuna da değiniyor.

  • 00:05:00 Bu bölümde öğretim görevlisi görüntü sıkıştırmayı ve bunun bir düzeyde verilerin anlaşılmasına nasıl dayandığını tartışıyor. Sıkıştırma, yerden tasarruf sağlayabilir ve bir ağ üzerinden görüntü göndermek için gereken bit sayısını azaltabilir. JPEG algoritması, insan algısı için çok önemli olmayan bazı yüksek frekanslı bilgileri ve pikselden piksele ilişkileri atarak çalışır. Öğretim görevlisi daha sonra, kedi görüntüleri gibi belirli görüntü türleri için, görüntünün yalnızca piksel korelasyonlarının ötesinde nasıl yapılandırıldığına dair daha derin bilgi ile daha gelişmiş sıkıştırma şemalarının geliştirilebileceğini önerir. Genel olarak, sıkıştırma algoritmaları, makine öğrenimindeki verileri anlamanın önemini vurgular.

  • 00:10:00 Bu bölümde öğretim görevlisi, giriş verilerini sıkıştırmak ve daha sonra yeniden yapılandırmak için bir kodlayıcı-kod çözücü yapısını kullanan, özellik öğrenimi için kullanılan bir tür sinir ağı olan otomatik kodlayıcı kavramını tartışır. Bunu, özellik çıkarma için PCA kullanan özyüzler gibi önceki tekniklerle karşılaştırır ve bir otomatik kodlayıcı ağının yapısını gösterir. Kodlayıcı kısım, giriş verilerini bir darboğaz katmanına indirgerken, kod çözücü kısım, orijinal biçimine geri döndürür. Amaç, orijinal ve yeniden yapılandırılmış veriler arasındaki farkı en aza indirmektir. Öğretim görevlisi, girdi olarak aynı çıktıyı üreten bir ağın neden yararlı olacağı sorusunu gündeme getirir ve anahtarın, diğer görevler için kullanılabilecek verilerin öğrenilen özelliklerinde olduğunu açıklar.

  • 00:15:00 Dersin bu bölümünde, eğitmen otomatik kodlayıcılardaki darboğaz katmanı kavramını ve bunun ağı girdi verilerini sıkıştırmaya nasıl zorladığını açıklar, böylece verilerin bazı özelliklerini öğrenir. Ayrıca, bu ağ yapısının sınırlamalarını ve kodun küçük boyutu ve benzer görüntüler için kodların benzerliği gibi arzu edilen özelliklerini tartışıyor. Eğitmen, otomatik kodlayıcılar üzerine inşa edilen ancak gizli vektörlere farklı işlemler uygulandığında mantıklı sonuçlara izin veren sihirli özellikler sağlayan varyasyonel otomatik kodlayıcı kavramını tanıtır. Daha sonra, üretilecek görüntü veya metnin bilgisini içeren gizli vektörün örneklenmesini içeren görüntü ve metin üretimi için üretken çerçeveyi tartışır.

  • 00:20:00 Dersin bu bölümünde, konuşmacı bir yüz veri kümesindeki özellikleri veya "genleri" temsil etmenin bir yolu olarak gizli vektörlerin kullanımını tartışıyor. Gizli vektör, bir birey için olası gen kümeleri üzerinde bir tür olasılık dağılımı görevi görür ve yüz yapısı, o kümedeki genlerin bir fonksiyonudur. Kodlayıcı bir girdi görüntüsü alır ve gizli bir vektör üretir ve kod çözücü bu gizli vektörü alır ve orijinal görüntünün bir tahminini üretir. Gizli uzaya yapı empoze etmek için olasılıksal kodlamalar kullanılır.

  • 00:25:00 Dersin bu bölümünde, konuşmacı gizli uzaydaki yakın vektörleri benzer görüntülerin kodunu çözmeye zorlamak için girdileri olası çıktıların bir bölgesine eşlemede olasılık dağılımlarının kullanımını açıklar. Bu kavram, bir kodun örneklendiği gizli uzaydaki bir dairenin parametrelerini çıkarmak için bir gauss dağılımı kullanan varyasyonel otomatik kodlayıcılarda (VAE'ler) önemlidir. VAE kaybı, bir yeniden oluşturma terimi ve kodlayıcı çıktısını normal bir dağılım gibi görünmeye zorlayan, çıktı için yalnızca bir noktayı öğrenmesini engelleyen ve bunun yerine aynı noktaya kodlanması gereken büyük kümeleri teşvik eden bir terim içerir. Konuşmacı, otomatik kodlayıcının her girişi tek bir noktaya eşlemeyi tercih ettiği, ancak ek terimin noktaları düzlemin merkezine yakın olmaya zorladığı ve biraz varyansa sahip olduğu, bunun yerine disklerin ortaya çıktığı bu kayıptaki zıt hedefleri not eder. bireysel noktalar.

  • 00:30:00 Dersin bu bölümünde, konuşmacı otomatik kodlayıcılarda yapılandırılmış gizli boşluklar kullanmanın faydalarını tartışıyor. Otomatik kodlayıcılar, gizli alandaki yapıyı zorlayarak, görüntüler arasında etkili bir şekilde enterpolasyon yapabilirler; bu, kullanıcıların bir kaydırıcıyı iki ünlü yüzü arasında kaydırabildiği ve kaydırıcının iki yüz arasında makul bir şekilde enterpolasyon yaptığını görebildiği popüler bir çevrimiçi demoda gösterilmiştir. Konuşmacı, bunun gizli vektörleri aynı uzayda birlikte yaşamaya ve yakındaki vektörlerden yakındaki noktaları çözmeye zorlayan varyasyonel bir otomatik kodlayıcı kullanılarak mümkün olduğunu açıklıyor. Konuşmacı, varyasyonel otomatik kodlayıcıların eğitim ayrıntılarının içerdiği örnekleme nedeniyle yanıltıcı olabileceğini, ancak yaklaşımın keyfi olduğunu ve çeşitli uygulamalara uyacak şekilde değiştirilebileceğini belirtiyor.

  • 00:35:00 Dersin bu bölümünde, konuşmacı, bir kelimeyi belirli bir şekilde değiştirmenin ne anlama geldiğini tanımlamanın zor olması nedeniyle, doğal dil işleme (NLP) gibi belirli alanlar için ayrı belirteçlerin kullanılmasının nasıl gerekli olduğunu tartışır. yüzde. Sonuç olarak, değişken otokodlayıcıları (VAE'ler) ayrı belirteçlerle çalışacak şekilde genişletmek için bir hack olarak vektör nicelemenin kullanımını tartışıyor. Vektör nicelemede, VAE'den herhangi bir çıkış vektörünü en yakın simgeye yuvarlamak için geçerli belirteçlerden oluşan bir kod kitabı kullanılır ve bu da ayrık verilerin daha iyi temsil edilmesini sağlar. Ancak, kod kitabının seçimi bir sorun olmaya devam ediyor.

  • 00:40:00 Bu bölümde konuşmacı, bir veri dağıtımında farklı kümelere karşılık gelen kod sözcüklerinin konumlarını öğrenmek için kullanılan Değişken Otomatik Kodlayıcı (VAE) için kayıp işlevini tartışıyor. Kayıp fonksiyonu, kod çözücüden gelen çıktının girdiye benzer olmasını sağlayan bir yeniden oluşturma kaybını ve kodlayıcıdan çıkan vektörlerin bu kümelerin merkezlerini temsil eden kod sözcüklerine yakın olmasını sağlayan bir taahhüt kaybını içerir. Ağın giriş verilerini sabit kodlamasını önlemek için, kodlayıcı her giriş için birden çok kod sözcüğü üretir, bu da daha büyük bir kod sözcüğü kümesiyle sonuçlanır ve ağın daha geniş bir çıktı çeşitliliği oluşturmasına olanak tanır.

  • 00:45:00 Videonun bu bölümünde sunum yapan kişi, normal dağılımdan bir miktar C'yi örnekleyerek ve onu kod çözücüden geçirerek VQ-VAE ile yeni görüntüler üretme yöntemini tartışıyor; daha önce görüldü Ek olarak sunum yapan kişi, gerçek veri dağıtımında bazı kod sözcüklerinin kullanımının diğerlerinden daha yaygın olması nedeniyle, kod çizelgesi öğelerinin tek biçimli örneklemesinin etkili olmayabileceğini açıklar. Bu nedenle, kod sözcükleri üzerinden öncekini öğrenmek, yeni verilerin üretilmesinde yararlı olabilir. Son olarak, sunum yapan kişi, otomatik kodlayıcılardan başlayarak, varyasyonel otomatik kodlayıcılara geçerek ve vektör nicelemeli varyasyonel otomatik kodlayıcılarla biten dersin bir özetini sunar.
CS 198-126: Lecture 9 - Autoencoders, VAEs, Generative Modeling
CS 198-126: Lecture 9 - Autoencoders, VAEs, Generative Modeling
  • 2022.12.03
  • www.youtube.com
Lecture 9 - Autoencoders, VAEs, Generative ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https:/...
 

CS 198-126: Ders 10 - GAN'lar



CS 198-126: Ders 10 - GAN'lar

GAN'lar üzerine ders, oyun teorisi benzeri bir kurulumda birbiriyle rekabet eden ayrımcı ve üretici olmak üzere iki ağ kavramını tanıtıyor. Jeneratörün girişi, gerçek görünümlü görüntüler oluşturmak için anlam atadığı rastgele gürültüdür ve ayrımcının işi, görüntünün gerçek mi yoksa sahte mi olduğuna karar vermektir. GAN'lar, negatif çapraz entropi kaybına karşılık gelen bir kayıp işlevi kullanır; üretici bunu en aza indirmek ister ve ayrıştırıcı bunu en üst düzeye çıkarmak ister. Değer işlevi, üreticinin ne kadar iyi çalıştığını ve ayrımcı tarafından sahte ve gerçek verileri doğru şekilde sınıflandırarak maksimize edilmesi gerektiğini temsil eder. Ders ayrıca, eğitim GAN'ları ve üreticinin değiştirmek için daha fazla aracıya sahip olmasını sağlayan doygun olmayan kayıpla ilgili sorunları da kapsar.

  • 00:00:00 Bu bölümde öğretim görevlisi, görüntüleri sıkıştırmak ve daha sıkıştırılmış temsillere eşlemek için kullanılan gizli değişkenlerin ve kodların bir incelemesini sağlar. Gizli bir vektörden yeni görüntüler oluşturmak için otomatik kodlayıcıları kullanma fikri de tanıtıldı. Öğretim görevlisi, GAN'ların (Üretken Düşman Ağları) devreye girdiği yer olan iyi ve gerçekçi bir görüntüyü neyin oluşturduğuna karar vermenin zorluğuna dikkat çekiyor. Biri veri üreten, diğeri bunun gerçek mi yoksa sahte mi olduğunu belirlemeye çalışan iki ağla, ağlar oyun teorisi benzeri bir kurulumda birbirleriyle rekabet eder. Ayrımcı, görüntüleri doğru bir şekilde sınıflandırdığında kazanır ve üretici, ayırıcıyı kandırdığında kazanır.

  • 00:05:00 Bu bölümde eğitmen, birbiriyle rekabet eden iki ağın (ayırıcı ve üretici) yer aldığı GAN'ların arkasındaki üst düzey konsepti açıklıyor. Darboğazın ortada olduğu otomatik kodlayıcılardan farklı olarak, GAN'larda üreteç ile ayrımcı arasında ortada çok daha yüksek boyutlu bir şey vardır. Jeneratörün girişi, çok değişkenli bir Gauss'tan örneklenen bir tür rastgele gürültü vektörüdür. Üretici daha sonra gizli gürültü değişkenini besler ve ona nasıl rastgele anlam atayacağına karar verir, böylece bir dizi girdi veya gerçek görünümlü bir dizi görüntü üretebilir. Ayrımcı ve üretici ağlar, diğer ağı kandırmak amacıyla, ikisi arasında dönüşümlü olarak gradyan iniş yoluyla ortaklaşa eğitilir.

  • 00:10:00 Bu bölümde öğretim görevlisi, görüntülerin gerçek görünmesini sağlayan kalıpları bulması için bir oluşturucuyu eğitmek üzere gerçek ve sahte veriler verilen bir ağa sahip olarak GAN'ların nasıl çalıştığını açıklıyor. Ayrımcı, görüntünün gerçek mi yoksa sahte mi olduğuna karar veren kişidir ve öğrendikçe kalıpları fark etmeye başlar ve yargısını günceller. Umut, jeneratörün sahne bağlamında anlam ifade eden daha fazla şekil veya nesneyle bir şeyler yaratarak kendini geliştirmeyi öğrenmesidir. GAN'lar için kayıp işlevi, yalnızca ayırıcıdan gelen bir sınıflandırma kaybından oluşur ve üretici puanı bunun tersidir. Üreticiyi eğitmek için, ayrımcının üreticiye geri bildirim sağlamak üzere bir görüntüyü yargılamada iyi olması gerekir.

  • 00:15:00 Bu bölümde öğretim görevlisi, oluşturucuyu iyileştirmek için görüntüleri doğru bir şekilde sınıflandırabilen bir ayırıcının önemini açıklıyor. Ayrımcının, gerçek ve oluşturulan görüntüler arasındaki anlamlı bir farkı ayırt edebilmesi için üreticiden daha fazla güncellenmesi gerekebilir. Öğretim görevlisi daha sonra, negatif çapraz entropi kaybına karşılık gelen kayıp fonksiyonunu, üreteç bunu en aza indirmek ve ayrımcı bunu en üst düzeye çıkarmak isterken parçalara ayırır. Oluşturucu, verileri gerçek göründüğünde kazanır ve ayrımcı, gerçek ve sahte görüntüleri doğru bir şekilde ayırt ettiğinde kazanır. İki ağ, ilerlemek ve daha iyi olmak için birbirleriyle yarıştıkları bir oyun teorisi senaryosunda.

  • 00:20:00 Videonun bu bölümünde sunum yapan kişiler, geleneksel makine öğrenimi modellerinde kullanılan kayıp işlevinin tersi olan GAN'larda değer işlevi kavramını açıklıyor. Değer işlevi, üreticinin ne kadar iyi çalıştığını ve ayrımcı tarafından sahte ve gerçek verileri doğru şekilde sınıflandırarak maksimize edilmesi gerektiğini temsil eder. Jeneratörün ağırlıkları ilk adımda dondurulur, böylece ayrımcı gerçek ve sahte veri yığınları üzerinde eğitilebilir. İkinci adımda, ayırıcı dondurulur ve biraz daha iyi sahte görüntüler oluşturmak için üreticinin ağırlıkları güncellenir. Bu işlem, üretici, ayırt edicinin bile sahte olarak sınıflandıramayacağı gerçekçi görüntüler üretene kadar tekrarlanır.

  • 00:25:00 Bu bölümde konuşmacı, oluşturulan sınıflar üzerinde daha fazla kontrole sahip görüntüler oluşturmak için bir çözüm sağlayan koşullu GAN'ları tartışıyor. Mevcut GAN kurulumu, istenen nesne veya görüntü oluşturulana kadar üretecin tekrar tekrar rasgele beslenmesini gerektirir, ancak daha fazla sınıfa sahip veri kümeleri için bu yaklaşım ideal değildir. Rastgele gürültü vektörüne bir sıcak vektör ekleyerek, bu, üretecin üretilen sınıf üzerinde daha fazla kontrole sahip olmasını sağlar. One-hot vektörü, istenen sınıfa karşılık gelir ve üreteç, bu belirli sınıfla bir görüntü oluşturmak için eğitilir.

  • 00:30:00 Dersin bu bölümünde konuşmacı, jeneratörü koşullu GAN modelinde belirli bir özelliği kullanmaya teşvik etme fikrini tartışıyor. Konuşmacı, oluşturucuya belirli bir görüntü oluşturmasını söylemenin yeterli olmadığını, çünkü üreticinin verilen bilgiyi kullanmak için hiçbir teşviki olmadığını açıklıyor. Çözüm ayrıca ayrımcıya aynı etiketi sağlamak ve oluşturulan görüntünün kendi etiketine karşılık gelip gelmediğini belirlemesi için bir strateji oluşturmaktır. Bu, üreticiyi, ayrımcı tarafından tespit edilmekten kaçınmak istediği için etikete dikkat etmeye zorlar ve sonuç olarak verilen etiketle eşleşen çıktı elde edilir. Hem üreticinin hem de ayrımcının mimarisi de tartışılmaktadır.

  • 00:35:00 Bu senaryoda, jeneratörün ağırlıkları sonunda sıfır olacaktır. Ek olarak, üretici hata yapabilir ve ayrımcıyı iyi bir şekilde kandıran yalnızca küçük bir dizi örnek çıktısı verdiği mod çökmesine yakalanabilir. Bu sorun, ayrımcının süper keskin karar sınırları öğrenmesi ve oluşturucunun bu sahte örnekleri tekrar tekrar çıkarmaya teşvik edilmesi nedeniyle ortaya çıkar. Son olarak, normal kurulumları yakınsamadığından ve kayıp işlevleri düzleştiğinden, GAN'larla ilgili eğitim prosedürü sorunları da vardır.

  • 00:40:00 Bu bölümde öğretim görevlisi GAN'larla ilgili bazı genel sorunları tartışıyor ve bu da onların eğitilmesini zorlaştırabilir. Bir sorun, ayrımcı gerçek görüntülerdeki belirli özelliklere gereğinden fazla uymaya çalışırken, üretici ve ayrımcı arasında her zaman bir değiş tokuş olacak ve GAN eğitiminin ne zaman bittiğini bilmenin net bir yolu olmayacak. Öğretim görevlisi daha sonra, üreticinin amacının basit bir şekilde yeniden formüle edilmesi olan doygun olmayan bir kaybın üzerinden geçer ve ayrıştırıcı oluşturulan görüntüleri sahte olarak tanıdığında oluşturucunun yalnızca küçük bir kısmi türev alması sorununu ele alır. Doyuma ulaşmayan kayıp, alternatif bir terimi maksimize eder ve üreticinin değiştirmek için daha fazla aracıya sahip olmasını sağlar.

  • 00:45:00 Bu bölümde öğretim görevlisi, GAN'larda kullanılan çapraz entropi kaybının arkasındaki matematiksel hileyi açıklıyor. Negatif çapraz entropi kaybını körü körüne en aza indirmeye çalışmak yerine, üreticinin amacı, bir ikili sınıf çapraz entropi türü kayıp kullanarak bir olarak sınıflandırılma olasılığını en üst düzeye çıkarmaktır. Bu doyumsuz kayıp, daha büyük jeneratör gradyanları vererek, ayrımcı jeneratörü kapatırken daha hızlı çalışmamıza olanak tanır. Ancak öğretim görevlisi, sınav veya ev ödevi olmadan bunun ileri düzey bir materyal olduğunu, ancak gelişmiş GAN eğitim teknikleri hakkında daha fazla konuşmaya müsait olduklarını belirtiyor.
CS 198-126: Lecture 10 - GANs
CS 198-126: Lecture 10 - GANs
  • 2022.12.03
  • www.youtube.com
Lecture 10 - GANsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/modern-cv t...
 

CS 198-126: Ders 11 - Gelişmiş GAN'lar



CS 198-126: Ders 11 - Gelişmiş GAN'lar

Gelişmiş GAN'lar hakkındaki bu ders, çift doğrusal üst örnekleme, aktarılmış evrişim, koşullu GAN'lar, StyleGAN ve CycleGAN dahil olmak üzere GAN modellerinin kararlılığını ve kalitesini geliştirmeye yönelik çeşitli teknikleri kapsar. Ders ayrıca GAN'larda kontrollü rastgele gürültü, uyarlanabilir örnek normalleştirme ve video işlemeyi tartışır. Daha iyi kararlılık ve sonuçlar elde etmek için öğretim görevlisi, ayrımcıyı aşırı derecede sinirlendirmemeye karşı uyarıda bulunurken, test sırasında daha büyük parti boyutlarının kullanılmasını ve rastgele gürültü aralığının kısaltılmasını önerir. Ek olarak, çeşitli görüntüler oluşturmak için farklı boyutlarda gizli alanın geniş bir dağılımıyla başlanması önerilir. Son olarak ders, çok büyük ölçeklerde GAN'lar oluşturmaya yardımcı olan Big Gan'a değiniyor.

  • 00:00:00 Bu bölümde, konuşmacı bilgisayar görüşü bağlamında GAN konusunu tanıtıyor ve bilgisayar görüşü için bir GAN mimarisinin inşasını tartışıyor. Konuşmacı, bir CNN sınıflandırması olan ayırıcıya ve gizli vektör görüntüsünü üst örnekleme ihtiyacı nedeniyle daha zorlayıcı olan oluşturucuya odaklanır. Konuşmacı ayrıca, mevcut özellik haritasındaki her bir hücreyi çoğaltarak bulanık bir görüntüye neden olan naif bir yaklaşım olan en yakın komşu yukarı örnekleme de dahil olmak üzere alt örnekleme ve yukarı örnekleme tekniklerini tartışıyor.

  • 00:05:00 Bu bölümde öğretim görevlisi, GAN'lardaki üreticiler için özellik haritalarını üst örneklemenin yollarını tartışıyor. İlk önce, daha büyük, boş bir özellik haritası alıp en yakın komşularının ortalamasıyla doldurarak yeni özellik haritalarının oluşturulduğu çift doğrusal örneklemeyi anlatıyor. Daha sonra, özellik haritasını o kadar çok dolgu ile dolduran devrik evrişimi tanıtıyor ki, evrişim penceresi üzerine kaydırıldığında, çıktı özellik haritası girişten daha büyük oluyor. Öğretim görevlisi, bunların özellik haritalarını örneklemenin en yaygın yolları olduğunu ve genellikle oluşturucuları büyütmek için yeterli olduğunu belirtiyor.

  • 00:10:00 Dersin bu bölümünde, konuşmacı koşullu GAN'ları ve bunların jeneratörde nasıl ele alınacağını tartışıyor. Oluşturucunun girdileri artık ona ne üreteceğini söyleyen gizli ve koşullu bir vektör içerir. Konuşmacı, vektörleri birleştirmeyi veya birleştirmeden önce ayrı ayrı işlemeyi önerir. Ayrıca, birden fazla şeyi bir ayrımcıya iletmeye kısaca değinirler. Daha sonra ders, sanatsal yetenek ve konvolüsyon işlemlerinden önce gizli vektörlerin ön işlenmesini içeren yeni bir jeneratör mimarisi olan StyleGAN'a geçer.

  • 00:15:00 Bu bölümde konuşmacı, daha iyi dokular üretmek için tüm farklı kıvrımların içinde kodlanmış stile erişmesini sağlamak için gizli olanı besleme ihtiyacını tartışıyor. Doku rastgele gürültüdür ve modele rastgelelik kaynakları sağlamak çok daha kolay olacaktır. Bu bölüm, jeneratörü iki farklı bileşene ayıran kullanılan mimariyi tanıtmaktadır. İlki, gizli vektörü üreteci besleyen arzu edilendir. İstenen bileşenin tanıtılması, belirli görüntülerin oluşturulmasını zorlaştıran, kullanılamayan gizli alanlar sorununu çözmek için gizli olanı önceden işlemek içindir. Ön işlemler, W adı verilen yeni bir değiştirilmiş gizliye sahip olana kadar gizli olanı yoğun katmanlardan geçirmeyi içerir.

  • 00:20:00 Bu bölümde video, uyarlamalı örnek normalleştirme (AdaIN) kavramını ve ağa stili nasıl getirdiğini tartışıyor. AdaIN, parti normunun yerini alır ve ne kadar yeniden ölçeklendirileceğini ve yeniden boyutlandırılacağını dikte etmek için bir stil vektörü kullanır ve daha anlamlı sonuçlara olanak tanır. Stil vektörü, tüm aktivasyonları yeniden ölçeklendirmek ve yeniden ayarlamak için kullanılan tamamen bağlı bir katmandan geçirilir. Nihai hedef, tamamen rastgele gürültü olan çok sayıda özellik haritası oluşturarak rastgeleliğe erişimi artırmaktır.

  • 00:25:00 Bu bölümde öğretim görevlisi, öğrenilen B değerlerine göre ağın parazit miktarını yukarı veya aşağı ölçeklendirmesine izin vererek, her bir özellik haritasına kontrollü rastgele gürültünün eklenmesini tartışır. Bu kontrollü rasgele gürültü, daha iyi dokular ve kusurlar oluşturmaya yardımcı olarak tek tek tüylerin ve kırışıklıkların oluşmasına olanak tanır. Kontrollü gürültü, her evrişimden sonra eklenir ve ağın gürültünün büyüklüğünü kontrol etmesine izin verir. Ders ayrıca, her katmana entegre edilen gizli vektör ve stili yavaş yavaş tanıtmak için uyarlanabilir örnek normalleştirmenin kullanımı dahil olmak üzere GAN stilindeki yeni yenilikleri tartışır.

  • 00:30:00 Bu bölümde öğretim görevlisi iki gelişmiş GAN tekniğini tartışıyor: StyleGAN ve CycleGAN. StyleGAN, rasgele gürültü yoluyla dokuda büyük iyileştirmelerle rasgele yüzler oluştururken CycleGAN, görüntüleri bir veri kümesinden diğerine aktarır. Bir kayıp terimi, dönüştürülen görüntülerin gerçekçiliğine ayrılmıştır ve diğer terim, görüntünün orijinal durumuna geri döndürülüp döndürülemeyeceğini ölçer. CycleGAN, gerçekçi fotoğraflar çekip bunları Monet tablolarına dönüştürebilir, zebraları ata dönüştürebilir ve bir resmin mevsimlerini değiştirebilir. Videodaki kareler arasında tutarlılık olmasa da, teknik yine de iyi sonuçlar verebilir.

  • 00:35:00 Bu bölümde konuşmacı, videoların gerçek ve sahte videoları ayırt edecek bir ayırt ediciyi eğitmek için kullanılabileceğini, ancak görüntülerin işlenmesine kıyasla önemli hesaplama gerektirdiğini açıklıyor. Video kare kare işlenmelidir, ancak işlemi daha verimli hale getirmek için bazı kareler atlanabilir. Ayrımcı, oluşturulan videolarda bir kareden diğerine tutarlılığı sağlamak için kullanılabilir. Ayrıca konuşmacı, maymunu ata dönüştürmek gibi bazı gösterimlerde GAN modellerini kullanırken dikkatli olunmasını tavsiye ediyor çünkü her zaman verimli çalışmayabilir ve sonuç beklendiği gibi olmayabilir. Son olarak, konuşmacı, daha büyük modellerde daha büyük parti boyutları ve daha fazla veri atıldığında GAN'ın nasıl ölçeklendiğini tartışıyor ve kararlılık, güvenilirlik, çeşitlilik ve kalite arasındaki bazı ödünleri açıklıyor.

  • 00:40:00 Bu bölümde öğretim görevlisi, GAN'larla daha iyi kararlılık ve sonuçlar elde etmek için bazı püf noktalarını tartışıyor. Daha iyi kararlılığın anahtarlarından biri, özellikle GAN'lar gibi karmaşık görevler için yararlı olan daha büyük parti boyutları kullanmaktır. Başka bir ipucu, modelin deneyiminin dışında kalan sonuçlardan kaçınmak için test sırasında rastgele gürültü aralığını kısaltmaktır. Bununla birlikte, bu, oluşturulan görüntülerin çeşitliliğini sınırlandırma değiş tokuşu ile birlikte gelir. Öğretim görevlisi ayrıca iyi sonuçlar elde etmek için eğitim sırasında bazı istikrarsızlıkları kabul etmenin gerekli olduğunu vurgular ve ayrımcıyı aşırı derecede nerflemeye karşı uyarır.

  • 00:45:00 Bu bölümde, üretici benzer görüntüleri art arda üretebileceğinden, çeşitli görüntülerin oluşturulmasını zorlaştıracağından, konuşmacı gizli alan için dar bir dağılım kullanılmasına karşı uyarıda bulunur. Konuşmacı, modele görüntülerin nasıl üretileceğine dair mükemmel bir ilk fikir vermek için farklı boyutların geniş bir dağılımıyla başlamayı önerir. Ek olarak, ayrımcı işlevinin rastgele tek bir görüntü oluşturmanın yanı sıra birkaç farklı şekilde faydalı olabileceğini paylaşıyorlar. Son olarak, çok büyük ölçeklerde GAN'lar oluşturmaya yardımcı olan Big Gan'ı tanıtıyorlar.
CS 198-126: Lecture 11 - Advanced GANs
CS 198-126: Lecture 11 - Advanced GANs
  • 2022.12.03
  • www.youtube.com
Lecture 11 - Advanced GANsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/mo...
Neden: