Makine Öğrenimi ve Sinir Ağları - sayfa 34

 

CS 198-126: Ders 12 - Difüzyon Modelleri



CS 198-126: Ders 12 - Difüzyon Modelleri

Difüzyon modelleriyle ilgili bu derste, konuşmacı difüzyon modellerinin arkasındaki sezgiyi tartışıyor - bir görüntüye eklenen gürültüyü tahmin etmek ve orijinal görüntüyü elde etmek için gürültüyü gidermek. Ders, eğitim sürecini, geliştirilmiş mimariyi ve görüntü ve video oluşturmada difüzyon modellerinin örneklerini kapsar. Buna ek olarak, ders, görüntünün semantik kısmında yayılmayı çalıştırmak için modeli gizli bir alana sıkıştıran gizli yayılma modelleriyle ilgili derinliğe iner. Konuşmacı ayrıca Dolly Q, Google'ın Imagine modeli ve Facebook'un Make a Video gibi ilgili modellere ve bunların metin kullanarak 3B modeller oluşturma becerilerine genel bir bakış sağlar.

  • 00:00:00 Videonun bu bölümünde, konuşmacı yeni bir üretken model sınıfı olan difüzyon modellerini tanıtıyor. Üretken modellerin amacının, aynı dağılımdan yeni verilerin üretilebilmesi için belirli bir veri kümesinin temel dağılımını öğrenmek olduğunu açıklarlar. Konuşmacı ayrıca dağılımları öğrenmek için iki ana yöntemden bahseder: olasılığı en üst düzeye çıkarmak veya sapma metriğini en aza indirmek. Ders, difüzyon modellerinin arkasındaki matematiğe dalacak ve konuşmacı bu dersin matematiksel olarak öncekilere göre daha fazla dahil olacağını belirtiyor.

  • 00:05:00 Difüzyon modelleriyle ilgili dersin bu bölümünde, konuşmacı veri dağıtımını taklit eden dağılımların modellenmesinde hem Değişken Otomatik Kodlayıcıların (VAE'ler) hem de Üretken Karşıt Ağların (GAN'lar) kullanımını tartışıyor. Konuşmacı, her iki modelin de rastgele gürültüden bir örnek alarak ve onu veri dağıtımından geliyormuş gibi görünen bir şeye dönüştürerek çalıştığını açıklıyor. Ancak difüzyon modelleri, bu süreçte tek bir büyük adım yerine birden çok küçük adım atarak analiz edilmesi daha kolay bir Markov zinciri oluşturur. Difüzyon modeli, bir görüntüye gürültünün eklendiği ve ardından görüntünün gürültülü bir versiyonunu oluşturmak için daha fazla gürültünün eklendiği bir ileri işleme sahiptir. Orijinal görüntüye dönmek için görüntünün parazitinin giderildiği ters bir işlem de vardır.

  • 00:10:00 Videonun bu bölümünde öğretim görevlisi, difüzyon modellerinde ters işleme kavramını açıklıyor; burada gürültülü adımların sırasını tersine çevirerek yeni bir görüntü oluşturulabiliyor. Zorluk, tam dağılımı kullanarak hesaplanması zor olan ters dağılımı bulmakta yatmaktadır ve bu nedenle, Q fonksiyonu ve P fonksiyonu aracılığıyla bir yaklaşım yapılmaktadır. P işlevi, Gaussian olduğu varsayılan ters dağılımın ortalamasını ve varyansını öğrenmeye çalışan bir sinir ağı ile temsil edilir. Video ayrıca, bir kayıp fonksiyonunun en aza indirilmesi veya en üst düzeye çıkarılmasını gerektiren bir difüzyon modeli için eğitim sürecini de kapsar.

  • 00:15:00 Dersin bu bölümünde, konuşmacı daha küçük kayıp fonksiyonların toplamına benzeyen bir kayıp fonksiyonuyla sonuçlanan varyasyon varyasyonel alt sınırın difüzyon modellerine uygulanmasını tartışır. L of 0 - L of T-1 terimlerinin kayba katkıda bulunduğunu ve 1'den T-1'e kadar tanımlanan L of T'nin analizine odaklanacaklarını açıklarlar. Konuşmacı, T-1'in Q of X'i ile sinir ağının tahmin etmeye çalıştığı dağılım arasındaki KL ayrışmasının, öğrenilen ortalama ile koşullu dağılımdan gelen ortalama arasındaki L2 kaybını ölçen bir terimle nasıl sonuçlandığını açıklamaya devam ediyor. Difüzyon makalelerinin yazarları, ifadeyi basitleştirmek ve kırmızı kutunun içindeki her şeyi tahmin etmek yerine tek bir terimi tahmin etmeyi mümkün kılmak için tetanın mu'sunu, öğrenilmiş mu'yu Q of X of T-1'e benzer bir biçimde parametreleştirmeyi önermektedir.

  • 00:20:00 Bu bölümde öğretim görevlisi, bir görüntüye eklenen gürültüyü tahmin etmek ve ardından orijinal görüntüyü geri getirmek için gürültüyü gidermek olan difüzyon modellerinin arkasındaki ana sezgiyi açıklıyor. Amaç, orijinal gürültü ile tahmin edilen gürültü arasındaki gürültüyü en aza indirmektir ve eğitim süreci, veri setindeki görüntülere gürültü eklemeyi, bunları modelden geçirmeyi, gürültüyü tahmin etmeyi ve tahmin edilen ile gerçek gürültü arasındaki mesafeyi en aza indirmeyi içerir. Model daha sonra rastgele gürültü ile başlayıp tahmin edilen gürültüyü kullanarak gürültüyü gidererek yeni görüntüleri sentezlemek için kullanılabilir. Öğretim görevlisi ayrıca, yayılan değişken olan X of T'nin bir görüntü olması gerekmediğini not eder.

  • 00:25:00 Bu bölümde, konuşmacı difüzyon modellerini ve bunların girdi/çıktı ile aynı boyutlara sahip bir görüntünün gürültüsünü tahmin etme yeteneklerini tartışıyor. Aynı boyutlara sahip bir model, bölütleme dersinde kullanılanla aynı birimdir. Bununla birlikte, makalenin yazarları, modele resnet blokları, dikkat modülleri, kavrama normu ve swish aktivasyonları dahil olmak üzere birçok modern CV hilesi ekledi. Çok iyi çalıştığını gösterebildiler ve kalitesini daha da artırmak için daha sonraki bir makalede daha fazla zaman adımı kullanıldı. Konuşmacı ayrıca modelin mimarisini içeren slayda bir görüntü ve bağlantı sağlar.

  • 00:30:00 Bu bölümde, araştırmacıların, ileri süreçte gürültü eklenmesini kontrol eden beta parametrelerini değiştirerek görüntü üretimi için difüzyon modellerini kullanmanın sonuçlarını iyileştirmenin bir yolunu buldukları açıklanmaktadır. Doğrusal bir program kullanmak yerine, daha yavaş bir kosinüs işlevi kullanmayı ve daha sonra görüntüleri yavaş yavaş gürültüye dönüştürmek için artırmayı önerdiler, bu da modelin ters işlemi daha iyi öğrenmesine yardımcı oldu. Ek olarak, kovaryans matrisini bir sinir ağı aracılığıyla öğrenerek, log olasılığını iyileştirmek ve çeşitliliğin bir ölçüsü olarak görülebilecek daha iyi olasılıklar elde etmek mümkündür.

  • 00:35:00 Dersin bu bölümünde konuşmacı, farklı makalelerde yaygın olarak kullanılan birim modelinde yapılabilecek bazı mimari iyileştirmeleri tartışıyor. Bu iyileştirmeler, model boyutunu büyütmeyi, dikkat modüllerini kullanmayı ve uyarlanabilir normalleştirmeyi içerir. Konuşmacı ayrıca, hem orijinal hem de gürültülü görüntülerden sınıf etiketlerini tahmin etmek için bir sınıflandırıcının eğitilmesini ve difüzyon modelini iyileştirmek için elde edilen gradyanı kullanmayı içeren sınıflandırılmış rehberlik fikrini de sunar. Son olarak konuşmacı, üretken modellerin kalitesini ölçmek için FID ve kesinlik ve geri çağırma gibi metriklerin kullanımından bahseder.

  • 00:40:00 Bu bölümde konuşmacı, veri dağılımının daha iyi aslına uygunluğunu ve çeşitliliğini yakalama yeteneği nedeniyle difüzyon modelinin görüntü modellemede GAN modellerini nasıl geride bıraktığını tartışıyor. GAN görüntülerinin çok benzer göründüğü yerlerde flamingoların görüntülerini gösterirken, difüzyon görüntüleri çıktılarında daha fazla çeşitlilik göstererek daha iyi görüntü modelleme yeteneklerini gösterir. Konuşmacı ayrıca, araştırmacıların, sınıflandırıcıdan bağımsız rehberlik adı verilen bir süreç aracılığıyla difüzyon modeline rehberlik etmenin daha iyi yollarını bulduklarından bahseder; burada koşullu bir difüzyon modeli, artan kalite için çeşitlilik ticaretinden kaçınmak için eğitilir; bu, modeli koşullandırırken doğasında vardır. sınıf etiketi.

  • 00:45:00 Bu bölümde öğretim görevlisi, yüksek boyutlu görüntüler üzerinde eğitim için kullanılan başka bir difüzyon modelleri sınıfı olan gizli difüzyon modelleri kavramını tartışır, çünkü bu tür durumlarda büyük bir difüzyon modeli eğitmek mümkün değildir. Öğretim görevlisi, araştırmacıların piksel düzeyindeki ayrıntıları yakalamak için daha fazla bit kullanıldığını ve bir görüntünün bazı anlamsal ayrıntılarını yakalamak için daha az bit kullanıldığını keşfettiklerini açıklıyor. Görüntüleri doğru bir şekilde oluşturmak için, bunun yerine görüntünün semantik kısmında üretken bir model çalıştırılmalıdır. Öğretim görevlisi, gizli uzayın öğrenilmesini ve üzerinde difüzyonu çalıştırmak için modeli gizli bir alana sıkıştırmayı içeren, bunun nasıl başarılabileceğine dair bir genel bakış sunar. Bu, bir görüntünün bir kodlayıcı ve kod çözücü modeli kullanılarak gizli bir görüntüye dönüştürülmesine ve görüntüye geri döndürülmesine olanak tanır.

  • 00:50:00 Bu bölümde konuşmacı, Dolly Q, Google'ın Imagine modeli aracılığıyla görüntü oluşturma ve Facebook'un Make a Video aracılığıyla video oluşturma dahil olmak üzere difüzyonla ilgili çeşitli modelleri tartışıyor. Ek olarak Google, Imagine modelini videolar oluşturmak için de genişletti. Konuşmacı ayrıca, bu yılın başlarında yayınlanan bir makaleye göre, metin kullanarak 3D modeller oluşturma ve çevrimdışı RL'de son teknoloji sonuçları elde eden RL'ye vizyon uygulama yeteneğinden bahsediyor. Konuşmacı, daha fazla öğrenme için makalelere ve kaynaklara bağlantılar sağlar.
CS 198-126: Lecture 12 - Diffusion Models
CS 198-126: Lecture 12 - Diffusion Models
  • 2022.12.03
  • www.youtube.com
Lecture 12 - Diffusion ModelsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

CS 198-126: Ders 13 - Dizi Modellemeye Giriş



CS 198-126: Ders 13 - Dizi Modellemeye Giriş

Dizi modelleme hakkındaki bu derste, konuşmacı dizi verilerini temsil etmenin ve çok fazla bilgi kaybetmeden makul sayıda zaman adımına ulaşmanın önemini tanıtıyor. Tekrarlayan sinir ağları (RNN'ler), değişen uzunluklardaki girdi ve çıktıları idare etme yeteneğine sahip olan bu zorlukları çözmeye yönelik ilk girişim olarak tartışılmaktadır. Ancak, RNN'lerle ilgili sorunlar, bunların en iyi şekilde performans göstermesini engeller. Metin gömme, yüksek boyutlu bir sıcak vektör kullanmak yerine, metin verilerini temsil etmenin daha verimli bir yolu olarak sunulmuştur. Ek olarak, konumsal kodlama kavramı, bir dizideki öğelerin sırasını ikili değerler yerine sürekli değerler kullanarak temsil etmenin bir yolu olarak tartışılır.

  • 00:00:00 Bu bölümde, konuşmacı dizi modellerini tanıtır ve neden önemli olduklarının arkasındaki motivasyonu açıklar. Özellikle, zaman serisi verileri, ses ve metin gibi çeşitli dizi verileri türlerinden ve bunların bilgisayarla görme ve doğal dil işleme modellerinde yaygın olarak nasıl kullanıldıklarından bahsederler. Konuşmacı ayrıca dizi verilerini temsil etmenin ve çok fazla bilgi kaybetmeden makul sayıda zaman adımına ulaşmanın önemini tartışıyor. Nihayetinde amaç, internetten kazınmış ve tek sıcak vektörlerin tokenize edilmiş bir dizisi olarak temsil edilen büyük miktarda metin verisi üzerinde eğitilebilen dil modelleri oluşturmaktır.

  • 00:05:00 Bu bölümde eğitmen, metin verilerini tek-sıcak vektörler olarak temsil etmenin zorluklarını ve bir sözlükteki her kelime için bir taneye sahip olmanın verimsizliğini tartışıyor. Sekans modellemenin amacı, keyfi olarak uzun verileri ve değişken uzunluktaki girdi ve çıktıları ele almaktır. Eğitmen, değişken uzunluktaki çıktıları işlemesi gereken duygu analizi ve çeviri dahil olmak üzere farklı paradigma örnekleri sunar. Ek olarak, metin verileri analiz edilirken bir cümledeki kelimeler arasındaki uzak mesafe ilişkileri dikkate alınmalıdır.

  • 00:10:00 Bu bölümde video, bir cümlenin çeşitli bölümlerinden fikirleri bağlamayı ve diziler arasında uzun mesafeli ilişkileri ele almayı gerektiren dizi modellemenin zorluklarını tartışıyor. Tekrarlayan sinir ağları (RNN'ler), bu zorlukları çözmeye yönelik ilk girişim olarak tanıtıldı ve çalışıyorlar, ancak optimum performans göstermelerini engelleyen sorunlar nedeniyle pek iyi değiller. Video, RNN'lerin her dizi öğesinde paylaşılan bir hücre değeri kullandığını ve her hücrenin giriş dizisini işleyen tam olarak aynı ağırlıklara sahip olduğunu açıklıyor. Ek olarak, RNN tarafından üretilen çıktı, bir olasılıktan çeviriye kadar her şey olarak yorumlanabilir.

  • 00:15:00 Bu bölümde, aynı uzunlukta bir sıra elemanı aldığımız, üzerinde doğrusal bir katman yaptığımız, önceki zaman adımından çıktı aldığımız Tekrarlayan Sinir Ağlarının (RNN) temel biçimini öğreniyoruz. ve bu zamanda giriş, bir matris çarpımı yapmak için adımdır. Daha sonra bunları üst üste istifleriz veya çıktıyı döndürmek için bir araya getiririz. tahn işlevi, çıkışların aralık içinde olduğundan emin olmak ve ileri veya geri yayılma sırasında değerlerin patlamasını veya çok küçük olmasını önlemek için kullanılır. Birden çok katmanı istifleyerek daha karmaşık işlevleri öğrenmeye başlayabiliriz.

  • 00:20:00 Dersin bu bölümünde eğitmen, dizi modeli oluşturmanın zorluklarını ve çözümlerini tartışır. Her hücrenin çıkışında bir tanh işlevi kullanılarak, değerler -1 ile 1 arasında tutulur, bu da tekrarlanan matris çarpmaları sırasında sorunlara neden olabilecek büyük değerlerin önüne geçer. Model isteğe bağlı girdi boyutunu, değişken çıktı uzunluklarını ve uzun mesafeli ilişkileri işleyebilir. Eğitmen daha sonra, 100.000 boyutlu bir sıcak vektör kullanmak yerine, metin verilerini temsil etmenin daha verimli bir yolu olarak yerleştirmeleri sunar. İkili ve üçlü kodlama gibi fikirler olası bir çözüm olarak araştırılır.

  • 00:25:00 Bu bölümde, konuşmacı metin gömme kavramını ve sıralı modellemede nasıl kullanılabileceğini tanıtıyor. Sözlükteki her kelime için tek-sıcak vektörler kullanmak yerine, kelimeyi temsil eden daha küçük bir vektör öğrenilir ve modele beslenir. Gösterimin bu şekilde sıkıştırılması, boyutsallığın azaltılmasına izin verir ve bir kod kitabına benzeyen gömülü bir vektör oluşturur. Umut, bu gömmelerin, "kedi" ve "köpek" gibi benzer kelimelerin nispeten yakın olduğu, "kedi" ve "çimen" gibi çok az korelasyona sahip kelimelerin ise daha uzak olduğu kelimelerin akıllı bir temsiline izin vermesidir. Bu yakınlık ilişkisinin var olduğuna dair bir garanti olmasa da, duygu analizinin ve diğer modellerin belirli kelime seçimlerinden nasıl etkilendiğini anlamak için kullanılabilir.

  • 00:30:00 Bu bölümde öğretim görevlisi, anlamsal olarak benzer kelimeleri bir arada gruplandırmak için gömülü vektörlerden oluşan bir kod kitabında gradyan inişini kullanmayı tartışıyor. Ayrıca, geçen sürenin veya bir dizideki konumun belirli alanlar için önemli olabileceği konumsal kodlama kavramından bahseder ve konumsal kodlama olarak bilinen, neyin iyi çalıştığına geçmeden önce konum için bir sıcak Vektörü temsil etmek için birkaç yöntem tartışır.

  • 00:35:00 Dersin bu bölümünde eğitmen, dizide ne kadar ilerlediğimizi belirtmek için dizi modellemede bir zaman damgası kullanma fikrini tartışıyor. Bununla birlikte, bir zaman damgası olarak bir ikili kodlamanın kullanılması, yalnızca sınırlı sayıda benzersiz zaman adımını temsil edebildiğinden, daha büyük dizi uzunlukları için sınırlı hale gelebilir. Bu sorunu ele almak için eğitmen, ikili kodlamayı farklı frekanslardaki sinüs ve kosinüs dalgalarıyla değiştirerek sürekli bir analog kullanmayı önerir. Bu şekilde, daha fazla sayıda benzersiz zaman adımını temsil etmek için daha küçük bir vektör kullanabiliriz.

  • 00:40:00 Bu bölümde, bir dizideki öğelerin sırasını ikili değerler yerine sürekli değerler kullanarak temsil etmenin bir yolu olan konumsal kodlama kavramı ele alınmaktadır. Süreç, her dizi elemanı için farklı frekanslarda sinüs ve kosinüs fonksiyonlarının değerlendirilmesini ve ardından ikili konumsal kodlamanın sürekli bir analoğunu oluşturmak için bunların grafiğini çizmeyi içerir. Ortaya çıkan grafik, ikili sürüme benzer şekilde yüksek ve düşük değerler arasında değişir ve dizideki her bir öğeye eklenebilir. Konumsal kodlama biraz kafa karıştırıcı olabilir, ancak ders, slayt destelerini gözden geçirmeyi ve daha iyi bir anlayış için konsept üzerinde denemeler yapmayı önerir.
CS 198-126: Lecture 13 - Intro to Sequence Modeling
CS 198-126: Lecture 13 - Intro to Sequence Modeling
  • 2022.12.03
  • www.youtube.com
Lecture 13 - Intro to Sequence ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: Ders 14 - Transformatörler ve Dikkat



CS 198-126: Ders 14 - Transformatörler ve Dikkat

Transformers ve Dikkat hakkındaki bu video ders, dikkatin arkasındaki kavram ve motivasyonu, dikkatin Transformers ile ilişkisini ve NLP ve vizyondaki uygulamasını kapsar. Öğretim görevlisi, yumuşak ve sert dikkati, kişisel dikkati, yerel dikkati ve çok başlı dikkati ve bunların Transformer mimarisinde nasıl kullanıldığını tartışır. Ayrıca, anahtar-değer-sorgulama sistemini, artık bağlantıların ve katman normalleştirmenin önemini ve girdi gömmelerinden kqv elde etmek için doğrusal bir katman uygulama sürecini açıklarlar. Son olarak, ders, dikkat mekanizmasının hesaplama verimliliğini ve ölçeklenebilirliğini vurgularken, diziden vektöre örneklerde konum yerleştirmelerin ve CLS belirtecinin kullanımını kapsar.

  • 00:00:00 Video dersinin bu bölümünde amaç, dikkatin arkasındaki motivasyonu ve bunun Transformer modelleriyle nasıl ilişkili olduğunu açıklamaktır. Dikkat, modern Görüntü Dönüştürücülerinin temel taşıdır ve çabaları ve dikkati belirli bir yere odaklamak için gereklidir. Öğretim görevlisi, dikkatin hangi şeylere dikkat edilmesi gerektiği konusunda daha bilinçli kararlar vermek için bir sorgu anahtarı değer sistemi kullandığını açıklıyor. Modern dikkat sistemi, insanların belirli sıralı kelimelere odaklandıkları ve geri kalan her şeyi bulanıklaştırdıkları yerde nasıl okuduklarına dayanmaktadır.

  • 00:05:00 Bu bölümde öğretim görevlisi, özellikle NLP ve RNN'ler bağlamında makine öğrenimi modellerinde dikkat kavramını tartışıyor. Dikkat, modellerin bir girdinin önemli bölümlerine odaklanmasına, her şeyi bir bütün olarak almak yerine belirli bir veri alt kümesini kullanarak çıkarımlar yapmasına olanak tanır. İki tür dikkat vardır: belirli bir zaman adımında hangi endekslerin alakalı olduğunu tahmin eden sert dikkat ve bunların gösteren girdi belirteçlerine dayalı bir olasılık dağılımı oluşturmak için softmax işleviyle bir dizi esnek ağırlık oluşturan yumuşak dikkat. önem. Yumuşak dikkat genellikle kullanılır ve farklı özelliklerin temsillerini birleştirir. Ders ayrıca, dikkati kullanmanın bir örneği olarak Fransızcadan İngilizceye çeviri sürecini de tartışır.

  • 00:10:00 Bu bölümde, konuşmacı, girdilerin sıralı işlenmesini ve kod çözme için bir bağlam vektörünü içeren geleneksel bir kodlayıcı-kod çözücü ağı kullanarak her bir sözcüğü kodlama ve sözcüklerin gizli bir temsilini oluşturma sürecini açıklar. Daha sonra, daha önce kodu çözülmüş bilgilere dayalı olarak kodu çözmek için her gizli temsilden bilgi alan bir bağlam vektörü kullanan yumuşak dikkat kavramını tanıtırlar. Süreç, önceki kod çözme ve kodlama arasındaki benzerlikleri belirlemek için bir puan işlevi oluşturmayı ve bir grup anahtarla bir sorgunun ilişkisinin olasılıksal bir temsilini sağlayarak göreli bir önemi ortaya çıkarmak için farklı ölçümler kullanmayı içerir.

  • 00:15:00 Bu bölümde öğretim görevlisi, hesaplama kaynaklarını korumak için dikkat modelinin girdi belirteçlerinin tümü yerine yalnızca belirli bir penceresini sorgulamasına izin veren yerel dikkat kavramını açıklamaktadır. Ders ayrıca, kanal bazında dikkat ve görüntüler için uzamsal dikkat için sıkma ve uyarma ağlarının kullanımı da dahil olmak üzere, dikkatin görme için kullanımına da değiniyor. Ek olarak, ders, temel özellikleri çıkarmak için kıvrımları kullanmak ve kelimeler arasındaki bağlantıları sürdürmek için uzun kısa süreli bellek ağları gibi, görüntüleri tanımlayan cümleler oluşturmak için dikkatin kullanılmasına kısaca değinir.

  • 00:20:00 Bu bölümde öğretim görevlisi, mekansal ve kişisel dikkat dahil olmak üzere çeşitli mimarilerde dikkatin kullanımını tartışır. Öz-dikkat, bir cümledeki kelimeler arasındaki ilişkilere dikkat ederken aynı girdiden belirteçlere bakmayı içerir ve önceki kelimelere dayalı olarak bir sonraki kelimenin daha iyi tahmin edilmesini sağlar. Öğretim görevlisi ayrıca, çekirdek özelliklerini seçerken farklı miktarlarda benzerlik beklemek için anahtar-değer-sorgulama sistemini kullanan Transformers kavramını da tanıtıyor.

  • 00:25:00 Videonun bu bölümünde öğretim görevlisi, Transformer modelinde kullanılan öz-dikkat ve yumuşak dikkat kavramlarını tanıtıyor. Buradaki fikir, belirli ilişkileri tahmin etmek için belirli özelliklere odaklanırken diğerlerini göz ardı eden bir olasılık dağılımı yaratmaktır. Ardından eğitmen, Transformer modellerinde sorguların ve anahtarların bire bir karşılaştırılması yerine matrislerin nasıl kullanıldığını açıklar. Ders ayrıca RNN'lerin uzun dizileri paralelleştirememe ve yakalayamama gibi sınırlamalarını ve dikkatin bu sorunları çözmeye nasıl yardımcı olabileceğini tartışıyor.

  • 00:30:00 Dersin bu bölümünde sunum yapan kişi, Transformer mimarisini ve onun dizileri veya belirteç gruplarını modellemek için öz-dikkati nasıl kullandığını tartışır. Girdiler, bir dizi belirteç yerleştirme ve konumsal yerleştirme içerir ve amaç, Transformer modeline aktarılabilecek bir temsil bulmaktır. Sorguya ve anahtara dayalı olarak her bir belirtecin önemini hesaplamak için çok kafalı dikkat kullanılır ve Transformer'ın avantajlarını ortaya çıkarmak için ileri besleme adımı paralel olarak yapılır. Mimari, kaybolan gradyanları hafifletmek ve doğru bir temsil sağlamak için artık bağlantıları ve katman normlarını birleştirir. Son olarak, farklı temsillerin ipuçlarına, tuşlarına ve değerlerine dayalı çıktıyı hesaplamak için en sona doğrusal bir katman eklenir.

  • 00:35:00 Bu bölümde, konuşmacı metindeki her bir kelime için girdi yerleştirmelerinden kqv elde etmek için doğrusal bir katman uygulama sürecini açıklar. Bu, matris çarpımı yoluyla birleştirilen anahtarlar, sorgular ve değerler için farklı ağırlıkların kullanılmasını içerir. Bundan sonra, sorgular ve değerler arasında bir iç çarpım bulunur ve her belirteç doğrudan diğer tüm belirteçlerle ilgilenerek girdiler arasındaki bağlantıları sonsuz ölçeklenebilir hale getirir. Nokta çarpım değerlerine dayalı olarak bir SoftMax dağılımı uygulanır ve daha sonra, token bazında nihai bir değer elde etmek için değerler bu dağılıma göre yeniden ağırlıklandırılır. Dikkati, D'nin karekökünün bire bölerek ölçeklendirmek, şeyleri standartlaştırmak ve küçük gradyanlar olmadığından emin olmak için kullanılır ve bir simgeye karşılık gelen her anahtarı, sorguyu ve değeri H kez yansıtmak için çok başlı dikkat kullanılır. Son olarak, aşırı uydurmayı önlemek için bırakma kullanılır ve elde edilen vektörlere, onları bir ileri beslemeli sinir ağına göndermeden önce bir dönüşüm uygulanır.

  • 00:40:00 Videonun bu bölümünde eğitmen, transformatörlerdeki dikkat mekanizmasını ve derin ağlarda kaybolan gradyanları işlemek için artık bağlantılar eklemenin önemini açıklıyor. Ayrıca, her bir özellik boyutunu normalleştirmek için dikkat mekanizmasında kullanılan katman normalizasyonu ile toplu normalleştirme ve katman normalleştirme arasındaki farkları tartışırlar. Öğretim görevlisi ayrıca, değerlerin ağırlıklı toplamının, ileri besleme ağına iletilen tekil bir değer elde etmek için ağırlıklı bir matristen geçirilen birden çok vektörü nasıl ürettiğini de açıklar. Genel olarak ders, transformatörlerdeki dikkat mekanizması ve onun çeşitli bileşenleri hakkında derinlemesine bir açıklama sunar.

  • 00:45:00 Transformers ve Dikkat konulu dersin bu bölümünde, konuşmacı artık ve katman norm işlemlerinin yanı sıra birer birer evrişimden oluşan sinir ağının Transformer mimarisinin uygulanmasını açıklıyor. Her çok katmanlı algılayıcı paralelleştirilir ve giriş konumu yerleştirmeleri, konum bilgisine dayalı olarak belirli pencerelere odaklanmak için kullanılır. Bir diziyi bir vektör ölçümüne dönüştürmek için belirli NLP görevlerinde kukla bir belirteç de kullanılır.

  • 00:50:00 Bu bölümde ders, diziden vektöre örnekleri ve CLS belirteçlerinin kullanımını tartışır. Ders, sorgu, anahtar ve değer girişleri arasında matris çarpımını içeren dikkat mekanizmasının arkasındaki matematiği açıklar. Sonuç, dikkati temsil eden ağırlıklı bir toplamdır. Hesaplama açısından verimli olan bu yöntem, onu GPU'larda paralelleştirme için uygun ve büyük girdiler için bile ölçeklenebilir kılıyor. Ders, trafo mimarisini, konum yerleşimlerini tartışarak ve sıralı modellerden farklı olarak hiçbir endüktif önyargıyı tanıtarak sona erer.
CS 198-126: Lecture 14 - Transformers and Attention
CS 198-126: Lecture 14 - Transformers and Attention
  • 2022.12.03
  • www.youtube.com
Lecture 14 - Transformers and AttentionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: Ders 15 - Görüntü Transformatörleri



CS 198-126: Ders 15 - Görüntü Transformatörleri

Bu derste konuşmacı, görüntü işleme görevleri için Görüntü Dönüştürücülerinin (ViT'ler) kullanımını tartışır. ViT mimarisi, bir Transformer'dan geçmeden önce doğrusal bir katman çıktısı kullanılarak girdi katıştırmalarına yansıtılan ayrık yamalar halinde görüntülerin alt örneklemesini içerir. Model, gerçek veri kümesi üzerinde ince ayar yapılmadan önce büyük, etiketli bir veri kümesi üzerinde önceden eğitilir ve önceki son teknoloji yöntemlere göre daha az işlemle mükemmel performans elde edilir. ViT'ler ve Konvolüsyonel Sinir Ağları (CNN'ler) arasındaki farklar, ViT'lerin küresel bir alıcı alana ve CNN'lerden daha fazla esnekliğe sahip olmasıyla tartışılmaktadır. Vizyon görevleri için Transformers ile kendi kendini denetleyen ve denetimsiz öğrenmenin kullanımı da vurgulanmıştır.

  • 00:00:00 Bu bölümde, konuşmacı Vision Transformers'ın kullanımını ve görüntülere nasıl uygulanabileceğini tartışıyor. Belirteçler, katıştırmalar ve Dönüştürücüler kavramlarını açıklayarak bunların doğal dil işleme görevleri için nasıl kullanılabileceğine dair somut bir örnek sunar. Ardından, görüntüyü bir belirteç dizisi olarak önceden işleyerek ve onu etkili bir şekilde işlemek için Transformer'ın ölçeklenebilirliğini, hesaplama verimliliğini ve küresel alıcı alanlarını kullanarak aynı mimarinin bilgisayarla görme görevlerine nasıl uygulanabileceğini açıklarlar. Konuşmacı ayrıca, tokenleştirme ve her kelimeyi bir kelime dağarcığına eşleme yoluyla metnin ön işlenmesine de değinir.

  • 00:05:00 Dersin bu bölümünde öğretim görevlisi, doğal dil işlemede (NLP) kullanılan simgeleştirme ve gömme yöntemlerinin görüntü işlemeye nasıl dönüştürüleceğini tartışır. Belirteçleştirme, sözcükleri veya tümceleri, gömme vektörleri oluşturmak için kullanılan sayısal bir formata dönüştürmeyi içerir. Ancak, renk değerleri sürekli olduğundan ve bunlara bakmak için bir tablo oluşturulmasını zorlaştırdığından, bu işlem görüntüler için kolay değildir. Bu zorluk, her pikseli bir belirteç olarak ele almayı mümkün kıldığından, değerleri ayrıkmış gibi yaparak ele alınabilir. Ek olarak, zaman karmaşıklığı sorunu, daha küçük görüntüler kullanılarak ve bunların dil modellerine benzer şekilde eğitilmesiyle ele alınır.

  • 00:10:00 Bu bölümde, konuşmacı sınırlı sayıda etiketli örnek kullanarak yarı denetimli sınıflandırma yoluyla Vision Transformer modelinin başarısını ölçmeyi tartışıyor. Model, etiketlenmemiş örnekler üzerinde önceden eğitilir ve daha sonra girdi olarak çıktı görüntü gösterimleriyle doğrusal bir sınıflandırıcıdan geçirilir. Çıktı gömmelerinin, sınıflandırıcının iyi performans göstermesi için yeterince iyi olması gerekir. Bu teknik, etiket kullanmadan rekabetçi doğrulukla sonuçlandı ve aynı zamanda görüntü üretimi için kullanıldı. Model başarılı olsa da önemli miktarda bilgi işlem gerektiriyor ve yalnızca 64'e 64 çözünürlüklü görüntüler üzerinde çalışabiliyor. Transformer modelinin cazibesi, hesaplamaya göre ölçeklenebilirliğidir, ancak aşağı akış uygulamaları için daha verimli uygulama araçları gerekli olacaktır.

  • 00:15:00 Bu bölümde konuşmacı, görüntü sınıflandırmaya daha verimli ve genel bir yaklaşım olan Vision Transformers'ın mimarisini tartışıyor. Pikselleri nicelemek yerine, görüntüler yamalar halinde alt örneklenir ve ardından doğrudan bir doğrusal katman çıktısı kullanılarak girdi katıştırmalarına yansıtılır. Pozisyon yerleştirmeleri ve CLS belirteci, Transformer'ın üstüne eklenir. Ön eğitim, gerçek veri setinde ince ayar yapılmadan önce büyük, etiketli bir veri setinde yapılır, bu da önceki teknoloji durumundan çok daha az işlemle mükemmel performansla sonuçlanır. Yaklaşım daha geneldir çünkü daha az tümevarımsal önyargıya sahiptir.

  • 00:20:00 Bu bölümde Konvolüsyonel Sinir Ağları (CNN'ler) ile Vision Transformers (ViT'ler) arasındaki farklar ele alınmaktadır. CNN'ler ve ViT'ler arasındaki iki temel fark, yerellik ve iki boyutlu komşuluk yapısıdır. CNN'ler, pikseller arasındaki etkileşimler için kullanılan çekirdek boyutundaki sınırlamalar nedeniyle birbirine yakın bulunan özelliklere karşı önyargılı olma eğilimindedir. Öte yandan, ViT'ler her pikseli bir yerleştirmeye yansıtır ve görüntüdeki konumu ne olursa olsun her jetonun diğer her jetona katılmasına izin vererek yerel özelliklere karşı daha az önyargılı olmalarını sağlar. ViT'ler ayrıca her simge için benzersiz temsillere ve sonuç temsillerini etkileyen konumsal gömmelere sahiptir, bu da onları daha esnek hale getirir ve ince ayar sırasında enterpolasyon yapabilir.

  • 00:25:00 Bu bölümde, Görüntü Transformatörlerinin (ViT'ler) geleneksel Konvolüsyonel Sinir Ağlarına (CNN'ler) göre bazı avantajlarını öğreniyoruz. ViT'ler, daha büyük veri kümeleriyle daha iyi görüntü temsillerini öğrenebilirler çünkü başlangıçta görüntüleri işlemeye yönelik önyargıları yoktur, yani CNN'lerdeki tasarlanmış önyargıların aksine bir veri modu varsaymazlar. ViT'lerin verilerle değiş tokuş yapmasının, daha az veri olduğunda daha kötü ve daha fazla veriyle daha iyi performans göstermesinin nedeni de budur. Ek olarak, ViT'ler, CNN'lerde mümkün olmayan tüm görüntü boyunca etkileşimlere izin veren küresel bir alıcı alana sahiptir. Konum yerleştirmeleri ve dikkat temsilleri gibi bazı ViT özellikleri, onu bazı yönlerden daha yorumlanabilir hale getirir.

  • 00:30:00 Bu bölümde evrişimli sinir ağları (CNN'ler) ile görüntü dönüştürücüler arasındaki farklar anlatılmaktadır. CNN'ler, bilgileri küçük bir alanın ötesinde işleme yeteneklerini sınırlayan bir veya iki evrişimli katman kullanır. Bu nedenle, CNN'lerde belirteçler arasındaki etkileşimler yalnızca sonunda gerçekleşir. Buna karşılık, görüntü dönüştürücüler, her bir belirtecin baştan itibaren diğer tüm belirteçlerle etkileşime girdiği ve her şeye dikkat etmelerine izin verdiği küresel bir alıcı alan kullanır. Bununla birlikte, görüntü dönüştürücülerin, yamaların kullanılması nedeniyle çıktılarının daha az ince taneli olması ve ince taneli görüntü sınıflandırmasında ve bölümlemede sorunlara yol açması gibi dezavantajları vardır. Daha genel modellere sahip olma hedefi vurgulanır; burada modeller, belirli alanlar için elle tasarlanmak yerine verilerden öğrenir ve daha kolay alan kombinasyonuna olanak tanır.

  • 00:35:00 Bu bölümde, konuşmacı Transformers ile kendi kendini denetleyen ve denetimsiz öğrenmeyi kullanmanın avantajlarını, özellikle vizyon görevleri bağlamında tartışıyor. İnternetten büyük miktarda etiketlenmemiş veriye erişimle birlikte, kendi kendini denetleyen ve denetimsiz hedefler, ek açıklamaya ihtiyaç duymadan verimli eğitime olanak tanır. Ortaya çıkan model, sahne düzenini ve nesne sınır bilgilerini koruyan temsiller üretebilir ve görüntü sınıflandırma ve video bölümleme görevleri için kullanılabilir. Konuşmacı ayrıca Vision Transformers'ın çeşitli görüntü sınıflandırma görevlerinde başarılı bir şekilde kullanıldığını vurgulayarak, büyük miktarda veriyle iyi ölçeklenebilme yeteneklerini gösteriyor.

  • 00:40:00 Bu bölümde öğretim görevlisi, Transformer modellerinin ilk mimarilerinden liderlik tablosunda en üst sıralara nasıl geçileceğini tartışıyor. Hesaplama süresi, model boyutu ve veri kümesi boyutu ile daha iyi temsil ölçeklerinin ve büyük modellerin örnekleme açısından daha verimli olduğunu, yani aynı performansı elde etmek için daha az eğitim örneğine ihtiyaç duyduklarını buldular. Öğretim görevlisi ayrıca ikisi arasında hibrit bir mimari olan Vision Transformers ve CNN'den de bahsediyor. Yeterli veri olmadığında Transformers'ta eksik öteleme eşdeğerliğini ele almak için göreli konuma bağlı ağırlık değerlerini kullanarak Visual Transformers'a tümevarımsal önyargılar eklerler.

  • 00:45:00 Bu bölümde öğretim görevlisi, Transformer modellerinde görüntüler için öğrenilmiş bir ağırlık vektörünün kullanımını tartışır. Bu öğrenilmiş ağırlık vektörü, mutlak konumlandırma yerine yalnızca göreli konumlandırmaya bağlı olan özelliklerin daha kolay kodlanmasına izin verir. Buna ek olarak, öğretim görevlisi, evrişimli blokları Transformer blokları ile birleştirme ve birleştirme gibi Transformers'ta uzamsal boyuta göre ikinci dereceden zaman konusuna çözümler sunar. Kendi kendini denetleyen eğitim şemalarıyla Vision Transformer modeli, elle tasarlanmış özelliklerden daha genel modellere geçişte bir sonraki adım olarak görülüyor ve Transformers'ın yapma eğiliminde olduğu gibi çok fazla veri gerektiriyor. BTS modeli ölçeklenebilir ve bilgi işlem donanımında iyi performans gösterir. Öğretim görevlisi, denetimli bir öğrenme algoritması olduğunu onaylar.
CS 198-126: Lecture 15 - Vision Transformers
CS 198-126: Lecture 15 - Vision Transformers
  • 2022.12.03
  • www.youtube.com
Lecture 15 - Vision TransformersCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/de...
 

CS 198-126: Ders 16 - Gelişmiş Nesne Algılama ve Anlamsal Bölümleme



CS 198-126: Ders 16 - Gelişmiş Nesne Algılama ve Anlamsal Bölümleme

Bu ileri düzey nesne algılama ve semantik bölümleme dersinde öğretim görevlisi, evrişimli sinir ağlarının (CNN'ler) ve Transformatörlerin, özellikle doğal dil işleme (NLP) ve bilgisayar görüşünde avantajlarını ve dezavantajlarını tartışır. CNN'ler dokusal önyargıda mükemmelken, Transformers, önemli kavramları birbirine bağlamak ve belirli girdilere odaklanmak için kişisel dikkat katmanlarını kullanarak hem NLP hem de bilgisayarla görme görevlerini verimli bir şekilde yerine getirir. Ardından ders, dokudan çok şekle öncelik veren ve onları bozulmaya karşı dayanıklı kılan Vision Transformers'ı derinlemesine inceliyor. Görüntü sınıflandırması, semantik bölümleme ve nesne algılamada üstün olan Vision Transformer'ın geliştirilmiş bir versiyonu olan Swin Transformer'ın avantajlarını ve sınırlamalarını da açıklıyor. Ders, her türlü veriyi işleyebilen modellerde genellenebilirliğin önemini ve sürücüsüz araba gibi alanlardaki potansiyel uygulamaları vurgular.

  • 00:00:00 Bu bölümde öğretim görevlisi, CNN'lerin ve Transformatörlerin gözden geçirilmesini ve bunların avantaj ve dezavantajlarını içeren günün dersi için planın ana hatlarını çizer. Ders ayrıca BERT gibi NLP bağlamlarını ve yerleştirmelerin nasıl üretildiğini kapsayacak, ardından Vision Transformers'a geçecek ve bunları CNN'lerle karşılaştıracaktır. Bilgisayar görü uygulamaları için Vision Transformers üzerinde bir gelişme olan Swing Transformer, pencere dikkat yaması birleştirme ve konumsal gömmelerle kaydırılmış pencere dikkati dahil olmak üzere tartışılacaktır. Ders ayrıca, zaman izin verirse, ileri segmentasyon yöntemlerini de kapsayabilir.

  • 00:05:00 Dersin bu bölümünde, konuşmacı CNN kavramını ve çeviri eşdeğerliğini tartışıyor, yani iki boyutlu bir komşuluk yapısına bağlı kalıyorlar ve adım mesafesine bağlı olarak farklı noktalarda bilgi yakalıyorlar. Konuşmacı ayrıca, cnn'lerin şekle göre dokusal önyargı eğilimi gösterdiğine ve doku artırmanın performanslarını etkileyebileceğine dikkat çekiyor. Konuşmacı daha sonra Transformers for NLP görevlerinin bağlamına ve dikkatin bir cümledeki önemli şeyleri birbirine bağlamamıza ve girdinin belirli bölümlerine odaklanmamıza nasıl izin verdiğine geçer. Transformers'ta kendine dikkat, karşılaşılan önceki kelimelerin önemini vurgulayarak bunu bir cümle içinde yapmamızı sağlar.

  • 00:10:00 Bu bölümde video, öz-dikkat katmanlarının benzerlik veya farklılığa dayalı olarak dikkat ve ağırlık bilgilerini hesaplamak için sorguları, anahtarları ve değerleri nasıl kullandığını tartışıyor. Bu bölüm ayrıca, görüntüleri 16x16 yamalar halinde düzleştirerek ve katıştırmalar oluşturmak için doğrusal bir katmandan geçirerek hem NLP hem de bilgisayarla görme görevlerini yerine getirmek için Transformer modelini kullanan Vision Transformers'ı tanıtır. Konum bilgisi model tarafından öğrenilir ve çıktıyı sınıflandırmak için çok katmanlı bir algılayıcı kullanırlar. Bölüm, Vision Transformer'ları CNNS ile karşılaştırır ve öz-dikkat katmanlarının küresel olduğuna, yalnızca MLP'nin komşu pikselleri karşılaştırdığına işaret eder. Vision Transformer'daki Transformer modeli, görüntü ve kelime girişleri arasında ayrım yapmaz ve bir dizi görev için genelleştirilebilir.

  • 00:15:00 Dersin bu bölümünde, makine öğrenimi modellerinde tümevarımsal önyargı kavramı tartışılır. Endüktif önyargı, bir modelin üzerinde eğitildiği veriler hakkında yaptığı varsayımları ifade eder ve bu önyargının azaltılması, bir modelin daha genelleştirilebilir olmasını sağlar. Ön bilgi varsayılmadan birden fazla göreve uygulanabilen modellere sahip olmak önemlidir. CNN'ler daha küçük veri kümelerinde Transformers'tan daha iyi performans gösterirken, Vision Transformer modeli (ViT), doku yerine şekle öncelik vererek insan görüşünü daha iyi modellediğinden daha büyük ve daha karmaşık veri kümelerinde daha iyi performans gösterir. Çekişmeli sağlamlık ayrıca, bazı sınıflandırıcıların artık onları sınıflandıramaması için görüntülerin parazit verilerek bozulduğu bir metrik olarak sunulur.

  • 00:20:00 Bu bölümde, Vision Transformers'ın görüntü restorasyonu ve semantik segmentasyondaki sınırlamaları tartışılmaktadır. Yamalar birer birer geçirilip işlendiğinde, sınır bilgileri kaybolabilir ve bir yamaya ait bilgiler aynı şekilde ele alındığından, bir yama içindeki ince taneli piksel analizi zayıf olabilir. Bununla birlikte, şekle göre dokuya öncelik veren CNN'lerin aksine, Vision Transformers, dokuya göre şekle öncelik verir ve bir görüntüye hedeflenen gürültü eklendiğinde bile onları görsel bozulmalara karşı doğal olarak sağlam kılar. Yamaların çıkarılması görüntülere özgü bir sorundur ve daha büyük görüntüler için oluşturulan görüntü belirteçlerinin sayısı hızla artacaktır.

  • 00:25:00 Bu bölümde öğretim görevlisi, özellikle çok fazla işlem gücü gerektirdiğinden daha büyük görüntüleri işlerken, nesne algılama ve segmentasyon için tipik görüş Transformatörlerinin kullanılmasıyla ilgili sorunları tartışır. Ancak, kaydırılmış pencereli Transformer ile, gruplar içinde kendi kendine dikkati gerçekleştirmek için örtüşmeyen pencereleri kullanan ve ardından çapraz dikkati gerçekleştirmek için bunları bir araya getiren bir çözüm sunuldu. Bu, pencereler arası dikkat bağlantılarına izin verir ve yamaların boyutu birleştirildiklerinde aynı kaldığından, N-kare yerine doğrusal bir hesaplama karmaşıklığına neden olur. Bu görüntü bölümlendirme yöntemi, kendi kendine sürüş teknolojilerinde yaygın olarak kullanılır.

  • 00:30:00 Bu bölümde, görüntü sınıflandırma, nesne algılama ve semantik bölümlemede mükemmel bir model olan Swin Transformer kavramı tanıtılmaktadır. Swin geniş yama modelinin yama boyutu 4, kapasitesi 192, pencere boyutu 7'dir ve ImageNet 22k üzerinde eğitilmiş ve ImageNet 1k üzerinde ince ayarı yapılmıştır. Model, bir pencere çoklu dikkat katmanı ve kaydırılmış bir pencere dikkat katmanı ve GELU aktivasyon işlevini kullanan gizli katmanlara sahip bir MLP kullanır. Pencere MSA'sının çıktısı, MLP'ye girmeden önce ara katmanların dağılımlarını normalleştirmek için bir katman normundan geçirilir.

  • 00:35:00 Bu bölümde konuşmacı, nesne algılama ve semantik bölümleme için eğitim modellerinde Layer Norm kullanmanın faydalarını tartışıyor. Layer Norm, gradyan yüzeyine bir yumuşatma işlemi uygulayarak daha hızlı eğitim ve daha iyi genelleme doğruluğu sağlar. Konuşmacı, Layer Norm'u Batch Norm gibi diğer yumuşatma teknikleriyle karşılaştırır ve sürecin ara katmanlarına nasıl odaklandığını açıklar. Ardından tartışma, bir görüntünün her penceresinde kendi kendine dikkat gerçekleştiren Pencereli Çok Başlı Kendi Kendine Dikkat (WMSA) bloklarına geçer. Her penceredeki yama vektörlerinin sayısı garanti edilir ve Vit'teki ikinci dereceden karmaşıklığın (rakip bir teknik) aksine, görüntü boyutuna doğrusal karmaşıklıkla sonuçlanır. WMSA'nın ikinci aşaması, komşu piksel bloklarının daha küçük bir pencerede birleştirildiği, yeni yama sınırları ve yeniden yapılmış pencereler oluşturduğu bir yama birleştirme sürecini içerir.

  • 00:40:00 Dersin bu bölümünde sunum yapan kişi, yamalar ilerletildikten sonra oluşturulan pencere sayısındaki artışın üstesinden gelmek için Swin Transformer'ın çözümünü açıklıyor. Swin Transformer, blokları yalnızca dört pencereye sahip olacak şekilde yeniden düzenleyerek bu pencereleri akıllıca birleştirir ve toplam bilgi miktarını tutarlı tutarken toplam öğe sayısını 64'ten 16'ya düşürür. Optimizasyon tekniği döngüsel bir kayma içerir ve yamaların dökümünü azalttıktan sonra gömme boyutunun derinliğini veya "C" boyutunu artırmak için doğrusal bir katman kullanılır. Bu teknik, bilgi işlem gücünde tasarruf sağlar ve dikkati gerçekleştirmeden önce sıfır doldurma gibi saf bir çözümden kaçınır.

  • 00:45:00 Bu bölümde konuşmacı, görüntü işleme verimliliğini artırmak için yazarlar tarafından önerilen iki optimizasyonu tartışıyor. İlk optimizasyon, dikkati hesaplamadan önce bir görüntüyü belirli bir kısma kaydırmayı ve ardından zaten hesaplanmış olduğunu işaretleyerek geri taşımayı içerir. Bu, istenen değerleri elde etmek için tamamen yeni bir işlem gerçekleştirme ihtiyacını ortadan kaldırarak bilgi işlem gücünü optimize eder. İkinci optimizasyon, açıkça sağlanmak yerine yama konumu bilgisini öğrenen ve hesaplanması gereken dikkat kapsamını sınırlayan konumsal yerleştirmelerdir. Önyargı vektörlerinin ve kanal boyutu manipülasyonlarının kullanımıyla birlikte bu optimizasyonlar, görüntü işlemede öz-dikkat hesaplamalarının performansına yardımcı olur.

  • 00:50:00 Bu bölümde ders, Swin trafo modelinin ikinci, üçüncü ve dördüncü aşamalarında yamaları birleştirme sürecini tartışıyor. Yamaların boyutsallığı azaltılarak, 3136 yamaya ulaşmak için dörtte bir oranında küçültülür ve kodlama boyutu ikiye katlanarak 384 kodlama elde edilir. İşlem, üçüncü ve dördüncü aşamalarda tekrarlanır ve süreçteki son bileşen, bir sınıflandırma başlığı tarafından takip edilen bir ortalama havuzlama katmanıdır. Ders, CNN'lere benzer yaklaşımların kullanılması yoluyla endüktif yanlılığın yeniden tanıtılmasıyla ilgili endişeleri artırıyor, ancak araştırmalar, Swin modellerinin yolsuzluk sağlamlığı açısından iyi performans gösterdiğini ve Vision Transformers'tan daha düşük bir şekil yanlılığına sahip olduğunu gösteriyor. Transformer mimarisinin jenerikliği, veri türü veya etki alanından bağımsız olarak kalıpların doğru bir şekilde yakalanmasına izin verir ve daha fazla veri, daha iyi performansla sonuçlanır.

  • 00:55:00 Bu bölümde öğretim görevlisi, her türlü veriyi alıp işleyebilen ve genellenebilirlik olarak bilinen kalıpları çıkarabilen bir modele sahip olmanın avantajlarını ve dezavantajlarını açıklıyor. Herhangi bir girdi/çıktıyı işleyebilen genel bir yapay zeka modeli fikri tartışılmakta ve sürücüsüz arabalar gibi alanlardaki potansiyel uygulamalar araştırılmaktadır. Öğretim görevlisi ayrıca, rakip sağlamlık alanının hala gelişmekte olduğunu ve Swin gibi modellerin daha gelişmiş düşman saldırılarına karşı etkinliğini belirlemek için daha fazla test yapılması gerektiğini belirtiyor.
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
  • 2022.12.03
  • www.youtube.com
Lecture 16 - Advanced Object Detection and Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease ...
 

CS 198-126: Ders 17 - 3 Boyutlu Görme Araştırması, Bölüm 1



CS 198-126: Ders 17 - 3 Boyutlu Görme Araştırması, Bölüm 1

Video, nokta bulutları, kafesler, vokseller ve parlaklık alanları dahil olmak üzere farklı 3B görsel temsilleri ve bunların artılarını ve eksilerini tartışıyor. Ders aynı zamanda ileri ve geri ışın yayını, katılar ve saydamlar için farklı yaklaşımlarla birbiriyle kesişen nesneler için görüntülerin renklendirilmesi ve işlenmesini de kapsar. Öğretim görevlisi, farklılaştırılabilir işlemenin sınırlamalarına ve Parlaklık Alanlarının her bir XYZ noktası için bir yoğunluk ve fiziksel renge sahip bir işlevi nasıl oluşturabileceğine değinerek onu daha öğrenilebilir hale getirir.

  • 00:00:00 Bu bölümde, öğretim görevlisi, gerçek dünya üç boyutlu olduğundan, bilgisayar görüşünün 3B'ye genişletilmesi gereğini tartışıyor. Kendi kendine sürüş, şekil optimizasyonu, sanal ortamlar, avatar oluşturma ve daha fazlası gibi 3B için sınırsız uygulama vardır. Ardından, 2.5B, nokta bulutları, kafesler, voksel ızgaraları ve bölge alanları dahil olmak üzere 3B gösterim için farklı yöntemler sunulur. Ders daha sonra, görüntülemenin nasıl çalıştığını anlamak için önemli olan iğne deliği kamera modelini ve ardından simülasyon için uzayda 3B nesnelerin nasıl oluşturulacağını derinlemesine inceler.

  • 00:05:00 Dersin bu bölümünde, kameranın bir sahnedeki konumunu belirleme aracı olarak ileri izleme ve geri izleme kavramları tanıtılmaktadır. Öğretim görevlisi ayrıca RGB-D (2.5D) görüntüleri ve bunların daha sonra bir yüzeyin kafeslerini oluşturmak için kullanılabilecek nokta bulutları oluşturmak için kullanılabilecek derinlik bilgilerini nasıl içerdiğini tartışır. Ağ oluşturma için nokta bulutlarını kullanmanın faydaları ve sınırlamaları da araştırılmaktadır.

  • 00:10:00 Bu bölümde öğretim görevlisi 3B nesneler için farklı temsilleri açıklar. Kafes yapılarını ve grafiklerle çalışma tekniklerinin eksikliği nedeniyle makine öğrenimi ayarlarında bunlarla çalışmanın ne kadar zor olduğunu tartışarak başlarlar. Ders daha sonra nesneleri ikili veya yarı saydam bir şekilde temsil edebilen küçük küplerden veya "Legolardan" oluşan ayrı bir 3B uzay yapısı olarak vokselleri tanıtıyor. Ancak, hesaplama karmaşıklığı nedeniyle yüksek çözünürlüklerde vokseller kullanmak engelleyici olabilir. Ders, 3B nesnelerde yüksek frekanslı ayrıntıları temsil etmek için bir çözüm olarak, belirli XYZ koordinatlarında RGB renklerini ve yoğunluğunu veren bir işlev olan parlaklık alanlarını sunarak sona erer.

  • 00:15:00 Bu bölümde öğretim görevlisi, nokta bulutları, kafesler, vokseller ve parlaklık alanları dahil olmak üzere farklı 3B temsilleri tartışır. Her türün artıları ve eksileri vardır ve belirli bir görev için doğru temsili seçmek çok önemlidir. 3B temsilleri tartıştıktan sonra, ders, ışın yayını ve iki tür ışın yayınına geçer: ileri ve geri. İleriye doğru ışın yayını, sahnedeki her noktayı görmemizi sağladığından, nokta bulutlarını işlemek için kullanışlıdır. Tersine, geriye dönük ışın dökümü, ışınla ilk önce kesişen yüzeyi görmemize izin verdiği için ağları veya voksel ızgaralarını oluşturmak için daha uygundur.

  • 00:20:00 Videonun bu bölümünde konuşmacı, birbiriyle kesişen farklı nesneler için görüntüleri renklendirme ve oluşturma sürecini tartışıyor. Bu, verimli olabilecek her dizi için üç üçgen kesişimi hesaplanarak yapılır. Nesneler yarı saydamsa, işlem yalnızca kesişen ilk noktanın rengini değil aynı zamanda birinci ve ikinci noktanın yoğunluğunu da dikkate almayı içerir. Duman gibi yüzeyi olmayan bölgelerde, düzlük üzerindeki farklı noktaları örneklemek için ışın örneklemesi kullanılır ve her nokta için RGB ve D çıktısı veren bir işlev oluşturmak üzere Parlaklık Alanını kullanır. Bu renk ve yoğunluk kümeleri daha sonra bir piksel hacmi oluşturmak için hacimsel işleme kullanılarak toplanır.

  • 00:25:00 Bu bölümde öğretim görevlisi, türevlenebilir işlemeyi ve sınırlamalarını tartışır. Renderingde tartışılan her şey farklılaştırılabilirken, sadece render edilmiş görüntüde gördüğümüz görünür yüzeyler için farklılaştırılabilir. Örneklenen her bir nokta son renk üzerinde bir etkiye sahip olacağından ve dolayısıyla bir miktar çıktı gradyanına sahip olacağından, parlaklık alanları bununla ilgili bir sorunu çözer. Öğretim görevlisi ayrıca Işıma Alanlarının bir süredir var olduğundan ve her XYZ noktası için bir yoğunluk ve fiziksel renge sahip bir işlev oluşturmanın bir yolu olarak işlev gördüğünden bahseder. Daha sonra öğretim görevlisi, Radiance Fields'ı öğrenilebilir kılmak için f'yi bir sinir ağı olarak modellemeyi tartışacaktır.

  • 00:30:00 Bu bölümde, konuşmacı Transformers ödevinin bir hafta gecikmesinden kısaca bahseder, ancak herhangi bir bağlam veya açıklama sağlamaz.
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
  • 2022.12.03
  • www.youtube.com
Lecture 17 - 3-D Vision Survey, Part 1CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: Ders 18 - 3 Boyutlu Görme Araştırması, Bölüm 2



CS 198-126: Ders 18 - 3 Boyutlu Görme Araştırması, Bölüm 2

3B görüntü hakkındaki bu derste, eğitmen parlaklık alanlarını, özellikle de uzayda konum alan ve renk ve yoğunluk çıkaran Sinirsel Işıma Alanlarını (NeRF'ler) tartışır. Konuşmacı, kameranın bakış açısından sorgulamayı ve görüntünün nasıl görüneceğini anlamak için kara kutu işlevini kullanmayı içeren işleme sürecini açıklıyor. Dersler, 3D görüntüde nesnelerin tutarlı perspektiflerini temsil etmedeki zorlukları ve bir nesnenin XYZ verilerini almak için MLP'lerin kullanımını ve yoğunluk ve RGB bilgilerini çıkarmak için görünüm yönünü tartışır. Ders ayrıca hacimsel işlemenin zorluklarını ve bilgisayar görüşünü iyileştirmek için Nerf türevlerini kullanma konularını da kapsar. Eğitmen, bir sinir ağı kullanarak gerçekçi 3 boyutlu görüntüler oluşturmak için uzay daralmasının kullanımını göstererek bitirir.

  • 00:00:00 Dersin bu bölümünde, eğitmenler parlaklık alanlarını, özellikle uzayda konum alan ve renk ve yoğunluk çıkaran NeRF'leri (Sinirsel Parlaklık Alanları) tartışırlar. İşleme süreci, kameranın bakış açısından sorgulamayı ve görüntünün nasıl görüneceğini anlamak için kara kutu işlevini kullanmayı içerir. Renk, tüm örneklerin ağırlıklı ortalamasıdır ve görünürlük, yoğunlukla orantılı ve kameranın önündeki nesnelerin miktarıyla ters orantılıdır. Eğitmenler, kameraya en yakın nesnenin renge en çok nasıl katkıda bulunduğu ve yoğunluğun ağırlık üzerindeki etkisi dahil olmak üzere, parlaklık alanlarının ardındaki sezgiyi açıklamak için örnekler verir.

  • 00:05:00 Bu bölümde konuşmacı, bir nesnenin birden çok görüntüsüne dayalı olarak bir nesnenin yeni görünümlerini oluşturmak için bir nöral Parlaklık alanının nasıl oluşturulacağını açıklar. Amaç, yeni görüntüler oluşturmak için sahnedeki noktalarda sorgulanabilen bir nöral Parlaklık alanı bulmaktır. Bununla birlikte, bunun için gerekli kara birlikleri pozisyonlarını ve talimatlarını elde etmek zor ve zaman alıcı bir görev olabilir. Bu süreçte yardımcı olabilecek programlar var, ancak konuşmacı yalnızca bu araçlara güvenmenin kopya çekmek olarak kabul edilebileceğini belirtiyor.

  • 00:10:00 Bu bölümde öğretim görevlisi, bir sahnenin yeni görünümlerini oluşturmak için 3B görüntünün kullanımını tartışıyor. Bir nöral Parlaklık alanını öğrenmenin, derin öğrenme ile bir nesnenin yeni görünümlerini oluşturmak için önemli olan farklı görünümler arasında şekil tutarlılığına izin verdiğini açıklıyorlar. Farklı görünümlerde tutarsız şekiller üreten StyleGAN ile bir örnekte gösterildiği gibi, bu darboğaz olmadan tutarlılığı sağlamak zordur. Öğretim görevlisi, bir nesnenin 3B temsilini öğrenmenin, nesnenin tutarlı şekle sahip yeni görünümlerini oluşturmak için gerekli olduğunu savunuyor.

  • 00:15:00 Bu bölümde, konuşmacı 3 boyutlu görüntüde nesnelerin tutarlı perspektiflerini temsil etmenin zorluklarını tartışıyor. Parlaklık Alanlarının kullanımı, aksi takdirde yakalanması zor olacak olan farklı açılardan gelen parlama ve yansımalar gibi nesnenin görünümündeki ince ayrıntıları temsil etmenin bir yolu olarak açıklanır. Konuşmacı, gözlemlenen nesnenin daha doğru bir temsilini oluşturmak için bu sürecin konum almayı ve yön verilerini görüntülemeyi nasıl içerdiğini ayrıntılarıyla anlatıyor. Nesnenin değişen yönlerini temsil etmek için yoğunluk ve renk MLP'lerini kullanma konsepti de açıklanmaktadır.

  • 00:20:00 Bu bölümde konuşmacı, bir nesnenin XYZ verilerini almak için MLP'lerin (yoğun sinir ağları) kullanımını ve yoğunluk ve RGB bilgilerini çıkarmak için bakış yönünü tartışıyor. Ağ, yeniden oluşturulan görüntünün netliğini artıran keskin karar sınırları oluşturmak için konumsal kodlamayı kullanır. İkili temsil ve mantık kapılarının kullanımı, yeniden oluşturulan görüntüde keskin değişikliklere ve yüksek frekanslı ayrıntılara izin verir. Konuşmacı, gerekirse konumsal kodlamanın daha derinlemesine bir açıklamasını sağlayabileceklerini belirtiyor.

  • 00:25:00 Bu bölümde, konuşmacı, keskin sınırlar için konumsal kodlamanın kullanılması ve parlama ve yansıma gibi efektler için görüş bağımlılığı dahil olmak üzere, 3D görüş için bir Nerf (nöral parlaklık alanları) modeli uygulamanın farklı yönleri hakkında daha fazla ayrıntıya giriyor. Konuşmacı ayrıca örnekleme sürecini iki turda optimize etmeyi ve kenarların daha ince ayrıntılarını öğrenmek için ayrı bir MLP kullanmayı tartışıyor. Ek olarak, konuşmacı, yer gerçeği görüntülerinin RGB değerlerini karşılaştırmayı ve GPU sınırlamaları nedeniyle sınırlı sayıda ışın oluşturmayı içeren, ağı eğitmek için kullanılan kayıp işlevini açıklar. Yoğunlukta doğrudan bir kayıp yoktur, ancak ağ yine de yoğunluk ve renk doğruluğu arasındaki dolaylı ilişki aracılığıyla doğru yoğunluğu öğrenir.

  • 00:30:00 Dersin bu bölümünde, konuşmacı hacimsel oluşturma sürecinden ve doğru tahminler üretmek için doğru renk ve yoğunluğun nasıl gerekli olduğundan bahsediyor. Konuşmacı, yeterli sayıda kamera kullanmanın nesne üzerindeki farklı noktaların üçgenlenmesini sağladığını ve ağın düşük kayıp üretmesinin en kolay yolunun, kesişme noktası için doğru rengi ve yüksek yoğunluğu çıkarmak olduğunu açıklıyor. Konuşmacı ayrıca, ön işleme komut dosyalarını ve gerçek zamanlı işleme eğitimi için nerfacto adlı bir kitaplığı kullanan, üzerinde çalıştıkları bir projeyi de sergiliyor. Konuşmacı, ön işlemenin zor olduğunu ve bazen yanlış yönlere yol açabileceğini belirtiyor.

  • 00:35:00 Bu bölümde, konuşmacı 3B görüşü ve her yönden görüntü yakalamayla ilgili zorlukları tartışıyor. Video, bilgisayar görüşünü iyileştirmek için Nerf türevlerini kullanmaya ve bu tekniğin bir sahnenin etrafındaki alanı daraltmak için nasıl kullanılabileceğine ve ağın iyi değerleri öğrenmesini kolaylaştırmaya odaklanıyor. Konuşmacı, görüntünün etrafındaki sınırlayıcı kutunun alanı sınırlandırmaya yardımcı olduğunu, bu nedenle ağın yalnızca -1 ile 1 arasındaki değerleri aldığını açıklıyor. Video, uzayda bir noktayı alan ve onu eşleyen bir formülle uzayın daralmasının nasıl çalıştığını gösteriyor. nokta ve sahnenin değerlerini ağın öğrenmesini kolaylaştıran bir birim top.

  • 00:40:00 Videonun bu bölümünde, konuşmacı bir sinir ağı kullanarak gerçekçi 3D görüntüler oluşturmak için uzay büzülmesinin kullanımını gösteriyor. Bir Campanilla görüntüsünü sergiliyor ve eğitim verilerinin kenarına ulaştığında ağın giderek daha kötü hale geldiğini açıklıyor. Konuşmacı ayrıca, günler yerine saniyeler süren 3D görüntülerin oluşturulmasındaki bazı gelişmelerden de bahsediyor. Yoğunluk fonksiyonunun neden öğrenilebilir olduğunu tartışmak için yeterli zamanı olmamasına rağmen, dersten sonra dinleyicilerle tartışmayı teklif ediyor.
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
  • 2022.12.03
  • www.youtube.com
Lecture 18 - 3-D Vision Survey, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: Ders 19 - İleri Görüş Ön Eğitimi



CS 198-126: Ders 19 - İleri Görüş Ön Eğitimi

Bu video, kontrastlı öğrenme, gürültü giderme otomatik kodlayıcılar, bağlam kodlayıcılar ve Mae ağı dahil olmak üzere ileri görüşte kendi kendine denetimli ön eğitim için kullanılan çeşitli teknikleri kapsar. Konuşmacı, güçlü ve zayıf yanlarını tartışarak her bir yönteme genel bir bakış sunar ve her ikisinden de daha iyi performans gösteren BYOL yönteminde karşılaştırmalı ve yeniden oluşturma kayıplarını birleştirmenin faydalarını vurgular. Video, kendi kendini denetleyen öğrenmedeki en son araştırma eğilimleri ve bunların bilgisayarla görme modellerinin performansını iyileştirme potansiyelleri hakkında yararlı bilgiler sağlar.

  • 00:00:00 Bu bölümde eğitmen, herhangi bir etiketle ilişkilendirilmemiş veri kümelerinden etiketler oluşturan denetimsiz öğrenmenin bir dalı olan kendi kendine denetimli öğrenme (SSL) kavramını tanıtır. Bu yaklaşım, küçük veri kümeleriyle çalışırken veya aşağı akış görevlerine aktarılabilecek temsilleri çıkarmak için büyük ve çeşitli veri kümelerinde modelleri önceden eğitirken kullanışlıdır. Eğitmen ayrıca, SSL'nin nasıl denetimsiz öğrenmeye göre daha fazla denetim sağladığını ve denetimli öğrenime göre daha az denetim sağladığını açıklamak için John McCune tarafından yapılmış bir benzetme sunarak, onu bilgisayar görüşündeki çeşitli görevler için değerli bir yaklaşım haline getiriyor.

  • 00:05:00 Bu bölümde, zekanın temeli olarak denetimsiz öğrenme kavramı bilgisayar görüşü bağlamında tanıtıldı. Denetimli öğrenme ve takviyeli öğrenme, sürecin sadece küçük parçalarıyken, kendi kendini denetlemeli öğrenme, öğrenmenin ana biçimi olarak sıfırdan etiketler oluşturmanın bir yolu olarak tartışıldı. Karşılaştırmalı öğrenme kavramı, bir optimizasyon hedefi olarak benzerliğe odaklanan popüler bir denetimsiz yaklaşım olarak tanıtıldı ve kayıp fonksiyonunun amacı, pozitif örnek için yerleştirmeyi girdi için yerleştirmeye mümkün olduğunca yaklaştırmak olarak açıklandı. negatif numune için gömmeyi aynı anda giriş gömmesinden uzağa itmek.

  • 00:10:00 Bu bölümde video, yüz tanıma ağlarını eğitmek için kullanılan üçlü kayıp kavramını ve kontrastlı bir kayıp işlevi kullanılarak nasıl iyileştirilebileceğini açıklıyor. Karşılaştırmalı kayıp fonksiyonu, girdiyi tüm olası negatif örneklerden uzağa itme sorununu çözer, ki bu, çok sayıda negatif örnek nedeniyle mümkün değildir. Bu kayıp fonksiyonunun uygulanması, pozitif numunenin doğru etiket görevi gördüğü ve tüm negatif numunelerin yanlış etiket görevi gördüğü bir sınıflandırma problemine benzer. Video daha sonra, karşılaştırmalı öğrenmeyi türevlenebilir bir sözlük geliri olarak tanımlayan ve tüm dönemlerin ve sorguların tek bir yerde toplanmasına izin veren MOCO algoritmasını tanıtıyor.

  • 00:15:00 Bu bölümde sunum yapan kişi, karşılaştırmalı öğrenme sürecini ve sinir ağları aracılığıyla benzerliğin nasıl tanımlanacağını açıklar. Yazar, benzerin ne anlama geldiğini tanımlar ve örnek ayrımcılığı olarak bilinen aynı ağ kullanılarak aynı örnekten geçirildiğini vurgular. Aşağı akış görevleri için iyi bir temsil oluşturmak için, anahtar ve sorgu aynı ağdan gelir, bu nedenle birden fazla ağ kullanmak pek kullanışlı değildir ve bunun yerine, daha iyi temsilleri teşvik etmek için büyük bir negatif havuzu gerekir. Bununla birlikte, parti boyutunu sınırlayan büyük bir negatif havuzundan tek bir pozitif seçmek hesaplama açısından zor ve pratik olmayabilir. Sunum yapan kişi daha sonra tek bir modelden tüm anahtarları ve sorguları önceden hesaplama fikrini tartışır.

  • 00:20:00 Dersin bu bölümünde, konuşmacı, zaman içinde güncellenen tek bir ağ üzerinde bir model eğitirken, ön hesaplama yerleştirmeleri ve bunları bir kuyrukta depolama fikrini tartışıyor. Bu yaklaşım, zaman içinde tutarlılığın korunmasına yardımcı olur ve eğitim sürecinin çok gerisindeki gömmelerin depolanmasını önler. Ancak bu yöntem, geriye geçişte değil, yalnızca ileri geçişte hesaplama katıştırma sorununu çözer. Konuşmacı, tutarlılığı korurken anahtar kodlayıcının ağırlıklarını çok hızlı değiştirmekten kaçınmak için anahtar kodlayıcıyı sorgunun ve anahtar kodlayıcıların oranlarının hareketli bir ortalaması ile güncellemeyi önerir.

  • 00:25:00 Videonun bu bölümünde sunum yapan kişi, etiketsiz iyi görüntü sunumları üretmek için her ikisi de karşılaştırmalı öğrenme yöntemleri olan Moco ve SimCLR modellerini tartışıyor. Moco modeli, aşağı akış görevleri için kullanılabilecek iyi temsiller üretmek için eğitim ilerledikçe zaman içinde güncellenen anahtar kodlayıcıları içerir. SimCLR modeli, daha da iyi sonuçlar elde etmek için tek bir kodlayıcı kullanarak ve yerleştirmeleri küçük bir MLP'den geçirerek bu işlemi basitleştirir. Bu yöntem, hareketli ortalamaları veya farklı ağları koruma ihtiyacını ortadan kaldırır ve derin öğrenme araştırmalarında popüler bir karşılaştırmalı öğrenme yöntemi haline gelmiştir.

  • 00:30:00 Bu bölümde, görüntü sunumlarını eğitmek için kendi kendini denetleyen bir yöntem olan SimCLR modelini öğreniyoruz. Model, yerleştirmeleri hesaplamak için kontrastlı kayıp ve sıcaklık ölçeklendirmesi kullanır ve aynı görüntünün benzer olduğu ve farklı olanların olmadığı benzerlik kavramını ortaya koyar. Modelde kullanılan veri büyütme teknikleri gösterilmektedir ve şaşırtıcı bir şekilde renk bazlı arttırmalar en iyi sonuçları vermektedir. Daha uzun eğitim seansları ve daha büyük gruplar da daha iyi sonuçlar verir. SimCLR, görüntü sınıflandırmasında tam denetimli bir temeli aşan ilk model yöntemiydi ve ImageNet etiketlerinin yalnızca %1'i ve %10'u ile ince ayar yapıldığında en iyi sonuçları elde ediyor.

  • 00:35:00 Bu bölümde ileri görüş eğitimi öncesi byol yöntemi ele alınmaktadır. Yöntem, bir girdi görüntüsüne farklı veri büyütmeleri uygulamayı, farklı görünümler oluşturmayı, bunları kodlayıcı ağlardan geçirmeyi ve daha sonra C ve C asal projeksiyonunu elde etmek için küçük bir ağa yansıtılan temsilleri almayı içerir. Yöntem, kesinlikle simclr gibi zıt bir öğrenme yöntemi değil, simclr ve moco'daki öğelerin tek bir amaç işlevinde bir kombinasyonudur. Yaklaşım, veri kümesinden gerçek metrikleri kullanmak yerine önyüklemeyi, iki farklı ağı sürdürmeyi ve bir modeli diğerinden tahmin edilen metriklere göre uydurmayı kullanır.

  • 00:40:00 Bu bölümde, Deep Free Learning'de olanla aynı olan Deep Key Learning'i ağır şekilde öğreniyoruz. Bu yaklaşım, ikinci ağın birinci ağın denetimini sağladığı ve bunun tersinin de geçerli olduğu BYOL için ilham kaynağı olmuştur. Ağ, bu önyükleme sürecini kullanarak, temsiller oluşturmak için daha fazla temsil öğrenir ve karşılaştırmalı öğrenme olmadığı için parti boyutu ve organizasyon türlerindeki değişikliklere karşı dayanıklıdır. BYOL, daha küçük parti boyutlarında bile iyi çalışır ve aynı ölçütlerde MCLR'yi geçer. Daha sonra girdinin yok edildiği ikinci sınıf yöntemlere geçiyoruz ve orijinal görüntüyü yeniden oluşturmamız gerekiyor ve bu yöntemler otomatik kodlayıcı tabanlı bir yapıyla iyi çalışıyor. Sunum, gürültünün bir görüntüye eklendiği Gürültü Giderici Model Kodlayıcı'yı tanıtıyor ve amaç, gürültüden arındırılmış görüntüyü tahmin etmektir. Stack Denoising Model Encoder çok popülerdi çünkü gerçekten iyi çalışıyor ve ağ, yok edilmiş görüntülerle bile anlamlı bir şeyler öğreniyor.

  • 00:45:00 Bu bölümde, konuşmacı geçmişte sinir ağlarını eğitmenin zorluklarını ve gürültü giderici otomatik kodlayıcıların (DAE) geçici bir çözüm olarak nasıl kullanıldığını tartışıyor. Ders daha sonra bağlam kodlayıcı olarak adlandırılan gizli bölgeyi tahmin etmek için bir görüntünün bazı kısımlarını maskeleme kavramına geçer. 2016 yılında Berkeley'in laboratuvarında tanıtılan yöntem, tespit ve segmentasyonda iyi sonuçlar elde etse de sınıflandırmada başarılı olamadı. Konuşmacı, bağlam kodlayıcının uygulanmasını ve amaç işlevine bir ayrımcı eklemenin nasıl daha iyi temsillere yol açtığını gözden geçirir.

  • 00:50:00 Bu bölümde, diğer yöntemlerde kullanılan CNN omurgalarından farklı olarak Transformer omurgası kullanan Mae ağı ele alınmaktadır. Ağ, bir vit ile değiştirilir ve bir görüntüdeki yamaları maskeleyerek ve maskelenmemiş bölgeyi bir kodlayıcıya geçirerek bağlam kod çözücüyle aynı hedefi kullanır. Kodlanmış katıştırmalar daha sonra orijinal görüntüyü yeniden oluşturmak amacıyla bir kod çözücüye iletilir. Bu süreç, o formattaki anlamlı özellikleri öğrenir ve ağ, Mae makalesinden birkaç örnekle gösterilir. Sıralamanın tamamı hakkında bilgi toplayan sınıf belirteci, sınıflandırma için kullanılabilir.

  • 00:55:00, karşılaştırmalı öğrenme ve otomatik kodlayıcı tabanlı yeniden yapılandırmanın karışımını kullanarak kendi kendini denetleyen ön eğitime odaklanır ve her iki stratejiyi de ayrı ayrı geride bırakır. Karşılaştırmalı ve yeniden yapılandırma kayıpları arasında denge kuran yeni bir kayıp fonksiyonu kullanarak yöntemleri birleştirirler. Kendi kendini denetleyen yöntemlerin performansını iyileştirme potansiyelini gösteren umut verici bir yaklaşımdır ve bu sonuçların altında yatan nedenleri anlamak güncel bir araştırma alanıdır.

  • 01:00:00 Bu bölümde, konuşmacı, görüntü yeniden yapılandırmasını ve karşılaştırmalı öğrenmeyi aynı anda tek bir model aracılığıyla birleştiren bir model olan yeni çıkan MassS'yi tartışıyor. MassS, aynı görüntünün iki görünümünü oluşturur, iki farklı görünümü maskeler ve bunlara gürültü ekler, böylece gürültü giderme hedefini birleştirir. MassS'in kullandığı kayıp işlevi, uç noktaların, yeniden oluşturma kaybının ve gürültü giderme kaybının daha iyi bir kombinasyonudur ve önceki modellere göre daha iyi performans sağlar. Konuşmacı, temsili öğrenme alanında iyi çalışan birçok başka model olduğunu ve bu alanın şu anda araştırma için sıcak olduğunu belirtiyor.
CS 198-126: Lecture 19 - Advanced Vision Pretraining
CS 198-126: Lecture 19 - Advanced Vision Pretraining
  • 2022.12.03
  • www.youtube.com
Lecture 19 - Advanced Vision PretrainingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkele...
 

CS 198-126: Ders 20 - Görüntüleri Stilize Etme



CS 198-126: Ders 20 - Görüntüleri Stilize Etme

Videoda, eşleştirilmiş veri gerektiren nöral stil aktarımı, GAN'lar ve Pix2Pix ve görüntüden görüntüye çeviri için eşleştirilmemiş verileri kullanan CycleGAN dahil olmak üzere görüntü stilizasyonu için çeşitli teknikler tartışılıyor. CycleGAN'ın sınırlamaları, çok alanlı görüntü geçiş görevleri için üreteçleri eğitmek üzere birden fazla alandan bilgi alabilen StarGAN tarafından ele alınabilir. Konuşmacı ayrıca, BicycleGAN modeli tarafından örneklenen, çeşitli çıktılar üretmek için etki alanı bilgilerini ve düşük boyutlu gizli kodları kullanan çok modlu denetimsiz görüntüden görüntüye çeviriyi tartışıyor. Son olarak, görüntü çeviri görevleri için Vision Transformers'ı GAN'larla kullanmanın potansiyel faydalarından bahsediliyor ve ders, eğlenceli görüntü örnekleri ve soru-tartışma fırsatı ile sona eriyor.

  • 00:00:00 Bu bölümde, konuşmacı görüntüden görüntüye çeviriyi ve özellikle nöral stil aktarımını tartışıyor. Görev, orijinal görüntünün içeriğini korurken, kaynak alandaki görüntülerin hedef alandaki karşılık gelen görüntüye dönüştürülmesini içerir. Nöral stil aktarımı, çıktı görüntüsünü bir görüntünün içeriğine ve diğerinin stil referansına uyacak şekilde optimize ederek iki görüntüyü karıştırmak için kullanılan bir tekniktir. Evrişimli Ağlar, her iki görüntüden ilgili bilgileri çıkarmak ve istenen stille yeni bir görüntü oluşturmak için kullanılır. Konuşmacı, gerekli girdiler ve bu teknik için kullanılan mimari hakkında ayrıntılara girer.

  • 00:05:00 Bu bölümde ders, görüntülerin içeriğini ve stilini temsil etmek için derin CNN'leri kullanma kavramını tartışıyor. CNN, kenarlar ve dokular gibi alt düzey özelliklerden başlayarak, nesne temsillerini üretmeden önce üst düzey özellikleri soyutlar. Ardından ders, bir gram matris hesaplaması kullanarak farklı özellik haritalarındaki stil benzerliğinin nasıl ölçüleceğini araştırır. Ders, CNN'lerden içerik ve stilin nasıl elde edileceğini ve her biri için istenen çıktıyı üretmek üzere modeli ayarlayan kayıp hesaplama yöntemini açıklar.

  • 00:10:00 Dersin bu bölümünde, konuşmacı görüntü işleme için birkaç farklı tekniği tartışıyor. İlk olarak, bir optimize ediciye hem içerik hem de stil kaybı ekleyerek bir çıktı görüntüsü oluşturma sürecini tartışıyorlar. İçerik görüntüsünden alt düzey özellikler ve stil görüntüsünden üst düzey özellikler ile nihai görüntüyü oluşturmak için birleştirilen bir içerik görüntüsü ve stil görüntüsünün bir örneğini gösterirler. Daha sonra, ayrımcı ve üretici kısımlara odaklanarak GAN'ları kısaca gözden geçirirler. Ayrıca StyleGAN'dan ve onun görüntüdeki daha yüksek ve daha düşük düzey nitelikleri ayırma yeteneğinden de bahsediyorlar. Son olarak, kullanıcı tarafından sağlanan ek bilgilere dayalı olarak çıktı görüntüleri oluşturmak için koşullu bir GAN kullanan Pix2Pix adlı bir modeli tartışıyorlar.

  • 00:15:00 Bu bölümde video, eşleştirilmiş veri gerektiren GAN'lar ve pix2pix ve görüntüden görüntüye çeviri için eşleştirilmemiş verileri kullanan CycleGAN dahil olmak üzere görüntü stilizasyonu için çeşitli teknikleri tartışıyor. Bununla birlikte, CycleGAN'ın sınırlamaları vardır ve bu sınırlamalar, üreteçleri eğitmek için birden çok alandan bilgi alabilen ve böylece çok alanlı görüntü geçiş görevlerine izin veren bir model olan StarGAN tarafından ele alınabilir. StarGAN'ın arkasındaki ana fikir, girdi olarak hem görüntü hem de etki alanı bilgilerini kullanan esnek bir çeviri yöntemi öğrenmektir.

  • 00:20:00 Dersin bu bölümünde, konuşmacı çok modlu denetimsiz görüntüden görüntüye çeviri kavramını ve bunun bir girdi görüntüsünden çok sayıda gerçekçi ve çeşitli çıktılar üretmek için nasıl kullanılabileceğini tartışıyor. Tartışılan makale, daha doğru ve güvenilir çıktılar üretmek için alan bilgilerini ve düşük boyutlu gizli kodları birleştirir. BicycleGAN modeli, bu yaklaşımın mod çökmesini en aza indirmek ve çeşitli çıktılar elde etmek için nasıl çalışabileceğinin bir örneği olarak sunuldu. Ek olarak, makale, çıktıyı gizli uzaya geri eşlemek ve aynı stili veya çıktıyı üreten iki farklı kodun olasılığını en aza indirmek için bir kodlayıcı öğrenmeye çalışır.

  • 00:25:00 Dersin bu bölümünde konuşmacı, görüntüden görüntüye çeviri gibi görevler için Vision Transformers kullanmanın zorluklarını ve bunları GAN'larla birlikte kullanmanın potansiyel faydalarını tartışıyor. Bu görevler için tek başına GAN'ları kullanmak kadar basit olmasa da, görüntü dönüştürme görevlerinin üstesinden gelmek için GAN'lara sahip Vision Transformers'ın faydalarından yararlanan yeni tekniklerden bahsediyorlar. Konuşmacı, bu tekniklerin yeteneklerini sergileyen ve soru ve tartışma için zemini açan bazı eğlenceli görüntüleri paylaşarak bitiriyor.
CS 198-126: Lecture 20 - Stylizing Images
CS 198-126: Lecture 20 - Stylizing Images
  • 2022.12.03
  • www.youtube.com
Lecture 20 - Stylizing ImagesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

CS 198-126: Ders 21 - Üretken Ses



CS 198-126: Ders 21 - Üretken Ses

Üretken ses hakkındaki bu derste sunum yapan kişi, niceleme, örtüşme, sinyal işleme, projeksiyonlar, derin öğrenme ve Dönüştürücüler gibi çeşitli konuları kapsar. Öğretim görevlisi, sürekli sinyallerin nasıl örnekleneceğini ve nicelleştirileceğini ve bit derinliklerinin kesinliği ile hesaplama gücü arasındaki değiş tokuşu tartışır. Shannon-Nequist örnekleme teoremi ve sinyallerin yeniden yapılandırılması üzerindeki etkileri ve projeksiyonların önemi ve bunların sinyal yeniden yapılandırması için kullanımı da açıklanmaktadır. Sesin yeniden yapılandırılması için derin öğrenme araştırılır ve sunum yapan kişi üretken sesi ve bunun kaybolan veya zarar görmüş kayıtlardan müziği nasıl yeniden oluşturabileceğini anlatır. Transformers'ın ses üretimi için kullanımı tartışılmakta ve müziği bir dizi belirteç olarak temsil etme süreci açıklanmaktadır. Konuşmacı ayrıca geniş ve çeşitli bir veri kümesine sahip olmanın önemini vurguluyor ve müzik tahminleri için transformatör modelinin işleyişini tartışıyor. Ders, modelin gelecekteki notaları doğru bir şekilde tahmin etme yeteneğini gösteren, oluşturulmuş bir müzik demosu ile sona erer.

  • 00:00:00 Dersin bu bölümünde, üretken sese ve bilgisayarların sesi işlemesi için gerekli olan sürekli sinyallerin nasıl ayrıklaştırılacağına odaklanılır. Sürekli bir sinyali örnekleme ve niceleme işlemi, Dijital Sinyaller oluşturmak için kullanılır. Ders, analogdan dijitale dönüştürücünün Sample and Hold devresini nasıl kullandığını ve gerekli hassasiyet düzeyine bağlı olarak çıkışın nasıl ayrıklaştırıldığını açıklar. Ders ayrıca dijitalden analoğa dönüştürücüyü ve sinyal eğimini belirleyen belirli kesme frekansları ile sinyalin geçiş bandını korumak için bir alçak geçiren filtrenin nasıl kullanıldığını tartışır. Bu kavramlar, üretken ses için gereklidir ve dersin sonraki materyalinin anlaşılması için önemli bir temel oluşturur.

  • 00:05:00 Bu bölümde ders, niceleme düzeylerini ve bunların nicelenen sinyalin dinamik aralığıyla olan korelasyonunu kapsar. Daha yüksek bit derinliği, daha kesin bir sinyal yaklaşımına yol açarak, 16 bit derinlikte neredeyse mükemmel bir yaklaşıma ulaşana kadar hataları önemli ölçüde azaltır. Bununla birlikte, hesaplama gücü söz konusu olduğunda, dinleyicinin kulağı için kayıpsız bir perdenin mi yoksa çok daha hızlı kayıplı bir perdenin mi yeterli olacağını sorabilecek bir değiş tokuş vardır. Shannon-Nequist örnekleme teoremi, bir sinyalin, yalnızca orijinal sinyalin frekanslarının örnekleme frekansının yarısının altında olması durumunda, herhangi bir bilgi kaybı olmaksızın örneklerinden yeniden oluşturulabileceğini iddia eder. Bu kriterin karşılanmaması, sinyalin sorunlu bir şekilde yaklaşmasına neden olan örtüşmeye yol açacaktır.

  • 00:10:00 Bu bölümde, örtüşme ve bunun sinyal işleme üzerindeki etkilerini, özellikle orijinal girişe kıyasla değiştirilmiş bir çıkış sinyaliyle sonuçlanan zayıf örnekleme açısından öğreniyoruz. Dalga formu görselleştirmeleri ve görüntü örnekleme yoluyla bunun örneklerini görüyoruz. Ek olarak, geometrik sinyal teorisini, özellikle sinyal rekonstrüksiyonu için projeksiyonların kullanımını ve görüntü bölütlemede ters evrişimlerin kullanımını duyuyoruz. Son olarak sunum yapan kişi, bir satır C kodu kullanarak 8 bitlik müzik üretmeye ilişkin eğlenceli bir demo paylaşıyor.

  • 00:15:00 Bu bölümde öğretim görevlisi projeksiyonları ve bunların yeniden yapılandırma için nasıl kullanılabileceğini tartışır. İzdüşüm formülü, iki vektörün nokta çarpımıdır ve bu benzerlik ölçüsü, başka bir vektör kümesi üzerindeki izdüşümlerin doğrusal bir kombinasyonunu kullanarak bir sinyali yeniden oluşturmak için kullanılabilir. Bununla birlikte, bir taban gereklidir ve elde edilen maksimum bilgi miktarını sağlamak için kullanılan vektör seti birbirine dik olmalıdır. Projeksiyonu birbirine ortogonal olan farklı tabanlara alarak, yansıtılan vektör hakkında bilgi edinebilir ve nihayetinde sinyali yeniden oluşturabiliriz.

  • 00:20:00 Bu bölümde öğretim görevlisi, ses yeniden yapılandırması için derin öğrenmenin kullanımını ve düşük kaliteli bir dalga biçimini yeniden oluşturarak yüksek çözünürlüklü sesi nasıl üretebileceğini tanıtıyor. Model mimarisi, üst örnekleme için bir alt piksel evrişiminin tek boyutlu temsilini kullanan bir biriminkine benzer. Aşağı-örneklenmiş dalga formu, iki adımlı evrişimli katmanlar kullanan sekiz alt-örnekleme bloğundan geçer ve bir ReLU aktivasyon fonksiyonu ile toplu normalleştirme uygulanır. Bir alt örnekleme bloğuyla aynı şekilde inşa edilen darboğaz katmanında, dalga biçimi sekiz üst örnekleme bloğuna bağlanır. Bu bloklar, alt örnekleme bloklarına artık bağlantılara sahiptir ve bilgi kazancını genişletmek için bilgileri belirli bir boyut boyunca yeniden sıralamak için bir alt piksel evrişimi kullanır ve düşük çözünürlüklü dalga formunun özelliklerini korurken dalga formunun çözünürlüğünü artırır. Nihai evrişim katmanı, alt piksel ters evrişiminden sonra bilgileri yeniden sıralayan bir yeniden istifleme işlemine sahiptir ve çıkış dalga biçiminin üst örneklemesi, ortalama kare hata kaybı işlevi kullanılarak üretilir.

  • 00:25:00 Bu bölümde öğretim görevlisi, üretken sesin kullanımını ve 1900'lerin ortalarından sonlarına kadar kaydedilmiş ve kayıtları tam kalitede korunmamış olabilecek gruplardan müziği yeniden oluşturmak için nasıl kullanılabileceğini tartışıyor. Altörneklenmiş spektrumdan ve ona netlik ve renk ekleyerek gerçek dalga biçimine uyacak şekilde nasıl iyileştirilebileceğinden bahsediyor. Öğretim görevlisi daha sonra ses üretimi ve Transformer mimarisinin bir melodideki müzik notalarını tahmin etmek için nasıl kullanılabileceği için Transformers'a geçer. Bu, müzik dosyaları olan verilerin bir belirteç dizisine dönüştürülmesini gerektirir; bu, müzikal imza, anahtar ve vuruşlar gibi yakalanması gereken zaman serileri nedeniyle kapsamlı bir şekilde dikkate alınması gereken benzersiz bir sorundur.

  • 00:30:00 Bu bölümde konuşmacı, müziği üretken ses için bir dönüşüm modeline beslenebilen bir dizi belirteç olarak temsil etme sürecini tartışıyor. Müzik notaları hakkında bilgi toplamak için ses perdesi, süre ve diğer niteliklerin nasıl kullanılabileceğini açıklıyorlar, ancak aynı zamanda 2B piyano rulosu verilerini tek bir boyutta tokenleştirmenin zorluğuna da dikkat çekiyorlar. Birden çoğa notlar veya birçok notu tek bir belirteçle eşleme gibi farklı yaklaşımlar karşılaştırılır ve ayırıcı belirteçlerin kullanımı ve azaltılmış kelime dağarcığı boyutu tanıtılır. Konuşmacı, üretken ses modelleri için eğitim verilerinin çeşitliliğini artırmanın bir yolu olarak veri artırmaya değinerek sözlerini bitiriyor.

  • 00:35:00 Bu bölümde konuşmacı, üretici ses modellerini kullanırken geniş ve çeşitli bir veri kümesine sahip olmanın önemini tartışıyor. Tek bir şarkının farklı tonlarda 12 şarkıya nasıl dönüştürülebileceğini ve bir modelin ne kadar fazla veri ve genellenebilirliğe sahip olursa o kadar iyi performans göstereceğini açıklarlar. Konuşmacı ayrıca, modele daha iyi bir müzikal zamanlama duygusu vermek için meta verileri sağlamanın bir yolu olarak konumsal vuruş kodlamasının kullanımını tartışıyor. Doğal dil işlemede kullanılan konumsal yapı yönteminin müziğe de uygulanabileceğini belirtiyorlar. Bölüm, modelin tüm bilgilere bir kerede erişmesini ve bir sonraki tahmin etmesi gereken belirteçler hakkında bilgi sızdırmasını engellemek için bir dikkat maskesi uygulamanın bir yolu olan öğretmen zorlamasını tartışarak sona erer.

  • 00:40:00 Bu bölümde konuşmacı, üretken seste kullanılan trafo modelinin nasıl çalıştığını tartışıyor. Uygulamada kullanılan transformatör XL, müzik tahminleri için hızlı ve doğru çıkarım sağlayan göreceli konum kodlaması ve gizli durum belleği özelliklerine sahiptir. Konumsallık müzikte önemli olduğundan, model yalnızca mutlak konum yerine göreli konumu kullanır. Model ayrıca, bellekte saklamak ve gelecekteki notaları doğru bir şekilde tahmin etmek için her notanın perde ve süre olmak üzere iki özelliğini yakalar. Konuşmacı daha sonra, model kullanılarak oluşturulmuş D Majör Pachelbel Canon'un bir demosunu sunar; bu, oluşturulan notaların orijinal kompozisyondan sapmalarına rağmen yine de iyi ses çıkardıklarını gösterir.
CS 198-126: Lecture 21 - Generative Audio
CS 198-126: Lecture 21 - Generative Audio
  • 2022.12.03
  • www.youtube.com
Lecture 21 - Generative AudioCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
Neden: