Makine Öğrenimi ve Sinir Ağları - sayfa 28

 

Ders 25. Stokastik Gradyan İnişi



25. Stokastik Gradyan İnişi

Bu videoda, genellikle sonlu toplam problemi şeklinde ortaya çıkan büyük ölçekli makine öğrenimi problemlerini çözmek için bir optimizasyon yöntemi olarak stokastik gradyan iniş (SGD) kavramı tanıtılmaktadır. Konuşmacı, SGD'nin hesaplamayı hızlandırmak için gradyanı hesaplamak üzere rasgele veri noktalarını nasıl seçtiğini ve yöntemin dalgalı doğası nedeniyle optimuma yaklaşırken toplu gradyan inişinden nasıl farklı davrandığını açıklar. SGD'nin temel özelliği, stokastik gradyan tahmininin, beklentideki gerçek gradyanın yansız bir versiyonu olmasıdır ve gürültüyü azaltmak için stokastik gradyan varyansının kontrol edilmesi gerekir. Mini partilerin kullanımı, derin öğrenme GPU eğitiminde ucuz bir paralellik aracı olarak tartışılır, ancak doğru mini parti boyutunun seçilmesi, görünmeyen verilerin varlığında çözümün sağlamlığını etkileyebilecek hala açık bir sorudur. SGD'yi optimize etmedeki zorluklar, mini parti boyutunu belirlemeyi ve stokastik gradyanları hesaplamayı içerir, ancak araştırmacılar, bir genelleme teorisi geliştirerek SGD'nin sinir ağlarındaki etkinliğini anlamaya çalışıyorlar.

  • 00:00:00 Bu bölümde konuşmacı, büyük ölçekli makine öğrenimi sistemlerini eğitmek için hala kullanılan eski bir optimizasyon yöntemi olan stokastik gradyan iniş kavramını tanıtıyor. Veri biliminde optimizasyon problemlerini çözmenin çok önemli olduğunu ve bu problemlerin genellikle oldukça büyük olduğunu açıklıyorlar. Konuşmacı, MATLAB'de bir gradyan iniş uygulaması sağlar ve tüm derin öğrenme araç kutularını ve büyük ölçekli makine öğrenimini yürütmek için yalnızca bir satırın değiştirilmesi gerektiğini gösterir. Konuşmacı daha sonra makine öğrenimindeki toplam olarak yazılmış bir x bölü maliyet fonksiyonunu bulmayı içeren optimizasyon problemlerini açıklar. Bunlara sonlu toplam problemleri denir ve tipik olarak stokastik optimizasyon yöntemleri kullanılarak çözülürler.

  • 00:05:00 Bu bölümde konuşmacı, hem eğitim veri noktalarının (n) sayısının hem de vektörlerin boyutsallığının (d) büyük olabileceği anlamına gelen büyük ölçekli makine öğrenimini tartışıyor. Büyük n, milyonlara veya milyarlara ulaşabilir ve büyük d, bir milyara kadar özellikten oluşabilir. Bu, veri yapılarında alt doğrusal zaman algoritmaları arama ve bu tür büyük verileri işlemek için karma hileler dahil olmak üzere büyük ölçekli makine öğrenimi için optimizasyon yöntemlerinde çok sayıda araştırma yapılmasını sağlar. Konuşmacı, lineer cebirdeki en klasik soru, en küçük kareler regresyon problemi ve la sol adı verilen yaygın olarak kullanılan diğer bir yöntemden örnekler verir; her ikisi de sonlu bir toplam formatı ile eğitim verisindeki kayıp cinsinden yazılır. Son olarak, konuşmacı, derin sinir ağlarının, n eğitim veri noktasıyla bu sonlu toplam probleminin bir başka örneği olduğunu belirtiyor.

  • 00:10:00 Bu bölümde konuşmacı, makine öğrenimi ve istatistikte ortaya çıkan sonlu toplam problemlerini çözmek için optimizasyon prosedürlerinin nasıl gerekli olduğunu tartışıyor. Bunun nedeni, bu alandaki problemlerin çoğunun sonlu toplam problemi olarak ifade edilebilmesi ve bunları çözmek için özel optimizasyon prosedürlerine ihtiyaç duyulmasıdır. Konuşmacı, gradyan iniş yöntemini tanıtıyor ancak büyük bir veri kümesindeki tek bir noktanın gradyanını hesaplamanın saatler veya günler sürebileceğini ve bunun büyük bir dezavantaj olduğunu belirtiyor. Konuşmacı, dinleyicilerden bu dezavantajı gidermek için öneriler ister ve sunulan bazı fikirler arasında stokastik gradyan inişini kullanmak ve tam veri setinin bir alt kümesini örneklemek yer alır.

  • 00:15:00 Bu bölümde, konuşmacı, her yinelemede bazı veri noktalarının rastgele seçilmesini ve tek bir noktanın gradyanını hesaplamayı, böylece süreci çok daha hızlı hale getirmeyi içeren stokastik gradyan iniş kavramını tartışıyor. Ancak konuşmacı, kilit sorunun bu fikrin matematiksel olarak mantıklı olup olmadığı olduğunu belirtiyor. Stokastik gradyan iniş ilk olarak 1951'de Monroe'da Robbins tarafından önerildi ve gradyan iniş yöntemiyle karşılaştırıldı. Konuşmacı, stokastik gradyan inişinin adım boyutlarına daha duyarlı olduğunu not eder ve çizginin nasıl dalgalandığını göstermek için bir oyuncak probleminin simülasyonunu gösterir. Yöntem, dalgalanmalara rağmen hala optimuma doğru ilerliyor gibi görünüyor.

  • 00:20:00 Bu bölümde konuşmacı, bir çözüme yaklaşmak için rastgele seçilen veri noktasının gradyanını bir alfa değeriyle (adım boyutu) çarparak hesaplayan Stokastik Gradient Descent (SGD) kavramını tartışıyor. İşlem, adım boyutu parametresine çok duyarlıdır ve gradyan inişinden daha hassastır. Konuşmacı, parametreyi değiştirirken çözüme doğru ilerlemeyi gözlemler ve SGD'nin tipik davranışını açıklar. Başlangıçta büyük veri kümelerinde hızlı ilerleme kaydettiği ve aşırı sığdırmadan kaçınılırken hızlı ve kirli bir ilerleme kaydedilebildiği için insanların SGD'yi neden sevdiğini açıklıyor. Ancak çözüme yaklaştığında daha çok dalgalanır ve kaotik davranış nedeniyle en iyi optimumu bulmak zor olabilir.

  • 00:25:00 Bu bölümde konuşmacı, ikinci dereceden fonksiyonların kullanıldığı basit bir tek boyutlu optimizasyon probleminde stokastik gradyan yöntemlerinin nasıl çalıştığını tartışıyor. Amaç, bu ikinci dereceden işlevleri en aza indirmektir ve konuşmacı, bunu yapmak için ayrı ayrı bileşenlerin gradyanlarının nasıl kullanılacağını gösterir. Metodun başlangıçta iyi çalıştığını çünkü tam gradyanı kullandığını, ancak optimuma yaklaştığında her şeyin olabileceğini ve kafa karıştırıcı hale geldiğini açıklıyorlar. Konuşmacı ayrıca kapalı biçimli çözümün nasıl bulunacağını ve gerçek minimumun belirli bir min ve maks aralığında nerede bulunabileceğini gösterir.

  • 00:30:00 Bu bölümde, konuşmacı, skaler X karışıklık bölgesinin dışında olduğunda, yani noktanın çözümün olduğu yerden çok uzakta olduğu anlamına geldiğinde, stokastik gradyan inişinin (SGD) davranışını açıklıyor. Bu uzak rejimde, bir bileşenin stokastik gradyanı, tam gradyanla aynı işarete sahiptir; bu, kayıp fonksiyonunu azaltmak için gidilecek yöndür. Konuşmacı bunu, SGD'nin neden çok uzakta sağlam bir ilerleme sağlayabildiğini ve toplu gradyan inişinin tek bir yinelemesini yapmak için gereken sürede milyonlarca stokastik adıma izin vererek nasıl harika bir başlangıç hızı sağlayabildiğini açıklamak için kullanıyor. Karışıklık bölgesine girdikten sonra, stokastik gradyan düşüşü optimizasyonda daha az etkili hale gelir, ancak makine öğreniminde dalgalanmalar yöntemi daha sağlam ve genelleme için daha iyi hale getirebilir. Konuşmacılar bunun, pahalı miktarların hesaplanmasını hızlandırmak için rastgeleleştirmenin kullanıldığı makine öğrenimi, teorik bilgisayar bilimi ve istatistikte yaygın olan bir fikir olduğunu belirtiyor.

  • 00:35:00 Bu bölümde, konuşmacı stokastik gradyan inişinin (SGD) temel özelliğini tartışıyor. SGD'nin arkasındaki ana fikir, hesaplamadan tasarruf etmek için rastgele tahmin edilen bir gradyan kullanmaktır. SGD'nin temel özelliği, beklentide, stokastik gradyan tahmininin gerçek gradyanın yansız bir versiyonu olmasıdır. Bu yansızlığın ötesinde, gürültü miktarı veya stokastiklik miktarı kontrol edilir, böylece stokastik gradyan varyansı azaltılır. Varyans ne kadar küçük olursa, stokastik gradyanınız gerçek gradyanın yerine o kadar iyi olur ve yakınsama o kadar hızlı olur.

  • 00:40:00 Bu bölümde konuşmacı, stokastik gradyan iniş yöntemini ve onun hem dışbükey hem de dışbükey olmayan problemlerdeki davranışını tartışıyor. Konuşmacı ayrıca yöntemin iki varyantından da bahseder; biri rastgele bir vektörün seçildiği kısıtlamalar olmadan, diğeri ise bir eğitim veri noktasının değiştirilerek veya değiştirilmeden rastgele seçildiği kısıtlamalara sahiptir. Konuşmacı, yöntemin 1951'den beri var olmasına ve derin öğrenme araç setlerinde yaygın olarak kullanılmasına rağmen, teorik ve pratik uygulamalar arasında hala boşluklar olduğunu açıklıyor. Nasıl analiz edeceğimizi bildiğimiz sürüm, stokastik gradyan alanında büyük bir açık problem olan tekdüze rastgele sürüm olmasına rağmen, araç takımları değiştirmesiz sürümü kullanıyor. Konuşmacı ayrıca, varyansı azaltmak ve daha az gürültüyle sonuçlanmak üzere bir grup nokta kullanan mini parti fikrinden de bahseder.

  • 00:45:00 Videonun bu bölümünde, konuşmacı mini toplu iş kavramını ve derin öğrenme GPU tarzı eğitimde paralelliğin ucuz bir versiyonunu vermek için insanlar tarafından nasıl kullanıldığını tartışıyor. Mini parti ne kadar büyük olursa, paralel olarak o kadar çok şey yapılabilir. Bununla birlikte, çok büyük mini kümeler kullanmanın, stokastik gradyanın daha çok, karışıklık bölgesinin çok fazla küçüldüğü bir noktaya kadar gürültüyü azaltan toplu gradyan inişine benzemeye başlaması anlamına gelmesi gibi bir muamma da vardır. Bu, sinir ağının aşırı yüklenmesine neden olarak görünmeyen verileri tahmin etmeyi zorlaştırabileceğinden makine öğrenimi için zararlıdır. Bu nedenle, doğru mini parti boyutunu seçmek, derin sinir ağlarının optimizasyon sürecinde hala açık bir sorudur.

  • 00:50:00 Bu bölümde, konuşmacı hangi mini partinin kullanılacağını ve stokastik gradyanların nasıl hesaplanacağını belirleme dahil olmak üzere stokastik gradyan inişini (SGD) optimize etmeyle ilgili zorlukları tartışıyor. Geri yayılım algoritması, tek bir stokastik gradyanı hesaplamak için popüler bir yöntem olarak tanıtıldı ve makine öğrenimi araç setleri, bir gradyan hesaplamasını otomatikleştirmenin farklı yollarına sahip olabilir. SGD'nin yeterli olmayan niteliklerine rağmen sinir ağları için neden bu kadar iyi çalıştığı sorusu da dahil olmak üzere, SGD'nin etkinliğini kanıtlamadaki teorik zorluklar tartışılmaktadır. Araştırmacılar şu anda bir genelleme teorisi geliştirerek bu gizemi anlamaya çalışıyorlar.
25. Stochastic Gradient Descent
25. Stochastic Gradient Descent
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Suvrit SraView the complete course: https://ocw.m...
 

Ders 26. Derin Öğrenme İçin Sinir Ağlarının Yapısı



26. Derin Öğrenme İçin Sinir Ağlarının Yapısı

Bu video, derin öğrenme için sinir ağlarının yapısını tartışıyor. Amaç, m özelliğe sahip özellik vektörleri ile bir sinir ağı oluşturarak verileri ikili bir şekilde sınıflandırmak, verileri iki kategoriden biri olarak sınıflandırabilen bir öğrenme işlevi oluşturmaktır. Doğrusal sınıflandırıcılar doğrusal olmayan verileri ayıramadığından, bu işlevlerin oluşturulmasında doğrusal olmama esastır. Video ayrıca sinir ağındaki ağırlık ve katman sayısının önemini tartışıyor ve kullanıcıların işlev oluşturma pratiği yapması için TensorFlow oyun alanı gibi kaynaklar sağlıyor. Son olarak video, bir pastayı keserek elde edilen düz parça sayısı formülünü kanıtlamak için kullanılan özyinelemeyi ve bunun derin öğrenmedeki toplam kaybı en aza indirme optimizasyon problemiyle nasıl ilişkili olduğunu tartışıyor.

  • 00:00:00 Bu bölümde profesör, eğitim verilerini öğrenen ve test verilerine uygulanabilen f öğrenme fonksiyonunun yapısı olan derin sinir ağlarının merkezi yapısını tanıtıyor. Amaç, m özelliğe sahip özellik vektörleri ile bir sinir ağı oluşturarak verileri ikili bir şekilde sınıflandırmaktır. Ağ, verileri erkek veya kız, kedi veya köpek veya kamyon veya araba gibi iki kategoriden biri olarak sınıflandırabilen bir öğrenme işlevi oluşturacaktır. Profesör ayrıca bu yapının aylardır maskot mit.edu/learning from data sitesinde mevcut olduğunu ve Stellar platformuna ekleneceğini belirtiyor.

  • 00:05:00 Bu bölümde öğretim görevlisi, X'in iki sınıflı sınıflandırma için doğru yanıtı veren bir f fonksiyonunun nasıl oluşturulacağını açıklar. Öğretim elemanı, fonksiyonun sınıflandırma eksi bir için negatif, sınıflandırma artı bir için pozitif olması gerektiğini belirtmektedir. Ancak öğretim görevlisi, fazla uydurma meydana gelebileceğinden her örneği doğru yapmamız gerekmediğini ve keşfettiğimiz kuralın her "tuhaf" durumu değil, hemen hemen tüm durumları kapsaması gerektiğini kabul ediyor. Öğretim görevlisi daha sonra, basit bir model probleminin bireylerin derin öğrenme hakkında bilgi edinmesine yardımcı olabileceği oyun alanı.tensorflow.org sitesini ziyaret etmenizi önerir. Oyun alanı dört örnek sunar ve bunlardan biri, bazı noktalarda pozitif ve diğer noktalarda negatif olan bir fonksiyon bulmayı içerir.

  • 00:10:00 Bu bölümde, konuşmacı sinir ağlarında doğrusal olmamanın önemini tartışıyor ve destek vektör makineleri gibi doğrusal sınıflandırıcılar kullanılmış olsaydı, bazı doğrusal olmayan işlevlerin yaratılmasının mümkün olmayacağına işaret ediyordu. verileri ayırın. Daha sonra, sistemin bir sarmalda pozitif, diğer sarmalda negatif bir fonksiyon bulmaya çalıştığı bir sarmallı 2B sınıflandırma probleminin bir örneğini gösteriyor ve bu epey zaman, birçok dönem alıyor. Konuşmacı ayrıca bir çağın ne olduğunu açıklar ve stokastik gradyan inişinde değiştirmeli mini partiler ile değiştirmesiz mini partiler arasındaki farktan bahseder.

  • 00:15:00 Bu bölümde, konuşmacı, kullanıcıların doğrusal olmayan bir işlev kullanarak bir f X işlevi oluşturmasına olanak tanıyan TensorFlow'un oyun alanı adlı bir web sitesini tartışıyor. Web sitesi, pozitif ve negatif kümeleri ayıran işlev için sıfır kümesini, aralarında sıfır olacak şekilde çizer. Web sitesi, kullanıcıların her katmandaki katman ve nöron sayısına karar vermesine izin verir, çünkü bunlar, verileri öğrenen bir f işlevi bulmak için gereklidir. Konuşmacı ayrıca bu süreçte lineer fonksiyonların önemine dikkat çekiyor ve üzerinde pratik yapmak için iyi evrişimli sinir ağı web siteleri için öneriler istiyor. f fonksiyonu, beş bileşenli bir X vektörü, altı nöronlu birinci katman ve bir sayıdan oluşan bir çıktı katmanı biçimine sahiptir.

  • 00:20:00 Bu bölümde, konuşmacı derin öğrenme için sinir ağlarının yapısını tartışıyor. Y çıktısını hesaplamak için bir ağırlık matrisi içeren bir sinir ağının temel yapısını açıklayarak başlarlar. Ancak, derin öğrenme için birden çok katman eklerken süreç daha karmaşık hale gelir. Her katmanın veriler hakkında daha fazla şey öğrenmesi beklenir, ilk katman temel gerçekleri öğrenir ve sonraki her katman daha fazla ayrıntı öğrenir. Son olarak, konuşmacı, sinir ağının nihai çıktıyı elde etmek için nasıl ince bir harita içerdiğini ve her bir bileşene bir işlev uyguladığını tartışır.

  • 00:25:00 Bu bölümde, konuşmacı derin öğrenmede sinir ağlarının yapısını tartışıyor. Sinir ağlarının, her biri doğrusal veya afin bir haritadan ve ardından doğrusal olmayan bir işlevden oluşan bir işlevler zinciri veya işlevlerin bileşimi yoluyla oluşturulan, ağırlıklara ve girdilere bağlı bir öğrenme işlevinden oluştuğunu açıklarlar. Bu, sürekli ve parçalı doğrusal olan karmaşık bir fonksiyonla sonuçlanır. Konuşmacı, böyle bir fonksiyonun oluşturulacak matrislere ve vektörlere dayandığını ve modeldeki ağırlık sayısına bağlı olduğunu not eder.

  • 00:30:00 Bu bölümde, konuşmacı derin öğrenme için sinir ağlarının yapısından, özellikle de ReLu fonksiyonlarının takip ettiği lineer fonksiyonlardan oluşan bir "zincir" fikrinden bahsediyor. Herhangi bir fonksiyonun bu şekilde elde edilip edilemeyeceği sorusunu tartışırlar ve sadece sürekli parçalı lineer fonksiyonların mümkün olduğu sonucuna varırlar. Konuşmacı ayrıca, düz kenarlar boyunca birleştirilmiş düz parçalardan oluşan iki değişkenli parçalı bir doğrusal fonksiyonun grafiğini görselleştirmeye yardımcı olmak için origami kavramını kullanır. Görselleştirmeye yardımcı olması için parça sayısını sayma sorusu gündeme gelir.

  • 00:35:00 Bu bölümde, konuşmacı bir düzlemi n kat ile katlayarak kaç tane düz parça elde edilebileceği problemini tartışır. Bu problem, f fonksiyonunun serbestliğini ve herhangi bir sürekli fonksiyona yeterli kıvrım alarak yaklaşıp yaklaşamayacağını anlamak için esastır. Konuşmacı, cevabın evet olduğunu ve bu işlev sınıfının evrensel olduğunu belirtiyor. Ek olarak, bölüm, bu kavramı daha geniş bir bilgisayar bilimi alanında, özellikle de sinir ağlarında anlamanın önemine değinmektedir.

  • 00:40:00 Bu bölümde, konuşmacı katlanmış bir kağıt parçasındaki düz parçaların sayısını içeren bir matematik problemini tartışıyor. Kâğıdı birkaç kez katlarlarsa kaç parçanın oluşacağını sorarlar ve sorunu çözmek için yineleme formülü oluşturmaya çalışırlar. Konuşmacı şimdiye kadar buldukları sayıları sunar ve m boyutlu bir yüzeye sahip n katlı bir kağıt parçasındaki düz parçaların sayısı için bir formül bulmaları gerektiğini açıklar. Daha sonra buldukları özyinelemeli formüle ekleme yapmayı planlıyorlar.

  • 00:45:00 Bu bölümde konuşmacı, daha yüksek boyutlu boşluklarda kesimler yaparak oluşturulan parça sayısının formülünü açıklamaya yardımcı olması için görsel bir örnek kullanır. Binom sayıları kullanılarak, formül verilen herhangi bir M ve N boyutuna uygulanabilir. Konuşmacı, formülün nasıl kullanılacağını göstermek için N'nin 3'e ve M'nin 2'ye eşit olduğu bir örnek sağlar. Son olarak, formül, M boyutlarında, eşit binom sayılarına ve 0'dan M'ye kadar olan kıvrımlarla R of olarak sunulur.

  • 00:50:00 Bu bölümde konuşmacı, pasta keserken ortaya çıkan yassı parçaların formülünü ispatlamada kullanılan özyinelemeyi tartışır. Aradıkları sayının önceki düz parça sayısı artı kesilen parça sayısı olduğunu açıklıyorlar. Yineleme kuralı, Kleinberg ve diğerlerinin makalesinden 7.1 bölümünde kanıtlanmıştır. Bu fonksiyon ailesini bulduktan sonraki adım, A'ları ve ağırlıkları seçmektir. Bu, gradyan iniş ve geri yayılım kullanılarak çözülebilen toplam kaybın en aza indirilmesinde bir problemle sonuçlanır.
26. Structure of Neural Nets for Deep Learning
26. Structure of Neural Nets for Deep Learning
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 27. Geri Yayılım: Kısmi Türevleri Bulun



27. Geri Yayılım: Kısmi Türevleri Bulun

Bu video, geri yayılım ve kısmi türev bulma ile ilgili birkaç konuyu kapsar. Konuşmacı kısmi türevler için zincir kuralının kullanımını gösterir ve matris çarpımında hesaplama sırasının önemini vurgular. Geri yayılım, gradyanları hesaplamak için verimli bir algoritma olarak vurgulanır ve etkinliğini göstermek için çeşitli örnekler verilir. Stokastik gradyan inişinin yakınsaması, stokastik gradyan inişinde rastgele bir kayıp sırası fonksiyon örneklerinin kullanımına ilişkin bir proje fikriyle birlikte kısaca tartışılmaktadır. Genel olarak, video, geri yayılım ve uygulamaları hakkında kapsamlı bir genel bakış sunar.

  • 00:00:00 Bu bölümde konuşmacı iki ilgi konusunu tartışıyor. İlk olarak, stokastik gradyan inişinin yakınsaması tartışılır, odak ispatın kendisinden çok algoritmanın mantığı ve varsayımları üzerindedir. İkinci olarak, konuşmacı, stokastik gradyan inişinde rastgele sıralı kayıp fonksiyon örneklerinin kullanımına ilişkin bir proje fikri önerir. Spesifik olarak, proje, yaklaşımdaki farkı belirlemek için hem değiştirme hem de değiştirme olmadan yöntemleri kullanarak 100 rasgele sayı listesinin ortalamalarının hesaplanmasını içerecektir.

  • 00:05:00 Bu bölümde, konuşmacı en dik iniş algoritmalarında gradyanı hesaplamanın bir yolu olarak geriye yayılımı tartışıyor. Geri yayılım, sinir ağlarını popüler yapan anahtar hesaplamadır ve ters modda otomatik farklılaşmayı kullanarak gradyanları ve türevleri hızlı bir şekilde hesaplamayı içerir. Konuşmacı ayrıca, değiştirmeler yapılırken ortalamanın yakınsamasına ilişkin örneklerin yanı sıra, hesaplamalardaki sihirli sözcüklerin erken durma olduğu stokastik gradyan inişi için iyi başlangıç ve kötü bitişin araştırılmasını önerir.

  • 00:10:00 Bu bölümde, konuşmacı geri yayılımı ve kısmi türevleri bulmak için kullanımını tartışıyor. Geri yayılım daha önce otomatik farklılaşma adı altında incelenmişti ve konuşmacı, liderin derin sinir ağları geliştirmedeki etkinliğini fark ettiği için kredi veriyor. Konuşmacı, f(x) ve türevlerin hesaplanmasını göstermek için basit bir fonksiyon örneği sağlar ve kısmi türevleri bulmak için zincir kuralının kullanımını vurgular. Bu bölümde ayrıca konu hakkında net açıklamalar sağlayan Christopher Olah tarafından yazılan bir blogdan da bahsedilmektedir.

  • 00:15:00 Bu bölümde sunum yapan kişi, zincir kuralını kullanarak kısmi türevlerin hesaplanmasını tartışıyor. Fonksiyonun kısmi türevlerinin nasıl hesaplanacağını göstermek için iki değişkenli bir fonksiyon örneği kullanıyorlar, F'yi bulmakla başlayıp hesaplamalı bir grafik oluşturuyorlar. Zincir kuralını kullanmak için, F'nin hesaplanmasında bulunan faktörlerin her birinin farklılaştırılması ve uygun şekilde değerlendirilmesi gerektiğini açıklarlar. Bu hesaplama grafiği, birçok değişkenin değerlendirildiği derin öğrenme için kısmi türevlerin hesaplanmasını göstermek için kullanılır.

  • 00:20:00 Bu bölümde, konuşmacı ileri mod otomatik türev kullanarak kısmi türev bulma sürecini tartışıyor. F DX'in kısmi türevini hesaplayarak, hesaplamayı basit parçalara bölerek ve ara adımları türevlerle değiştirerek başlarlar. X'in küpünün X'e göre türevinin 3X kare olduğu gerçeğini kullanırlar, bu X eşittir 2 olduğunda 12 değerini verir. Y türevi için başka bir grafik yapmak zorunda kalacakları için ileri yöntemin israf olduğunu anlarlar. ilave olarak. Konuşmacı ayrıca çarpımın kısmi türevini bulmak için çarpım kuralını kullanır. Süreç biraz organizasyon gerektirir, ancak asıl mesele, türevleri basitleştirmek için hesaplamayı basit parçalara ayırmaktır.

  • 00:25:00 Bu bölümde, konuşmacı bir hesaplama grafiği kullanarak kısmi türevleri bulmak için çarpım kuralının nasıl kullanılacağını açıklıyor. Konuşmacı, bir çarpımın X türevini bulma örneğini kullanır ve çarpımdaki iki terime isim verir. Daha sonra çarpım kuralı için gereken değerleri hesaplar ve bunları türevi hesaplamak için kullanır. Ancak, nihai cevabı bulmakta zorlanıyor ve FD'yi bulmak istiyorsa hesaplamayı yeniden yapması gerekeceğini kabul ediyor. Konuşmacı, ters modu kullanmanın, her iki kısmi türevi aynı anda hesaplamaya izin verdiği için daha verimli olacağını öne sürüyor.

  • 00:30:00 Bu bölümde, konuşmacı geriye yayılım tekniğinin tüm yolları geriye doğru takip ederek gradyanları verimli bir şekilde hesaplamaya nasıl izin verdiğinden bahsediyor. Bu teknik, halihazırda ayrıntılı olarak çalışılmış olan birkaç tanesine uygulanan zincir kuralı aracılığıyla tüm türevleri bulmaya yardımcı olur. Konuşmacı, gerçekte ne yapıldığına baktıktan sonra hesabın basit görünme eğiliminde olduğunu belirtiyor. Ters modlu reklam yaklaşımı, konuşmacıya göre şaşırtıcı olan, yalnızca dört veya beş kat maliyetle n birinci türevi hesaplamak için kullanılır. Konuşmacı ayrıca, iki matrisin çarpımını örnek olarak kullanarak, hesaplamaların yapılma sırasının verimlilik açısından nasıl bir fark yaratabileceğine dair bir örnek verir.

  • 00:35:00 Videonun bu bölümünde konuşmacı, hesaplamaların hızını önemli ölçüde etkileyebileceği için matris çarpımında hesaplama sırasının önemini tartışıyor. Daha sonra geri yayılım örneğine geçer ve hesaplamalı bir grafikte geriye doğru giderken kısmi türevleri bulmak için zincir kuralının ve diğer çeşitli türev kurallarının nasıl kullanılacağını gösterir. Zincirdeki parçaların yeniden kullanılmasıyla, önemli maliyetler olmadan daha geniş bir zincirin oluşturulabileceğini ve bunun da fonksiyon yüzlerce değişkene bağlı olsa bile daha hızlı hesaplamalarla sonuçlanabileceğini vurguluyor.

  • 00:40:00 Videonun bu bölümünde, konuşmacı geri yayılımın kısmi türevleri bulmak için nasıl kullanılacağını açıklıyor. Zincir kuralını kullanarak X ve Y'ye göre kısmi türevler buldukları bir örnek gösteriyorlar ve geri yayılımın her değişken için ayrı zincirler yerine tüm türevlerin tek bir zincirden bulunmasına izin verdiğini vurguluyorlar. Konuşmacı, bu işlemin herhangi bir boyuttaki bir sisteme uygulanabileceğini belirtiyor ve gelecekteki derslerde ele alacakları stokastik gradyan inişinin yakınsamasından kısaca bahsediyor.

  • 00:45:00 Bu bölümde, konuşmacı üç matrisi - A, B ve C - çarpmanın iki farklı yolunu ve bunu yapmak için gereken işlem sayısını tartışıyor. İlk yol, A'yı BC ile çarpmayı içerir; bu, M x N x PQ işlemlerine mal olur; burada P ve Q, sırasıyla B ve C'nin satır ve sütun sayısıdır. İkinci yol, M x P x Q işlemlerine mal olan AB ile C'yi çarpmayı içerir. Konuşmacı, özellikle C'nin bir sütun vektörü olduğu durumlarda, matrisleri çarparken gerekli işlem sayısına dikkat etmenin önemli olduğunu, çünkü bu potansiyel olarak ele alınması zor olan çok büyük matrislere yol açabileceğini vurgular.

  • 00:50:00 Bu bölümde, konuşmacı kısmi türevleri ve geri yayılımı tartışıyor. Konuşmacı, iki büyük matrisin çarpımına ve yeni bir sütun vektörü elde etmek için bir sütun vektörünü bir matrisle çarpmaktan ve sonra onu çarpmaktan çok daha hızlı olan bir sütun vektörü elde etmeye izin verdiği için kısmi türevler için geri yayılımın nasıl doğru sıra olduğunu gösterir. başka bir sütun vektörü elde etmek için başka bir matris tarafından. Geri yayılım, süreci basitleştirir ve büyüklük sırasına göre daha hızlı hesaplamalara izin verir.
27. Backpropagation: Find Partial Derivatives
27. Backpropagation: Find Partial Derivatives
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 30: Rank-One Matrix'i Tamamlamak, Dolaşanlar!



Ders 30: Rank-One Matrix'i Tamamlamak, Dolaşanlar!

Ders 30'da öğretim görevlisi birinci derece matrisi ve dolaşım matrislerini tamamlamayı tartışıyor. 2x2'lik bir determinantla başlarlar ve bunu bir matriste hangi değerlerin birinci sırada olması için doldurulabileceğini daraltmak için kullanırlar. Öğretim görevlisi daha sonra 4x4'lük bir matris için bir kombinatoryal probleme geçer ve yalnızca verilen dört sayı ile oluşturulabilen döngüsel kalıpları içeren dolaşım matrislerini tanıtır. Ders ayrıca, sinyal işlemede önemli olan döngüsel evrişim, özdeğerler ve dolaşım matrislerinin özvektörlerini de kapsar.

  • 00:00:00 Bu bölümde öğretim görevlisi, bir matrisi birinci derece matrise tamamlamayla ilgili önceki bir laboratuvar oturumundan örnek bir soru verir. Soru, birinci derece bir matris elde etmek için hangi pozisyonların doldurulmasının uygun olduğu ve hangilerinin doldurulamayacağına odaklanmıştır. Öğretim görevlisi sıfır olmayan sayıların nasıl seçileceğini açıklar ve sıfır olmayan beş sayı içeren bir matrisi birinci dereceli bir matrise tamamlamanın mümkün olup olmadığı hakkında bir soru sorar.

  • 00:05:00 Bu bölümde öğretim görevlisi birinci derece bir matrisi ve dolaşanları tamamlamayı tartışıyor. 2x2'lik bir determinantı inceleyerek başlarlar, burada herhangi iki ikinin rankı 1 olmalıdır ve bu nedenle determinantı 0'dır. Bu fikri, bir matristeki eksik sayının ne olacağını ve geri kalanının nasıl doldurulacağını daraltmak için kullanırlar. değerlerin Öğretim görevlisi daha sonra bir 4x4 örneğine geçer ve hangi 5 pozisyonun işe yarayıp hangilerinin çalışmayacağını belirleyen bir kombinatoryal problem sunar. Son olarak, matriste her satırın bir eleman tarafından sağa kaydırılan bir önceki satıra dönüştüğü döngüsel modellere sahip sirkülantlardan bahsediyorlar. Dönen matrislerin nasıl oluşturulacağını ve bunların köşegenleştirme dahil özelliklerini açıklarlar.

  • 00:10:00 Bu bölümde, öğretim görevlisi bir rank-1 matrisi ve iki parçalı grafikleri tamamlamayı tartışıyor. 4x4'lük bir matrise bazı sayılar yazarak ve sayılar arasındaki bağlantıları temsil etmek için satır ve sütunlardan oluşan ikili bir grafik çizerek başlarlar. Öğretim görevlisi, matrisi birinci sıralamak için tamamlamanın, üç girişin belirtildiği 2x2'lik bir kareden kaçınmayı gerektirdiğini açıklıyor. Dört girişin tümü verilirse, sıfır determinantı oluşturmak mümkün olmayacak ve matrisin birinci sırası olmayacaktır. Öğretim görevlisi, birinci dereceli bir matris oluşturmak için hangi girişlerin doldurulabileceğini nasıl belirleyeceğini göstermek için ikili grafiği bir matris temsiline dönüştürür.

  • 00:15:00 Bu bölümde, profesör bir dereceli matrisi tamamlamayı tartışıyor, özellikle arada 2x2'ler yoksa onu tamamlamanın her zaman mümkün olup olmadığına değiniyor. İkişer ikişerin her zaman sorun olmadığını ve tamamlamayı engelleyecek daha uzun döngüler olabileceğini örneklerle gösteriyor. Temel çıkarım, bir matrisin ancak karşılık gelen ikili grafikte tanımlanabilecek döngü olmaması durumunda birinci sıraya tamamlanabileceğidir.

  • 00:20:00 Bu bölümde, öğretim görevlisi altı kenarlı bir döngüyü tamamlamayı ve bunun matrislerdeki döngüler fikriyle nasıl ilişkili olduğunu tartışıyor. Bir döngünün çizilen resmini bir matrise dönüştürür ve matrislerdeki döngülerin belirli gereksinimlerin sıfır olmayan değerlerle karşılanması gerektiğini nasıl gösterdiğini açıklar. 2. sıra matrisi tamamlama hakkında bir soru soruyor ve makine öğreniminde evrişimlerin önemini tartışıyor.

  • 00:25:00 Bu bölümde öğretim görevlisi, tamamlanmak üzere etrafında dönen sabit köşegenlere sahip özel bir evrişim matrisi türü olan dolaşım matrisleri kavramını tanıtır. Dolaşım matrisleri, sinyal işlemenin önemli bir parçasıdır ve cebirsel özellikleri onları bir dizi ağırlık bağlamanın verimli bir yolu haline getirir. Bunun nedeni, buradaki anahtar matrisin, P ve P²'den dolaşım matrisinin üretilmesine yardımcı olan döngüsel kaydırma matrisi olmasıdır. Örneğin MATLAB, bir dolaşım matrisinin ilk sütununu belirterek, diğer tüm sütunları döngüsel olarak kaydırabilir, bu da dörde dört dolaşım matrisi tanımlamak için yalnızca dört sayıya ihtiyacımız olduğu anlamına gelir.

  • 00:30:00 Dersin bu bölümünde dolaşım matrisleri kavramı tanıtılmaktadır. Her dolaşım matrisinin P'de bir polinom olduğu gösterilmiştir, burada P tek bir kaymayı temsil eder. Ayrıca, iki matris dolaşım halindeyse, bunların birbiriyle çarpılmasının başka bir dolaşım matrisiyle sonuçlandığı da kanıtlanmıştır. Ek olarak, birim matris dolaşımlıdır ve eğer bir dolaşım matrisinin karesi alınırsa, ortaya çıkan matris de dolaşımlıdır. Dönen matrisleri çarparken amaç, polinom derecesinin istenen terim sayısını aşmamasını sağlamaktır.

  • 00:35:00 Bu bölümde öğretim görevlisi birinci derece matrisleri ve döngüleri tartışır. 4x4 dairesel kaydırma matrisini üçüncü derece ile çarparken, çarpımın neden altıncı derece olmadığı sorusu vardır. Anahtar şu ki, P üzeri dördüncü terim gerçekten P üzeri 0 terimidir, dolayısıyla çarpım bir döngüsel evrişimdir. Öğretim görevlisi daha sonra evrişim ve döngüsel evrişim arasındaki farkı açıklar ve iki vektör arasındaki evrişim hesaplamasına bir örnek verir. Ayrıca izleyicilere, döngüsel olmayan evrişimin daire sembolü kullanmadığını, oysa döngüsel evrişimin kullandığını hatırlatır.

  • 00:40:00 Bu bölümde, öğretim görevlisi döngüsel evrişimi ve bunun döngüsel matrisleri çarpmaya karşılık gelen polinomları döngüsel olarak çarpmak için nasıl kullanılabileceğini tartışır. Bir çarpanın rakamlarının toplamı, diğer çarpanın rakamlarının toplamını çarparak evrişimdeki rakamların toplamını verir. Öğretim üyesi ayrıca bu matrislerin özdeğerlerine ve özvektörlerine kısaca değinir. Hepsinin vektörü, özdeğeri olan bir özvektördür ve bu, P'nin kuvvetlerinin polinom toplamına sahiptir. Ders, alandaki daha ileri konuların tartışılmasıyla sona erer.

  • 00:45:00 Dersin bu bölümünde, konuşmacı C matrisinin özvektörlerinin P matrisinin özvektörleriyle aynı olduğunu açıklar. P matrisinin özvektörleri 1 ve -1 ve i ve -i'dir. Dolaşım dünyası, her dolaşım için birden çok özdeğere ve öz vektöre sahiptir ve bunlar, sinyal işlemede önemli kurallardır.
Lecture 30: Completing a Rank-One Matrix, Circulants!
Lecture 30: Completing a Rank-One Matrix, Circulants!
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 31. Dolaşım Matrislerinin Özvektörleri: Fourier Matrisi



31. Dolaşım Matrislerinin Özvektörleri: Fourier Matrisi

Dolaşım matrislerinin özvektörleri hakkındaki bu videoda konuşmacı, dolaşım matrislerinin görüntü işleme ve makine öğrenimi ile nasıl ilişkili olduğunu ve bunun Fourier matrisiyle bağlantısını tartışıyor. Konuşmacı, ayrık Fourier dönüşümü (DFT) ve Fourier dönüşümleri ile ilgili olarak evrişimi ve dolaşım matrislerini anlamanın önemini vurgular. Konuşmacı, dolaşım matrislerinin, özellikle Fourier matrisinin özvektörlerini ve hepsinin, aynı zamanda özdeğerler olan aynı sekiz sayı kümesinden nasıl oluşturulduğunu tartışır. Konuşmacı ayrıca, sütunların nasıl ortogonal olduğu ancak ortonormal olmadığı ve dolaşım matrisinin simetrisi nedeniyle özvektörlerinin toplamının nasıl sıfıra ulaştığı ve onları birbirine dik yaptığı da dahil olmak üzere Fourier matrisinin özelliklerinden bahsediyor. Son olarak, konuşmacı Fourier Matrisinin bir özvektörü olarak Argan Vektörü kavramını örneklerle gösterir.

  • 00:00:00 Bu bölümde, profesör dolaşım matrisleri konusunu tanıtıyor ve proje teslim tarihleri ve notlandırma hakkında güncellemeler sağlıyor. Ayrıca döngüsel matrislerin mühendislik ve matematikte önemli bir algoritma olan ayrık Fourier dönüşümü ile bağlantısından da bahseder. n'ye n boyutunda bir matrisi tanımlamak için yalnızca n girdiye ihtiyaç duyulan dolaşım matrislerinin özel biçimi, görüntüler için makine öğrenimi de dahil olmak üzere birçok uygulamada kullanışlıdır.

  • 00:05:00 Bu bölümde konuşmacı, görüntülerin tipik olarak pikselleri tarafından tanımlandığını ve milyonlarca bileşen içeren özellik vektörlerine sahip olabileceğini ve bunun da gradyan iniş ile derin öğrenme için gereken ağırlıkları hesaplamayı imkansız hale getireceğini açıklıyor. Bununla birlikte, derin öğrenmede kullanılan matrisler, döngüsel özelliklere sahip dolaşım matrislerine benzer şekilde, özeldir ve özellik sayısına bağlı değildir. Bu matrislere doğrusal kayma değişmezi veya doğrusal zamanla değişmez, evrişim matrisleri, üçlü matrisler veya sabit köşegen matrisler denir ve makine öğrenimi ve görüntü işlemede kullanılır. Temel olarak, derin ağdaki her katman için gereken ağırlık hesaplama boyutunu azaltarak derin öğrenmeyi optimize etmeye yardımcı olurlar.

  • 00:10:00 Bu bölümde konuşmacı, dolaşım matrislerinin görüntü işleme ve makine öğreniminde kullanımını tartışıyor. Çok sayıda piksel içeren büyük bir görüntü üzerinde işlem yapmak için sistemin boyutunu küçültmek için maksimum havuzlamayı kullanabileceğimizi açıklıyor. Ancak, evrişimli işlemler için, önemli noktaları vurgulamak için ağırlıkları seçmemiz gerekir. Bu nedenle, görüntüyü basitleştirmek için alçak geçiren filtre gibi filtreler kullanırız. Konuşmacı, makine öğrenimindeki daha geniş sinir ağlarının görüntü örnekleriyle uğraşırken kullanıldığını, çünkü sabit köşegen matrisin kullanımının daha doğal ve verimli olduğunu belirtiyor.

  • 00:15:00 Bu bölümde sunum yapan kişi, dolaşım matrislerinin özdeğerleri ve özvektörlerinden, özellikle döngüsel kaydırma etkisine sahip permütasyon matrisinden bahsediyor. Bir permütasyon matrisinin tekil değerlerinin tümü birdir ve özdeğerler, P eksi lambda I alınarak ve determinant sıfıra ayarlanarak lambdanın dördüncü kuvveti elde edilerek bulunabilir. Sunum yapan kişi ayrıca, DFT ve Fourier dönüşümleri ile ilgili olarak evrişimi ve dolaşım matrislerini anlamanın önemini vurgular.

  • 00:20:00 Bu bölümde konuşmacı, özellikle Fourier matrisine odaklanarak dolaşım matrislerinin özvektörlerini tartışıyor. Fourier matrisinin özdeğerleri, determinantı sıfıra ayarlayarak bulunur, bu da birin dördüncü kökleriyle sonuçlanır. Lambda üzeri 8. kuvvet bire eşittir denkleminin sekiz çözümü olan 8x8 dolaşım matrisi için özdeğerler de tartışılmıştır. Bu çözümler bir, eksi bir, birliğin dördüncü ve sekizinci kökleri şeklinde gelir ve özvektörler olarak devreye girmeleri nedeniyle önemlidir. Ortogonal matrislerin özvektörleri, ortogonal özvektörlere sahip bir matris ailesi olarak da tanıtıldı.

  • 00:25:00 Bu bölümde, konuşmacı ortogonal özvektörlere sahip farklı matris ailelerini tartışıyor. Simetrik matrisler ortogonal özvektörlere ve gerçek özdeğerlere sahipken, köşegen matrisler birim matrise giren özvektörlere sahiptir. Ortogonal matrislerin özdeğerleri 1 büyüklüğündedir ve permütasyon matrislerinin özvektörleri ortogonaldir. Anti-simetrik matrisler, yalnızca karmaşık olabilen özdeğerlere sahiptir, bu da onları gerçek özdeğerlere sahip olamaz.

  • 00:30:00 Bu bölümde konuşmacı dik özvektörlü matrislerden ve bunların normal matrislerle nasıl ilişkili olduğundan bahsediyor. Ortogonal özvektörlere sahip matrislerin karmaşık özdeğerleri vardır ve konuşmacı, herhangi bir özdeğer içeren bir köşegen matris yazar. Daha sonra, aslında oldukça nadir olan normal matrislerin nasıl tanınacağını gösteren bir matris denklemi kurar. Bunları tanımak için, bir matrisin eşlenik devrikine eşit olup olmadığını test etmek gerekir.

  • 00:35:00 Bu bölümde, konuşmacı dolaşım matrislerinin özvektörlerini, özellikle Fourier matrisini tartışıyor. Permütasyon P ortogonaldir, bu nedenle özvektörleri ortogonaldir, ancak bu dolaşım matrisleri de gidip gelerek onları normal matrisler yapar. Bu, P'nin özvektörlerini bulduğumuzda, herhangi bir dolaşım matrisinin özvektörlerini bulduğumuz ve Fourier'e bağlı oldukları için hepsinin özel olduğu anlamına gelir. Özvektörler, lambda'nın 1, -1, i ve -i olması dahil olmak üzere çeşitli özdeğerler için bulunur.

  • 00:40:00 Bu bölümde, konuşmacı dolaşım matrislerinin özvektörlerini tartışır ve tüm özvektörlerin, aynı zamanda özdeğerler olan aynı sekiz sayı kümesinden oluşturulduğunu vurgular. n büyüklüğündeki tüm dolaşım matrisleri için özvektör matrisi, hızlı Fourier dönüşümüne izin veren önemli bir karmaşık matris olan Fourier matrisidir. Matristeki tüm girişler, birim çemberin sekiz noktasından birindeki W karmaşık sayısının kuvvetleridir. İlk özvektörün tamamı birdir, geri kalanlar W'nin kuvvetleridir, öyle ki matris 8x8 boyutundadır. Genel olarak, dolaşım matrisleri, ortak özvektör matrisleri sayesinde benzer özelliklere sahiptir.

  • 00:45:00 Videonun bu bölümünde konuşmacı, birin sekizinci kökünün kuvvetleri olan özvektörlerden oluşan bir dolaşım matrisi olan Fourier matrisinin özelliklerini açıklıyor. Matrisin sütunları ortogonaldir, ancak ortonormal değildir, yani ortonormal yapmak için sekizin kareköküne bölünmeleri gerekir. Matris normal bir matristir ve özvektörlerinin toplamı, dolaşım matrisinin simetrisi nedeniyle sıfıra ulaşır ve onları birbirine ortogonal yapar. Konuşmacı bu özelliği, özvektörlerin toplamının sıfıra eşit olduğu ve onları ortogonal yaptığı üçe üç matris kullanarak gösterir.

  • 00:50:00 Bu bölümde, konuşmacı Argan Vektörünün Fourier Matrisinin bir özvektörü olduğunu tartışıyor. Argan Vektörünün bileşenlerinin nokta çarpımı eklendiğinde sonucun nasıl 1 olduğunu gösteriyor. Ardından, Argan Vektörü e üzeri (2π/3) ile çarpıldığında, elde edilen vektörlerin bileşenlerinin toplamının nasıl olduğunu gösteriyor. 0. Bu gösteriler, bir dolaşım matrisinin özvektörlerinin ortogonal olduğu kavramını göstermektedir. Konuşmacı, Fourier Matrisi konusunu bir sonraki derste tartışmaya devam edeceğini ve 1806'da dersin bitmesine yalnızca bir buçuk hafta kaldığını söyleyerek bitirir.
31. Eigenvectors of Circulant Matrices: Fourier Matrix
31. Eigenvectors of Circulant Matrices: Fourier Matrix
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 32: ImageNet Evrişimli Bir Sinir Ağıdır (CNN), Evrişim Kuralı



Ders 32: ImageNet Evrişimli Bir Sinir Ağıdır (CNN), Evrişim Kuralı

Bir derin öğrenme kursunun Ders 32'sinde, evrişimli sinir ağlarının (CNN'ler) görüntü sınıflandırmadaki gücü, evrişim katmanları, normal katmanlar ve maksimum havuzlama katmanları içeren büyük bir derin CNN tarafından kazanılan ImageNet yarışması örneğiyle tartışılır. Ders ayrıca çarpma ve evrişimi birbirine bağlayan evrişim kuralına, iki boyutlu evrişim örneklerine, Kronecker ürününün iki boyutlu Fourier dönüşümü için ve sinyal işlemede kullanımına ve periyodik ve periyodik olmayan arasındaki farka odaklanır. evrişim ile ilgili durumlar. Öğretim görevlisi ayrıca bir dolaşım matrisinin özvektörlerini ve özdeğerlerini ve Kronecker toplam işlemini tartışır.

  • 00:00:00 Videonun bu bölümünde, evrişimli sinir ağlarının (CNN) önemi, derin öğrenme ve görüntü sınıflandırması ile ilgili olarak tartışılmaktadır. Hinton ve Skipper'ın ImageNet'te 1.2 milyon yüksek çözünürlüklü görüntüyü sınıflandırmak için büyük bir derin CNN'yi eğiten bir makalesinden bahsediliyor. Yarışma, ikinci sıradaki takımın %26'sına kıyasla %15'lik ilk 5 test hata oranıyla kazanıldı. CNN, örneklerin yarısı bir GPU'da ve yarısı diğerinde olacak şekilde evrişim katmanlarına, normal katmanlara ve maksimum havuzlama katmanlarına sahipti. Fazla uydurmayı azaltmak için tamamen bağlı katmanlarda bırakma da kullanıldı. Bu, CNN'lerin görüntüleri sınıflandırmanın muazzam hesaplama problemini ele almadaki gücünü göstermektedir.

  • 00:05:00 Videonun bu bölümünde konuşmacı, evrişimli sinir ağlarının (CNN'ler) önemli bir yönü olan evrişim kuralını tartışıyor. Evrişimin polinomların çarpılmasından kaynaklandığını ve evrişimin nasıl çalıştığını görmek için evrişimdeki C*D içeriğindeki katsayıların formülünün nasıl farklı bir şekilde yazılabileceğini açıklıyor. Daha sonra iki fonksiyonun evrişimine bir örnek vererek devam ediyor ve bu kavramın bir CNN'deki iki vektörün evrişimi ile ilgili olduğunu açıklıyor. Evrişimi anlamak, 60 milyon parametreye sahip bir sinir ağı türü olan ve görüntü tanıma görevleri için kullanılan bir CNN'nin iç işleyişini anlamak için çok önemlidir.

  • 00:10:00 Bu bölümde öğretim görevlisi, fonksiyonlar için evrişim kuralını ve bunun iki fonksiyonun Fourier dönüşümüne nasıl bağlandığını açıklar. F 2 pi periyodik ve G 2 pi periyodik ise, o zaman birinin periyodik bir evrişim yapmak isteyebileceğini ve periyodu 2 pi olan bir cevap alabileceğini söyler. Evrişimi döngüsel yapmanın çarpmayı nasıl etkilediğinden ve döngüsel X için X yerine W'nin kullanıldığından bahsediyor.

  • 00:15:00 Videonun bu bölümünde öğretim görevlisi, evrişim açısından periyodik ve periyodik olmayan durumlar arasındaki farkı tartışıyor. Periyodik durumda, W faktörü, W üzeri N'nin 1 olması özelliğine sahip olacak şekilde tanımlanır ve n'den büyük vektörler, n uzunluğundaki bir vektöre geri katlanabilir. Döngüsel durum yalnızca K'nin 0'dan n-1'e gittiğini ve toplamların yalnızca 0'dan n-1'e gittiğini dikkate alır. Periyodik olmayan durumda evrişimin P artı Q eksi 1 bileşeni vardır ve bu sayı ilk laboratuvarda hesaplanır.

  • 00:20:00 Bu bölümde öğretim görevlisi bir dolaşım matrisinin, özellikle de permütasyon matrisinin özvektörlerini ve özdeğerlerini tartışır. Özvektörler, "F" ile gösterilen özvektör matrisinin sütunlarıdır ve F ile C'nin çarpımından türetilen dört özdeğer vardır. Öğretim görevlisi bu formülü gösterir ve C, P'nin bir kombinasyonuysa, o zaman özvektörlerin aynı kombinasyonu C matrisinin özdeğerlerini verecektir.

  • 00:25:00 Bu bölümde öğretim görevlisi, çarpma ve evrişim arasındaki bağlantı olan evrişim kuralını tartışır. Evrişim kuralı, matrislerin çarpımını matrislerin evrilmesiyle birleştirir. Döngüsel evrişim yoluyla, öğretim görevlisi C matrisini D matrisiyle çarparsa, başka bir dolaşım matrisi elde edecektir. Kıvrımlı C ve D'nin katsayıları, C çarpı D matrisinin köşegen katsayılarını temsil eder. Öğretim görevlisi, CD'nin özdeğerlerinin, C'nin özdeğerleri çarpı D'nin özdeğerlerine eşit olduğu sonucuna varır, çünkü C ve D yer değiştirir ve aynı özvektörlere sahiptir. Özdeğerler bileşen bileşen çarparak evrişim kuralı için ilişkiyi verir.

  • 00:30:00 Videonun bu bölümünde öğretim görevlisi, kişinin bir görüntüyü evriştirip ona Fourier Dönüşümü (FT) uygulayabileceğini veya görüntüleri ayırmak için bir FT uygulayıp sonra onları noktalarla çarpabileceğini belirten evrişim kuralını tartışıyor. -bilge. Bu kural, oldukça verimli olan hızlı Fourier dönüşümüne (FFT) izin verdiği için kullanışlıdır. Öğretim görevlisi daha sonra her yöntemin maliyetini göz önünde bulundurur - evrişim yöntemi N^2 adım gerektirirken, ayrı dönüştürme yöntemi yalnızca 2NlogN adım gerektirir.

  • 00:35:00 Bu bölümde, konuşmacı iki boyutlu konvolüsyonları ve iki fonksiyonu iki boyutta konvolüsyon yapmak için yapılması gereken işlemi tartışır. MATLAB'de bu işlemi gerçekleştirmek için gereken komutun "cron" olduğunu ve iki tek boyutlu A ve B matrisini çarparak N kareli piksellerden oluşan iki boyutlu bir matris oluşturmak için nasıl kullanılabileceğini tartışıyorlar. kriptografide iki uzun tamsayıyı çarpmak isterse, evrişim kuralını kullanmanın daha hızlı ve daha verimli bir yöntem olabileceği fikri.

  • 00:40:00 Bu bölümde, iki boyutlu bir Fourier dönüşümü için büyük bir matris üretmek üzere Kronecker çarpımının kullanımı tartışılmaktadır. Kronecker çarpımı, tek boyutlu N'ye n matrisleri alan ve N kareye N kare matris üreten bir işlemdir. Kronecker ürününü kullanarak iki matrisi uygun şekilde çarparak, iki boyutlu bir Fourier dönüşümü için büyük bir matris oluşturulabilir. Diferansiyel denklemlerde yaygın olarak kullanılan Laplacian, her nokta için beş ağırlık içeren beş noktalı bir şema alan iki boyutlu matrisin Kronecker ürünü kullanılarak üretilebileceği tartışılmaktadır.

  • 00:45:00 Bu bölümde konuşmacı Kronecker ürününü ve sinyal işlemede nasıl kullanılabileceğini tartışıyor. Verilere iki boyutlu bir etki eklemek için Kronecker ürününü kullanmak ve ardından dikey türevi eklemek istediğini açıklıyor. Buna birlikte, sinyal işlemede önemli bir işlem olan Kronecker toplamı denir. Ayrıca, öğrendiklerini tartışabilecekleri ve izleyicilerden geri bildirim alabilecekleri bir proje için gönüllü olmak isteyen öğrencileri kendisine e-posta göndermeye teşvik ediyor.
Lecture 32: ImageNet is a Convolutional Neural Network (CNN), The Convolution Rule
Lecture 32: ImageNet is a Convolutional Neural Network (CNN), The Convolution Rule
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 33. Sinir Ağları ve Öğrenme Fonksiyonu



33. Sinir Ağları ve Öğrenme İşlevi

Bu videoda konuşmacı, gradyan iniş veya stokastik gradyan iniş ile optimize edilen ve kaybı en aza indirmek için eğitim verilerine uygulanan sinir ağları için f öğrenme fonksiyonunun yapısını tartışıyor. Sinir ağları ve öğrenme işlevinin yanı sıra çapraz entropi kaybı da dahil olmak üzere makine öğreniminde kullanılan çeşitli kayıp işlevlerini göstermek için elle çizilmiş bir resmin kullanımını açıklıyor. Konuşmacı ayrıca, nükleer manyetik rezonans kullanarak moleküllerin şekillerini belirleme gibi çeşitli uygulamalarda klasik bir problem olan, mesafeleri verilen noktaların konumlarını bulma probleminden de bahsediyor. Bir sinir ağının yapısını elde etmenin son adımı olan X'in inşasını tartışarak bitiriyor ve Cuma günü gönüllülerin bir projeyi tartışmaları için bir çağrıdan bahsediyor.

  • 00:00:00 Bu bölümde, konuşmacı sinir ağları için gradyan iniş veya stokastik gradyan iniş ile optimize edilen ve kaybı en aza indirmek için eğitim verilerine uygulanan f öğrenme fonksiyonunun yapısını tartışıyor. Öğrenme işlevi, X ve V olmak üzere iki değişken kümesinin bir işlevidir; burada X, ağırlıklardır ve V, eğitim verilerinden alınan özellik vektörleridir. Sinir ağının yapısı, bir dizi ağırlık ve örnek vektörden f almayı, doğrusal olmayan adımlar üretmeyi ve istenen çıktıya ulaşana kadar işlemi tekrarlamayı içerir. Doğrusal adım, V0 girişini almayı, AK matrisleriyle çarpmayı ve orijini kaydırmak için önyargı vektörleri BK'yi eklemeyi içerir.

  • 00:05:00 Bu bölümde konuşmacı, bir dizi girdi alarak, ağırlıklar uygulayarak (6. bölümde gradyan iniş kullanılarak seçilen) ve yeni bir çıktı üretmek için doğrusal olmayan bir adım atarak sinir ağlarının nasıl çalıştığını tartışıyor. Bu süreç, sinir ağının girdi için tahmini olan nihai çıktıya kadar birçok katman aracılığıyla tekrarlanır. Ağırlıkların sayısı genellikle girdideki özellik sayısını büyük ölçüde aşabilir ve bu da eksik belirlenmiş bir durum yaratır.

  • 00:10:00 Bu bölümde, konuşmacı sinir ağları kavramını ve öğrenme işlevini göstermek için elle çizilmiş bir resmin kullanımını açıklıyor. İlk katmanda farklı sayıda nörona sahip olabilen ve her birinin eze tarafından geldiği katmandaki ilk katman olan v1 ile çarpılan bir eğitim örnek bileşenlerinin olduğu bir resim çizer. Kayıp fonksiyonu, tamamı As ve B olan x2'yi seçerek minimize etmek istediğimiz fonksiyondur. Kayıp işlevi genellikle tüm F'ler üzerinden sonlu bir toplamdır ve tüm I için hesaplanabilir, ancak bunlardan yalnızca birini veya birkaçını seçmek için bunun yerine stokastik gradyan kullanılır. Kayıp fonksiyonu, tüm numuneler üzerindeki hataların karelerinin toplamını elde etmek için karesi alınabilen numune I'in gerçek sonucu eksi olacaktır.

  • 00:15:00 Bu bölümde konuşmacı, makine öğreniminde, özellikle sinir ağlarında kullanılan çeşitli kayıp fonksiyonlarını tartışıyor. Kayıp işlevi, sinir ağının tahmininin gerçek değerle ne kadar iyi eşleştiğinin bir ölçüsüdür. Hoparlör, kare kaybı, L1 kaybı, menteşe kaybı ve çapraz entropi kaybı dahil olmak üzere dört popüler kayıp işlevi sağlar. Çapraz entropi kaybı, sinir ağları için en önemli ve en sık kullanılan kayıp fonksiyonudur. Konuşmacı ayrıca mesafe matrislerine ve noktaların aralarındaki ölçülen mesafeleri kullanarak uzaydaki konumlarını belirleme sürecine de kısaca değinir.

  • 00:20:00 Bu bölümde konuşmacı, noktalar arasındaki mesafelere göre uzayda konum bulmayı içeren bir matematik sorusu sunuyor. Soru basittir ve çeşitli alanlarda uygulamaları vardır. Bölüm kitapta sadece iki sayfa kaplıyor, ancak çözüm ayrıntılı ve eksiksiz. Konuşmacı ayrıca öğrencileri projeleri hakkında soru sormaya teşvik eder ve kendisine doğrudan e-posta gönderilmesini önerir. Bundan sonra hangi derslerin alınacağına dair bir sorudan da bahseder ve öğrencilere bu alanda daha fazla ders almayı planlayıp planlamadıklarını sorar. Konuşmacı, diğer bölümlerde dersler olduğunu kabul ediyor, ancak yalnızca altıncı ders için bir liste buldu.

  • 00:25:00 Bu bölümde konuşmacı, MIT Yöneylem Araştırması Merkezi ve optimizasyon, veri analitiği, istatistik ve yöneylem araştırması dahil kurs tekliflerinden bahsediyor. Konuşmacı ayrıca World Wide Web'in yaratıcısı Sir Tim Berners-Lee'nin bir dersine ve URL'lerdeki aşırı harflerden onun sorumlu olduğuna atıfta bulunuyor. Daha sonra konuşmacı mesafe matrislerini ve verilen mesafelerden konum matrisini bulma problemini tartışır. Konuşmacı, sensörler arasındaki mesafelerin ölçülebildiği kablosuz sensör ağları ve benzer bir prensip kullanarak konumu hesaplayabilen GPS sistemleri dahil olmak üzere çeşitli uygulamalardan bahsediyor.

  • 00:30:00 Bu bölümde konuşmacı, net bir çözüme sahip klasik bir problem olan mesafelerine göre noktaların konumlarını bulma problemini tartışıyor. Konumlar, öteleme ve döndürmelere maruz kalabilecekleri için benzersiz değildir, ancak konuşmacı, ağırlık merkezini orijinde ortalayarak çevirilerin kaldırılmasını önerir. Pozisyonları bulma problemi, nükleer manyetik rezonans kullanılarak moleküllerin şekillerinin belirlenmesi gibi çeşitli durumlarda uygulanabilir. Makine öğrenimi, yüksek boyutlu uzayda düşük boyutlu bir yüzey bulmak olarak da tanımlanabilir; bu, verilen noktalara en iyi uyan kavisli bir manifold bulmaya matematiksel olarak eşdeğerdir. Bu süreç, problemin boyutluluğunun keşfedilmesini ve orijinal yüksek boyutlu uzaydan problemin gerçek boyutluluğuna indirgeyen doğrusallaştırılmasını içerir.

  • 00:35:00 Bu bölümde, konuşmacı bir iç çarpım matrisi G verildiğinde bir X matrisinin nasıl bulunacağını açıklar. Biri yalnızca satırlara, diğeri yalnızca sütunlara bağlı olan iki sıra-bir matrisi analiz ederek başlarlar ve açıklarlar. bu matrislerin iç çarpım matrisinin önemli kısmının çoğunu ürettiğini. Daha sonra, XI'in iç çarpımları ile köşegen üzerinde kendisi ile bir köşegen matrisi tanıtırlar ve bu matrisin verilen D matrisi ile ilişkili olduğunu not ederler. Oradan, iç çarpım matrisi için denklemin nasıl türetileceğini gösterirler ve G'ye sahip olduklarında X'i bulabileceklerini açıklarlar. Ancak, iç çarpımı değiştirmeden döndürülebildiği için X benzersiz değildir, bu nedenle bir sonraki adımları dönüşün nasıl çarpanlarına ayrılacağını bulmak için.

  • 00:40:00 Bu bölümde konuşmacı, sinir ağlarında birim matris ile X devrik matrisin çapraz çarpımını bulmak için kullanılabilecek iç çarpım matrisiyle ilgili bir denklemi tartışıyor. İç çarpım matrisi, köşegen D matrisinin, tüm satırları aynı olan bir sabit matrisin ve tüm sütunları aynı olan bir sabit matrisin birleşimidir. Konuşmacı denklemi adım adım inceler ve X devrik X matrisinin bu Rank 1 yerlerden ve bu çapraz çarpımlardan geldiğini ortaya çıkarmak için her bileşeni parçalar. Daha sonra denklemdeki yarının önemini keşfederler ama sonunda doğru sonucu elde etmenin gerekli olduğu sonucuna varırlar.

  • 00:45:00 Bu bölümde, konuşmacı belirli bir denklemin matris dilinde nasıl yazılacağını ve verilen X devrik X matrisinin nihai olarak nasıl bulunacağını tartışır. Çözümü bulmak için lineer cebiri kullanırlar ve X'in bulunabileceğini not ederler. ortogonal bir dönüşüme. Tartışılan başlıca iki yöntem, özdeğerleri kullanmak veya X devrik X'te eleme kullanmaktır. Konuşmacı, bu yöntemlerin sinir ağları ve makine öğrenimi alanındaki önemini vurgular.

  • 00:50:00 Bu bölümde, konuşmacı simetrik ve pozitif yarı-belirli olan X'in yapısını ve onu bulmanın iki yolunu tartışıyor. İlk yaklaşım, X devrik X'in özdeğerlerinin ve özvektörlerinin hesaplanmasını ve ardından özdeğerlerin kareköklerini alırken özvektörlerin tutulmasını içeren özdeğer yapısıdır. İkinci yaklaşım, simetrik pozitif belirli matris üzerinde eleme gerçekleştirmeyi ve ardından elde edilen alt üçgen matris L'yi ve köşegen D matrisini kullanarak X'i L karekök DL devrikinin ürünü olarak hesaplamayı içeren Cholesky çarpanlara ayırmadır. Cholesky çarpanlara ayırma, özdeğer yapısından daha hızlıdır ve hesaplanması daha kolaydır, bu da onu daha pratik bir seçenek haline getirir.

  • 00:55:00 Bu bölümde konuşmacı, örnek vektörleri ağırlıklardan ayırarak bir sinir ağının yapısını elde etmenin son adımı olan mesafe matrisleri hakkındaki tartışmayı sonlandırır. Konuşmacı ayrıca lineer cebirin iki parçasından da bahsediyor: şeyleri üçgen forma indirgemek veya simetrik matrislerle birleştirmek. Son olarak, konuşmacı Cuma günü bir projeyi tartışmak üzere gönüllüler için bir çağrıdan bahsediyor.
33. Neural Nets and the Learning Function
33. Neural Nets and the Learning Function
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 34. Mesafe Matrisleri, Procrustes Problemi



34. Mesafe Matrisleri, Procrustes Problemi

Konuşmacı, bir vektör kümesini başka bir vektör kümesine mümkün olduğunca yaklaştıran en iyi ortogonal dönüşümü bulmayı içeren Procrustes problemini tartışır. Bir uzaklık matrisinin Frobenius normunu ve bunun Procrustes problemi ile bağlantısını hesaplamak için farklı ifadeleri açıklarlar. Konuşmacı ayrıca matrislerin izi kavramını tanıtıyor ve Procrustes probleminde doğru Q'yu buluyor. Ek olarak, derin öğrenmenin gerçekten işe yarayıp yaramadığı sorusunu ele alırlar ve iki matrisin iç çarpımının SVD'sini hesaplamayı ve SVD'den ortogonal matrisleri kullanmayı içeren en iyi ortogonal matrisi bulmayı içeren bir matris problemine çözüm sunarlar.

  • 00:00:00 Bu bölümde, konuşmacı, belirli bir uzaklık matrisini sağlayan noktaların bulunması ve üçgen eşitsizliğinin başarısızlığının nasıl çözüleceği hakkında önceki bir tartışmada ortaya atılan bir soruyu ele alır. Konuşmacı, doğrudan uzaklık matrisinden gelen nokta çarpım matrisinin pozitif yarı tanımlı olduğunu, ancak üçgen eşitsizliği başarısız olursa nokta çarpım matrisinin pozitif tanımlı çıkmayacağını açıklar. Üçgen eşitsizliği boyutluluk ne olursa olsun hala geçerli olduğundan, bu sorun boyutları değiştirerek çözülemez.

  • 00:05:00 Bu bölümde öğretim görevlisi, bir şeyi başka bir şeye uydurmayı içeren Procrustes Probleminden bahsediyor. Sorun, adını belirli bir uzunlukta yatağı olan ve ziyaretçinin boyunu yatağa uyacak şekilde ayarlayan Procrustes hakkındaki bir Yunan efsanesinden almıştır. Problem, iki veri kümesini birbirine uydurmanın bir yolunu bulmayı içerir ve öğretim görevlisi, üçgen eşitsizliği uzaklık matrisindeki sayılarla karşılanırsa, denklemden çıkan matrisin pozitif yarı-belirli olduğunu açıklar. Ancak üçgen eşitsizliği ihlal edilirse, matris pozitif yarı-belirli değildir ve negatif özdeğerlere sahiptir ve noktayı bulmak imkansızdır. Öğretim görevlisi ayrıca, daha sonra ele alacağı derin öğrenmenin gerçekten işe yarayıp yaramadığına dair büyük bir soruya da ipucu veriyor.

  • 00:10:00 Bu bölümde, bir vektör kümesini başka bir vektör kümesine mümkün olduğunca yaklaştıran en iyi ortogonal dönüşümü bulmayı içeren Procrustes problemi tartışılmaktadır. İki vektör kümesinin her ikisi de ortogonal tabanlar olsaydı, ortogonal bir Q matrisi ile birini diğerinin içine almak kolay olurdu, ama bu her zaman böyle değildir. Bu nedenle problem, tüm ortogonal matrisler Q'yu Frobenius norm kare cinsinden en aza indirmek ve matrisi uzun bir vektör gibi ele almaktır. Bunu yapmanın bir yolu, bir devrik a'ya bakmak, onun izini sürmek ve ardından bir matrisin Frobenius normunu elde etmek için tüm karelerin toplamını bulmaktır.

  • 00:15:00 Bu bölümde öğretim görevlisi, bir mesafe matrisinin Frobenius normunu hesaplamak için farklı ifadeleri tartışıyor. Frobenius norm karesinin, tüm tekil değerlerin karelerinin toplamı olarak, matrisin ve devriğinin çarpımının izi veya matrisin devrikinin ve matrisin kendisinin çarpımının izi olarak ifade edilebileceğini gösterirler. . Daha sonra bu ifadelerin birbirleriyle nasıl bağlantılı olduğunu açıklarlar ve bu sorunu çözmenin, bir matrisin her sütununu Q ile çarpmanın Frobenius normunu değiştirmediği ve matrisi Q ile çarpmanın değiştirmediği gibi çeşitli önemli gerçekleri gerektirdiğinden bahsederler. t tekil değerleri etkiler.

  • 00:20:00 Bu bölümde konuşmacı, Frobenius normunun özelliklerini tartışır, buna ortogonal bir çarpanla çarpıldığında veya diğer tarafta aynı veya farklı bir çarpanla çarpıldığında değişmeden kalması da dahildir. Konuşmacı ayrıca matrislerin sırası tersine çevrildiğinde izin değişmediğini vurgulayarak matrislerin izi kavramını da tanıtıyor. Konuşmacı daha sonra Procrustes probleminde doğru Q'yu elde etme adımlarını açıklar.

  • 00:25:00 Bu bölümde, konuşmacı derin öğrenmenin gerçekten işe yarayıp yaramadığı sorusunu tartışıyor ve bunun ele alınması gereken önemli bir soru olduğunu öne sürüyor. Derin öğrenme ve sinir ağları hakkında çok fazla tanıtım ve aldatmaca olmasına rağmen, ağ yapısının birden çok katmanla bile başarılı olmasının otomatik olmadığından bahsediyorlar. Konuşmacı daha sonra, iki matrisin nokta çarpımının SVD'sini hesaplamayı ve SVD'den ortogonal matrisleri kullanmayı içeren en iyi ortogonal matrisi bulmayı içeren bir matris probleminin çözümünü sunar.
34. Distance Matrices, Procrustes Problem
34. Distance Matrices, Procrustes Problem
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 35. Grafiklerde Küme Bulma



35. Grafiklerde Küme Bulma

Bu video, grafiklerde kümelemeyi ve K-ortalamaları ve spektral kümeleme gibi farklı algoritmalar kullanarak kümelerin nasıl bulunacağını tartışır. Laplace matrisi, spektral kümelemede kullanılır ve özvektörleri aracılığıyla grafikteki kümeler hakkında bilgi sağlayabilir. En küçük pozitif özdeğer için özvektör olan Fiedler özvektörü, kümeleme için önemlidir. Konuşmacı ayrıca, farklı kümeleri tanımlamada özvektörlerin ortogonal olmasının önemini vurgulamaktadır. Ek olarak, lineer cebirde Julia kullanarak geriye yayılımı kapsayacak bir sonraki dersin kısa bir ön izlemesi var. Öğrencilerin projelerini çevrimiçi olarak veya öğretim görevlisinin ofisi dışında sunmaları teşvik edilir.

  • 00:00:00 Bu bölümde, konuşmacı, büyük bir grafiği daha küçük, daha yönetilebilir kümelere bölme işlemi olan grafiklerde kümelemeyi tartışıyor. Sorun, boyutları makul ölçüde eşit olan iki küme bulmaktır ve bunu yapmak için, X ve Y merkez noktalarının konumunu belirlemek için bir algoritma kullanılmalıdır. Amaç, merkez noktalar ile merkez noktaları arasındaki mesafelerin toplamını en aza indirmektir. Her bir kümedeki düğüm sayısının makul ölçüde yakın olmasını sağlarken, grafikteki düğümler. Grafikle ilişkili matrisleri kullananlar da dahil olmak üzere, bunu başarmak için kullanılabilecek birkaç algoritma vardır.

  • 00:05:00 Bu bölümde, konuşmacı, bazıları A ve diğerleri B olarak etiketlenmiş bir dizi noktayı kümelere veya gruplara bölmek için K-means kümeleme algoritmasını tartışıyor. Algoritma, A ve B gruplarının orta noktaları olan ağırlık merkezlerini belirleyerek başlar ve daha sonra bu merkezlere göre en iyi kümeleri oluşturmaya çalışır. Bu işlem, algoritma veriler için mümkün olan en iyi kümelerde birleşene kadar tekrarlanır. Konuşmacı ayrıca, gruptaki tüm noktalar ile ağırlık merkezi arasındaki mesafelerin toplamını en aza indiren nokta olan ağırlık merkezi kavramını da tanıtıyor.

  • 00:10:00 Bu bölümde eğitmen, grafiklerde küme bulma problemini çözmek için iki yöntemi tartışır. İlk yöntem, her nokta için en yakın küme merkezini bulmayı, noktaları ilgili kümelere yeniden atamayı ve yakınsayana kadar işlemi tekrarlamayı içeren K-means olarak adlandırılır. İkinci yönteme spektral kümeleme denir ve benzer noktaları bir arada gruplamak için bir matrisin özdeğerlerini kullanmayı içerir. "Spektral" terimi, doğrusal cebirdeki matrisin ve spektral teoremin özdeğerlerini ifade eder. Eğitmen, spektral teoremin simetrik matrisler için geçerli olduğunu vurgular ve özdeğerlerin gerçek, özvektörlerin dik olduğunu belirtir.

  • 00:15:00 Bu bölümde konuşmacı, lineer cebir ile çizge teorisi arasındaki temel bağlantı olan çizge Laplace matrisini tartışır. Bu matrisi simetrik pozitif yarı-belirli bir matris olarak tanımlarlar ve herhangi bir grafikle ilişkili dört matris vardır: geliş matrisi, derece matrisi, bitişiklik matrisi ve Laplace matrisi. Konuşmacı, bu matrislerin her birini açıklamak için basit bir grafik kullanarak bir örnek gerçekleştirir. Laplace matrisi, spektral kümelemede kullanılır ve spektral teorem olarak bilinen, özdeğerler için bir çokluğa uyan ortogonal özvektörlere sahip olabilir.

  • 00:20:00 Bu bölümde konuşmacı, Laplace matrisini kullanarak belirli bir grafikteki kümeleri bularak grafik kümeleme kavramını açıklar. Laplace matrisi, insidans matrisinin derece matrisinden çıkarılmasıyla elde edilir. Ortaya çıkan matris pozitif yarı-tanımlıdır ve özvektörleri grafikteki kümeler hakkında bilgi sağlar. İlk özdeğer her zaman sıfırdır ve sonraki özdeğer kümeleme için önemlidir. Konuşmacı, en küçük pozitif özdeğer için özvektör olan Fiedler vektörünün önemini vurgular ve grafik kümelemedeki önemini açıklar.

  • 00:25:00 Bu bölümde konuşmacı, bir grafikte kümeler bulunurken Laplace matrisinin neden böyle adlandırıldığını açıklıyor. Laplace matrisi 4. derece köşegenlidir ve özvektörleri aracılığıyla kümelerin bulunmasına izin verir. Spesifik olarak, Fiedler özvektörü, grafiği iki kümeye bölen pozitif ve negatif bileşenleri belirleyebilir. Bu yaklaşım, Laplace grafiğini kullanarak hangi düğümlerin hangi kümeye ait olduğuna karar verme yöntemi sağlar.

  • 00:30:00 Bu bölümde, konuşmacı grafiklerde kümelemeyi ve k-means ve spektral kümeleme gibi farklı algoritmalar kullanarak kümelerin nasıl bulunacağını tartışır. Simetrik bir matrisin özvektörlerinin ortogonal olduğunu, yani toplamlarının sıfıra eşit olduğunu ve bunun farklı kümeleri tanımlamak için kullanılabileceğini açıklıyor. Ayrıca, aynı problem için önerilen başka algoritmalar olduğundan da bahseder ve lineer cebirde Julia kullanarak geriye yayılımı kapsayacak olan bir sonraki dersin kısa bir önizlemesini verir. Konuşmacı, öğrencileri projelerini çevrimiçi olarak veya ofisinin dışında sunmaya teşvik eder.
35. Finding Clusters in Graphs
35. Finding Clusters in Graphs
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 36: Alan Edelman ve Julia Language



Ders 36: Alan Edelman ve Julia Language

Bu videoda Alan Edelman, makine öğrenimi için programlama dillerinin gücünü ve matematikteki önemini tartışıyor. Teknik değerleri ve makine öğrenimindeki kullanılabilirliği nedeniyle Google tarafından tanınan Julia dilinin son gelişimini vurgulamaktadır. Edelman, Julia'daki otomatik türevin nasıl çalıştığını açıklıyor ve Babil algoritması aracılığıyla sayısal sonlu farklar kullanmadan x'in karekökünü hesaplama örneği veriyor. Ayrıca verimli hesaplama için Julia'daki türlerin kullanımını ve blok matrislerle geri yayılım sürecini basitleştirmeyi tartışıyor. Genel olarak Edelman, matematiksel hesaplamalar için lineer cebirin önemini ve karmaşık fenomenleri anlamadaki rolünü vurgular.

  • 00:00:00 Bu bölümde Alan Edelman, Profesör Strang'in satır sıralaması sütun sıralamasına eşittir ve bu kavramın sıfır matrisine nasıl uygulandığını tartışıyor. Ardından, makine öğreniminde ilgi görmeye başlayan bir programlama dili olan Julia'daki son gelişmelerden ve Google'ın bu alandaki gücünü nasıl fark ettiğinden bahsediyor. Google kısa süre önce, makine öğrenimi için yeterince güçlü yalnızca iki dil olduğunu ve Julia'nın da bunlardan biri olduğunu belirten bir blog yazısı yayınladı. Edelman bu noktayı açıklamak için örnekler veriyor ve öğrencileri daha fazla bilgi için blog gönderisine göz atmaya teşvik ediyor.

  • 00:05:00 Bu bölümde Alan Edelman, matematiksel anlamda programlama dillerinin önemini ve algoritmaları uygulamaktan daha fazlasını yapma becerilerini tartışıyor. Julia, Swift, C++ ve Rust'ın teknik değerleri ve kullanılabilirlikleri temelinde makine öğrenimi için uygun görülen dört programlama dili olduğunu açıklıyor. Edelman, mühendislikteki tüm dersler için bir temel olarak lineer cebirin önemini ve tarihteki talihsiz gecikmesini vurguluyor. Daha sonra otomatik türev alma ve bunun matematikle nasıl bir ilişkisi olduğunu, buna karşı ilk şüpheciliğini ve ileri kipte otomatik türev almayla ilgili not defterinde keşfettiği teknik ayrıntıları araştırır.

  • 00:10:00 Bu bölümde, Alan Edelman otomatik türev alma hakkındaki ilk düşüncelerini ve bunun okulda bilgisayarla öğrendiği matematik gibi olduğunu nasıl düşündüğünü tartışıyor. Ancak kısa süre sonra ne sonlu farklar ne de zincir kuralı olan üçüncü bir yöntemin olduğunu fark etti ve bu onu büyüledi. Daha sonra Julia'da Babil algoritmasını kullanarak x'in karekökünü nasıl hesapladığını ve Julia'nın otomatik türev alma özelliği sayesinde türev formülünü açıkça yazmadan karekökün türevini nasıl elde ettiğini gösteren bir örneği paylaşıyor.

  • 00:15:00 Bu bölümde, konuşmacı bir sayının karekökünü sonlu fark hesaplamaları kullanmadan hesaplamak için Julia kodunu kullanmayı açıklar. Kod, sayısal bir işlevi ve onun türevini temsil eden bir çift değişken olan "ikili sayı" adı verilen bir değişken türü oluşturur. Konuşmacı daha sonra bölüm kuralını uygulamak için artı ve bölme işlemlerini aşırı yükler ve Babil algoritmasını kullanarak karekökün hesaplanmasına izin verir. Kod, sayısal sonlu farklar kullanılmadan çalışır ve konuşmacı, Julia'nın "sihir" gerçekleştirmek için mevcut kodun yeni bağlamlarda yeniden kullanılmasına izin verdiğini not eder.

  • 00:20:00 Bu bölümde Alan Edelman, Julia programlama dilinin çevirici kodundaki ikili bir sayı üzerinde Babil algoritmasını kullanarak türevi nasıl verimli bir şekilde hesaplayabileceğini açıklıyor. Python'un sembolik hesaplama paketinde çalışan aynı kodun, çok verimsiz olan büyük katsayılarla sembolik hesaplamayı nasıl sağladığını gösteriyor. Daha sonra, onu Babil algoritmasının nasıl çalıştığına ikna eden başka bir algoritma olan SVD'yi ortaya çıkarır. Algoritma, kodun her satırının türevini alarak karekök ve karekökün türevine yakınsayabilir. Ortaya çıkan türev sembolik veya sayısal değildir, ancak cevabı almak için her adımda bölüm kuralını ve toplama kuralını kullanır.

  • 00:25:00 Bu bölümde, Julia dilinin yaratıcısı Alan Edelman, dilde otomatik farklılaşmanın nasıl çalıştığını tartışıyor. Edelman, her satırın türevlerini manuel olarak almak yerine, yazılımın bunu JIT derleyicisinin halletmesine izin vererek otomatik olarak yapabileceğini öne sürüyor. Bu, çevirmen veya el yazısı yazma ihtiyacını ortadan kaldırarak kodlamayı çok daha akıcı hale getirir. Edelman, makine öğreniminin büyük ölçüde türev almakla ilgili optimizasyon problemlerine dayandığını ve otomatik farklılaştırmayı sürecin önemli bir bileşeni haline getirdiğini belirtiyor. Son olarak, türleri kullanmanın verileri depolamak için yapılandırılmış matrisler oluşturmayı nasıl basitleştirebileceğini açıklıyor.

  • 00:30:00 Bu bölümde Alan Edelman, Julia'da türlerin yalnızca hesaplamalar yapılırken gerekli olanı verimli bir şekilde depolamak için kullanımını tartışıyor, bu da onu Python ve MATLAB gibi daha fazla yükü olan dillerden ayırıyor. Daha sonra, skaler bir örnekle başlayıp matrislere ve vektörlere genelleme yaparak sinir ağlarında daldırılmış mod farklılaşması fikrine kısaca değiniyor. Bu süreçte yer alan doğrusal cebiri yazıyor, ancak tam olarak açıklayamadan zamanı tükeniyor.

  • 00:35:00 Bu bölümde Edelman, türevleri manuel olarak hesaplamak zorunda kalmadan geriye yayılım gerçekleştirmek için Julia'da blok matrislerinin nasıl kullanılacağını açıklıyor. Köşegen matris ve daha düşük üçgen matris kullanımının geri yayılım sürecini nasıl basitleştirebileceğini ve Julia'nın yerleşik işlevlerinden nasıl yararlanabileceğini gösteriyor. Doğrusal cebir kullanarak, ters eğik çizginin alt üçgen matrisi nasıl çözebileceğini göstererek türevleri hesaplama işini çok daha kolay hale getiriyor. Edelman, doğrusal cebirin birçok matematiksel hesaplama için gerekli olduğunu ve birçok karmaşık olguyu anlamanın sırrı olduğunu vurguluyor.
Lecture 36: Alan Edelman and Julia Language
Lecture 36: Alan Edelman and Julia Language
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alan Edelman, Gilbert StrangView the complete cou...
Neden: