Makine Öğrenimi ve Sinir Ağları - sayfa 27

 

Anlatım 15. Matrisler A(t) t'ye bağlı, Türev = dA/dt



15. Matrisler A(t) t'ye bağlı, Türev = dA/dt

Bu video, matrislerdeki ve tersinin yanı sıra zaman içinde özdeğerler ve tekil değerlerdeki değişiklikler de dahil olmak üzere matrislerle ilgili çeşitli konuları kapsar. Konuşmacı, bu değişimleri hesaplamak için temel formülleri açıklıyor ve lineer cebirde hesabı anlamanın önemini vurguluyor. Ek olarak, ders normalizasyonun önemini tartışır ve hem simetrik hem de rank 1 matrislerdeki özdeğerler için taramalı teoremleri araştırır. Son olarak, video, işlenen konuların gözden geçirilmesi ve gelecekteki derslerde bu konuların genişletilmesi sözü ile sona erer.

  • 00:00:00 Bu bölümde, konuşmacı bir matris değiştiğinde matrislerdeki, özdeğerlerdeki ve tekil değerlerdeki değişiklikleri tartışır. Odak noktası, ters matristeki değişimin formüllerini, tersinin türevini ve bir matris değiştiğinde özdeğerlerdeki ve tekil değerlerdeki değişiklikleri anlamaktır. Konuşmacı, özdeğerlerdeki ve tekil değerlerdeki değişim için kesin bir formül bulunamayabileceğini açıklar.
    mümkün olsa da, değişimin ne kadar büyük olabileceğini anlamak için yine de eşitsizlikler türetebilirler. Ders ayrıca zamana (T) ve ters A tersine bağlı olan A matrisinin kurulumunu da kapsar.

  • 00:05:00 Bu bölümde, konuşmacı önceki bölümde matrislerin tersiyle ilgili tartışmayı tamamlayan kalkülüsteki bir özdeşliği tartışıyor. Formül, ters matrisin türevinin, negatif çarpı matrisin tersinin matrisin türevi ve matrisin tersi ile çarpımına eşit olduğunu belirtir. Konuşmacı, ters matrisin türevinin nasıl bulunacağını "tersindeki değişim" olarak adlandırarak ve formülün her iki tarafını da delta T'ye bölerek açıklar. Son olarak, konuşmacı Delta T'nin sıfıra gitmesini sağlamak için hesabı uygular ve sezgisel bir matrise yol açar. formülün anlaşılması. Konuşmacı ayrıca, lineer cebiri gölgede bıraktığını belirterek, üniversite matematiğindeki kalkülüs vurgusu hakkındaki görüşlerini de dile getiriyor.

  • 00:10:00 Bu bölümde, konuşmacı A matrisinin delta T sıfıra giderken t zamanına göre dA/dt olarak türevinin formülünü açıklıyor. Delta a bölü Delta T oranının bir anlamı vardır ve Delta T sıfıra yaklaştıkça denklem ters olur. Tek tek durumda bir bölü X'in türevi sadece 1 bölü X'in karesidir ve bu, Delta a'nın tam boyutlu ancak düşük dereceli olduğu formüllere paraleldir. Dersin odak noktası daha sonra lambda'nın özdeğerlerine ve bir matris değiştiğinde bunların nasıl değiştiğine, iki olasılık, bir küçük değişiklik ve bir tam boyutlu bir değişiklik sırası ile kayar. Ders, özdeğerleri ve özvektörleri çevreleyen gerçeklerle sona erer.

  • 00:15:00 Bu bölümde özvektör kavramı ve bir parametreye bağlı matrisler için özdeğerler açıklanmaktadır. A matrisi, solda AX ile aynı özdeğere sahip özvektör X ile ayrıntılı olarak incelenir. Buna karşılık, simetrik bir A matrisi için özvektör Y, A veya AT'nin devrikliği ile aynı şekilde kullanılır. Normalleştirmenin önemi, özellikle Y devrik çarpı X eşittir bir, vurgulanır. Yazar daha sonra bir formülün türevini almaya devam eder ve denklemin bu yeni bağlama uyması için nasıl büküleceğini tartışır.

  • 00:20:00 Bu bölümde, konuşmacı bir matrisin türevinin zaman değiştikçe özdeğerlerinin ve özvektörlerinin türevini bulmak için nasıl kullanılabileceğini açıklar. Çarpım kuralını kullanarak, zamana bağlı üç terimin çarpımının türevi için bir formül türetiyorlar. Terimleri yeniden düzenleyerek ve köşegenleştirme formülünü uygulayarak, özdeğerin türevi için basit bir formüle ulaşırlar. Konuşmacı, bunun klasik bir teknik olmasına rağmen, her zaman yaygın olarak bilinmeyebileceğini veya kurslarda öğretilemeyeceğini belirtiyor.

  • 00:25:00 Bu bölümde konuşmacı, matrisin değişme hızını ve soldaki ve sağdaki özvektörleri kullanarak bir özdeğerin türevini bulmak için bir formül tartışıyor. İki terimin birbirini götürdüğünü ve kalan terimin türev için doğru cevap olduğunu göstermek için formülü basitleştirirler. Bu iptali kanıtlamak için birin türevinin sıfır olduğu gerçeğini kullanıyorlar. Konuşmacı ayrıca bu formülün özvektörün türevini içermediğini ve daha üst düzey türevleri bulmak için de kullanılabileceğini belirtiyor.

  • 00:30:00 Bu bölümde, konuşmacı simetrik bir matriste birinci dereceden bir değişiklikten sonra özdeğerlerdeki değişimi tartışıyor. Değişimin gerçek bir vektör olduğunu ve bir diferansiyel olmadığını, bu nedenle yeni özdeğerler için kesin bir formül olmadığını belirtiyor. Bununla birlikte, özdeğerlerin azalan düzende olması ve birinci sıradaki değişimin pozitif yarı-belirli olması gibi bilinen bazı gerçekleri paylaşıyor. Ayrıca izleyicilerden uu devrik matrisinin özvektörünü düşünmelerini ister ve bunun n'ye n matris sütun çarpı satır olduğunu açıklar. Bu hesaplamadan çıkan sayının sıfırdan büyük olduğunu belirterek sözlerini bitiriyor.

  • 00:35:00 Bu bölümde, konuşmacı simetrik bir matrisi ve buna birinci sıradaki bir matris eklendiğinde ne olduğunu tartışıyor. Bunun pozitif yarı-belirli matrislerle sonuçlandığı ve yeni özdeğerlerin (lambdalar) orijinal özdeğerlerden (gamalar) daha büyük olduğu sonucuna varırlar. Ancak boyut farkı anlamlı değildir ve özdeğerlerin birbirini geçmemesini sağlayan "interlacing" adlı bir teorem vardır. Spesifik olarak, lambda 1, gama 1'den büyüktür, ancak lambda 2, gama 1'den küçüktür. Bu, simetrik bir matrise pozitif sıralı bir matris eklendiğinde özdeğerlerin sırasını garanti eden kullanışlı bir teoremdir.

  • 00:40:00 Bu bölümde profesör, simetrik bir matris ve 1. sıra değişikliğinden kaynaklanan 2. sıra matrisinin özdeğerlerini tartışıyor. Değişim matrisinin sırasının 2 olduğunu, sıfır olmayan iki özdeğeri gösterdiğini ve pozitif yarı-belirli doğasının, özdeğerlerin orijinal matrise eklenerek artacağı anlamına geldiğini açıklıyor. Ancak, pozitif bir yarı-belirli matris eklerken özdeğerlerin orijinal özdeğerlerden daha yükseğe çıkamayacağını belirten bir teorem ortaya koyar. Bunu alfa değerlerine uygular ve lambdalarla karşılaştırır, sonuçta alfa 2 değerinin lambda 1'i geçemeyeceği ve alfa 3 değerinin bilinmediği sonucuna varır.

  • 00:45:00 Bu bölümde öğretim görevlisi, özdeğerlerin iç içe geçmesini bir simetrik matris örneği ile açıklar. Bu matrisin indirgenmiş versiyonu da özdeğerlere sahiptir ve orijinal matrisin özdeğerleriyle iç içe geçerler. Ancak öğretim görevlisi, sıralama değiştiğinde özdeğerlerin birbirine geçmesiyle ilgili bir endişeyi dile getiriyor. Yeni özvektör büyük bir sayı ile çarpılırsa, özdeğeri potansiyel olarak yukarı doğru hareket ettirebilir, bu da taramalı teoremle çelişiyor gibi görünmektedir. Öğretim görevlisi bunu bir sonraki derste cevaplamak için bir soru olarak bırakır.

  • 00:50:00 Bu bölümde, öğretim görevlisi özdeğerleri ve özvektörleri ve özdeğer lambda 2 artı 20'ye sahip belirli bir özvektörün önceki ifadeleri neden geçersiz kılmadığını tartışır. Ders, işlenen konuların gözden geçirilmesi ve bir sonraki derste tartışmaya devam etmek için bir not ile sonlandırılır.
15. Matrices A(t) Depending on t, Derivative = dA/dt
15. Matrices A(t) Depending on t, Derivative = dA/dt
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 16. Ters ve Tekil Değerlerin Türevi


16. Ters ve Tekil Değerlerin Türevleri

Bu video, bir matrisin ters ve tekil değerlerinin türevi, tarama ve bir matrisin nükleer normu gibi çeşitli konuları kapsar. Konuşmacı, simetrik matrislerdeki özdeğerlerdeki değişiklikler için sınırlar oluştururken, bir matrisin zaman içinde nasıl değiştiğini anlamak için SVD'yi kullanarak tekil değerlerin türevi için bir formül sunar. Şişenin eşitsizliği, bir matrisin lambda değerlerini tahmin etmenin bir yolu olarak tanıtılır ve matris tamamlama problemlerinde temel takip kullanılır. Konuşmacı ayrıca bir matrisin nükleer normunun tam olarak bir norm olmayan bir normdan geldiği fikrini tartışıyor ve bir sonraki derste tartışılmak üzere Kement ve sıkıştırılmış algılama kavramını tanıtıyor.

  • 00:00:00 Bu bölümde eğitmen, bir matrisin tersinin türevini bulma, bir özdeğerin türevi ve tekil değerin türevi gibi çeşitli konuları tartışır. Eğitmen, son zamanlarda keşfettiği tekil değerin türevi için bir formül paylaşıyor ve tersinin türevinin formülünün sadece orijinal matrisin türevi olmadığından bahsediyor. Ayrıca laboratuvar ödevinden bahsediyor, bir proje hakkında tavsiye istiyor ve Profesör Townsend'in Uygulamalı Doğrusal Cebir üzerine vereceği dersten bahsediyor. Eğitmen, bir kare matrisin türevinin sistematik olarak nasıl bulunacağını ve yaygın olarak kabul edilen formülün neden yanlış olduğunu açıklamaya devam eder.

  • 00:05:00 Bu bölümde konuşmacı, özdeğerlerin türevine benzeyen tekil değerlerin türevini tartışır. Tekil değerlerin türevinin formülü, da/dt çarpı a'nın tekil vektörünün devrik olmasıyla verilir. Bu formül, a çarpı V'nin Sigma U'ya eşit olduğunu söyleyen SVD'ye dayanır. Bu gerçekleri kullanarak ve denklemi değiştirerek, tekil değerlerin türevi için formülü türetmek mümkündür. Bu formül, bir matrisin zaman içinde nasıl değiştiğini anlamada yararlıdır ve fizik ve mühendislik gibi çeşitli alanlarda uygulanabilir.

  • 00:10:00 Bu bölümde konuşmacı ters ve tekil değerlerin türevlerini tartışır. Tekil değerlerin formülünü bir matrisin SVD'si cinsinden açıklayarak başlarlar ve sonra denklemin türevini alırlar. Konuşmacı, ürün kuralını kullanır ve aradıkları cevabı verecek terimi bulmak için ortaya çıkan denklemi basitleştirir. Daha sonra diğer iki terimin sıfır olacağını gösterirler, bu da seçtikleri terimin doğru olduğunu kanıtlar. Son olarak, U'nun devrik U ile türevinin sıfıra eşit olduğunu göstermek için nokta çarpımı ve bir sayı kullanırlar.

  • 00:15:00 Bu bölümde, konuşmacı simetrik bir matrisin tekil değerlerinin ve özdeğerlerinin türevlerini tartışıyor. Tekil veya özdeğerlerdeki değişim için kesin bir formül hesaplanamazken, özdeğerlerdeki pozitif değişikliklerin azalmaya neden olmayacağı kabul edilerek sınırlar oluşturulabilir. Eski ve yeni değerlerin iç içe geçmesi, ikinci özdeğerin birinci eski özdeğeri aşmayacağı ve ilk yeni özdeğerin birinci eski özdeğerden daha az olmayacağı gerçeğiyle gösterilmektedir, bu da bu kavramları SVD'yi anlamada faydalı kılmaktadır.

  • 00:20:00 Videonun bu bölümünde konuşmacı, ikinci özvektörü artırmanın bir matrisin özdeğerleri üzerindeki etkisiyle ilgili bir bilmece sorusu soruyor. İkinci özdeğer, Theta olarak gösterilen belirli bir miktarda artırılırsa, sonunda birinci özdeğeri aşabileceğine ve bunun potansiyel bir sorun teşkil ettiğine dikkat çekiyor. Bununla birlikte, daha sonra düşünce sürecini açıklıyor ve bunun aslında bir sorun olmadığını çünkü birinci özdeğerin değişmeden kaldığını, ikinci özdeğerin ise yükseldiğini ancak sonunda lambda 1 ve Theta'nın toplamına yaklaştığını gösteriyor.

  • 00:25:00 Bu bölümde konuşmacı interlacing ve Vial eşitsizliğini tartışıyor. Şişenin eşitsizliği, bir matrisin büyükten küçüğe sıralanan özdeğerler olan lambda değerlerini tahmin etmenin bir yoludur. Eşitsizlik, herhangi bir simetrik matris için doğrudur ve iki simetrik matrisin toplamının en büyük özdeğerinin, her matrisin ayrı ayrı en büyük özdeğerlerinin toplamından küçük veya ona eşit olduğunu belirtir. Bu geçmeli özellik sadece birinci derece pertürbasyonlar için değil, aynı zamanda diğer derecelerdeki pertürbasyonlar için de geçerlidir. Konuşmacı, S'ye bir pozitif matris olan T'nin eklenmesi örneğini kullanır ve bunun Vial eşitsizliğiyle nasıl ilişkili olduğunu açıklar.

  • 00:30:00 Bu bölümde konuşmacı, Vile'ın eşitsizliğini ve bunun iç içe geçme ile nasıl bir ilişkisi olduğunu tartışıyor. Vile eşitsizliği, bir özdeğerin ne kadar artabileceği konusunda bir sınır verir ve bu gerçek, geçmeli fenomeni anlamak için çok önemlidir. Konuşmacı, Vile eşitsizliği ve grafik içeren başka bir yöntem dahil olmak üzere, taramayı kanıtlamanın iki yolu olduğundan bahseder. Bu bölümde ayrıca, videonun bir sonraki bölümünde ele alınacak olan sıkıştırılmış algılama tanıtılmaktadır.

  • 00:35:00 Bu bölümde, matrisin tekil değerlerinin toplamı olan bir matrisin nükleer normu kavramı tanıtılmaktadır. Bu, bir vektör için L1 normu olarak düşünülebilir. L1 normuna benzer özel bir özelliği vardır, burada nükleer normu bir kısıtlama ile en aza indirmek seyrek bir çözümle sonuçlanır. Bu özellik, bir matristeki eksik verilerin doldurulması gereken matris tamamlama problemlerinde kullanışlıdır. Çekirdek normunu en aza indiren sayılar, eksik verileri doldurmak için iyi bir seçimdir. Sıfır olmayanların sayısını temsil eden bir vektörün sıfır normu bir norm değildir, ancak en yakın norm olan L1 normuna taşınabilir. Bu norm, vektörün bileşenlerinin mutlak değerlerinin toplamıdır. Bu normu bazı koşullara bağlı olarak en aza indirmeye temel takip denir ve matris tamamlama problemlerinde kullanılır.

  • 00:40:00 Bu bölümde, konuşmacı bir matrisin nükleer normunun tam olarak norm olmayan bir normdan geldiği fikrini tartışıyor. Matrisin sıralamasının bu norma eşdeğer olduğunu, ancak matrisin boyutu iki katına çıkarsa ölçeklenemeyeceği için norm olamayacağını açıklıyor. Konuşmacı, gradyan inişli derin öğrenme algoritmasının nükleer normdaki minimum soruna çözüm bulduğu varsayımını açıklamaya devam ediyor ve bir sonraki derste daha ayrıntılı olarak tartışılacak olan Lasso ve sıkıştırılmış algılama kavramını tanıtıyor.
16. Derivatives of Inverse and Singular Values
16. Derivatives of Inverse and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 17: Hızla Azalan Tekil Değerler



Ders 17: Hızla Azalan Tekil Değerler

Ders, matrisler ve sıralarına ve hesaplamalı matematikte hızla azalan tekil değerlerin yaygınlığına odaklanır. Öğretim görevlisi düşük dereceli matrisleri inceler ve tekil değer dizilerinde nasıl çok sayıda sıfıra sahip olduklarını gösterir, bu da matrisi bir arkadaşa düşük dereceli formda göndermeyi tam dereceli formdan daha verimli hale getirir. Ayrıca, bir matrisin tekil değerlerinin toleransını tanımlamak için bazı kıpırdatma odalarına izin vererek tanımlanan bir matrisin sayısal sırasını da sunarlar. Polinomlarla iyi bir şekilde yaklaşılabilen düzgün fonksiyonları örnekleyerek, sayısal sıra düşük olabilir ve bu da X matrisinin düşük sıralı bir yaklaşımıyla sonuçlanabilir. düşük dereceli matrisler ve Zolotarev sayılarının sınırlayıcı tekil değerlerdeki kullanışlılığını tartışır.

  • 00:00:00 Bu bölümde bir profesör, hesaplamalı matematik dünyasında düşük dereceli matrislerin neden bu kadar yaygın olduğunu açıklıyor. Bize bir matrisin rankı ve düşük ranklı bir matris tarafından ne kadar iyi tahmin edilebileceği hakkında bilgi veren tekil değerlerin önemini tartışıyor. Bir X matrisinin, sıfır olmayan K tekil değeri varsa, K sıralı bir matrisin toplamına ayrıştırılabileceğini açıklamaya devam ediyor. Ek olarak, X'in sütun uzayı ve satır uzayının her ikisi de K boyutuna sahiptir. Tekil değer dizisi bir matrise özgüdür ve X'in çeşitli matematik problemlerinde düşük dereceli matrislerin görünmesini sağlayan özelliklerini belirlemeye odaklanılır.

  • 00:05:00 Bu bölümde öğretim görevlisi düşük dereceli matrisleri ve bunların tekil değer dizilerinde nasıl çok sayıda sıfıra sahip olduğunu tartışıyor. Düşük dereceli bir matris, matrisi bir arkadaşa düşük dereceli formda göndermenin tam dereceli formdan daha verimli olduğu matristir. Ders, düşük dereceli matrisler kavramını göstermek için farklı bayraklar kullanır; son derece düşük dereceler, satırların ve sütunların koordinatlarıyla yüksek oranda hizalanır. Derece arttıkça, hizalama bulanıklaşır ve matrisin düşük dereceli olup olmadığını görmek zorlaşır. Yüksek dereceli matrisler, düşük dereceli formda göndermek için yetersizdir.

  • 00:10:00 Bu bölümde öğretim görevlisi, köşegen desenlerin düşük dereceli sıkıştırma için neden iyi olmadığını anlamak için üçgen bayrak matrisini inceler. Tüm birlerin matrisi, tersi alındığında Gil'in favori matrisine benzer bir özelliğe sahiptir. Öğretim görevlisi, bu matrisin tekil değerlerini inceleyerek, üçgen desenlerin düşük dereceli sıkıştırmaya uygun olmadığını gösterir. Bununla birlikte, daire durumu ve Japon bayrağı deseni, düşük dereceli sıkıştırma için uygundur.

  • 00:15:00 Bu bölümde öğretim görevlisi bir çemberin derecesini, özellikle de Japon bayrağını tartışıyor. Bayrağı bir daireye, ortada bir sıra tek taşa ve bir kareye ayırarak, her bir parçanın dereceleri toplanarak sıralama belirlenebilir. Öğretim görevlisi, sıradaki bir parçanın bir ile sınırlandığını gösterir ve ardından dairenin yarıçapına bağlı olan kare parçanın sırasını belirlemek için simetriyi kullanır. Öğretim görevlisi, trigonometri ile bazı hesaplamalar yaparak, sıralamanın yaklaşık 1/2 olduğu sonucuna varır, bu da Japon bayrağını düşük sıralama biçiminde temsil etmeyi verimli kılar. Bununla birlikte, hesaplamalı matematikteki matrislerin çoğu sonlu sıralı değil, sıralıya benzer ancak bazı yaklaşımlara izin veren sayısal sıralıdır.

  • 00:20:00 Bu bölümde, bir matrisin tekil değerlerinin toleransını tanımlamak için bazı esnekliklere izin vererek tanımlanan bir matrisin sayısal sırasını öğreniyoruz. K, toleransı ifade eden epsilonun üzerindeki ilk tekil değer ise ve sıra epsilonun üzerindeki son tekil değerle aynı ve epsilonun altındaki ilk tekil değerse, sayısal sıra K'dır. Sayısal olarak düşük sıralı matrisler, yalnızca düşük sıralı matrisler değil, aynı zamanda hızla azalan tekil değerlere sahip tam sıralı matrislerdir. Bu, pratikte makul bir tolerans düzeyi sağlarken, düşük dereceli yaklaşım kullanarak matrisleri sıkıştırmamıza izin verir. Hilbert matrisi, düşük sayısal sıralı tam sıralı bir matris örneğidir.

  • 00:25:00 Bu bölümde öğretim görevlisi, matrislerin nasıl düşük sayısal sıralı olabileceğini ancak genel olarak düşük sıralı olması gerekmediğini tartışır. Vandermonde matrisi bunun klasik bir örneği olarak kullanılır. Bu matris, polinom enterpolasyonunda gerçek noktalarda ortaya çıkar ve genellikle sayısal olarak düşük sıradadır, bu da tersini zorlaştırır. Bununla birlikte, özellikle tersini bulmaya çalışırken, sayısal olarak düşük sıralama her zaman arzu edilen bir durum değildir. Öğretim görevlisi, bu kadar çok düşük dereceli matris olmasının nedeninin dünyanın pürüzsüz olması olduğunu, yani matrislerin sayısal olarak düşük dereceli olduğu anlamına geldiğini açıklıyor. İki değişkenli bir polinomun örneklendiği bir örnek verilmiş ve elde edilen matrisin matematiksel olarak düşük dereceli olduğu ve epsilon sıfıra eşit olduğu gösterilmiştir.

  • 00:30:00 Bu bölümde, konuşmacı bir fonksiyonu örnekleyerek ve bu fonksiyona bir polinomla yaklaşarak bir X matrisi için düşük dereceli bir yaklaşımın nasıl elde edileceğini tartışıyor. İki değişkenli bir polinom, hem x hem de y'de derece M ile yazılabiliyorsa ve sonra örneklenebilirse, elde edilen x, epsilon sıfıra eşit, en fazla M kare sırasına sahip olacak şekilde düşük dereceye sahip olacaktır. Polinomlarla iyi bir şekilde yaklaşılabilen düzgün fonksiyonları örnekleyerek, sayısal sıra düşük olabilir ve bu da X matrisinin düşük sıralı bir yaklaşımıyla sonuçlanabilir. Ancak, bu yöntemin arkasındaki mantık, Hilbert matrisi için iyi çalışmıyor. tam rütbedir.

  • 00:35:00 Bu bölümde öğretim görevlisi, bir matrisin sırasını sınırlamak için uygun bir nedenin nasıl bulunacağını tartışır. Pek çok kişi, bir matrisin sırasını doğru bir şekilde tahmin edebilen bir polinom bulmaya çalıştı, ancak yöntemler tatmin edici olmadı. Öğretim görevlisi, Sylvester denklemi adı verilen belirli bir denklemi sağlayan matrisler olan Sylvester matrisleri fikrini sunar. Denklemi karşılayan bir A, B ve C bularak, bir matrisin sayısal olarak düşük derecede olduğu gösterilebilir. Öğretim görevlisi, Hilbert matrisini kullanan bir örnek ve Sylvester denklemini sağlamak için sol ve sağda bir yarım ile çarpmanın özel bir yolunu sunar.

  • 00:40:00 Bu bölümde, ders, permütasyonların ve çarpmanın nasıl düşük dereceli matrislere yol açabileceğini açıklamak için Gauss ve Vandermonde matrislerinden örnekler sağladı. Ders, X'in bir dönem denklemini sağlaması durumunda, Frobenius normu adı verilen Gauss ve Vandermonde matrislerininkine benzer bir ifadeyi karşılayan herhangi bir matrisin tekil değerleri üzerinde bir sınır bulunabileceğini açıklar. Fuller ve sınır, matrislerdeki bu sayısal alt sırayı göstermek için kullanılır; belirli denklemlerin sağlanması ile bu düşük sıralı matrislerin pratikte görünümü arasındaki bağlantıyı göstermek için verilen örneklerle birlikte.

  • 00:45:00 Bu bölümde öğretim görevlisi, Zolotarev sayılarıyla sınırlanan tekil değerlerin soyut probleminin ne kadar yararlı olduğunu tartışır, çünkü birçok kişi daha önce bu sayıları çalışmıştır. Bunun yararlı olmasının temel nedeni, E ve F kümelerinin ayrılmasıdır ve Zolotarev sayısının k ile son derece hızlı bir şekilde küçülmesini sağlayan da budur. Öğretim görevlisi, Zolotarev sayısının sayısal sıra üzerinde nasıl bir sınır verebileceğini göstermek için örnek olarak Hilbert matrisini kullanır ve bu da hesaplamalı matematikte neden bu kadar çok düşük dereceli matris olduğunu gösterir. Öğretim görevlisi ayrıca Zolotarev sorunu üzerinde çalışan iki kilit kişiyi çevreleyen resmi olmayan lanetten de bahsediyor; ikisi de 31 yaşında öldü, bu yüzden Pencil'ın adının yanında soru işareti var.
Lecture 17: Rapidly Decreasing Singular Values
Lecture 17: Rapidly Decreasing Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alex TownsendView the complete course: https://oc...
 

Ders 18: SVD, LU, QR, Semer Noktalarında Parametreleri Sayma



Ders 18: SVD, LU, QR, Semer Noktalarında Parametreleri Sayma

Bu derste, konuşmacı L&U, Q&R ve özvektör matrisleri gibi çeşitli matris çarpanlara ayırmalarını inceler ve bu matrislerin her birindeki serbest parametrelerin sayısını sayar. Ayrıca, SVD'ye karşı Qs'nin hesaplanmasını tartışırlar ve bir rank-R matrisi için SVD'deki parametre sayısını sayarlar. Öğretim görevlisi ayrıca matrislerdeki eyer noktaları kavramını ve bunların optimizasyon teknikleri ve Lagrange çarpanları kullanılarak nasıl bulunacağını açıklar. Son olarak, öğretim görevlisi simetrik bir matrisin özdeğerlerinin işaretini ve Rayleigh katsayısının matrisin maksimum değerini ve karşılık gelen özvektörünü belirlemeye nasıl yardımcı olabileceğini tartışır.

  • 00:00:00 Bu bölümde konuşmacı, L&U, Q&R ve özvektör matrisleri gibi bir matrisin büyük çarpanlarına ayırma işlemlerini inceler ve bu matrislerin her birindeki serbest parametrelerin sayısını sayar. Konuşmacı, L&U veya Q&R'deki serbest parametre sayısının orijinal matristeki parametre sayısıyla uyumlu olması gerektiğini ve özdeğer ve özvektör matrislerinin serbest parametrelerinin toplamının N kareye eşit olduğunu not eder. Konuşmacı, bu alıştırmanın ders kitaplarında pek görülmediğini, ancak doğrusal cebiri anlamak için önemli bir inceleme olduğunu belirtiyor.

  • 00:05:00 Bu bölümde konuşmacı, SVD, LU, QR ve polar ayrıştırma dahil olmak üzere farklı matris çarpanlarına ayırmalardaki serbest parametrelerin sayısını tartışıyor. Konuşmacı, normalleştirme ve ortogonalite koşulları nedeniyle N'ye n ortogonal matris Q'daki serbest parametre sayısının ilk sütun için N-1 ve sonraki sütunlar için N-2 olduğunu not eder. Ayrıca, 1/2 N çarpı N eksi 1 artı köşegen elemanların sayısı olan bir simetrik matris S'deki serbest parametrelerin sayısını tartışırlar. Daha sonra, bu sayıların L çarpı U, Q çarpı R ve Q çarpı S dahil olmak üzere farklı çarpanlara ayırmalar için nasıl toplandığını göstermeye devam ederler. Son olarak, dik çarpı simetrik bir matrisle sonuçlanan başka bir çarpanlara ayırma olarak kutup ayrıştırmasından bahsederler.

  • 00:10:00 Bu bölümde öğretim görevlisi, SVD'ye karşı Qs hesaplamasını tartışır ve ardından SVD'deki parametreleri sayar. Dikdörtgen matrisin sahip olabileceği en büyük sıra M'dir, bu da SVD için M'ye N matrisiyle sonuçlanacaktır. Öğretim görevlisi, MN parametresine sahip orijinal matrisin toplamını toplamasını bekler. S için sayım M'ye eşittir ve V için sayım N'ye eşittir. M'ye M ortogonal matris ise U için sayım 1/2'ye (M^2 + M) eşittir.

  • 00:15:00 Bu bölümde konuşmacı, bir rank-R matrisi için bir matrisin tekil değer ayrıştırmasında (SVD) önemli parametrelerin nasıl sayılacağını açıklar. V'nin sıfır olmayan tekil değerlere karşılık gelen M sütunları, matrisin tek önemli parçalarıdır. Parametre sayısını saymak için konuşmacı, Mth sütununa kadar V'nin her bir ortogonal sütununda farklı sayıda gerekli parametreyi açıklayan bir formül kullanır. Formül, her sütun için 1'in NM'ye eklenmesini ve bu sayının M kare artı M artı 1'in yarısından çıkarılmasını içerir. Formülün sonucu, rank-R matrisinin SVD'sindeki parametrelerin nihai sayısıdır.

  • 00:20:00 Bu bölümde, konuşmacı R mertebesindeki matrisleri ve sahip oldukları parametre sayısını tartışır. R mertebesindeki matrisler bir altuzay değildir çünkü farklı matrisler aynı mertebeye sahip olabilir, bu da onu daha çok farklı parçalara sahip bir yüzey gibi yapar. Konuşmacı, R mertebesindeki bir matrisin R parametrelerine sahip olduğuna inanır. Daha sonra bir rank R matrisindeki parametre sayısını bulmaya devam ederler. Parametre sayısı Sigma için R, V için (R + 1) / 2 ve U için (M - 1) + (M - 2) + ... + (M - R) şeklindedir.

  • 00:25:00 Dersin bu bölümünde eğitmen, matrislerde maksimum ve minimumdan farklı olan eyer noktaları kavramını tartışır. Lagrange çarpanları kullanılarak doğrusal kısıtlamalara tabi ikinci dereceden bir maliyet fonksiyonu optimize edilirken eyer noktaları ortaya çıkar. Eğitmen lambdayı tanıtır ve Lagrangian'da hem X'e hem de lambdaya bağlı bir fonksiyon oluşturmak için nasıl kullanıldığını gösterir. Bu işlev daha sonra ortaya çıkabilecek herhangi bir eyer noktasını bulmak için optimize edilebilir. Eğitmen ayrıca, pozitif tanımlı veya negatif tanımlı olmayan matrislerde ortaya çıkan başka bir eyer noktası kaynağından bahseder.

  • 00:30:00 Bu bölümde, konuşmacı bir fonksiyonun eyer noktalarının nasıl bulunacağını tartışır ve blok matrisiyle temsil edilen önemli bir problem sınıfında bunların nasıl ortaya çıktığını gösterir. Fonksiyonun bir maksimum noktası değil, eyer noktaları vardır. Lagron'un bu probleme katkısı, türevleri X ve lambdaya göre alarak sırasıyla n ve m denklemlerini üretmektir. Sonuçta, blok matrisi tarafından temsil edilen matris, pozitif tanımlı olmadığını gösterir ve bu bilgi, eyer noktalarını belirlemek için kullanılabilir.

  • 00:35:00 Bu bölümde öğretim görevlisi bir matrisin determinantının özdeğerlerinin işaretlerini belirlemeye nasıl yardımcı olabileceğini tartışıyor. Basit bir örnek kullanarak, determinant negatifse, her iki işaretin de özdeğerlerinin olması gerektiğini gösterir. Daha sonra bunu optimizasyonda kullanılan KKT matrisleriyle ilişkilendirir ve bunların genellikle belirsiz olduğunu, ancak kendileriyle ilişkili pozitif tanımlı bir bloğa sahip olduklarını savunur. Bu pozitif tanımlı blokta blok eleme kullanıldığında, tüm n pivotun pozitif olacağını gösterir, bu da KKT matrislerinin hem pozitif hem de negatif özdeğerlere sahip olduğu sonucuna götürür.

  • 00:40:00 Bu bölümde öğretim görevlisi eyer noktalarını ve bunların kısıtlamalarla nasıl ilişkili olduğunu tartışır. Pivotlarının işaretlerine dayanarak simetrik bir matrisin özdeğerlerinin işaretinin nasıl belirleneceğini açıklıyor. Öğretim görevlisi ayrıca Rayleigh bölümünü tanımlar ve simetrik bir matrisin maksimum değerini ve karşılık gelen özvektörünü belirlememize nasıl yardımcı olabileceğini gözden geçirir. Ders, Rayleigh bölümüne eklediğimiz herhangi bir değerin maksimum değerden nasıl daha küçük olacağının açıklanmasıyla sona erer.

  • 00:45:00 Bu bölümde, konuşmacı Rayleigh bölümündeki eyer noktaları kavramını tartışıyor. Minimum ve maksimum arasındaki ara lambdaları işlemek zordur. Ancak maksimum ve minimumda bölüm değerlerinin ölçülmesi kolaydır. Herhangi bir boyutta herhangi bir vektör seçilirse, maksimum ve minimum arasında olan R of X'i hesaplayabiliriz. Konuşmacı, eyer noktalarının ayrıntıları hakkında konuşmanın bir sonraki derse saklanacağını, ancak ondan önce, fazla uydurma, derin öğrenme hakkında öğreten ve aradan sonra yapılması gereken üçüncü laboratuvarın verileceğini söylüyor.
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 19. Eyer Noktaları Devamı, Maxmin Prensibi



19. Eyer Noktaları Devam Ediyor, Maxmin Prensibi

Bu videoda konuşmacı, eyer noktalarını ve iki boyutlu uzayda Rayleigh bölümünü kullanarak minimum ve maksimum değerlerin nasıl bulunacağını tartışmaya devam ediyor. Maksimum ve minimumları hızlı bir şekilde bulmak için minimumun maksimumu olarak eyer noktalarının yazılmasını içeren taramalı teorem açıklanır. Konuşmacı ayrıca verileri yüksek dereceli bir polinomla uydururken fazla uydurmaya karşı uyarıda bulunur ve sınıf için eyer noktaları ve basit bir sinir ağı içeren iki açık uçlu laboratuvarı tartışır. İstatistikteki ortalama ve varyans kavramları ile örnek varyans ve kovaryans kavramları açıklanırken, konuşmacı tamamen bağımlı çıktılar için kovaryans matrisinin tersine çevrilemeyeceğini ve bir evde birden fazla kişinin yaşadığı yoklama senaryoları için bir miktar kovaryans beklendiğini ancak tamamen bağımsız değil.

  • 00:00:00 Bu bölümde, konuşmacı, derin öğrenmede minimum toplam maliyet işlevinin bulunmasıyla ilgili olarak eyer noktalarını anlamanın önemini tartışıyor. Eyer noktalarının ana gerçeklerini, fonksiyonun maksimum ve minimum değerlerini ve bir eyer noktasının varlığını göstermek için bir Rayleigh katsayısı örneği ve basit bir S matrisi sağlarlar. Konuşmacı ayrıca üçüncü laboratuvarı, projeleri ve temel istatistikleri, özellikle de kovaryans matrisini tartışma planlarından bahsediyor.

  • 00:05:00 Bu bölümde, konuşmacı eyer noktalarını ve her şeyi bir değişkene yükleyerek ve sıfıra eşit oldukları yeri bulmak için türevleri hesaplayarak minimum ve maksimum değerlerin nasıl bulunacağını tartışır. Minimum değerin nasıl bulunacağını gösterirler ve matrisin özvektörleri ile özdeğerlerinin eyer noktasının konumunu ve değerini bulmaya yardımcı olduğunu gösterirler. Konuşmacı ayrıca ikinci türevlerin ve simetrik matrisin nasıl hesaplanacağından da bahsediyor. Eyer noktası değerlerinin hesaplanmasının önemini vurgularlar ve kodlarla çalışmayı ve sürece dikkat etmeyi önerirler.

  • 00:10:00 Bu bölümde, konuşmacı eyer noktaları fikrini ve bunların maksimum ve minimuma hızla geri dönmek için minimumun maksimumu olarak nasıl yazılacağını tartışıyor. Bunun tarama teoremine yol açtığını açıklıyor ve Rayleigh katsayısının minimumunu bulmak için 2 boyutlu bir alt uzayda minimumun alınmasına bir örnek veriyor. Tüm alt uzaylarda bu minimumun maksimumunu alarak, eyer noktası değeri olan lambda'yı elde edebilir.

  • 00:15:00 Bu bölümde, konuşmacı Rayleigh katsayısını kullanarak iki boyutlu bir uzayda maksimum ve minimum değerlerin nasıl bulunacağını açıklar. Mümkün olan tüm 2B uzayların maksimumunu alarak ve bu özel V seçiminin üç cevabını verdiğini göstererek maksimum değerin üç olduğunu gösteriyor. Konuşmacı daha sonra diğer herhangi bir altuzay için minimum değerin nasıl üçün altında olacağını açıklar, bu da minimumlar için maksimum değerin de üç olduğu anlamına gelir. Eyer noktaları kavramı da tartışılır, konuşmacı bu noktaların genellikle belirli bölgelerin en yüksek noktalarında meydana geldiğini ve bunların Maxima of Minima veya Minima of Maxima olabileceğini belirtir. Video, projeler hakkında bir tartışma ve izleyicilerin projeler hakkında soru sormaları için bir davetle sona eriyor.

  • 00:20:00 Bu bölümde konuşmacı, 5. dereceden bir polinomun 6 noktayı sığdırmak için kullanıldığı bir fazla uydurma modelini açıklıyor. Konuşmacı, 5. derece polinomun veri noktalarına tam olarak uyacağını, ancak aynı zamanda pürüzsüz veya hoş olmayacağı için kusurlu bir model olacağını belirtiyor. Bu örnek, bir model çok karmaşık olduğunda ve eğitim verilerine çok yakın olduğunda ortaya çıkan aşırı uydurmaya karşı bir uyarı işlevi görür.

  • 00:25:00 Bu bölümde konuşmacı, verileri yüksek dereceli bir polinomla uydurma problemini tartışıyor. Düz bir doğruyu sığdırmak yetersiz uydurmaya neden olabilirken, yüksek dereceli bir polinomu sığdırmak, verideki gürültüyü dikkate almadan verilen tüm veri noktaları için mükemmel bir uyum oluşturduğundan fazla uydurmaya neden olabilir. Mükemmel uyum fikri, mükemmel uyumdan kaynaklanan dev katsayı vektörü nedeniyle büyük bir tersi olan Vandermonde matrisi ile ilgilidir. Matris, sıradan boyutlu değerlerin yanında oluşan küçük değerlerle geniş bir tekil değerler yelpazesine sahiptir. Bu nedenle, eksik uydurma ve fazla uydurma arasında bir denge kurmak için verilere uyacak doğru polinom derecesini bulmak zor olabilir.

  • 00:30:00 Bu bölümde, konuşmacı sınıfı için biri eyer noktalarını içeren ve diğeri basit bir sinir ağını içeren iki açık uçlu laboratuvar örneğini anlatıyor. Eyer noktası örneği için, konuşmacı grafikleri ve veri tablolarını sınıf kapsamına göndermeyi ve K'yi artırmanın güvenliği ve riski hakkında sonuçlar çıkarmayı önerir. Sinir ağı örneğiyle ilgili olarak, konuşmacı temel bir sınıflandırma probleminin ana hatlarını çizer ve öğrencileri hala lineer cebir kullanırken, uygun gördükleri şekilde modelleyin. Konuşmacı ayrıca MIT'nin bilgi işlemsel düşünme kurslarına yönelik planlarıyla ilgili yaklaşan bir fakülte toplantısından da bahsediyor ki bu kurs da buna bir örnek. Son olarak, konuşmacı öğrencileri kendisine kaba proje fikirleri ve grup tercihleriyle ilgili e-posta göndermeye davet eder.

  • 00:35:00 Bu bölümde, profesör sınıf için bir proje fikrini tartışır ve kapsamını netleştirir. Projenin çok büyük olmayacağından, belki üç ev ödevine eşdeğer olacağından, ancak önemsiz de olmayacağından bahsediyor. Öğrencilerden projeyle ilgili sorularını ve girdilerini sorar ve evrişimli sinir ağları gibi konuların dahil edilme olasılığını önerir. Profesör ayrıca bazı öğrencilerin Media Lab'de bir toplantı başlattığını ve bunun başarılı bir şekilde gerçekleştiğini belirtiyor. Bahar tatilinden sonra insanların bu tür toplantılarla tekrar ilgilenip ilgilenmeyeceğini soruyor.

  • 00:40:00 Bu bölümde, konuşmacı istatistikteki ortalama ve varyans kavramlarını, bunların gerçek çıktı ve beklenen çıktıyla nasıl ilişkili olduğunu ve örnek ortalama ile beklenen ortalama arasındaki farkı tanıtıyor. Numune ortalaması, bir deneyin gerçek çıktısından hesaplanırken beklenen ortalama, bu sonuçların olasılıklarından hesaplanır. Örnek varyans ve beklenen varyans ayırt edilerek varyans da tartışılır. Konuşmacı, örnek veya olasılık sayısı arttıkça beklenen ortalama ve varyans değerlerinin gerçek değerlere yaklaşacağını açıklar.

  • 00:45:00 Bu bölümde, n örnek kümesinin ortalamasından ortalama karesel mesafeyi ölçen örnek varyansı kavramı tartışılmaktadır. İstatistikte, n eksi birin bölünmesi, bu mesafenin sıfırdan değil örnek ortalamadan hesaplandığı anlamına gelir ve n büyük olduğunda, n ile n eksi bir arasındaki fark önemli değildir. Öte yandan kovaryans, çoklu deneyler yapıldığında ve iki ayrı olayın ortak olasılığı hesaplandığında matris manipülasyonunu içeren daha derin bir fikirdir.

  • 00:50:00 Bu bölümde, konuşmacı kovaryans çıktısının iki uç noktasını tartışıyor: bağımsız çıktılar ve tamamen bağımlı çıktılar. Bağımsız çıktıların kovaryansı 0 iken, tamamen bağımlı çıktıların maksimum kovaryansı vardır, burada bir çıktı tamamen diğeri tarafından belirlenir. Konuşmacı, bu kavramı açıklamak için birbirine yapıştırılmış madeni paraları çevirme örneğini kullanır. Bağımlı çıktılar için kovaryans matrisi tersine çevrilemez ve simetrik pozitif tanımlı veya yapıştırılmış durum için yarı kesin olmayacaktır. Konuşmacı, bir evde birden fazla kişinin yaşadığı anket senaryolarında, bir miktar kovaryans beklenebileceğini, ancak bunun tamamen bağımsız olmayacağını belirtiyor.
19. Saddle Points Continued, Maxmin Principle
19. Saddle Points Continued, Maxmin Principle
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 20. Tanımlar ve Eşitsizlikler



20. Tanımlar ve Eşitsizlikler

Videonun bu bölümünde konuşmacı, olasılık teorisindeki beklenen değer, varyans ve kovaryans matrisleri gibi çeşitli kavramları tartışıyor. Markov'un eşitsizliği ve Chebyshev'in eşitsizliği de olasılıkları tahmin etmek için temel araçlar olarak tanıtıldı. Konuşmacı daha sonra Markov'un eşitsizliği ile Chebychev'in eşitsizliği arasındaki ilişkiyi açıklamaya devam ediyor ve bunların nasıl aynı sonuca yol açtığını gösteriyor. Olasılık teorisinde temel bir araç olan kovaryans ve kovaryans matrisi kavramı da tanıtıldı. Video aynı zamanda ortak olasılıklar ve tensörler fikrini araştırıyor ve madeni paraları birbirine yapıştırmanın bağımlılığı nasıl artırdığını ve olasılıkları nasıl değiştirdiğini açıklıyor. Son olarak, konuşmacı kovaryans matrisinin özelliklerini tartışır, bunun her zaman pozitif yarı-belirli olduğunu ve sıra 1 pozitif yarı-belirli matrislerin bir kombinasyonu olduğunu vurgular.

  • 00:00:00 Bu bölümde öğretim görevlisi beklenen değer, varyans ve kovaryans matrisini tartışır. 'e' ile sembolize edilen beklenen değer, olası tüm sonuçların olasılıklarına göre ağırlıklı ortalaması olarak tanımlanır. Öte yandan varyans, ortalama ile her bir veri noktası arasındaki mesafenin karesinin beklenen değeridir. Kovaryans matrisi de benzer şekilde ifade edilebilir. Öğretim görevlisi daha sonra kareleri yazarak ve bunları farklı şekilde birleştirerek varyans için ikinci bir ifadeyi araştırır, bu da varyansı hesaplamak için daha verimli bir yol sağlar.

  • 00:05:00 Bu bölümde konuşmacı, x karenin beklenen değerini bulmak için bir denklemi basitleştirmenin cebirsel sürecini tartışıyor. x karenin beklenen değeri eksi x eksi M karenin beklenen değerinin x karenin olasılıklarının toplamına eşdeğer olduğunu gösteriyor. Konuşmacı daha sonra olasılıkları ve beklentileri içeren bir istatistik eşitsizliği olan Markov eşitsizliğini tanıtarak devam eder. Markov'un büyük bir Rus matematikçi olduğunu ve Markov zincirlerini ve süreçlerini kitabın ilerleyen kısımlarında göreceklerini belirtiyor.

  • 00:10:00 Bu bölümde konuşmacı, X'in belirli bir sayıdan büyük veya ona eşit olma olasılığını tahmin etmeye yardımcı olabilecek Markov eşitsizliğini açıklıyor. Eşitsizlik, X'in a'dan büyük veya a'ya eşit olma olasılığının, X'in a'ya bölünmesiyle elde edilen ortalamadan küçük veya ona eşit olduğunu belirtir. Konuşmacı, birin ortalamasını ve üçün bir değerini kullanarak, X'in üçten büyük veya üçe eşit olma olasılığının 1/3'ten küçük veya ona eşit olduğunu gösteren bir örnek verir. Ancak konuşmacı, bu eşitsizliğin yalnızca olumsuz olmayan olaylar için geçerli olduğunu ve negatiften pozitif sonsuza kadar değişen çıktıları olan olaylarla kullanılamayacağını belirtiyor.

  • 00:15:00 Videonun bu bölümünde, konuşmacı 3'ten büyük veya eşit olma olasılığını göstermek için özel bir durum kullanmaktan bahsediyor. Belirli bir denklem yazmak için ortalamanın tanımını kullanıyorlar ve ardından varsayımlarda bulunuyorlar Markov eşitsizliğini sağlamak için X1'den X5'e kadar olan değerler hakkında. Olasılıkların toplamının 1 olduğunu ve hepsinin 0'dan büyük veya eşit olduğunu belirtirler. Konuşmacı daha sonra denklemi değiştirerek 3'ten büyük veya ona eşit olma olasılığının 1/'den küçük veya ona eşit olduğunu gösterir. 3 belirli değerleri denklemden çıkararak. Denklemin Markov eşitsizliğini sağladığını göstererek sonuca varırlar.

  • 00:20:00 Bu bölümde konuşmacı Markov ve Chebyshev'in olasılık eşitsizliklerini tartışıyor. Markov eşitsizliği, bir değişkenin belirli bir değerden büyük veya ona eşit olma olasılığını tahmin etmeyi içerir ve yalnızca değişkenlerin tümü sıfırdan büyük veya sıfıra eşit olduğunda geçerlidir. Chebyshev eşitsizliği ise bir değişkenin ortalamadan belirli bir uzaklıkta olma olasılığını ele alır ve girdiler hakkında herhangi bir varsayımda bulunmaz. Bu iki eşitsizlik, olasılık teorisindeki olasılıkları tahmin etmek için temel araçlardır.

  • 00:25:00 Bu bölümde konuşmacı Markov'un eşitsizliği ile Chebychev'in eşitsizliği arasındaki ilişkiyi açıklıyor. X eksi M'nin karesi olan yeni bir Y değişkeni sunuyor ve ortalamasının nasıl hesaplanacağını açıklıyor. Konuşmacı daha sonra Markov'un Y'ye eşitsizliğini ve Chebychev'in X'e eşitsizliğini uygulayarak bunların nasıl aynı sonuca yol açtığını gösterir. Son olarak, kovaryans kavramını ve kovaryans matrislerini tanıtıyor.

  • 00:30:00 Bu bölümde, konuşmacı kovaryans kavramını ve M'ye M matrisi olan kovaryans matrisini tanıtıyor; burada M, aynı anda yapılan deney sayısıdır. Konuşmacı, bu kavramı göstermek için madeni para başına bir çıktı (X) ile iki madeni parayı çevirme örneğini kullanır. İki madeni para bağımsız olarak çevrilirse, çıktılar arasında bir korelasyon olmaz, ancak birbirine yapıştırılırsa, çıktılar ilişkilendirilir ve ortak olasılıklar 2x2'lik bir matrise konur.

  • 00:35:00 Bu bölümde, konuşmacı bağımsız madeni paraları içeren deneysel kurulumlar için ortak olasılıklar ve matrisler kavramını tartışıyor. Bağımsız adil madeni paralarla veya madeni paraların birbirine yapıştırıldığı üç deneyin olduğu durumlarda, üç yollu bir yapı veya tensör fikrini keşfederler. Tensörde ortaya çıkan girişler, farklı sonuçların olasılığını hesaplamak için kullanılabilen ortak olasılıklar olacaktır. Konuşmacı, yapıştırılmamış bir deneyin basit bir örneğindeki girişlerin sekizde bir olduğunu, madeni paraları birbirine yapıştırmanın bağımlılığı artırdığını ve olasılıkları değiştirdiğini belirtiyor.

  • 00:40:00 Videonun bu bölümünde, konuşmacı üç madeni parayı atma ortak olasılığını ve bunun 3-yollu bir matriste nasıl temsil edilebileceğini tartışıyor. Tensörler ve kovaryans matrisleri kavramından bahseder ve ikincisini, olası tüm sonuçların bir toplamı olarak ifade edilen X ve Y adlı iki deneyin ortak sonucunun varyansı olarak tanımlar. Konuşmacı ayrıca P IJ sembolünü ve bunun farklı konfigürasyonlarda madeni paraları birbirine yapıştırma ve çözme ile nasıl ilişkili olduğunu açıklar.

  • 00:45:00 Videonun bu bölümünde, konuşmacı iki olayın - X ve Y - ortak olasılığını ve bu olasılığın farklı değer çiftleri için nasıl hesaplanacağını tartışıyor. Konuşmacı, belirli bir yaş ve boyun olasılığını hesaplamak da dahil olmak üzere ortak olasılığın nasıl kullanılacağına dair örnekler sunar. Konuşmacı ayrıca her olayın bireysel olasılıkları olan marjinal olasılıkları tanımlar ve bir matristeki satırlar veya sütunlar boyunca olasılıkların nasıl toplanacağını açıklar. Konuşmacı daha sonra kovaryans matrisini tanımlamaya devam eder ve girişlerinin nasıl hesaplanacağını açıklar.

  • 00:50:00 Bu bölümde konuşmacı kovaryans matrisi ve özelliklerinden bahsediyor. X deneyinin varyansının tüm PIJ'lerin toplanmasından elde edildiğini, Y deneyinin varyansının ise Sigma Y kare değeri ile verildiğini açıklıyor. X ve Y arasındaki kovaryans, P IJ'nin X'in ortalamasından uzaklığının ve Y'nin ortalamasından uzaklığının çarpımının toplamıdır. Bağımsız madeni paralarda kovaryans sıfır olurken, yapıştırılmış madeni paralarda kovaryans Sigma X kare Sigma Y kare ile aynı olacaktır. Yapıştırılmış madeni para durumunda matrisin determinantı sıfırdır, bu da kare kovaryansın Sigma X kare Sigma Y kare ile aynı olduğunu gösterir. Kovaryans matrisi her zaman pozitif yarı-belirlidir ve 1. sıradaki pozitif yarı-belirlinin bir kombinasyonudur, yani pozitif yarı-belirli veya pozitif-belirlidir.
20. Definitions and Inequalities
20. Definitions and Inequalities
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 21: Bir Fonksiyonu Adım Adım Küçültme



Ders 21: Bir Fonksiyonu Adım Adım Küçültme

Bu video ders, bir fonksiyonu en aza indirmek için kullanılan temel algoritmaları ve bunların yakınsama oranlarını, özellikle Newton'un yöntemini ve en dik inişini tartışıyor. Ayrıca, işlevin bir minimuma sahip olmasını sağlayan dışbükeyliğin önemini vurgular ve dışbükey kümeler ve dışbükey işlevler kavramını tanıtır. Öğretim görevlisi, küresel bir minimumun aksine, eyer noktalarına veya yerel minimumlara sahip olup olmadığını belirleyen bir fonksiyonda dışbükeyliğin nasıl test edileceğini açıklar. Video, Newton'un yönteminin tamamen ikinci dereceden olmayan daha ucuz bir versiyonu olan Levenberg Marquardt'ın tartışılmasıyla sona eriyor.

  • 00:00:00 Bu bölümde öğretim görevlisi, derin öğrenmeye giden temel algoritma olan optimizasyonun temellerini tartışır. Ders, Taylor serisini açıklayarak başlar ve fonksiyon birden fazla değişkenli olduğunda Taylor serisinin nasıl genişletileceğini göstermekle devam eder. Öğretim görevlisi daha sonra, F'nin her bir X değişkenine göre kısmi türevleri olan F'nin gradyanını tanıtır. Son olarak, ikinci dereceden terim açıklanır ve ders, ikinci türevler ve daha fazla değişkenle nasıl değiştikleri tartışılarak bitirilir.

  • 00:05:00 Dersin bu bölümünde, bir fonksiyonun ikinci türevlerinin matrisi olan Hessian matrisi kavramı tanıtılmaktadır. Hessian matrisi simetriktir ve hesaplanması, n'nin küçük ila orta derecede büyük değerleri için uygundur. Jacobian matrisi olan vektör fonksiyonu için, girişlerin farklı değişkenlere göre fonksiyonun türevleri olduğu paralel bir resim vardır. Bunlar, optimizasyon problemlerinde denklemleri çözmek için kullanılan çok değişkenli analizin gerçekleridir.

  • 00:10:00 Bu bölümde öğretim görevlisi, Newton'un n bilinmeyenli denklem sistemlerini çözme yöntemini tartışıyor; bu, belirli bir işlevi en aza indirmeyi içerir. Newton'un yöntemi, F eşittir 0, F'nin sıfıra eşit olduğu ve toplamda n denklem olduğu n bilinmeyenli n denklemi çözmenin en iyi yoludur. Öğretim görevlisi, bir fonksiyon olarak yazılabilen x kare eksi 9 eşittir 0 denkleminin Newton yöntemi kullanılarak nasıl çözüleceğini gösterir ve yöntemin nasıl uygulanacağını adım adım gösterir.

  • 00:15:00 Bu bölümde öğretim görevlisi, Newton yönteminin bir işlevi en aza indirmek için nasıl kullanıldığını ve ne kadar hızlı yakınsayacağını nasıl belirleyeceğini tartışır. X alt K + 1'i belirleyen formülü basitleştirerek başlarlar ve X alt K tam olarak 3 ise X alt K + 1'in de 3 olacağını gösterirler. Daha sonra hatanın ne kadar hızlı sıfıra yaklaştığına odaklanırlar ve her ikisinden de 3 çıkarırlar. 1 bölü X alt K'yi çarpanlarına ayırmak için taraflar. Denklemin basitleştirilmesi, K + 1 adımındaki hatanın her adımda karesinin alındığını gösterir, bu da Newton'un yönteminin yeterince yakın yürütülürse neden harika olduğunu kanıtlar.

  • 00:20:00 Bu bölümde öğretim görevlisi, Newton'un optimizasyon yöntemini kullanmayı ve bunun binlerce hatta yüzbinlerce değişkenli çok karmaşık kayıp fonksiyonlarına nasıl uygulanabileceğini tartışıyor. Ders iki yöntemi kapsar -- en dik iniş ve Newton'un yöntemi -- burada en dik iniş F'nin gradyanı yönünde hareket etmeyi içerir, ancak adım boyutuna karar verme özgürlüğü vardır. Öte yandan, Newton'un yöntemi F'nin ikinci türevini hesaba katar ve daha hızlı yakınsamaya izin verir, ancak aynı zamanda istenmeyen çözümlere yakınsayabilir veya belirli başlangıç noktalarında patlayabilir. Bu, bazı başlangıç noktalarının istenen çözüme yol açtığı, diğerlerinin ise istenmeyenlere veya sonsuza götürdüğü çekim bölgeleri kavramına yol açar.

  • 00:25:00 Bu bölümde öğretim görevlisi bir fonksiyonu adım adım en aza indirmek için iki yöntemi tartışıyor: en dik iniş ve Newton yöntemi. Her ikisi de n-boyutlu uzayda yinelemeli olarak bir yön seçmeyi ve bu yön boyunca belirli bir mesafeyi hareket ettirmeyi içerir, ancak en dik iniş, yönü seçmek için fonksiyonun gradyanını kullanırken, Newton'un yöntemi Hessian veya ikinci türevi kullanır. Ders ayrıca, tam hat arama kavramını ve bu yöntemlerde uygun bir öğrenme oranı seçmenin önemini açıklar.

  • 00:30:00 Bu bölümde öğretim görevlisi, bir fonksiyonu en aza indirmek için kullanılan temel algoritmaları ve bunların yakınsama oranlarını tartışır. Öğretim görevlisi, Newton'un yönteminin ikinci dereceden bir yakınsama oranına sahip olduğunu ve yeterince yakından başlatılırsa onu süper hızlı hale getirdiğini açıklıyor. Buna karşılık, en dik iniş algoritması doğrusal bir yakınsama oranına sahiptir ve bu da onu daha az verimli hale getirir. Öğretim görevlisi, bu problemleri çözmek için başlangıç noktasının, fonksiyonun bir minimuma sahip olmasını sağlayan dışbükeylik olması gerektiğini vurgular. Öğretim görevlisi dışbükey kümeleri ve fonksiyonları tanımlar ve bunların bir dışbükey kümedeki noktalar için bir işlevi en aza indirmedeki önemini açıklar. Ders, Newton'un yönteminin tamamen ikinci dereceden olmayan daha ucuz bir versiyonu olan Levenberg Marquardt'ın tartışılmasıyla sona erer.

  • 00:35:00 Videonun bu bölümünde, konuşmacı bir işlevin nasıl küçültüleceğini tartışıyor. Fonksiyonun kısıtlamaları dışbükey bir küme ile tanımlanır; bu, küme içindeki iki nokta arasına çizilen herhangi bir çizginin küme içinde kalması gerektiği anlamına gelir. Konuşmacı, birleştirildiğinde dışbükey bir küme oluşturmayan, üst üste binen iki üçgen örneğini verir.

  • 00:40:00 Bu bölümde dışbükey küme kavramı ve dışbükey fonksiyonlar tanıtılmaktadır. İki dışbükey kümenin kesişiminin her zaman dışbükey olduğu ve boş kümenin dışbükey bir küme olduğu kabul edilir. Videodaki notlar, fonksiyonları en aza indirirken bu kavramları anlamanın önemini vurguluyor, çünkü prototip problemi dışbükey bir resimle fonksiyonları bulmayı içeriyor. Video ayrıca bir dışbükey fonksiyonun tanımını bir dışbükey kümenin tanımına bağlar ve bir dışbükey işlevin grafiğinin bir kaseye benzediğini, ancak bu yüzeydeki noktaların dışbükey kümeler olmadığını belirtir. Bununla birlikte, grafikteki noktalar kümesi bir dışbükey kümedir.

  • 00:45:00 Dersin bu bölümünde, konuşmacı dışbükey fonksiyon için bir testi tartışıyor. Minimum ve maksimum fonksiyon oluşturmak için iki dışbükey fonksiyonun kullanılabileceğini ve bunlardan birinin dışbükey olacağını, diğerinin olmayacağını açıklıyor. Minimum işlevin içinde bir bükülme olacaktır ve bu nedenle dışbükey olmayacak, maksimum işlevi ise dışbükey olacaktır. Konuşmacı ayrıca, bu testin maksimum 1500 fonksiyona kadar genişletilebileceğinden ve 1500 fonksiyonun tümü dışbükey ise maksimumlarının da dışbükey olacağından bahseder.

  • 00:50:00 Bu bölümde, konuşmacı bir fonksiyonda dışbükeyliğin nasıl test edileceğini açıklar. Analizde yalnızca bir değişkeni olan bir fonksiyon için, ikinci türevinin pozitif mi yoksa sıfır mı olduğu kontrol edilerek dışbükey bir fonksiyon kanıtlanabilir. Çok değişkenli bir vektör fonksiyonu ile uğraşırken, fonksiyona simetrik bir F matrisi eklenir. İkinci türevler bir matrisle sonuçlandığından, buradaki dışbükeylik testi Hessian için pozitif yarı kesin olacaktır. Dışbükey problemlerin eyer noktaları veya yerel minimumları yoktur, yalnızca küresel minimumları vardır, bu da onları arzu edilir kılar.
Lecture 21: Minimizing a Function Step by Step
Lecture 21: Minimizing a Function Step by Step
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 22. Eğimli İniş: Minimuma Yokuş Aşağı



22. Eğimli İniş: Minimuma Yokuş Aşağı

"Gradient Descent: Downhill to a Minimum" adlı videoda konuşmacı, amacın bir işlevi en aza indirmek olduğu optimizasyon ve derin öğrenmede gradyan inişin önemini tartışıyor. Konuşmacı eğimi ve Hessian'ı tanıtır ve ikinci dereceden bir işlev kullanarak en dik inişin adımlarını gösterir. Konuşmacı ayrıca gradyan ve Hessian'ın nasıl yorumlanacağını ve bunların dışbükeyliği ölçmedeki rollerini tartışır. Konuşmacı, yakınsama hızını kontrol etmede koşul sayısının önemini vurgulayarak uygun öğrenme oranını seçme konusunu derinlemesine araştırır. Video ayrıca, ağır top yöntemi de dahil olmak üzere eğimli iniş kavramını anlamanıza yardımcı olacak pratik örnekler ve formüller sağlar.

  • 00:00:00 Bu bölümde, konuşmacı sinir ağlarında, derin öğrenmede, makine öğreniminde ve genel olarak optimizasyonda merkezi algoritma olarak gradyan inişini tartışıyor. Amaç, bir fonksiyonu en aza indirmektir ve ikinci türevleri almak için çok fazla değişken varsa, odak fonksiyonun birinci türevlerine odaklanır. Konuşmacı, iki bilinmeyenli saf ikinci dereceden bir fonksiyonun önemli bir örneğine dalmadan önce gradyan ve Hessian fikrini ve dışbükeyliğin rolünü tanıtıyor. Örnek aracılığıyla, konuşmacı en dik iniş adımlarını ve bunların minimum nokta olan cevaba ne kadar çabuk yaklaştığını gösterir. Konuşmacı ayrıca yakınsama hızında koşul sayısının önemini ve bir fonksiyonun gradyanının nasıl yorumlanıp hesaplanacağını açıklar.

  • 00:05:00 Bu bölümde, konuşmacı bir yüzeyin gradyanını ve Hessian'ını nasıl yorumlayacağını açıklıyor. Konuşmacı, gradyanın sabit olduğu ve Hessian'ın yalnızca sıfırın ikinci türevlerini içerdiği bir yüzey örneğini kullanarak, yüzeyin nasıl görselleştirileceğini ve gradyanı ve Hessian'ı en dik çıkış veya alçalma ve seviye kümeleri cinsinden nasıl yorumlayacağını gösterir. Konuşmacı, ikinci türevlerin Hessian matrisinin bize bir yüzeyin şeklini ve farklı yönlerde ne kadar hızlı değiştiğini anlattığını vurgular.

  • 00:10:00 Bu bölümde, bir fonksiyonun dışbükeyliğini ölçmek için bir araç olarak Hessian kavramı tanıtılmaktadır. Bir fonksiyonun Hessian'ı bize bir yüzeyin dışbükey olup olmadığını söyler, pozitif yarı-belirli veya pozitif tanımlı Hessian'lar dışbükeyliği gösterir. Doğrusal bir fonksiyon dışbükeydir ancak tam olarak dışbükey değildir, tam olarak dışbükey bir işlev yukarı doğru bükülür. Tam olarak dışbükey bir fonksiyon örneği, yani 1/2 x devrik x, gradyan sx karenin yarısı olduğunda minimum bir değere sahip olarak verilmiştir.

  • 00:15:00 Bu bölümde, konuşmacı ikinci dereceden bir fonksiyonun minimum değerini gradyan inişini kullanarak bulma kavramını tartışıyor. Minimuma, eğimin sıfır olduğu bir noktada ulaşılır ve bu nokta argh men olarak gösterilir. Konuşmacı, bunun fonksiyonun gerçek minimum değerinden farklı olduğunu ve minimum değerin kendisinden ziyade minimuma ulaşılan noktayı bulmaya odaklanıldığını vurgular. Bu özel örnekte, lineer terim olmaması nedeniyle minimum değer sıfırdır.

  • 00:20:00 Bu bölümde, konuşmacı ikinci dereceden bir fonksiyonun minimumunu bulmaya ilişkin temel minimizasyon sorusunu tartışıyor. Fonksiyon sıfırdan geçer ve belli bir noktada dibe vurur ve o noktayı takarak en düşük seviyesini belirleyebiliriz. Konuşmacı, dikkate değer bir dışbükey işlevden bahsediyor ve dışbükeyliğin işleri gerçekten çalıştıran şey olduğunu belirtiyor. Bu fonksiyon bir matris fonksiyonudur ve N kareli değişken içerir.

  • 00:25:00 Bu bölümde konuşmacı, bir matrisin determinantı ve ardından negatif işaretli logaritması alınarak elde edilen bir dışbükey fonksiyonu tartışıyor. Ortaya çıkan fonksiyon dışbükeydir ve belirli bir matris için kısmi türevler, o matrisin tersinin girişleri olarak işlev görür. Konuşmacı daha sonra bir matrisin determinantının girişlerine göre türevini inceler ve bu türevleri gradyan iniş algoritmalarında hesaplamanın önemini vurgular.

  • 00:30:00 Bu bölümde, konuşmacı determinantı ve onun 1. Satırda lineer olduğunu belirten temel özelliğini açıklıyor. Ayrıca bir determinantın kofaktör açılımı için formüle giriyor ve bunu gradyanın X tersinin girişleri. Konuşmacı daha sonra gradyan inişini tanıtır ve adım boyutunu ve s'nin X'teki gradyanını içeren formülünü sağlar. Karar verme için geriye kalan tek girdi adım boyutudur.

  • 00:35:00 Bu bölümde, eğitmen eğimli inişte uygun öğrenme oranını seçmenin önemini tartışır. Öğrenme oranı çok büyükse, fonksiyon salınım yapacak ve optimize edilmesi zor olacaktır. Öte yandan, öğrenme oranı çok küçükse, algoritmanın yakınsaması çok fazla zaman alacaktır. Optimum öğrenme oranını seçmenin bir yolu, tam satır aramasıdır, ancak bu, büyük problemler için zaman alıcı olabilir. Bunun yerine, insanlar tipik olarak uygun bir öğrenme oranı tahmin eder ve bunu geriye doğru satır arama yoluyla gerektiği gibi ayarlar. Eğitmen, yakınsama hızını kontrol etmede koşul sayısının önemini vurgular ve tam doğru aramanın işlevi ne kadar azaltacağı sorusunu sorar.

  • 00:40:00 Bu bölümde, konuşmacı eğim inişini daha iyi anlamak için bir örneği tartışıyor. Karşılaştırmaların yapılmasına izin veren kesin cevapların bilindiği yerde belirli bir işlev tanıtılır. Konuşmacı, bu işlevin yüzeyindeki bir noktadan başlayarak gradyan iniş formülünü uygular ve bu özel işlev için yinelemeleri hesaplar. Ardından konuşmacı, gradyan inişini anlamaya yardımcı olmak için mümkün olan en iyi örnek olarak alınacak güzel bir formül sunar.

  • 00:45:00 Bu bölümde, konuşmacı (1-B)/(1+B) oranının, yokuş iniş sırasında yakınsama hızını belirlemede nasıl çok önemli olduğunu tartışıyor. B sıfıra yakınsa, oran bire yakındır, bu da yavaş yakınsamaya yol açar ve B bire yakınsa, oran sıfıra yakındır, bu da hızlı yakınsamaya yol açar. Konuşmacı, dar vadinin minimuma yaklaşırken nasıl yavaş yakınsamaya neden olabileceğini açıklamak için seviye kümeleri ve elipsler örneğini kullanır. Konuşmacı, optimizasyon için iyi bir koşul sayısının önemini vurgular.

  • 00:50:00 Bu bölümde konuşmacı, gradyan inişin sonunda belirli bir noktaya ulaşmak için zikzak yörüngeli bir eğriye nasıl yaklaştığını tartışıyor. 1 - B/ (1 + B) çarpanının kritik bir rol oynadığını ve bir dışbükey fonksiyon için bu miktarın en dik inişin yakınsamasını belirlemek için çok önemli olduğunu vurguluyor. Bir sonraki ders, her noktada en dik inişle yönlendirmek yerine hareketin hızlanmasına izin veren fazladan bir terim eklemeyi içeren momentumu veya ağır topu tartışacak. Buradaki fikir, gerçek hayatta olduğu gibi, ağır bir topun momentumunun kontrolü ele almasına ve aşağı yuvarlanmasına izin vermektir.
22. Gradient Descent: Downhill to a Minimum
22. Gradient Descent: Downhill to a Minimum
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 23. Hızlanan Eğimli İniş (Momentum Kullanın)



23. Gradient Descent'i Hızlandırma (Momentum Kullanın)

Bu video, hızlanan gradyan inişinde momentum kavramını tartışıyor. Sunum yapan kişi, temel gradyan iniş formülünü açıklar ve momentum eklemenin, sıradan yöntemden daha hızlı inişle sonuçlanabileceğini ve sonuçta önemli iyileştirmeler sağlayabileceğini gösterir. Ayrıca sürekli bir en dik alçalma modelini tartışıyorlar ve bunun momentum terimli ikinci dereceden bir diferansiyel denklem olarak nasıl analiz edilebileceğini açıklıyorlar. Sunucu, matrisin özdeğerlerini olabildiğince küçük yapmak için s ve beta değerlerini seçerek en büyük özdeğeri en aza indirmek için momentum kullanırken her iki özdeğeri de en aza indirmenin önemini vurgular. Ayrıca Nesterov'un yöntemini tartışıyorlar ve iki, üç veya daha fazla adım geriye giderek daha fazla iyileştirme elde etmenin mümkün olabileceğini öne sürüyorlar.

  • 00:00:00 Bu bölümde, konuşmacı temel gradyan iniş formülünü tartışıyor; burada yeni nokta eski nokta eksi adım boyutu çarpı iniş yönü olan XK'deki negatif gradyandır. Eğimli inişte zikzaklardan kaçınmak için ivme eklemek, normal yöntemden daha hızlı inişle sonuçlanır. Ayrıca, Nestoroff adlı bir Rus matematikçi tarafından geliştirilen, alçalmayı hızlandıran momentuma bir alternatif var. Yüzbinlerce değişken içeren makine öğrenimi problemlerinde, her adımda bir grup eğitim örneği yapmak için küçük bir eğitim verisi kümesinin rastgele veya sistematik olarak seçildiği stokastik gradyan iniş kullanılır.

  • 00:05:00 Bu bölümde, konuşmacı, elips oluşturan sabit bir X ve Y kare fonksiyonuna sahip bir model problemi için en dik yönün inişini ve seviye kümelerini tartışır. En uygun durma noktasının seviye ayarlı elipste en uzağa teğet olduğunuz yer olduğunu ve tekrar yukarı çıkmaya başladığınızı açıklıyorlar. Konuşmacı, en dik iniş formülünü iyileştirmek için momentum terimini tanıtır ve özvektörlerin değerindeki gelişmeyi gösteren bir zig-zag modeliyle inişini izler. Konuşmacı, momentum ile ifadenin bir mucize olduğu ve önemli gelişmeler sağladığı sonucuna varır.

  • 00:10:00 Videonun bu bölümünde, konuşmacı hızlanan eğimli inişte momentumun kullanımını tartışıyor. Momentumdaki bozunma terimi size bozulmanın ne kadar hızlı olduğunu söyler ve momentumla birlikte bu 1 eksi B bölü 1 artı B terimi, bir eksi karekök B bölü 1 artı B'nin karekökü olarak değişir. B, 1 bölü 100'dür ve yeni X, eski X eksi gradyan ve bize biraz hafıza sağlayan fazladan bir terimdir. Bu terim, bir adım boyutuna sahip yeni bir Z miktarının alınmasını içerir ve Z'yi sadece eğim olarak almak yerine, ki bu en dik iniş olur, konuşmacı önceki Z'nin arama yönü olan çoklu bir beta'sını ekler.

  • 00:15:00 Bu bölümde, konuşmacı hızlanan eğimli inişte momentum kavramını tartışıyor. Konuşmacı, işlevi temsil etmek için bir nokta kullanmak yerine, maliyet işlevi vadisinde daha hızlı hareket eden ağır bir top kullanmayı önerir. Bu, önceki adımı hesaplamalara dahil ederek elde edilir ve iki seviyeli bir yöntem yerine üç seviyeli bir yöntem elde edilir. Konuşmacı daha sonra bunu sürekli bir en dik iniş modeliyle ilişkilendirir ve bunun momentum terimli ikinci dereceden bir diferansiyel denklem olarak nasıl analiz edilebileceğini açıklar. Daha sonra, bunun daha verimli ve daha hızlı bir gradyan iniş algoritması oluşturmak için kullanılabilecek iki birinci dereceden denklem sistemi olarak nasıl yazılacağını gösterirler.

  • 00:20:00 Bu bölümde konuşmacı, hızlandırılmış gradyan iniş algoritmasında k ileri doğru hareket ettiğinde ne olduğunun nasıl analiz edileceğini tartışıyor. XZ değişkeni bir matris ile çarpıldığı için her adımda sabit bir katsayı problemi olduğunu açıklıyorlar. Konuşmacı ayrıca, s'nin her bir özvektörünü izlemek için, formülü vektörler yerine skaler cinsinden yeniden yazmalarına izin veren her bir özdeğeri takip ettiklerinden bahseder.

  • 00:25:00 Bu bölümde, konuşmacı bir özvektörün nasıl izleneceğini ve tüm problemi skaler hale getirmek için nasıl kullanılacağını tartışıyor. Adım boyutunu ve momentum katsayısını seçerek, güncellemek için her adımda özvektörün katsayılarını çarpabilen bir matris oluşturabilirler. s ve beta'yı olabildiğince küçük yaparak, algoritmanın tüm olası lambda aralığında kayıp fonksiyonunu en aza indirmesini sağlayabilirler. Amaç, süreci olabildiğince verimli hale getirmek için bu değerleri seçmektir.

  • 00:30:00 Bu bölümde konuşmacı, simetrik pozitif tanımlı bir matrisin en büyük özdeğerinin en küçük özdeğere oranı olan koşul sayısı kavramını açıklar. Daha yüksek bir koşul numarası, daha zor bir problem anlamına gelir ve daha düşük olan, daha kolay bir problem anlamına gelir. Konuşmacı, matrisin özdeğerlerini olabildiğince küçük yapmak için s ve beta değerlerini seçerek gradyan inişini hızlandırmak ve en büyük özdeğeri en aza indirmek için momentumun nasıl kullanılacağını açıklar. Konuşmacı, bir küçük ama büyük bir özdeğere sahip olmanın ölümcül olabileceğinden, her iki özdeğeri de en aza indirmenin gerekli olduğunu vurguluyor.

  • 00:35:00 Videonun bu bölümünde konuşmacı, lambda, m ve capya'ya bağlı özdeğerlere dayalı olarak ikiye-iki bir matris için en uygun s ve beta parametrelerini bulma problemini tartışıyor. Amaç, mümkün olan en küçük büyük özdeğerle sonuçlanan ve daha hızlı yakınsamaya yol açacak parametreleri seçmektir. Konuşmacı, küçük m ve büyük M arasındaki orana bağlı olan optimal s ve beta formülünü sunar ve bu formüle dayalı olarak elde edilen minimum özdeğerin nasıl hesaplanacağını açıklar. Nihayetinde konuşmacı, bu optimal s ve beta seçiminin, belirli bir sayıdan daha küçük olan özdeğerlerle sonuçlanarak daha hızlı yakınsamaya yol açtığı sonucuna varır.

  • 00:40:00 Bu bölümde konuşmacı, makine öğreniminde yakınsama oranını iyileştirmek için momentumu kullanmaktan bahsediyor. Nesterov'un önceki zaman değerini içeren biraz farklı bir fikir kullanma ve gradyanı farklı bir noktada değerlendirme yönteminden bahsediyorlar. Konuşmacı, ADA grad gibi önceki değerleri toplamak için basit bir formül içeren makine öğrenimi için şu anda kullanımda olan çok popüler yöntemler olduğunu belirtiyor. Ayrıca, MATLAB yazılımında ve gezegen hesaplamalarında kullanılan geriye dönük fark formüllerinde yapıldığı gibi, iki veya üç adım veya daha fazla geri giderek daha fazla iyileştirme elde etmenin mümkün olabileceğini öne sürüyorlar.

  • 00:45:00 Bu bölümde sunum yapan kişi momentum teriminden ve XK ile XK eksi 1 arasındaki bir noktada gradyanı değerlendirmeyi içeren Nesterov'dan bahsediyor. F'nin gradyanı için değerlendirme noktası tamsayı olmayan bir noktada, Bu beklenmedik ve garip çünkü bu bir ağ noktası değil. Bu, XK artı 1, XK ve XK eksi 1'i içerir, bu nedenle ikinci dereceden bir yöntemdir. Analiz etmek için, Nesterov'daki katsayıları optimize etmek için iki birinci dereceden adım olarak yazma süreci izlenir. Bu süreç, matrisi olan tek adımlı birleşik bir sistem olarak yazmayı, matrisi bulmayı, matrisin özdeğerlerini bulmayı ve bu özdeğerleri mümkün olduğu kadar küçük yapmayı içerir.
23. Accelerating Gradient Descent (Use Momentum)
23. Accelerating Gradient Descent (Use Momentum)
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 24. Doğrusal Programlama ve İki Kişilik Oyunlar



24. Doğrusal Programlama ve İki Kişilik Oyunlar

Bu YouTube videosu, doğrusal programlama ve iki kişilik oyunlar konusunu kapsar. Doğrusal programlama, bir dizi doğrusal kısıtlamaya tabi olan bir doğrusal maliyet fonksiyonunu optimize etme sürecidir ve ekonomi ve mühendislik gibi alanlarda kullanılır. Video, simpleks yöntemi ve iç nokta yöntemleri dahil olmak üzere doğrusal programlamada kullanılan algoritmaları ve asal problem ile ikili problemin yakından bağlantılı olduğu ve simpleks yöntemi kullanılarak çözülebileceği dualite kavramını açıklar. Video ayrıca, bir ağdaki maksimum akışta bir üst sınır bulma ve matrisli bir oyunu çözme süreci de dahil olmak üzere iki kişilik oyunlara doğrusal programlamanın nasıl uygulanabileceğini de kapsar. Son olarak video, bu teknikleri üç veya daha fazla kişilik oyunlara uygulamanın sınırlamalarını kısaca tartışıyor ve bir sonraki dersin stokastik gradyan inişini kapsadığından bahsediyor.

  • 00:00:00 Bu bölümde öğretim görevlisi, optimizasyonun bir parçası olarak doğrusal programlama konusunu tanıtır ve bunun ne olduğunu ve nasıl çalıştığını açıklar. Doğrusal programlamayı, bir dizi doğrusal kısıtlamaya tabi olan bir doğrusal maliyet fonksiyonunu optimize etme süreci olarak tanımlar. Maliyet vektörü ve kısıtlama denklemlerinin her ikisinin de doğrusal olduğunu belirtiyor. Bununla birlikte, kısıtlamalar söz konusu olduğunda, kısıtlama denklemleri sorunu daha karmaşık hale getirebileceğinden, problem aslında doğrusal değildir. Buna rağmen, doğrusal programlama optimizasyonun önemli bir parçasıdır ve genellikle ekonomi ve mühendislik gibi alanlarda kullanılır.

  • 00:05:00 Bu bölümde konuşmacı doğrusal programlama ve iki kişilik oyunları tartışıyor. Lineer cebir dilinde bir kısıt kümesi olan olurlu X kümesi kavramını açıklar ve kavramı göstermek için bir görselleştirme çizerler. Bir üçgenin üç köşesinden birinin nasıl kazanan olduğunu açıklamak için basit kısıtlamalar ve eşitsizliklerle bir fonksiyonu en aza indirme örneğini kullanırlar; bu, düzlemin oktant ile kesiştiği noktada minimum değeri bularak çözülür. Maliyet doğrusaldır ve çözüm ya üç köşeden biridir ya da bu köşeler boyunca eşit değerler oluştuğundadır. Verilen örnekte, üç sıfır sıfır kazanan köşedir.

  • 00:10:00 Bu bölümde video, doğrusal programlamada kullanılan iki algoritmayı açıklıyor: tek yönlü yöntem ve iç nokta yöntemleri. Simpleks yöntemi, optimum köşeye ulaşmak için uygun kümenin kenarları boyunca hareket ederken, iç nokta yöntemleri türevleri almak ve en aza indirmek için uygun kümenin içine girer. İç yöntem daha yeni bir fikirdir ve Karmarkar tarafından önerilen tam algoritma günümüze ulaşamamış olsa da, fikir bugün hala kullanılmakta ve araştırılmaktadır. Her iki algoritma da hala birbirleriyle rekabet halindedir.

  • 00:15:00 Bu bölümde, konuşmacı doğrusal programlamayı ve doğrusal olmayan programlama, ikinci dereceden programlama, yarı kesin programlama ve iç nokta yöntemleri gibi çeşitli türlerini tartışıyor. Konuşmacı, doğrusal programlama probleminin ikili bir probleminin yaratıldığı ve birincil problemin doğrusal bir maliyet ve doğrusal eşitsizlik kısıtlamaları ile bir maksimizasyon problemine dönüştürüldüğü dualite fikrini sunar. Konuşmacı daha sonra birincil problemin ve onun ikili probleminin yakından bağlantılı olduğunu ve simpleks yöntemi kullanılarak çözülebileceğini açıklar. Buna ek olarak, konuşmacı, maksimum değerin her zaman herhangi bir olası izin verilen değerden küçük veya ona eşit olduğunu belirten temel dualite fikrini sunar. Son olarak, konuşmacı B devrik Y eşittir C devrik X eşitsizliğinin tek satırlık bir kanıtını verir.

  • 00:20:00 Bu bölümde, konuşmacı doğrusal programlamada X'in sıfırdan büyük veya sıfıra eşit önemini ve zayıf dualiteye ulaşmadaki rolünü tartışıyor. X'in sıfırdan büyük veya sıfıra eşit olması, istenen eşitsizliklerin sağlanmasını ve sistemden elde edilen sonucun doğru olmasını sağlar. Konuşmacı, dualite kavramından ve bunun lineer programlama ve iki kişilik oyunlarla nasıl ilişkili olduğundan bahsediyor ve her iki durumda da algoritmaya dikkat etmenin önemini vurguluyor. Konuşmacı ayrıca tartışılan kavramları göstermek için maksimum akışa eşit minimum kesintiye bir örnek sağlar.

  • 00:25:00 Bu bölümde, konuşmacı lineer programlama problemini ve iki kişilik oyunları uç kapasitelerdeki kısıtlamalarla bir ağ üzerinden akışı maksimize etme bağlamında tartışıyor. Hedefin, akış değişkeninin kenarların kapasitelerinin izin verdiği akış miktarını aşmamasını sağlarken lavabodaki akışı maksimize etmek olduğunu açıklıyorlar. Problem, tamsayı programlama kullanılarak çözülebilir, ancak tamsayı olmayan değişkenlere izin verecek şekilde güvenli bir şekilde gevşetilebilir. Konuşmacı, bu sorunun nasıl çözüleceğine dair örnekler verir ve uygun kenar kapasitelerini seçmenin önemini tartışır.

  • 00:30:00 Bu bölümde öğretim görevlisi doğrusal programlama ve iki kişilik oyunları tartışır. Spesifik olarak, bir ağdaki maksimum akışta bir üst sınır bulmayı araştırıyor ve ağda bir kaynakla giden ve bir hedefle giden kenarları ayıran bir kesime odaklanıyor. Bu örnek için maksimum akış, minimum kesimle eşleşen 14'tür. Bir sorunu optimize ederken bir üst sınır bulmak için dualite kavramı da tanıtılır.

  • 00:35:00 Bu bölümde konuşmacı doğrusal programlama ve iki kişilik oyunları tartışıyor. Büyük bir ağdaki maksimum kesim sorunu, binlerce kenarla maksimum kesim görünmese de doğrusal programlama ile hızlı bir şekilde çözülebilir. Neredeyse her zaman ortalama bir durumu olan simpleks yöntemi, çözme süresi açısından polinomdur. Konuşmacı ayrıca herhangi bir akışın kesim kapasitesini aşamadığı doğrusal programlamadaki dualiteden bahsediyor. Son olarak, konuşmacı iki kişilik oyunlardan ve oyuncuları en aza indirmek ve en üst düzeye çıkarmak için getirilere dayalı kararlar vermek için kullanılan bir getiri matrisinden bahsediyor. Oyun sıfır toplamlı bir oyundur, yani X'in yaptığı tüm ödemeler Y'ye gider.

  • 00:40:00 Bu bölümde video, X'in küçük bir sayı yapmak ve Y'nin büyük yapmak istediği bir örnek kullanarak doğrusal programlamayı ve iki kişilik oyunları tartışıyor. Bu, Y'nin her seferinde ikinci sütunu ve X'in her seferinde birinci satırı seçtiği bir eyer noktasına sahip basit bir oyunla sonuçlanır. Bununla birlikte, örnek değiştiğinde ve Y ikinci sütunu hedeflediğinde, bir eyer noktası olmadığı için X'in karma bir strateji seçmesi gerekir. Y ayrıca, X'in sonunda anladığı ve 0 ile 1 arasında en iyi seçimi bulmak için bir rekabete yol açan karma bir strateji benimser.

  • 00:45:00 Bu bölümde konuşmacı, doğrusal programlama kullanarak iki kişilik bir oyunu çözme sürecini tartışıyor ve matrisli bir oyunu çözmeye bir örnek sunuyor. Y için en uygun strateji birinci sütunda 2/3 ve ikinci sütunda 1/3 olarak çıkıyor. X için en iyi q4, bu optimal Y stratejisi göz önüne alındığında belirlenir. Konuşmacı, X için optimal için karışıklığa girmeyen başka sütunlar veya satırlar olabileceğini açıklar.

  • 00:50:00 Bu bölümde konuşmacı, doğrusal programlama ile iki kişilik oyunlar arasındaki bağlantıları tartışıyor. Dualite teoreminin önemini ve bunun optimizasyon problemlerini çözmekle nasıl ilişkili olduğunu ve bu teknikleri üç veya daha fazla kişi oyununa uygulamanın sınırlamalarını belirtiyor. Ayrıca John Nash'in hikayesini ve gelişimi ve ardından gelen trajik ölümü de dahil olmak üzere alana katkılarını kısaca anlatıyor. Son olarak, konuşmacı bir sonraki dersin stokastik gradyan inişini ele alacağından bahseder.
24. Linear Programming and Two-Person Games
24. Linear Programming and Two-Person Games
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
Neden: