Makine Öğrenimi ve Sinir Ağları - sayfa 42

 

Ders 11 -- Derin Öğrenme için Optimizasyon -- Frank Schneider



Makine Öğrenimi Sayısalları 11 -- Derin Öğrenme için Optimizasyon -- Frank Schneider

Frank Schneider, sinir ağlarını eğitmenin karmaşıklığını ve doğru optimizasyon yöntemlerini ve algoritmalarını seçmenin önemini vurgulayarak derin öğrenme için optimizasyonun zorluklarını tartışıyor. Kullanılabilir yöntemlerin ezici sayısına ve farklı algoritmaları karşılaştırmanın ve karşılaştırmanın zorluğuna dikkat çekiyor. Schneider, büyük dil modellerinin başarılı eğitiminin gerçek dünya örneklerini ve modelin başarılı bir şekilde eğitilmesini sağlamak için varsayılan olmayan öğrenme oranı çizelgelerine ve uçuş ortasında değişikliklere duyulan ihtiyacı sağlar. Schneider, kullanıcılara bu yöntemlerin nasıl kullanılacağı ve hiperparametrelerin eğitim sürecini nasıl etkilediği hakkında daha fazla bilgi sağlamanın yanı sıra uygulayıcıların kendi özel kullanım durumları için en iyi yöntemi seçmelerine yardımcı olacak kıyaslama alıştırmaları oluşturmanın önemini vurguluyor. Ayrıca Alpha gibi daha yeni yöntemleri ve bunun bir sinir ağı için eğitim sürecini yönlendirmek için nasıl kullanılabileceğini tartışıyor.

Videonun derin öğrenme için sayısal optimizasyonla ilgili ikinci bölümünde Frank Schneider, eğitim sürecindeki veri hataları ve model blokları gibi sorunları tespit etmek ve düzeltmek için ek araçlar sağlayan "Derin Hata Ayıklayıcı" aracı Kokpit'i tanıtıyor. Optimum hiperparametreler için verileri normalleştirmenin önemini, öğrenme oranları ile test doğruluğu arasındaki ilişkiyi ve sinir ağlarını stokastiklikle eğitmenin zorluklarını açıklıyor. Schneider, öğrencileri gradyanı bir dağılım olarak değerlendirerek ve uzun vadede daha iyi otonom yöntemler geliştirerek sinir ağlarının eğitimini geliştirmeye yönelik çalışmaya teşvik ediyor.

  • 00:00:00 Bu bölümde, Frank Schneider derin öğrenme optimizasyonu konusunu tanıtıyor ve sinir ağlarının eğitimiyle ilgili zorluklara genel bir bakış sunuyor. Sinir ağlarının nasıl eğitileceğine dair basit bir soru gibi görünse de, aslında bu soruyu yanıtlamanın, donanım ve yazılım konuları da dahil olmak üzere birçok yolu olduğunu açıklıyor. Bununla birlikte, dersin ana odak noktası, sinir ağlarını eğitmek için kullanılan yöntemler ve algoritmalardır ve Schneider, herkese uyan tek bir çözüm olmadığını vurgular. Midi'de büyük bir dil modelini eğiten bir grubun gerçek dünyadan bir örneğini vererek, modelin başarılı bir şekilde eğitilmesi için varsayılan olmayan bir öğrenme oranı çizelgesinin ve öğrenme oranında uçuş ortasında değişikliklerin gerekli olduğunu gösteriyor. Genel olarak, Schneider'in dersi sinir ağlarını eğitmenin karmaşıklığını ve doğru optimizasyon yöntemlerini ve algoritmalarını dikkatli bir şekilde seçmenin önemini vurgulamaktadır.

  • 00:05:00 Bu bölümde, konuşmacı, OpenAI tarafından sağlanan ve büyük bir dil modelini eğitme mücadelesine adanmış kayıt defteri örneğine atıfta bulunarak, bir sinir ağını verimli bir şekilde eğitmenin zorluklarını tartışıyor. Konuşmacı, mevcut bazı yönergeler ve sezgiler olmasına rağmen, şu anda sinir ağlarını eğitmek için etkili yöntemler bulunmadığından bahsediyor. Ders, bir sinir ağını eğitmenin neden bu kadar zor olduğunu ve durumu iyileştirmek için neler yapılabileceğini anlamaya odaklanacak. Konuşmacı, çok sayıda mevcut son teknoloji yöntem olduğundan ve bu yöntemlerden hangisinin en verimli olduğu belirsiz olduğundan, bunun normal ders yapısından farklı olacağını belirtiyor.

  • 00:10:00 Bu bölümde, konuşmacı makine öğreniminin öncelikle optimizasyon olduğu konusundaki yanlış anlamaları tartışıyor. Optimizasyon, bir kayıp ortamında minimum aramayı içerirken, makine öğreniminin amacı, eğitim verilerine en iyi uyan ve yeni verilere iyi genelleme yapan bir işlev bulmaktır. Bu, modelin tahminleri ile gerçek çıktılar arasındaki farkı ölçen bir kayıp fonksiyonunun kullanılmasıyla gerçekleştirilir. Gerçek veri dağılımı genellikle bilinmediğinden, model sonlu bir veri örneği üzerinde eğitilir ve optimizasyon süreci ampirik kayıp üzerinde çalışır. Konuşmacı, derin öğrenmenin daha yüksek boyutlu manzaralar ve anlamlı hipotezler nedeniyle daha fazla karmaşıklık içerdiğini vurgular.

  • 00:15:00 Bu bölümde Frank Schneider, optimize edilen miktar (deneysel kayıp) algoritmanın gerçekten önemsediği miktarla (gerçek kayıp) aynı olmadığından, makine öğreniminin yalnızca optimizasyon olmadığını açıklıyor. Modellerin çapraz entropi kaybı konusunda eğitildiği ancak çevirinin kalitesine göre değerlendirildiği çeviri görevlerinde olduğu gibi, fazla uydurma ve genelleme aslında trenden teste gitmekten daha karmaşıktır. Sonuç olarak, insanlar önceki gradyanları hesaba katmak ve gelecekte nasıl davranmaları gerektiğini anlamak için stokastik gradyan inişi, momentum varyansı, RMS prop ve atom gibi çeşitli yöntemler geliştirdiler. Toplamda, derin öğrenme için algoritmaları optimize etmek ve eğitmek için 150'den fazla yöntem mevcuttur.

  • 00:20:00 Bu bölümde, konuşmacı sinir ağı eğitimi için mevcut olan çok sayıda optimizasyon yöntemini ve aralarından seçim yapabileceğiniz 100'den fazla yöntemi tartışıyor. Mesele sadece bir yöntem seçmek değil, aynı zamanda onu etkili bir şekilde nasıl kullanacağımızdır. Örneğin, SGD veya Adam gibi bir optimizasyon yöntemi seçsek bile öğrenme oranı ve epsilon gibi ayarlaması zor olabilecek hiperparametrelere karar vermemiz gerekir. Konuşmacı, hangi yöntemlerin gerekli ve iyileştirilmiş olduğunu anlamak için uygun ölçütlere ihtiyacımız olduğunu ve mevcut zorluğun, derin öğrenme bağlamında "daha iyi"nin ne anlama geldiğini tanımlamak olduğunu öne sürüyor. Genel olarak, kullanıcılara bu yöntemlerin nasıl kullanılacağı ve hiperparametrelerin eğitim sürecini nasıl etkilediği hakkında daha fazla bilgi sağlamaya odaklanılmalıdır.

  • 00:25:00 Bu bölümde Frank Schneider, pekiştirme sorunları için optimizasyon, GAN'lar ve büyük dil modelleri gibi derin öğrenme eğitimi algoritmalarını karşılaştırırken ortaya çıkan zorlukları tartışıyor. Stokastikliği hesaba katmak için bu yöntemlerin birkaç kez çalıştırılması gerekebileceğinden, performanstaki farklılıkların önemli olup olmadığını belirlemek zorlaşır. Tüm genel amaçlı yöntemler için eğitimin birden çok kez tekrarlanması gerektiğinden, tüm vakaları test etmek pahalı ve zaman alıcı olabilir. Eğitmek için kullanılan yöntem, birden çok sorunu test ederken analiz edilmelidir, bu da onu daha da pahalı hale getiren hiper parametrelerde değişiklik yapılmasını gerektirir. Ayrıca Schneider, SGD ve Adam'ın, kesin parametre kümesini belirtmeden doğrudan karşılaştırılamayacak algoritma aileleri olduğunu vurguluyor.

  • 00:30:00 Bu bölümde Frank Schneider, derin öğrenme için en yeni eğitim yöntemlerini belirleme sürecini tartışıyor. Mevcut çok sayıda optimizasyon yöntemi nedeniyle, kendilerini basit ikinci dereceden problemlerden daha büyük ölçekli görüntü sınıflandırmasına ve tekrarlayan sinir ağı modellerine kadar değişen 8 farklı problem türü üzerinde yalnızca 15 optimizasyon yöntemini test etmekle sınırlamak zorunda kaldılar. Çeşitli senaryoları simüle etmek için, bu optimizasyon yöntemlerini, varsayılan yüksek parametrelerle tek adımda ayarlamadan daha fazla kaynağa sahip endüstri uygulayıcıları için daha büyük bütçelere kadar hiperparametre ayarı için farklı bütçelerle dört farklı ayarda test ettiler. Amaç, uygulayıcıların kendi özel kullanım durumları için en iyi yöntemi seçmelerine yardımcı olmak için farklı senaryolar altında en iyi performansı gösteren optimizasyon yöntemlerini belirlemekti.

  • 00:35:00 Bu bölümde Frank Schneider, derin öğrenme modelleri için optimizasyon sürecini tartışıyor. En iyi optimizasyon yöntemini bulmak için 50.000'den fazla bireysel çalıştırma gerçekleştirmeleri gerektiğini, çünkü 15 optimizasyon yöntemi ve dört öğrenme oranı çizelgesi olduğunu açıklıyor. Schneider, birkaç yöntemin farklı test problemlerinde iyi performans göstermesi nedeniyle, derin öğrenme için net bir son teknoloji eğitim yöntemi olmadığını belirtiyor. Ancak Adam sürekli olarak iyi sonuçlar gösterdi ve Adam'dan türetilen diğer yöntemler performansı önemli ölçüde artırmadı. Genel olarak kıyaslama çalışması, şu anda tüm derin öğrenme modelleri için çalışan net bir optimizasyon yöntemi olmadığını gösterdi.

  • 00:40:00 Bu bölümde, konuşmacı, mevcut çeşitli farklı yöntemler ve net bir eğitim protokolünün olmaması nedeniyle bir sinir ağını eğitmek için en etkili yöntemi belirlemenin zorluklarını tartışıyor. Konuşmacı, yalnızca algoritmik değişiklikler nedeniyle sinir ağı eğitim hızlanmalarını ölçmek için bir yarışma olan algoritmalar çalışma grubundan ml Commons Benchmark'ın oluşturulmasını tartışıyor. Amaç, sinir ağı eğitimini hızlandırmak için daha verimli algoritmalar oluşturmaktır. Konuşmacı ayrıca, bu yöntemlerin nasıl kullanılacağına ilişkin mevcut bilgilerin eksikliğini tartışıyor ve sonunda her şeyi otomatik olarak yapabilen daha iyi bir yöntem oluşturma umuduyla, bu arada kullanıcılara yardımcı olacak hata ayıklama araçları oluşturmak için ek bilgilerin kullanılabileceğini öneriyor.

  • 00:45:00 Bu bölümde, konuşmacı, bir adım atmadan önce eğitim veri kümesinin ayrı bir örneğini seçerek çoğu makine öğrenimi modelinin ampirik eğime nasıl yaklaştığını tartışıyor. Mini toplu gradyan veya ampirik gradyan, gerçek gradyandan bir örnektir ve tahmin edicinin varyansı PyTorch'ta mevcut olmasa da, bireysel gradyanların ortalaması alınarak gerçek gradyanın bir tahmini verilir. Bununla birlikte, sırt çantası gibi paketleri kullanarak, kullanıcılar bireysel gradyanlara ve bunların varyansına erişebilirler. Bu ek bilgi, öğrenme hızının artırılıp azaltılmayacağına karar vermek gibi bir sinir ağı için eğitim sürecini yönlendirmek için kullanılabilir. Konuşmacı, iki kayıp eğrisinin aynı görünebileceği bir örnek veriyor, ancak kayıp manzarasındaki optimizasyon tamamen farklı iki şeyin olduğunu gösteriyor.

  • 00:50:00 Bu bölümde konuşmacı, kayıp eğrisinin bir sinir ağının eğitim alıp almadığını nasıl gösterebileceğini tartışıyor ancak neden veya onu geliştirmek için ne yapılması gerektiğini açıklamıyor. Kayıp ortamının on milyonlarca boyutu vardır ve bu da incelemeyi neredeyse imkansız hale getirir. Bununla birlikte, konuşmacı, sinir ağının optimizasyon prosedürünü karakterize etmeye yardımcı olan, alfa adı verilen bir nicelik sunar. Alfa değeri, ağın adım attığı yöndeki eğimi gözlemleyerek ağın yetersiz mi, küçültücü mü yoksa fazla mı olduğunu belirler, bu da kayıp manzarasının yukarı mı yoksa aşağı mı gittiğini gösterir.

  • 00:55:00 Bu bölümde Frank Schneider, sinir ağını optimize ederken Alfa'nın nasıl hesaplandığını açıklıyor. Alfa, modelin sinir ağını optimize etmek için hareket ettiği yön olarak önceki bölümde açıklanan skaler bir değerdir. Schneider, Alfa skaler miktarının, o yönde gözlenen kayıpla karşılaştırıldığında adımın boyutuna dayandığını açıklıyor. Negatif Alfa değerleri az adım atmayı, pozitif değerler ise fazla adım atmayı ve biri doğrudan vadinin diğer tarafına geçmek anlamına gelir. Schneider ayrıca, geliştiricilerin bilgileri anlamlı raporlar halinde yoğunlaştırarak, klasik programlamaya benzer derin öğrenme için hata ayıklama araçlarını nasıl oluşturabileceklerini açıklıyor.

  • 01:00:00 Bu bölümde Frank Schneider, izleyicinin eğitim sürecini uçaktaki bir pilot gibi ek araçlarla zenginleştiren "Kokpit" aracıyla "Derin Hata Ayıklayıcı" kavramını tanıtıyor. Schneider, Cockpit'in bir nöral ağ eğitiminde adım boyutu, mesafe, gradyan normu ve gradyan testleri gibi eğitim sürecindeki veri hataları gibi sorunları tespit etmeye ve düzeltmeye yardımcı olabilecek yeni bakış açıları sağlayabileceğini gösteriyor. Ek araçlarla Cockpit, kullanıcılara ilgili bilgileri sağlayabilir ve temel performans planını tamamlayabilir.

  • 01:05:00 Bu bölümde, konuşmacı derin öğrenmede ham veriye karşı normalize edilmiş verinin kullanılmasının sinir ağının performansını ve optimum hiperparametreleri nasıl etkilediğini tartışıyor. 0 ila 255 arasında değişen piksel değerlerine sahip ham veriler, daha az davranan bir gradyan eleman histogramına ve dolayısıyla daha az optimal hiperparametrelere yol açabilir. Ancak, görsel olarak veriler aynı görüneceği için verilerin normalleştirilmesi kolayca gözden kaçabilir. Eğitimi etkileyebilecek başka bir sorun, benzer gradyan eleman histogramlarına sahip olmalarına rağmen bir ağın iyi eğitilirken diğerinin eğitim almadığı bir model bloğudur. Kokpit kullanılarak, ağın her katmanı için histograma bakılabilir ve model boyunca herhangi bir bozulma ortaya çıkarılabilir. Bu, deneme yanılma yoluyla bulunması zor olan model hatalarının belirlenmesine yardımcı olur. Son olarak, hiperparametre ayarı için Kokpit kullanımı yeni araştırmalara ve yöntemlerin daha iyi anlaşılmasına yol açabilir.

  • 01:10:00 Bu bölümde, Frank Schneider derin öğrenme için optimizasyonu ve öğrenme oranları, Alfa değerleri ve test doğruluğu arasındaki ilişkiyi tartışıyor. Daha yüksek öğrenme oranlarının daha büyük Alfa değerleri ile sonuçlanma eğiliminde olduğunu, bunun da aşmak ve potansiyel olarak çok büyük adımlar atmak anlamına geldiğini, ancak en iyi performans gösteren koşuların tipik olarak pozitif Alfa bölgesinde olduğunu açıklıyor. Bu bize sinir ağı eğitiminde her adımda en aza indirmenin her zaman en iyisi olmayabileceğini ve en iyi performansı elde etmek için aşmanın gerekli olduğunu söyler. Schneider ayrıca Toronto Üniversitesi'nin en iyi sonuçları elde etmek için atılan yerel ve küresel adımlar arasında bir denge bulmanın önemini gösteren makalelerinden örnekler paylaşıyor.

  • 01:15:00 Bu bölümde Frank Schneider, sinir ağlarını eğitmenin, izlenecek açık bir protokolden yoksun zorlu bir görev olduğunu kabul ediyor. Ayrıca, derin öğrenmedeki stokastikliğin, eğitim ve optimizasyonun iki farklı şey olmasına yol açan bu zorluğun birincil kaynağı olduğuna inanıyor. Bununla birlikte, gradyanı bir dağılım olarak düşünmenin, standart sapmayı, varyansları ve güvenleri hesaba katmanın, daha iyi araçların oluşturulmasına ve uzun vadede daha iyi otonom yöntemlerin geliştirilmesine izin verebileceğini öne sürüyor. Schneider, ilgili öğrencileri sinir ağları eğitimini iyileştirmeye yardımcı olmaya teşvik ediyor.
Numerics of ML 11 --Optimization for Deep Learning -- Frank Schneider
Numerics of ML 11 --Optimization for Deep Learning -- Frank Schneider
  • 2023.02.06
  • www.youtube.com
The eleventh lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses bo...
 

Ders 12 -- Derin Öğrenme için İkinci Dereceden Optimizasyon -- Lukas Tatzel



Makine Öğrenimi Sayısalları 12 -- Derin Öğrenme için İkinci Dereceden Optimizasyon -- Lukas Tatzel

Bu videoda Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyon yöntemlerini ve bunların potansiyel faydalarını açıklıyor. 2B'deki Rosenberg işlevi örneğini kullanarak üç optimizasyon yönteminin (SGD, Adam ve LBFGS) yörüngelerini ve yakınsama oranlarını karşılaştırıyor. Tatzel, SGD'nin atlamalı davranışının, LBFGS'nin iyi bilgilendirilmiş adımlarına kıyasla daha yavaş yakınsama yaptığını belirtiyor. Optimizasyon için daha hızlı bir yöntem olarak Newton adımını tanıtıyor ve koşul sayısına bağımlılık gibi sınırlamalarını tartışıyor. Tatzel ayrıca, Genelleştirilmiş Gauss-Newton matrisi (GGN) kavramını, kötü koşullu problemlerle başa çıkmak için Hessian'a bir yaklaşım olarak açıklıyor. Ek olarak, güven bölgesi problemini, dışbükey olmayan amaç fonksiyonlarıyla nasıl başa çıkılacağını ve ikinci dereceden fonksiyonları en aza indirmek için CG'yi kullanan Hessian'sız yaklaşımı tartışıyor.

Videonun bu ikinci bölümü, BFGS ve LBFGS, Hessian'sız optimizasyon ve KFC dahil olmak üzere derin öğrenme için ikinci dereceden optimizasyon tekniklerini araştırıyor. Konuşmacı, Hessian içermeyen yaklaşımın Jacobian Vector ürününü kullanarak modeli lineerleştirdiğini, KFC'nin ise resmi bilgi ölçütlerine dayalı yaklaşık bir eğrilik olduğunu açıklıyor. Ancak, bu yöntemlerle stokastiklik ve sapmalar meydana gelebilir ve bu sorunları çözmek için sönümleme önerilir. Konuşmacı, güncellemeler yapmak için dağılımlar gibi daha zengin miktarları kullanabilen özel algoritmaların kullanılmasını önerir ve stokastikliğin temel sorununun çözülmeden kaldığını not eder. Genel olarak, ikinci dereceden optimizasyon yöntemleri, derin öğrenmenin zorluklarına kısmi bir çözüm sunar.

  • 00:00:00 Bu bölümde Lukas Tatzel, derin öğrenmenin pahalı ve zahmetli optimizasyon süreci için potansiyel bir çözüm olarak ikinci dereceden optimizasyon yöntemlerini tanıtıyor. Üç optimize edicinin - SGD, Adam ve LBFGS - yörüngelerini ve yakınsama oranlarını karşılaştırmak için 2B'deki Rosenberg işlevi örneğini kullanıyor. SGD'nin ürkek davranışının, 10^-8'lik toleransa ulaşmak için 10 adımdan daha azını gerektiren LBFGS'nin iyi bilgilendirilmiş adımlarına kıyasla daha yavaş yakınsama yaptığını, bu da onu yalnızca adımlar açısından değil aynı zamanda çalışma süresi açısından da daha hızlı hale getirdiğini belirtiyor. Adam ve SGD ile karşılaştırıldığında. Tatzel, bu yöntemlerin derin öğrenmeye uygulanıp uygulanamayacağı sorusunu gündeme getiriyor ve nasıl çalıştıklarını ve potansiyellerini araştırıyor.

  • 00:05:00 Bu bölümde, Lukas Tatzel, C boyutlu bir vektörü tahmin etmeyi ve kayıp fonksiyonunu hesaplamak için gerçek etiketle karşılaştırmayı içeren derin öğrenme optimizasyonunun temellerini açıklıyor. Derin öğrenmedeki amaç, ampirik riski en aza indiren ağ parametre vektörü Theta'nın bir konfigürasyonunu bulmaktır. Bunun için kullanılan sayısal yöntemler, bir Monte Carlo tahmincisi kullanarak sonlu veriler üzerindeki gradyan tahminini hesaplayan stokastik gradyan inişini (SGD) içerir. Bununla birlikte, gradyan tabanlı yöntemler, maksimum ve minimum yönlü eğriliğin oranı olan koşul numarasına duyarlıdır.

  • 00:10:00 Bu bölümde Lukas Tatzel, gradyan tabanlı yöntemlerin derin öğrenmedeki kötü durum sorunlarına nasıl duyarlı olduğunu tartışıyor. Koşul sayısının büyük olması durumunda gradyan tabanlı yöntemler için bir sorun olabileceğini ve bunun da yavaş dönüşümlere yol açabileceğini açıklıyor. Degrade tabanlı yöntemlerdeki güncellemeleri iyileştirmek için Tatzel, gradyanı hem büyük hem de küçük eğrilik yönlerinde ilgili ters eğrilikleriyle yeniden ölçeklendirmeyi önerir. Bunu yaparak, koşul sayısına bağımlılığı azaltmak veya ortadan kaldırmak için ikinci dereceden yöntemler getirilebilir.

  • 00:15:00 Bu bölümde, Lukas Tatzel derin öğrenmede ikinci dereceden optimizasyonu tartışıyor ve Newton adımı kavramını tanıtıyor. Bu yöntem, Hessian'ın pozitif tanımlı olduğu varsayıldığı ikinci dereceden bir işlevle mevcut yinelemedeki kayıp işlevine yaklaşmayı içerir. Gradyanlarını hesaplayarak ve sıfıra ayarlayarak, Newton adımı türetilebilir ve minimizasyon amaçları için kullanılabilir. Bu yöntem, belirli durumlarda gradyan tabanlı yöntemlerden çok daha hızlı olabilir ve hedef fonksiyon iki kez türevlenebilirse ve Hessian Lipschitz sürekli ise, yerel ikinci dereceden yakınsama elde edebilir. Tatzel, doğrusal ve ikinci dereceden yakınsamayı görsel olarak karşılaştırarak, Newton yöntemlerinin kötü koşullu problemlere karşı sağlam oldukları için belirli durumlarda gerçekten hızlı olabileceğini gösteriyor.

  • 00:20:00 Bu bölümde Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyon yöntemlerini ve bunların yaygın olarak kullanılmama nedenlerini tartışıyor. İkinci dereceden yöntemler, gradyan tabanlı yöntemlerden daha hızlı olabilir, ancak büyük, dışbükey olmayan problemler için hesaplanması ve saklanması zor olabilen Hessian matrisine erişim gerektirirler. Ek olarak, Hessian'ın hesaplanmasında stokastikliğin ele alınması bu yöntemlerin performansını etkileyebilir. Tatzel, bu zorlukların nasıl ele alınabileceğini açıklamaya devam ediyor ve farklı yöntemlerin arkasındaki kavramlara genel bir bakış sunuyor.

  • 00:25:00 Bu bölümde Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyonu ve Newton güncelleme yönteminin sınırlamalarını açıklıyor. Sabit eğrilikli Lambda ile ikinci dereceden bir fonksiyon olan Tau'ya göre fonksiyonun ikinci dereceden türevinin hesaplanmasını gösterir. Bir özvektör boyunca eğrilik, özdeğerdir ve eğrilik negatifse, ikinci dereceden aşağıdan sınırsızdır ve Newton güncelleme yöntemini anlamsız kılar. Bu sorunu çözmek için Tatzel, Hessian'a pozitif yarı-belirli bir yaklaşım olan ve onun yerine geçebilecek olan Genelleştirilmiş Gauss-Newton matrisini (GGN) sunar. Parametre vektörü ile model sonuçları arasındaki bölmeye değişiklik kuralını uygulayarak kayıp fonksiyonundan GGN'yi türetir.

  • 00:30:00 Bu bölümde Lukas Tatzel, derin öğrenme modelleri için ikinci dereceden optimizasyon kavramını tartışıyor. Çarpım kuralını ve nasıl çalıştığını ve zincir kuralını uygularken bir matrisin türevinin nasıl hesaplanacağını açıklıyor. Tatzel daha sonra modeldeki eğriliği ihmal eden pozitif tanımlı bir matris olan GGN'den ve modelin Theta'ya göre ikinci türevlerini içeren Hessian'dan bahsediyor. GGN ve Hessian'ı karşılaştırır ve GGN'nin pozitif tanımlı ve simetrik olduğunu gösterir, bu da onu derin öğrenme modellerinde optimizasyon için yararlı bir araç haline getirir.

  • 00:35:00 Bu bölümde Lukas Tatzel, Hessian'ı ve bunun GGN (Genelleştirilmiş Gauss-Newton) algoritmasının pozitif yarı kesin olup olmadığını nasıl belirlediğini tartışıyor. İlgili tüm kayıp fonksiyonları için, Hessian pozitif yarı-belirlidir. Kayıp fonksiyonunun, kaybın modelin çıktıları ile gerçek etiket arasındaki normun karesi olarak hesaplanacağı şekilde olduğu durumlarda, Hessian bir skaler çarpı birim matristir ve bu da onu pozitif tanımlı yapar. Lukas ayrıca, iyi tanımlanmış bir GGN adımını tanımlamak için kullanılabilen Fischer bilgi matrisini de tartışıyor. Bu durumda, GGN algoritması, parametre uzayının iki dağılım arasındaki mesafe ile ölçüldüğü dağıtım uzayındaki en dik iniştir.

  • 00:40:00 Bu bölümde Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyonda güven bölgesi problemini açıklıyor. Dışbükey durumda, ikinci dereceden modellerin keyfi olarak kötü olması, yineleme güncellemesinin bir güven yarıçapı içinde kalması için sönümleme ve kısıtlama ihtiyacına yol açan bir sorun olmaya devam ediyor. Eğrilik matrisine Delta çarpı özdeşlik eklenerek, değiştirilmiş bir Newton adımı oluşturulur ve sönümleme ile güncellemelerin ne kadar tutucu olduğunu kontrol etmek mümkündür. Yarıçapı seçerken, beklenen ve gerçek kayıp düşüşü arasındaki azalma oranına dayalı olarak doğrudan L-BFGS buluşsal yöntemini kullanarak sönümleme ile çalışmak daha kolaydır.

  • 00:45:00 Videonun bu bölümünde Lukas Tatzel, ggn ve fissür gibi pozitif yarı kesin eğrilik matrislerini hesaplayarak derin öğrenmede dışbükey olmayan amaç fonksiyonlarıyla nasıl başa çıkılacağını tartışıyor. Bu matrisleri yorumlamak ve sonlu veriler üzerinde yansız tahmin ediciler sağlamak mümkündür. Canlı geri Mark gibi sönümleme buluşsal yöntemleri, güncellemelerin ne kadar muhafazakar olması gerektiğini kontrol etmek için kullanılabilir. Bununla birlikte, bu devasa eğrilik matrislerini tersine çevirmek, depolama sınırlamaları nedeniyle bir sorundur. Bu sorunu çözmek için, düşük dereceli yaklaşımlar, yinelemeli yöntemler ve yapılandırılmış yaklaşımlar gibi sayısal cebirden fikirler ödünç alınabilir. Tatzel daha sonra, ters Hessian'ın nasıl görüneceğini gradyan gözlemlerinden çıkarmak amacıyla kademeli olarak ters Hessian'a bir yaklaşımı öğrenen BFGS'nin temel fikrini tartışıyor.

  • 00:50:00 Bu bölümde Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyon kullanma fikrini açıklıyor. İkinci türev, gradyana bir fark yaklaşımı alınarak elde edilir ve bu daha sonra sekant denklemi kullanılarak çok boyutlu duruma aktarılır. Amaç, ters Hessian'a yaklaşmaktır, bu nedenle gerçek ters Hessian'dan özellikler alınır ve yaklaşımın aynı özelliklere sahip olması gerekir. Güncelleme yalnızca önceki yaklaşımı ve SK ve yk vektörlerini içerir. Yaklaşım, l sabit boyutunda sabit bir pencere kullanılarak saklanır ve bununla iyi bir eğrilik tahmini elde edilebilir.

  • 00:55:00 Bu bölümde Lukas Tatzel, özellikle Hessian içermeyen yaklaşıma odaklanarak derin öğrenme için ikinci dereceden optimizasyon yöntemlerini tanıtıyor. Bu yaklaşım, ikinci dereceden işlevleri en aza indirmek için CG'yi kullanır ve yalnızca eğrilik matrisini açıkça depolamadan verimli hesaplamaya izin veren matris-vektör ürünlerini gerektirir. Eğrilik ölçüsü olarak GGn kullanılır ve Monte Carlo kestirimi kullanılarak, verilen bir girdi-çıktı çifti için matrisler hesaplanabilir. Jacobian'ı bir vektörle verimli bir şekilde çarpmak için temel fikir, Jacobian-vektör çarpımını yönlü bir türevle değiştirmektir. Bu, matrisleri açıkça oluşturmadan ürünü hesaplamanın verimli bir yolunu sağlar.

  • 01:00:00 Bu bölümde, konuşmacı derin öğrenme için ikinci dereceden optimizasyonu, özellikle Hessian-Free optimizasyonu ve KFC tekniklerini tartışıyor. Hessian'sız optimizasyon, teta artı Delta Teta'daki F'yi teta F'si artı Jacobian çarpı Delta Theta'ya yaklaştırarak ve Jacobian Vector ürününü kullanarak modeli doğrusallaştırmayı içerir. Bununla birlikte, bu yaklaşım sayısal olarak kararsızdır, bu nedenle bunun yerine Jacobian Vector ürününe bir yaklaşım kullanılır. Öte yandan KFC, iki yaklaşımı içeren resmi bilgi metriklerine dayanan yaklaşık bir eğridir: çapraz çapraz yaklaşım ve beklenti alışverişi ve kronika ürünleri işlemleri. Blok-köşegen yapı, matrisin tersine çevrilmesini önemsiz hale getirir ve iki vektör üzerinden kronik çarpımları hesaplamak zor olduğundan, beklentinin yaklaşık olarak tahmin edilmesi makuldür.

  • 01:05:00 Bu bölümde Lukas Tatzel, derin öğrenme için ikinci dereceden optimizasyonda kullanılan eğrilik matrisine erişmeye ve ters çevirmeye yönelik üç yaklaşımı tartışıyor. İlk yöntem, Hessian'ın dinamik alçaltma yaklaşımını kullanan ve küçük deterministik problemler için varsayılan seçim olan BFGS ve LBFGS'dir. İkinci yöntem, Newton adımlarına benzeyen ancak çok az bellek ve daha sıralı çalışma gerektiren Hessian'sız optimize edicidir. Ancak, parti Norm katmanlarını kullanan daha büyük mini parti boyutlarında sorun yaşıyor. Son yöntem, Hessian bilgi ölçütlerinin hafif bir temsili olan ve belirsizlik ölçümünde yaygın olarak kullanılan KFC'dir. Bloğun daha küçük bileşenlerini depolamak ve ters çevirmek, aynı şeyi tüm matrisle yapmaktan daha kolay ve hızlı olduğundan, sınırlı bellekle uğraşırken K-Fik iyileştirici önerilir.

  • 01:10:00 Bu bölümde, Lukas Tatzel, Hessian'ı ters çevirmeyi ve gradyana uygulamayı içeren Newton adımını hesaplarken stokastiklik konusunu tartışıyor. Yalnızca Hessian ve gradyan tahminlerine sahip oldukları için, tarafsız olsalar bile, Newton adımı yine de önyargılı olacaktır. Tatzel, 1/H şapka üzerindeki beklentinin 1/H ile aynı olmadığı, 1B'de sezgisel bir örnek sağlar ve eğriliğin bir tahminiyle bile, onu ters çevirme fonksiyonu aracılığıyla eşlerken hala bir miktar belirsizlik olduğunu gösterir. Bu, derin öğrenme için ikinci dereceden optimizasyonda stokastiklikle uğraşmanın zorluğunu vurgular.

  • 01:15:00 Bu bölümde konuşmacı, derin öğrenme için ikinci dereceden optimizasyonda meydana gelebilecek önyargıları ve dengesizlikleri tartışıyor. Ters eğriliği tahmin ederken, ortalamanın üzerine taşınan bir beklentiyle sonuçlanan ağır kuyruklar oluşturmak mümkündür. Bu, beklentide çok büyük olan genel bir Newton adımına yol açar. Ek olarak, stokastik tahminler nedeniyle veya bir örnek sıfıra yakın olduğunda şans eseri sapmalar ve istikrarsızlıklar mevcut olabilir. Bu sorunlar, dağılımı sıfırdan uzaklaştıran ve olası yanlılıkları ve istikrarsızlıkları azaltan sönümleme uygulanarak çözülebilir.

  • 01:20:00 Bu bölümde Lukas Tatzel, tüm yönlere eşit davranan ve eğitim sürecinin karmaşıklığını ele almak için uygun bir yol olmayabilecek bir dış döngü optimizasyon süreci olarak sönümleme kullanmanın zorluklarını tartışıyor. Güncellemeler yapmak için dağılımlar gibi daha zengin miktarları kullanabilen özel algoritmaların kullanılmasını önerir ve stokastikliğin temel sorununun çözülmeden kaldığını not eder. Genel olarak Tatzel, BFGS, LBFJS, Heston ücretsiz optimize edici ve KFC gibi ikinci dereceden optimizasyon yöntemlerinin, Hill koşullandırma sorunu da dahil olmak üzere derin öğrenmenin zorluklarına kısmi bir çözüm sunduğunu öne sürüyor.
Numerics of ML 12 -- Second-Order Optimization for Deep Learning -- Lukas Tatzel
Numerics of ML 12 -- Second-Order Optimization for Deep Learning -- Lukas Tatzel
  • 2023.02.06
  • www.youtube.com
The twelfth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses bot...
 

Ders 13 -- Derin Öğrenmede Belirsizlik -- Agustinus Kristiadi



ML'nin Sayısalları 13 -- Derin Öğrenmede Belirsizlik -- Agustinus Kristiadi

Video, derin öğrenmedeki belirsizliği, özellikle sinir ağlarının ağırlıklarında ve sinir ağlarının, dağıtım dışı örnekler için yüksek güvenilirlik tahminleri verdiği asimptotik aşırı güven sorunu nedeniyle belirsizliği dahil etmenin önemini tartışıyor. kesinlik Video, son katmanın ağırlıklarını yaklaşık olarak tahmin etmek için bir Gauss dağılımı ve sinir ağının eğriliğini tahmin etmek için Hessian matrisini kullanarak derin sinir ağlarına belirsizlik elde etmek için ikinci dereceden niceliklerin, özellikle eğrilik tahminlerinin nasıl kullanılacağına dair bilgiler sağlar. Video ayrıca sinir ağlarının modellerini ve parametrelerini seçmek için Bayes biçimciliğini ve LaPlace yaklaşımlarını tartışıyor.

Dersin ikinci bölümünde Agustinus Kristiadi, bu videoda derin öğrenme modellerinde belirsizliği tanıtmanın çeşitli yollarını tartışıyor. Bir teknik, bir sinir ağını Gauss modeline dönüştürmek için doğrusallaştırılmış Laplace yaklaşımlarının kullanılmasını içerir. Başka bir yaklaşım, orijinal eğitim setinin kapsamadığı bölgelere belirsizliğin eklendiği dağıtım dışı eğitimdir. Kristiadi, modele aşırı güveni önlemek için belirsizlik eklemenin önemini vurguluyor ve ideal sonuncuyu bulma maliyetinden kaçınmak için olasılık ölçümlerinin kullanılmasını öneriyor. Bu teknikler, olasılığa dayalı makine öğrenimi üzerine gelecek bir kursta daha ayrıntılı olarak incelenecektir.

  • 00:00:00 Bu bölümde, konuşmacı dersin konusu olan belirsizliği makine öğrenimine sokmak ve bunu başarmak için hesaplamaların nasıl yapılacağı hakkında açıklamaktadır. Ders, özellikle integralleri çözmede ve belirsizlikleri elde etmek için bayesçi derin öğrenmeyi kullanmada önceki derslerdeki içgörüleri kullanır. Konuşmacı daha sonra derin sinir ağlarındaki belirsizliklerin önemini ve sinir ağının bu kadar kesin olarak sınıflandırılmaması gereken dağıtım dışı örnekler için yüksek güven tahminleri verdiği asimptotik aşırı güven sorununu tartışır. Ders, belirsizliği derin sinir ağlarına sokmak için ikinci dereceden niceliklerin, özellikle eğrilik tahminlerinin nasıl kullanılacağına dair içgörü sağlamayı amaçlamaktadır.

  • 00:05:00 Bu bölümde Agustinus Kristiadi, derin öğrenmedeki belirsizliği, özellikle ReLU doğrusal olmamalarını kullanan sınıflandırma ağlarını tartışıyor. Gerçek sınıflandırıcıların temel bir özelliğini sunar: eğer logit katmanı, önceki katmanların doğrusal olmayan ReLU ile doğrusal bir birleşimiyse, ağın çıktısı hala önceki katmanların birleşimiyle tanımlanan parçalı doğrusal bir fonksiyondur. Bu uzayda eğitim verisinden uzaklaşmak, sınıflandırıcının softmax çıktısına doğrusal girdiye sahip olduğu ve bir olasılıkla her bir doğrusal çıktı fonksiyonu için kazancın farklı olduğu bir bölgeye götürür. Sonuç olarak, bu bölgelerde yeterince uzağa gitmek, bir sınıf için keyfi olarak yüksek güvene yol açacaktır; bu, kırmızıyla gösterilen üç doğrusal çıktı özelliğinin çiziminde görsel olarak gözlemlenebilir.

  • 00:10:00 Bu bölümde Agustinus Kristiadi, gerçek sınıflandırıcıların belirli sınıflarda yüksek güven oluşturan temel özelliğini ve bunun neden ağırlıkları yeniden eğiterek düzeltilemeyeceğini açıklıyor. Çözüm, nöral ağ ağırlıklarına belirsizlik eklemektir ve bunu yapmak için nöral ağın Bayesci bir yorumuna ihtiyacımız var; bu, eğitim sırasında en aza indirilen fonksiyonun üstelini maksimize ederek elde edilebilir. Bu, derin öğrenmenin halihazırda Bayesci çıkarım yaptığı, ancak yalnızca sonsal kipin hesaplandığı anlamına gelir ki bu sorunlu olabilir. Sürekli çıktılara sahip denetimli problemler için ortak bir ayar, ikinci dereceden kayıp ve ağırlık azalması düzenleyicisidir; bu, ağırlıkların önüne bir Gauss ve verilere bir Gauss olasılığı koymaya eşdeğerdir.

  • 00:15:00 Bu bölümde, konuşmacı derin öğrenmedeki belirsizliği ve derin sinir ağlarının Bayesci yorumunu tartışıyor. Konuşmacı, tahminler için gerekli olan tam sonsal dağılımın zorlu olduğunu belirtiyor. Monte Carlo yaklaşımları teorik olarak sağlam temelli olmakla birlikte, zaman alıcıdır ve hasta çıkarımı yapanlar için dezavantaj oluşturabilir. Bu nedenle konuşmacı, integral almanın mümkün olan en ucuz yolunu savunuyor: lineer cebir ile birleştirilmiş otomatik türev. Konuşmacı, ağın yalnızca son katmanının ağırlıkları üzerindeki herhangi bir Gauss yaklaşık ölçüsünün, bir teoremde gösterildiği gibi, aşırı güven sorununu zaten kısmen çözdüğü şeklindeki şaşırtıcı sonucu paylaşıyor. Konuşmacı, ağırlıklar üzerindeki olasılık dağılımının doğru olmasının önemli olmadığını, ağırlıklar üzerine herhangi bir olasılık ölçüsü eklemenin güven problemini çözebileceğini vurgular.

  • 00:20:00 Bu bölümde, konuşmacı, sınıflandırmadaki belirsizlik problemini çözmek için bir derin sinir ağının sınıflandırma katmanındaki son katmanın ağırlıklarına bir gauss dağılımının nasıl uygulanabileceğini açıklar. Konuşmacı, önemli olmadığı için gauss dağılımının herhangi bir kovaryansının kullanılabileceğini varsayar ve dağılımın ortalaması, derin sinir ağının eğitimli ağırlıkları tarafından verilir. Konuşmacı daha sonra, X yıldızındaki tetanın yumuşak Max bölü F'sinin integraline yaklaşarak önceki slayttaki sorunu çözmek için gauss dağılımını kullanır. David Makai yaklaşımı, ağın aksi takdirde sahip olacağı çıktının ortalama tahminine sahip olan türetilmiş değişken üzerinden esnek Maks'ı hesaplamak için kullanılır. Bu yaklaşımı tasvir eden görselleştirmedeki mavi çizgiler, sınıflandırmadaki belirsizliğe bir çözüm sağlayan bir çizgiden uzağa sınırlanmıştır.

  • 00:25:00 Bu bölümde Agustinus Kristiadi, özellikle sinir ağlarının ağırlıkları açısından derin öğrenmede belirsizliğin önemini tartışıyor. Ağırlıkları tam olarak bilmediğimizi dikkate almanın ve bir şeyi bilmiyorsak, sorun yaratabileceği için bildiğimizi varsaymaktan kaçınmanın çok önemli olduğunu savunuyor. Ağırlıklar üzerinde lineerleştirme ve bir Gauss dağılımı kullanma gibi matematiksel yaklaşımlar yapılabilir ve çok az belirsiz olduğumuz sürece bunun iyi olacağı kanıtlanmıştır. Sigma seçimi, en hızlı ve en ucuz yöntem olan eğrilik tahminleri ile otomatik farklılaştırma ile yapılabilmektedir.

  • 00:30:00 Bu bölümde Agustinus Kristiadi, derin öğrenme yoluyla kayıp fonksiyonunun modunu bulduktan sonra bir Gauss yaklaşımı oluşturmak için Hessian matrisini nasıl kullanabileceğimizi açıklıyor. Kayıp fonksiyonunun ikinci dereceden türevini içeren Hessian matrisi, yaklaşımlar oluşturmak için kullanılır. Gauss yaklaşımı yerel olmasına ve mükemmel olmamasına rağmen, tamamen analitiktir ve bu da onu uygun bir yaklaşım haline getirir. Bu yaklaşımı kullanmak için eğitilmiş bir sinir ağına ihtiyacımız var ve ağ eğitildikten sonra, sadece çalışan kapalı formlu bir süreç olan AutoDiff'i kullanarak o noktada Hessian'ı alabiliriz.

  • 00:35:00 Bu bölümde, konuşmacı derin öğrenmede belirsizlik kavramını ve Hessian matrisini kullanarak bunun nasıl değerlendirileceğini tartışıyor. Hessian matrisi, derin sinir ağını eğittikten sonra hesaplanabilir ve ağın ticaretine maliyet eklemeden belirsizliği tahmin etmenin bir yolunu sağlar. Konuşmacı ayrıca, bu yaklaşımın pratik uygulamalar için faydalı olabilecek nokta tahmininin tutulmasına izin verdiğini de not eder. Bununla birlikte, Hessian'ın hesaplanmasının pahalı olması gibi dezavantajlar vardır ve izlenebilir hale getirmek için yaklaşık değerlere ihtiyaç vardır. Genelleştirilmiş Gauss-Newton Matrisi, pratikte kullanılabilecek böyle bir yaklaşımdır.

  • 00:40:00 Bu bölümde Agustinus Kristiadi, derin öğrenmedeki belirsizliği ve Gauss-Newton Hessian'ın (GNG) bir sinir ağının eğriliğini tahmin etmek için nasıl kullanılabileceğini tartışıyor. GNG'nin pozitif yarı-belirli olduğunu ve lineerleştirme ile güzel bir bağlantısı olduğunu, bunun da Laplace yaklaşımıyla birleştirildiğinde izlenebilir bir modelle sonuçlanabileceğini açıklıyor. Bu model regresyon için kullanılabilir ve sinir ağının çıktısı tarafından verilen ortalama fonksiyonu ile bir Gauss süreci üretir.

  • 00:45:00 Bu bölümde, konuşmacı derin öğrenmedeki, özellikle sinir ağlarındaki belirsizliği tartışıyor. Çekirdek varyans fonksiyonunun, Hessian'ın tersi ile iç çarpımı alarak ağın Jacobian'ında kayıp fonksiyonunun modunu bularak verildiğini belirtiyorlar. Konuşmacı, bu sürecin David Pinkai tarafından geliştirilen basit bir yaklaşıklık şeklinde sınıflandırma için kullanılabileceğinden bahseder. Süreç, kayıp fonksiyonunu tanımlamayı, kayıp fonksiyonunun Hessian'ını ve ağırlıklara göre eğitimli ağın Jacobian'ını hesaplamayı içerir. Son olarak, ikisini bir çarpımda birleştirmek, x yıldızının f'si için x'te hala doğrusal olmayan ancak ağırlık uzayında doğrusal olan bir tahmin işlevi verir. Konuşmacı, bu sürecin, özellikle sınıflandırma durumlarında, aşırı güvenin önlenmesine yardımcı olabileceğinin altını çiziyor.

  • 00:50:00 Bu bölümde Agustinus Kristiadi, Bayes biçimciliğini ve bunun derin öğrenmede nasıl faydalı olabileceğini tartışıyor. Ağı ağırlıklarında lineerleştirerek ve Laplace yaklaşımını kullanarak, sonsal üzerindeki zorlu integrali, sonsalın ve kayıp fonksiyonunun basitleştirilmiş bir biçimine indirgeyebiliriz. Bu süreç bize modelimizin verilere ne kadar iyi uyduğuna dair bir ölçüm sağlayabilir, bu da modelin parametrelerini veya yönlerini uyarlamada yararlıdır. Veriler için kanıtları hesaplayarak, hangi modelin en yüksek kanıta sahip olduğunu ve verilere daha yakın olanı seçebiliriz.

  • 00:55:00 Bu bölümde konuşmacı, bir sinir ağının modellerini ve parametrelerini seçmek için LaPlace yaklaşımlarının nasıl kullanılacağını tartışıyor. Konuşmacı, Hessian'ın kayıp fonksiyonunun şekline bağlı olduğunu ve daha fazla katman ekledikçe kayıp fonksiyonunun daralarak daha iyi bir uyum sağlayabileceğini açıklıyor. Konuşmacı, yaklaşık iki ila dört katmanın muhtemelen en iyi seçim olduğunu gösteren bir çizim gösterir. Konuşmacı ayrıca Occam faktörünün Gauss süreçleri için olduğu kadar basit olmadığını, çünkü Hessian'ın modelin verileri ne kadar iyi açıklayabileceği üzerinde önemsiz olmayan bir etkiye sahip olduğunu tartışıyor. Konuşmacı daha sonra, bir sınıflandırma problemi için doğrusallaştırma LaPlace yaklaşımıyla derin bir sinir ağının görselleştirmesini gösterir ve modelin güvenirliğini etkilemek için önceki kesinlik parametresini nasıl kullanabileceğinizi açıklar. Son olarak, konuşmacı, LaPlace yaklaşımlarının, katman sayısı gibi ayrık seçimleri veya gradyan iniş kullanarak önceki konum gibi bir parametreyi seçmek için nasıl kullanılabileceğini tartışır.

  • 01:00:00 Bu bölümde, konuşmacı derin öğrenmedeki belirsizliği ve bunun doğrusallaştırılmış Laplace yaklaşımları kullanılarak nasıl ele alınabileceğini tartışıyor. Bu yöntem, bir ağın katman sayısını seçerken katmanların önceki konumunu belirlemek için olasılıksal bir yaklaşım kullanmayı içerir. Ancak bu süreç, bir önceki konumu seçmek için iyi çalışırken, katman sayısını seçmek gibi diğer görevler için aynı şekilde çalışmayabilir. Konuşmacı daha sonra doğrusallaştırılmış Laplace yaklaşımını ve bunun belirsizlikle başa çıkmak için derin bir sinir ağını Gauss modeline dönüştürmek için bir kara kutu aracı olarak nasıl kullanılabileceğini tartışmaya devam eder. Son olarak, konuşmacı, ağa basit bir düzeltme eklemeyi içeren, ağırlıkları konusunda belirsizliğe sahip olmayan modellerle sorunu çözmenin bir yolunu tartışır.

  • 01:05:00 Bu bölümde Agustinus Kristiadi, derin sinir ağlarındaki verilerin sonsuz karmaşıklığını hesaba katmak için sınırsız sayıda ağırlık ekleme konusunu tartışıyor. Sonsuz sayıda özellik eklemenin sorunu çözeceğini açıklıyor ve sonsuz sayıda özelliği takip etmenin maliyetli bir iş olmak zorunda olmadığını gösteriyor. Asimptotik olarak, belirsizlik, modele daha fazla karmaşıklık eklemeden Thing 1 bölü C maksimum entropi haline gelir.

  • 01:10:00 Bu bölümde konuşmacı, özellikle eğitim verilerinin az olduğu veya rakip girdilerin olduğu alanlarda tahminleri iyileştirmek için derin öğrenmeye belirsizliğin nasıl eklenebileceğini açıklıyor. Yaklaşım, ağın ortalamasını eğitmeyi ve ardından nokta tahminini değiştirmeyen ancak hareket ettirilebilen ve ölçeklendirilebilen belirsizlik ekleyen birimler eklemeyi içerir. Bu tekniğe dağıtım dışı eğitim denir ve yaklaşık bir Gauss sürecini tanımlamak için verilerin genişliğine dayalı bir uzunluk ölçeği kullanılarak elde edilebilir. Belirsizlik eklemenin maliyeti ihmal edilebilir düzeydedir ve yalnızca veriler eğitim verilerinden uzaksa güveni azaltan bir geri dönüş sağlar.

  • 01:15:00 Bu bölümde konuşmacı, derin öğrenme modeline belirsizliğin nasıl dahil edileceğini tartışıyor. Bunu yapmanın bir yolu, orijinal eğitim setinde kullanılan nesneleri içermeyen görüntülerle yeni bir veri setinin oluşturulduğu dağıtım dışı eğitimdir. Ağ daha sonra bu bölgelerde belirsiz olacak şekilde eğitilir. Dağılım dışı kaybı içeren bir kayıp fonksiyonu tanımlayarak, kayıp modunun bulunduğu kayıp fonksiyonunun eğrilik tahmininin Hessian'ı, istenen miktarda belirsizlik üretecek şekilde ayarlanabilir. Konuşmacı ayrıca, modelde patolojileri ve aşırı güveni önlemeye yardımcı olabileceğinden, derin öğrenmede belirsizliği tanıtmanın önemli olduğunu belirtiyor.

  • 01:20:00 Bu bölümde konuşmacı, temel yapısını değiştirmeden bir sınıflandırıcıya belirsizlik ekleme kavramını tartışıyor. Ağın ağırlık uzayında doğrusallaştırılması bunun olmasına izin verebilir ve kayıp fonksiyonunun Jacobian ve Hessian'ını hesaplayarak derin bir sinir ağını Gauss sürecine dönüştürebiliriz. Asimptotik kalibre edilmiş güven gibi ağa işlevsellik eklemek bu teknikle yapılabilir. Konuşmacı, olasılıksal eğitimin önemini ve tam arka izlemeye ihtiyaç duymadan makine öğreniminde olasılık ölçümlerinin kullanımını vurgular. Bu yaklaşım, ideal posterioru bulma maliyetinden kaçınırken aşırı güven gibi sorunları çözebilir. Son olarak konuşmacı, bu tekniklerin kullanımının olasılığa dayalı makine öğrenimi üzerine gelecek kursta daha ayrıntılı olarak inceleneceğini öne sürüyor.
Numerics of ML 13 -- Uncertainty in Deep Learning -- Agustinus Kristiadi
Numerics of ML 13 -- Uncertainty in Deep Learning -- Agustinus Kristiadi
  • 2023.02.06
  • www.youtube.com
The thirteenth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses ...
 

Ders 14 -- Sonuç -- Philipp Hennig



ML 14 Sayısalları -- Sonuç -- Philipp Hennig

Philipp Hennig, makine öğreniminde entegrasyon, optimizasyon, diferansiyel denklemler ve lineer cebir gibi sayısal analizle ilgili matematik problemlerini çözmenin önemini vurgulayarak "Makine Öğreniminin Sayısalları" kursunun bir özetini verir. Bir veri seti üzerinde lineer cebir gerçekleştirmenin karmaşıklığını ve bunun işlem birimi ve disk ile nasıl ilişkili olduğunu tartışıyor. Hennig ayrıca önemsiz olmayan boyutlardaki veri kümelerini işleme, doğrusal sistemleri çözmek için algoritmalar, kısmi diferansiyel denklemleri çözme ve integralleri tahmin etme gibi konuları da kapsar. Derin sinir ağlarını eğitmenin zorluğunu ve stokastiklik probleminin üstesinden gelmek için çözümlere duyulan ihtiyacı kabul ederek sözlerini bitiriyor.

Philipp Hennig, ders dizisinin sonunda makine öğrenimi modellerini eğitmenin ötesine geçmenin ve modelin ne kadar bilip ne bilmediğini bilmenin önemini vurguluyor. Derin sinir ağları için belirsizlik tahminleri oluşturmak için kayıp fonksiyonunun eğriliğini tahmin etmekten ve olasılıksal olmanın öneminden, ancak hesaplama karmaşıklığı nedeniyle her durumda Bayes teoremini uygulama zorunluluğundan bahsediyor. Hennig ayrıca makine öğreniminde sayısal hesaplamanın önemini ve yeni veri merkezli hesaplama yöntemleri geliştirme ihtiyacını vurguluyor. Son olarak, kursla ilgili geri bildirimde bulunmaya davet eder ve yaklaşan sınav hakkında tartışır.

  • 00:00:00 Bu bölümde, Philipp Hennig, çeşitli öğretim görevlilerinin içeriğindeki farklılıklar nedeniyle çok önemli olduğuna inandığı Makine Öğrenimi Sayısalları kursunun tamamının bir özetini sunuyor. Makine öğreniminin, algoritmaları içeren klasik yapay zekanın aksine, esasen kapalı biçimli çözümleri olmayan matematik problemlerini çözmeyi içerdiğini açıklıyor. Makine öğrenimindeki problemler sayısal analizle ilgilidir ve entegrasyon, optimizasyon, diferansiyel denklemler ve lineer cebiri içerir. Hennig, bir veri seti üzerinde doğrusal cebir yapmanın karmaşıklığını ve bunun işlem birimi ve disk ile nasıl ilişkili olduğunu anlamanın önemini vurguluyor.

  • 00:05:00 Bu bölümde, Philipp Hennig lineer cebirin makine öğrenimindeki ve özellikle Gauss süreç regresyonundaki rolünü tartışıyor. Ortalaması ve kovaryansı olan tahmine dayalı bir dağılımı öğrenmek için, bir matrisi bir vektörle ters çevirmeyi içeren doğrusal bir denklem sistemini çözmemiz gerektiğini açıklıyor. Bu tür doğrusal sistemleri çözmek için, matrisin tersini oluşturan yinelemeli bir prosedür olarak görülebilen Cholesky ayrıştırması adı verilen klasik algoritma da dahil olmak üzere birçok algoritma vardır. Hennig, bu yaklaşımın matrisin tersi için bir tahmin olarak kullanılabileceğini, ancak kalitesinin veri sırasına bağlı olarak değişebileceğini belirtiyor.

  • 00:10:00 Bu bölümde Philipp Hennig, bir veri kümesini rastgele bir sırayla gözden geçirmenin ve geri kalanını göz ardı ederek bunun bitlerini diskten yüklemenin doğrusal olarak ne kadar pahalı olduğunu açıklıyor. Bu yöntemi, öğrencilerin bir denklemi çözmek için iki farklı doğrusal optimizasyon problemini çözmek olan olasılıklı bir makine öğrenimi sınıfı aracılığıyla öğrendikleriyle karşılaştırır. Ayrıca, tam çözümü vermeyen sonlu veri seti ve sınırlı hesaplamalar dahil olmak üzere iki belirsizlik kaynağına neden olan sonlu belirsizliklerin ortaya çıktığını vurguluyor.

  • 00:15:00 Videonun bu bölümünde Philipp Hennig, Bayes etkisi Gauss süreci regresyonunda lineer problem çözmenin karmaşıklığını açıklıyor. Temel durumdaki harcama düzeyi, çoğu insanın öğrenmiş olabileceğinden çok daha inceliklidir. Bundan dört ana çıkarım, tüm veri setine bakmamayı tercih edebilirsiniz, veri setinde doğrusal bir maliyet tahmini veren Cholesky benzeri bir algoritma kullanabilir ve yineleme sayısında ikinci dereceden olarak kullanabilirsiniz. hızlı bir şekilde yakınsayan ancak her yinelemede ikinci dereceden pahalı olan daha verimli bir algoritma veya veri noktalarının sayısında kübik masraf sağlayan Cholesky'yi tercih edebilirsiniz.

  • 00:20:00 Bu bölümde Hennig, önemsiz olmayan boyutlardaki veri kümelerini uygun şekilde kullanmanın önemini ve bunlar üzerinde verimli bir şekilde nasıl çalışılacağına ilişkin kararı tartışıyor. Kalman filtreleme ve düzleştirme olarak bilinen lineer zamana bağlı ve zamanla değişmeyen problemler için kullanılan algoritmanın yanı sıra, özellikle zaman içinde gelişen sistemler açısından sonsuz boyutlu veri kümelerinin nasıl ele alınacağını açıklamaya devam ediyor. Hennig, bu tür bir algoritmanın hem kolayca yazıldığını hem de zaman adımlarının sayısı açısından doğrusal olarak pahalı olduğunu vurgular. Ayrıca, daha yüksek seviyeli algoritmalarda performansı hızlandırmak için kullanılabileceğinden, hesaplama hiyerarşisinin alt seviyelerini anlamanın önemini vurgulamaktadır.

  • 00:25:00 Videonun bu bölümünde Philipp Hennig, gelecekte yaptığı gözlemler hakkında zincirdeki önceki tüm değişkenleri bilgilendiren bir defter tutma algoritması olarak hizmet eden daha yumuşak algoritmayı tartışıyor. Ayrıca, gözlemlerin durum uzayının doğrusal bir Gauss dönüşümü olmadığı ayarlara ve genişletilmiş Kalman filtresinin dinamiklerine algoritmaların ne kadar hızlı uygulanabileceğinden bahsediyor. Hennig ayrıca, çok esnek olan ve diferansiyel denklemleri çözmek için güçlü bir algoritma oluşturmak için kullanılabilen bu çerçevenin algoritmik manzaralarına ve yapısına da değiniyor.

  • 00:30:00 Bu bölümde, Philipp Hennig cebirsel örtük denklemlerin, sürekli grup simetrilerinin ve kısmi diferansiyel denklemlerin hepsinin makine öğrenimindeki sıradan diferansiyel denklemlerle aynı algoritmik dile nasıl dahil edilebileceğini tartışıyor. Ayrıca, durum uzayının bölümlerindeki bilinmeyen değerleri belirlemede, bir sistemin aldığı yolu ölçmek veya nerede başlayıp nerede bittiğini bilmek gibi gözlemleri birleştirmenin değerinden bahseder. Hennig, simülasyon paketleri daha çeşitli hale geldikçe, simülasyon yöntemi esasen bir filtre olarak görülebildiğinden, simülasyon yöntemleri hakkında kapsamlı bir bilgiye sahip olmanın daha az gerekli hale geldiğini belirtiyor.

  • 00:35:00 Videonun bu bölümünde Philipp Hennig, makine öğrenimindeki yöntemlerin bilgileri nasıl yönettiğini tartışıyor ve bir diskten gelen bilgilerle bilgisayara takılı bir sensörden gelen bilgiler arasında gerçekte bir fark olmadığını belirtiyor. ve onu cebirsel bir denklem olarak yazan programcıdan gelen bilgiler. Ayrıca, bilgi operatörünün, kullanıcı ile algoritma tasarımcısı arasında bir arayüz görevi gördüğünden bahseder. Ayrıca, gauss süreci regresyonunu kullanarak, temelde filtreleme simülasyon yöntemleriyle aynı şey olan kısmi diferansiyel denklemlerin nasıl çözüleceğini de açıklıyor. Bununla birlikte, kısmi diferansiyel denklem doğrusal değilse, o zaman bir filtre kullanılarak çözülemeyeceğini not eder.

  • 00:40:00 Bu bölümde Philipp Hennig, diferansiyel denklemleri ve makine öğreniminde entegrasyonu kapsayan "Makine öğreniminin sayısalları" serisinin sonucunu özetliyor. İlk olarak, fonksiyon uzaylarının doğası gereği karmaşık olabilen fonksiyonlarla Gauss süreci çıkarımından bahseder. Bununla birlikte, doğrusal olmayan fonksiyonları gözlemleyerek ve kısmi diferansiyel denklemler ve sınır değerleri gibi çeşitli bilgi kaynaklarını uygulayarak, bunlar büyük bir Gauss süreci çıkarım şemasında birleştirilebilir ve dinamik sistemin sayısal bir temsiliyle sonuçlanır. Hennig daha sonra olasılıksal çıkarımda entegrasyona geçer ve burada yavaşça yakınsayan ancak herhangi bir entegre edilebilir fonksiyon üzerinde çalışan tarafsız bir tahminci olan Monte Carlo algoritmasını sunar.

  • 00:45:00 Bu bölümde, Philipp Hennig makine öğrenimi için integralleri tahmin etmeye yönelik en iyi yaklaşımları tartışıyor. İntegralin bir tahmininin integralin gerçek değerine yakınsama oranının, kullanılan algoritmaya bağlı olarak örnek sayısının karekökü üzerinden 1 olduğunu öne sürüyor. Bununla birlikte, integrali modellemek için çok zaman harcayan bir algoritma olan Bayes kareleme, özellikle düşük boyutlu problemlerde gerçekten iyi performans gösterebilir ve Monte Carlo'dan çok daha hızlı, hatta süper polinomsal olarak yakınsayabilir. Hennig, yalnızca küçük bir sorun sınıfı için iyi çalışan algoritmalar oluşturmanın, bu sorunun her bir örneği için daha iyi çalışabileceğini, ancak bu sınıfın dışında kötü bir şekilde bozulabileceğini öne sürüyor. Nihayetinde, en iyi algoritma, çözülmekte olan sorunun doğasına bağlı olacaktır.

  • 00:50:00 Bu bölümde Philipp Hennig, çağdaş makine öğrenimi sayısal problemlerinin zorluklarını, özellikle de derin sinir ağlarının eğitimi konusunu araştırıyor. Pek çok optimize edici mevcut olmasına rağmen, temelde sinir bozucu ve verimsizdirler, sürekli çocuk bakıcılığı ve hiperparametre ayarlaması gerektirirler ve her zaman çalışmazlar. Optimizasyon eskiden bir düğmeye basmak ve algoritmanın mükemmel şekilde çalışmasını izlemekle ilgiliyken, şimdi makine öğrenimi büyük dil modellerini yönetmek için 100'den fazla kişiden oluşan bir ekip gerektiriyor ve bu da kaynakların verimsiz bir şekilde kullanılmasına neden oluyor. Ana sorun stokastikliktir ve tüm makine öğrenimi topluluğunu yönlendirmesine rağmen bu sorun için henüz bilinen zarif bir çözüm yoktur.

  • 00:55:00 Bu bölümde, Philipp Hennig, derin sinir ağlarını eğitmenin zorluğunu vurgulayarak, hesaplamadaki belirsizlik hakkındaki dersi bitiriyor. Mini toplu gradyanlar, sınırlı veri ve hesaplama nedeniyle değerlendirilse de, bu süreçte ortaya çıkan önemli gürültü aslında optimizasyon algoritmalarının performansını azaltır. Hennig, bu sorunun çözümünün derin sinir ağlarının eğitimini çok daha hızlı hale getireceğini ve makine öğreniminin geleceğini değiştireceğini belirtiyor. Bu arada, yeni algoritmalar ve teknikler oluşturmak için eğrilik tahminleri gibi mevcut kaynakları kullanmaya devam edebiliriz.

  • 01:00:00 Bu bölümde Philipp Hennig, makine öğreniminde ikili ağları eğitmekten daha fazlasını yapma gereğini ve modelin ne kadar bilip ne bilmediğini bilmenin önemini tartışıyor. Hennig, kayıp fonksiyonunun eğriliğini tahmin etmenin, Laplace yaklaşımını kullanarak, derin sinir ağları için hafif yöntemlerle belirsizlik tahminleri oluşturmaya yardımcı olabileceğini açıklıyor. Bu, farklı kullanım durumları için kullanılabilir ve herhangi bir derin sinir ağını yaklaşık olarak bir Gauss süreci parametrik Gauss regresyon algoritmasına dönüştürmek için ağ ağırlık uzayının doğrusallaştırılmasıyla birleştirilebilir. Hennig, olasılıksal olmanın önemli olmasına rağmen, hesaplama açısından çok yoğun olabileceğinden, Bayes teoremini her durumda uygulamanın gerekli olmadığını vurgular. Bunun yerine, hesaplama açısından çok pahalı olmadan değer katan hızlı çözümler bulmak daha iyi bir yaklaşımdır.

  • 01:05:00 Bu bölümde Philipp Hennig, makine öğreniminde sayısal hesaplamanın önemini vurguluyor. Sayısal hesaplamaların, bir veri kaynağıyla etkileşime giren ve aldıkları verileri nasıl kullanacaklarına aktif olarak karar vermesi gereken aktif aracılar olduğunu açıklıyor. Bu bağlantıyı ciddiye alarak, hesaplama yapmanın daha esnek, kullanımı daha kolay ve farklı ayarlara genelleştirilmesi daha kolay olabilen veri merkezli yeni yolları geliştirilebilir. Hennig, daha iyi bir makine öğrenimi mühendisi olmak için sayısal algoritmaların nasıl çalıştığını anlamanın önemini de vurguluyor. Son olarak, kursla ilgili geri bildirimde bulunmaya davet eder ve yaklaşan sınav hakkında tartışır.
Numerics of ML 14 -- Conclusion -- Philipp Hennig
Numerics of ML 14 -- Conclusion -- Philipp Hennig
  • 2023.02.13
  • www.youtube.com
The fourteenth and final lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class ...
 

7 Dakikada Vektör Makinesini (SVM) Destekleyin - Eğlenceli Makine Öğrenimi



7 Dakikada Vektör Makinesini (SVM) Destekleyin - Eğlenceli Makine Öğrenimi

Videoda, veri kümesinin uç noktalarına dayalı olarak bir karar sınırı veya hiper düzlem çizen iki sınıflı veri kümeleri için kullanılan bir sınıflandırma algoritması olan Destek Vektör Makineleri (SVM) açıklanmaktadır. Ayrıca, DVM'nin doğrusal olarak ayrılamayan veri kümeleri için bir çekirdek hilesi kullanarak daha yüksek boyutlu özellik uzaylarına dönüştürülerek nasıl kullanılabileceğini tartışır. Video, yüksek boyutlu uzaylarda etkinlik, bellek verimliliği ve özel işlevler için farklı çekirdekleri kullanma yeteneği gibi SVM'nin avantajlarını tanımlar. Ancak video, özellik sayısı örnek sayısından fazla olduğunda düşük performans ve pahalı çapraz doğrulama gerektiren doğrudan olasılık tahminlerinin olmaması gibi algoritmanın dezavantajlarını da tanımlar.

  • 00:00:00 Bu bölümde, destek vektör makinelerini (SVM) ve bunların veri kümelerini iki sınıfla sınıflandırmak için nasıl kullanılabileceğini öğreniyoruz. DVM algoritması, veri kümelerinin uç noktalarına bakar ve veri kümesindeki uç noktaların yakınında bir karar sınırı veya hiper düzlem çizer. Temel olarak, destek vektör makinesi algoritması, iki sınıfı en iyi şekilde ayıran bir sınırdır. Ardından, doğrusal olarak ayrılamayan veri kümelerini ve DVM'lerin bunları bir çekirdek numarasıyla nasıl daha yüksek boyutlu özellik uzaylarına dönüştürebileceğini öğreniyoruz. Popüler çekirdek türleri arasında polinom çekirdeği, radyal temel işlev (RBF) çekirdeği ve sigmoid çekirdeği bulunur. Ancak, doğru çekirdeği seçmek önemsiz bir iş değildir ve eldeki belirli göreve bağlı olabilir.

  • 00:05:00 Bu bölümde destek vektör makinelerinin (SVM) avantajları ve dezavantajları ele alınmaktadır. DVM, yüksek boyutlu uzaylarda etkilidir ve karar fonksiyonunda eğitim noktalarının bir alt kümesini kullanır, bu da hafızayı verimli kılar. Özel çekirdekler dahil olmak üzere karar işlevi için farklı çekirdekler belirtilebilir ve SVM, tıbbi görüntüleme, finans endüstrisi ve örüntü tanıma gibi çeşitli uygulamalarda kullanılabilir. Bununla birlikte, DVM'nin dezavantajları arasında, özellik sayısı örnek sayısından fazlaysa düşük performans ve pahalı çapraz doğrulama gerektiren doğrudan olasılık tahminlerinin olmaması yer alır.
Support Vector Machine (SVM) in 7 minutes - Fun Machine Learning
Support Vector Machine (SVM) in 7 minutes - Fun Machine Learning
  • 2017.08.15
  • www.youtube.com
Want to learn what make Support Vector Machine (SVM) so powerful. Click here to watch the full tutorial.⭐6-in-1 AI MEGA Course - https://augmentedstartups.in...
 

"Derin Öğrenme Devrimi" - Geoffrey Hinton - RSE Başkanlık Konferansı 2019



"Derin Öğrenme Devrimi" - Geoffrey Hinton - RSE Başkanlık Konferansı 2019

"Derin Öğrenmenin Babası" olarak bilinen Geoffrey Hinton, derin öğrenmenin ve sinir ağlarının tarihini ve evrimini, insan beyni gibi öğrenebilen makineler oluşturmak için derin öğrenmeyi kullanmanın zorluklarını ve heyecan verici olasılıklarını tartışıyor. geri yayılımı daha etkili hale getiren püf noktaları ve teknikler. Ayrıca sinir ağlarının konuşma tanıma ve bilgisayar görüşündeki başarısını, bilgisayar görüşü ve denetimsiz ön eğitim için sinir ağlarının gelişimini ve bunların dil modelleme ve makine çevirisindeki etkinliğini anlatıyor. Analoji yoluyla akıl yürütmenin değerini vurgulayarak bitiriyor ve "kapsüller" teorisini ve bilgiyi bütünden parçaları tahmin eden bir modele bağlamayı tartışıyor.

Derin öğrenmede öncü olan Geoffrey Hinton, gerçek muhakeme için gerekli olan uzun vadeli bilgi ve geçici depolamaya izin vermek için çağrışımsal anıların, hızlı ağırlıklı belleklerin ve çoklu zaman ölçeklerinin sinir ağlarına entegrasyonunu savunan bir konferans veriyor. Buna ek olarak, önceki inançlar ve veriler arasındaki dengeleme eylemini, denetimsiz öğrenmenin potansiyelini, bakış açısı bilgisi ve öteleme eşdeğerliği ile nesneleri tanımada evrişimli ağların etkinliğini ve dönüştürücü gibi bağlantıcı ağlarla sembolik akıl yürütmeyi birleştirme ihtiyacını tartışır. ağlar. Ayrıca, makine öğrenimindeki bilinçsiz önyargılar konusuna da değiniyor ve önyargıları belirleyip düzelterek bunların insan önyargısından daha kolay düzeltilebileceğine inanıyor. Son olarak, yapay zeka alanında genç araştırmacılar için daha fazla fon ve desteğe ihtiyaç olduğunu vurguluyor.

  • 00:00:00 Derin öğrenmeye aşinaysanız, 1978'de Edinburgh'da yapay zeka alanında doktora yapan ve bu çalışmasıyla sayısız ödül kazanan "Derin Öğrenmenin Babası" olarak bilinen Profesör Geoffrey Hinton'a çok şey borçlusunuz. makine öğrenimine katkılar. Dersinin ilk bölümünde, derin öğrenme ve sinir ağlarının tarihini ve bunların yıllar içinde nasıl geliştiğini tartışıyor. Ayrıca insan beyni gibi öğrenebilen makineler oluşturmak için derin öğrenmeyi kullanmanın zorluklarından ve heyecan verici olasılıklarından bahsediyor.

  • 00:05:00 Bu bölümde Geoffrey Hinton, 1950'lerin başından beri var olan iki yapay zeka paradigmasından bahsediyor. Biri, zekayı sembolik kuralları kullanarak sembolik ifadeleri manipüle etmek olarak gören mantıktan ilham alan yaklaşımdı. Öte yandan diğer yaklaşım, zekanın özünün bir sinir ağındaki bağlantıların gücünü öğrenmek olduğuna inanıyordu. Bu yaklaşım, diğer yaklaşımın akıl yürütmeye odaklanmasıyla karşılaştırıldığında, öğrenme ve algılamaya daha fazla odaklandı. Bu farklı yaklaşımlar, içsel temsillere ilişkin farklı görüşlere ve bir bilgisayara istediğinizi yaptırmanın karşılık gelen yollarına yol açtı. Hinton, akıllı tasarım yöntemini, bir bilgisayarda çok sayıda örnek göstermeyi içeren eğitim veya öğrenme stratejisiyle karşılaştırır.

  • 00:10:00 Videonun bu bölümünde Geoffrey Hinton, birçok katman aracılığıyla karmaşık özellikleri öğrenmek için nöron ağlarını eğitmekle başlayan derin öğrenme devriminin nasıl ortaya çıktığını açıklıyor. Doğrusal ve doğrusal olmayan fonksiyonları modelleyen idealleştirilmiş nöronlar kullanılır. Bu arada, eğitim ağlarının, denetimli ve denetimsiz eğitim dahil olmak üzere farklı yöntemleri vardır ve geri yayılım, ikincisinin en verimli algoritmasıdır. Son olarak, derin öğrenmenin, etkiyi ölçmek için ağı bozmayı ve ardından gerektiğinde ağı değiştirmeyi içerdiğine dikkat çekiyor; bu, bilinmeyen değişkenler karşısında tedirgin etmeye yönelik evrimsel yaklaşımdan çok daha verimli.

  • 00:15:00 Dersin bu bölümünde Dr. Hinton, küçük bir grup eğitim örneği için gerçek cevap ile doğru cevap arasındaki tutarsızlığa dayalı olarak ağırlıkların gradyanını hesaplayan geri yayılımın optimizasyon tekniğini tartışıyor. Ağırlıkları gradyana dayalı olarak güncelleme sürecini ve süreci optimize etmek için stokastik gradyan inişinin kullanımını açıklıyor. Dr. Hinton daha sonra geri yayılımı daha etkili hale getiren püf noktalarını ve teknikleri tartışmaya devam ediyor, buna momentum kullanımı ve daha büyük gradyanlar için daha küçük öğrenme oranları dahil, sonuçta bu hileleri kullanmanın yüzlerce yayınlanmış dergi makalesine rağmen her şey kadar iyi olduğu sonucuna varıyor. daha sofistike yöntemlerle. Son olarak, 1990'larda sinir ağları ve daha küçük boyutlu veri kümeleri için uygun başlatma tekniklerinin eksikliğinin, makine öğrenimi topluluğunda sinir ağlarının geçici olarak terk edilmesine yol açtığını belirtiyor.

  • 00:20:00 Bu bölümde, derin öğrenmenin önde gelen isimlerinden Geoffrey Hinton, derin öğrenme araştırmalarının tarihini ve bu alandaki araştırmacıların karşılaştığı zorlukları tartışıyor. Geri yayılımın ilk günlerinde, birçok makalenin, hakim bilgisayar görüşü paradigmasına uymayan denetimsiz öğrenmeye odaklandıkları için nasıl reddedildiğini veya eleştirildiğini anlatıyor. Bununla birlikte Hinton, denetimsiz öğrenmenin, bırakma gibi tekniklerle birlikte, derin ağlar için geri yayılımı çalıştırmada kilit bir faktör olduğunu ve o zamandan beri derin öğrenme alanında devrim yaratmaya yardımcı olduğunu savunuyor.

  • 00:25:00 Bu bölümde Hinton, sinir ağlarının konuşma tanıma ve bilgisayar görüşündeki başarısını açıklıyor. Derin öğrenmenin ilk büyük uygulaması, bir ön ucun bir spektrogramın orta çerçevesini alarak ve bir kişinin hangi ses birimini ifade etmeye çalıştığını belirleyerek akustik modelleme yaptığı konuşma tanımaydı. Derin öğrenmenin büyük ölçekte ticari olarak ilgili ilk uygulaması, bir ön uç sinir ağının IBM ve diğer yerlerden yüksek düzeyde ayarlanmış tekniklerden daha iyi performans gösterdiği konuşma tanımaydı. Bir başka önemli olay, derin bir sinir ağının geleneksel bilgisayarla görme tekniklerine göre önemli ölçüde daha düşük hata oranları elde ettiği 2012'deki ImageNet yarışmasıydı.

  • 00:30:00 Bu bölümde, Profesör Geoffrey Hinton bilgisayar görüşü, makine çevirisi ve denetimsiz ön eğitim için sinir ağlarının evrimini ve bilgisayar görüşü topluluğunun bu sinir ağlarının başarısı konusunda ilk başta nasıl şüpheci davrandığını tartışıyor. Yumuşak dikkati ve dönüştürücüleri ve ikincisinin kovaryanslar için nasıl daha uygun olduğunu, onu gözlerin birbiriyle aynı olması gibi şeylere daha duyarlı hale getirdiğini ve denetimsiz ön eğitimin sinir ağlarını hakkında bilgi toplamaya nasıl zorlayabileceğini tartışmaya devam ediyor. Bir kelimenin etrafındaki kelimelerin, o kelimenin ne anlama gelmesi gerektiği hakkında size ne anlatabileceği.

  • 00:35:00 Bu bölümde Hinton, bağlama dayalı olarak sözcük anlamının açıklığa kavuşturulması gibi doğal dil işleme görevleri için evrişimli sinir ağları ve dönüştürücüler arasındaki farkı açıklıyor. Evrişimli sinir ağları, temsilini değiştirmek için hedef kelimenin etrafındaki kelimeleri kullanırken, dönüştürücüler, bir kelime vektörünü diğer kelimelerle ilgilenmek için kullanılan bir sorguya, anahtara ve değere dönüştürmeyi öğrenmek için bir ağı back-ravine türevleriyle eğitir. ilgili gösterimi etkinleştirin. Dönüştürücülerin dil modelleme ve makine çevirisinde çok etkili olduğu kanıtlanmıştır ve bir sonraki sözcük parçasının olasılığı yoluyla sözcük yerleştirmelerini öğrenmek için denetimsiz öğrenmeyi kullanan Burt gibi yöntemler geliştirmek için kullanılmıştır.

  • 00:40:00 Dersin bu bölümünde Hinton, bir insan tarafından yazılmış gibi görünen metinler üretebilen "GPT-2" adlı bir deneyi tartışıyor. Bir buçuk milyar parametre içeren GPT-2 modeli, milyarlarca metin kelimesi üzerine eğitildi ve tutarlı ve anlaşılır hikayeler üretebiliyor. Hinton, bu tür akıl yürütmenin uygun bir mantığa dayalı akıl yürütme değil, daha çok sezgisel bir akıl yürütme olduğunu tahmin ediyor. Ayrıca, modelin gerçekten ne kadarını anladığını bilmenin zor olduğuna da dikkat çekiyor ve modelin sadece büyük miktarda çağrışım yapıp yapmadığını veya bundan biraz daha fazlasını anlayıp anlamadığını sorguluyor.

  • 00:45:00 Bu bölümde Geoffrey Hinton, analoji yoluyla akıl yürütmenin değerini ve bunun akıl yürütme yeteneklerini geliştirmedeki rolünü vurguluyor. AlphaGo oyunu bağlamında sıralı akıl yürütmeyi sezgiyle akıl yürütmeyle karşılaştırır ve iyi bilgilendirilmiş kararlar almak için hem sezginin hem de mantıksal akıl yürütmenin gerekli olduğunu açıklar. Hinton ayrıca, evrişimli sinir ağlarının verimliliği nasıl artırdığını, ancak nesneleri insanlarla aynı şekilde tanıyamadığını tartışıyor, bu da insanların onu tanımak için koordinat çerçevelerini kullandığı ve bir nesnenin parçaları ile tamamı arasındaki ilişkileri anladığı sonucuna götürüyor. Bu, nesneleri nasıl tanıdıklarını iyileştirmek için sinir ağı mimarisine ilişkin içgörü ihtiyacını vurgular.

  • 00:50:00 Bu bölümde Hinton, uzamsal anlayışın koordinat çerçevelerine bağımlılığını göstermek için bir görev kullanır. Bir tel kafes küp sunuyor ve izleyiciden bir koordinat çerçevesi kullanmadan köşelerin nerede olduğunu göstermesini istiyor, bu da insanların küpleri kendi koordinat sistemlerine göre düşünme eğiliminde olduklarını ortaya koyuyor. Hinton daha sonra şekil parçalarını temsil etmeyi öğrenen nöronları gruplandıran ve içsel geometriyi yakalamak için her parçaya bir koordinat çerçevesi dayatan "kapsüller" teorisini tartışıyor. Şekil bilgisini yakalamak için bu kapsülleri denetimsiz olarak eğitmeyi planlıyor.

  • 00:55:00 Bu bölümde Hinton, bütünden parçaları tahmin eden bir modele bağlama bilgisini tartışıyor. Model, halihazırda çıkarılan parçalara bakan, bu parçaları alan ve hangi bütünlerin bu parçaları açıklayacağını tahmin etmeye çalışan bir dönüştürücü tarafından eğitilir. Transformatör, şeyler arasındaki ilişkileri bulmakta iyidir ve orada hangi nesnelerin olabileceğini ve pozlarının ne olduğunu tahmin edebilir. Hinton, modelin kareler ve üçgenler hakkında öğretildiği ve daha sonra bunları yeni görüntülerde tanıyabileceği bir örnek veriyor. Model, etiketler gösterilmeden ev numaralarını tanıyacak şekilde de eğitilebilir.

  • 01:00:00 Bu bölümde, denetimsiz öğrenmenin potansiyelini ve şu anda kullanımda olan skaler doğrusal olmama durumundan daha iyi çalışabilecek çeşitli nöron türlerini öğreniyoruz. Konuşmacı, öğrencileri duydukları her şeye inanmamaya teşvik ediyor ve 50 yıllık edinilmiş bilginin, belirli işlemler için doğru alt tabakanın nasıl elde edileceğini bulmaya yönlendirilmesini teşvik ediyor. Soru-Cevap bölümü, istihbarat için yalnızca en hızlı sistemlere güvenme olasılığını ve bir transformatörün belleğinin tutarlılığını tartışır.

  • 01:05:00 Bu bölümde Hinton, makine öğrenimindeki bilinçsiz önyargılarla ilgili bir soruyu yanıtlıyor ve bunu insanlardaki önyargılarla karşılaştırıyor. Makine öğreniminin önyargılı olabilmesine rağmen, düzeltmenin insan önyargısından çok daha kolay olduğuna inanıyor çünkü makine öğrenimindeki önyargılar, ağırlıkları dondurarak ve önyargıların kime karşı olduğunu ölçerek belirlenebilir ve düzeltilebilir. Ayrıca, makine öğrenimindeki açıklanabilirlikten bahsediyor ve bu büyük sinir ağları kısa ve öz bir şekilde açıklanamayan milyarlarca ağırlık öğrendiğinden, sistemlerin kullanılmadan önce açıklanabilir olması gerektiğini savunan yasalara karşı çıkıyor. Ancak, araştırmacıların bu sistemleri daha iyi anlamak istediğini kabul ediyor ve daha yaşlı araştırmacıları daha genç araştırmacılara fon sağlamaya teşvik ediyor.

  • 01:10:00 Bu bölümde Geoffrey Hinton, çeviri eşdeğerliği ve daha fazla bakış açısı bilgisini evrişimli ağlara bağlarsak, bunların nesne tanıma ve genellemede daha verimli olabileceği fikrini tartışıyor. Ek olarak, trafo ağları gibi bağlantıcı ağlarla sembolik akıl yürütmeyi birleştirme ihtiyacından bahsediyor. Hinton, çağrışımsal hafızaların, hızlı ağırlıklı hafızaların uygulanmasının ve her bir sinapsın birkaç zaman ölçeğine sahip olmasının, gerçek muhakeme için gerekli olan uzun vadeli bilgi ve geçici depolamaya izin verebileceğine inanıyor.

  • 01:15:00 Bu bölümde konuşmacı, sinir ağlarının geçmiş veya güncel deneyimlere göre nasıl güncellendiğiyle ilgili bir soruyu yanıtlıyor. Zaman içinde geriye doğru yayılımla uğraşmak yerine, mevcut durum tarafından etkinleştirilen çağrışımsal bir bellek kullanmayı öneriyor. Her sinapsın geçicileri depolamak için birden çok zaman ölçeğine sahip olması gerektiğini açıklıyor. Tartışma daha sonra önceki inançlara sahip sistemlerde halüsinasyon konusuna geçer. Konuşmacı, önceki inançlar ve veriler arasındaki dengeyi doğru bulmanın bu tür sistemler için anahtar olduğuna inanıyor. Son olarak, geri yayılım konusundaki kararsızlığını tartışıyor ve yapılacak doğru şey olsa da, insan beyninin çok daha fazlasını içermesiyle yalnızca bir milyar ağırlığın oldukça iyi çeviri yapabilmesine şaşırdığını belirtiyor.

  • 01:20:00 Videonun bu bölümünde konuşmacı, mevcut AI teknolojimizin nasıl düşündüğümüz kadar akıllı olmayabileceğini ve bu sorunu çözmeye odaklanmamız gerektiğini tartışıyor. Ayrıca Avrupa finansmanı tarafından finanse edilen İnsan Beyni Projesi'ne de değiniyorlar ve bunun AI gelişimine yardımcı olup olmayacağını sorguluyorlar. Konuşmacı ayrıca öğretim görevlisini, karmaşık kavramları uzman olmayanların anlayabileceği şekilde açıklayabildiği ve yapay zeka alanında genç araştırmacılar için daha fazla fon ve desteği teşvik ettiği için övüyor.
'The Deep Learning Revolution' - Geoffrey Hinton - RSE President's Lecture 2019
'The Deep Learning Revolution' - Geoffrey Hinton - RSE President's Lecture 2019
  • 2019.07.26
  • www.youtube.com
"There have been two very different paradigms for Artificial Intelligence: the logic-inspired paradigm focused on reasoning and language, and assumed that th...
 

ChatGPT gerçekte nasıl çalışır?



ChatGPT gerçekte nasıl çalışır?

ChatGPT, sohbet konuşmalarındaki zararlı içeriği doğru bir şekilde tanımlayabilen bir makine öğrenimi modelidir. Mimarisi insan girdisine dayanmaktadır ve eksiklikleri ana hatlarıyla belirtilmiştir. Önerilen okumalar da sağlanır.

  • 00:00:00 ChatGPT, modelin yanlış hizalama sorunlarını azaltmak için tasarlanmış bir sohbet robotudur. Önceden eğitilmiş bir modele ince ayar yapmak için insan geri bildiriminden pekiştirmeli öğrenmeyi kullanır.

  • 00:05:00 ChatGPT, sohbet konuşmalarındaki zararlı içeriği doğru bir şekilde tanımlayabilen bir makine öğrenimi modelidir. Mimarisi insan girdisine dayanmaktadır ve eksiklikleri ana hatlarıyla belirtilmiştir. Önerilen okumalar da sağlanır.
How ChatGPT actually works
How ChatGPT actually works
  • 2023.01.23
  • www.youtube.com
Since its release, the public has been playing with ChatGPT and seeing what it can do, but how does ChatGPT actually work? While the details of its inner wor...
 

Sıfırdan Makine Öğrenimi Tam kurs



Sıfırdan Makine Öğrenimi Tam kurs

Makine öğrenimi modellerini kendiniz uygulamak, bu modellerde ustalaşmanın en iyi yollarından biridir. Zor bir görev gibi görünse de, çoğu algoritma için genellikle hayal edebileceğinizden daha kolaydır. Önümüzdeki 10 gün boyunca, her gün bir makine öğrenimi algoritması uygulamak üzere belirli hesaplamalar için Python ve ara sıra Numpy kullanacağız.

Kodu GitHub depomuzda bulabilirsiniz: https://github.com/AssemblyAI-Examples/Machine-Learning-From-Scratch

Machine Learning From Scratch Full course
Machine Learning From Scratch Full course
  • 2022.09.12
  • www.youtube.com
To master machine learning models, one of the best things you can do is to implement them yourself. Although it might seem like a difficult task, for most al...
 

Python ile sıfırdan KNN nasıl uygulanır?

Kod: https://github.com/AssemblyAI-Examples/Machine-Learning-From-Scratch/tree/main/01%20KNN



Python ile sıfırdan KNN nasıl uygulanır?

"Python ile sıfırdan KNN uygulaması nasıl yapılır" başlıklı videoda konuşmacı, Python kullanarak sıfırdan bir KNN sınıflandırıcısının nasıl oluşturulacağını anlatıyor. Yeni veri noktası ile veri kümesindeki diğer noktalar arasındaki mesafenin hesaplanması, en yakın k noktanın seçilmesi ve sınıflandırma için etiketin veya regresyon için ortalamanın belirlenmesi gibi algoritmanın uygulanmasında yer alan adımları kapsar. Konuşmacı, algoritmayı Python'da bir sınıf kullanarak uygular ve iris veri kümesi üzerinde %96'lık bir doğruluk oranıyla başarılı bir şekilde uygulandığını gösterir. Ayrıca izleyicileri Github depolarındaki kodu incelemeye ve yorumlar bölümünde sorular sormaya davet ediyorlar.

  • 00:00:00 Bu bölümde k En Yakın Komşular (k-NN) algoritmasını, nasıl çalıştığını ve algoritmayı Python'da uygulamak için gereken adımları öğreniyoruz. k-NN, yeni veri noktasına olan mesafelerine göre en yakın k veri noktasının seçildiği mesafeye dayalı bir algoritmadır. Bu k değeri kullanıcı tarafından belirlenir ve hem regresyon hem de sınıflandırma problemlerinde kullanılabilir. Algoritma, yeni veri noktası ile veri kümesindeki diğer veri noktaları arasındaki mesafeyi hesaplayarak başlar. Daha sonra k en yakın nokta seçilir ve regresyon için değerlerinin ortalaması alınır veya sınıflandırma için çoğunluk oyu alan etiket belirlenir. Python'da sığdır ve tahmin işlevine sahip bir sınıf ve iki nokta arasındaki mesafeyi hesaplamak için bir yardımcı işlev kullanarak algoritmanın nasıl uygulanacağını da görüyoruz.

  • 00:05:00 Bu bölümde, konuşmacı Python kullanarak sıfırdan bir KNN sınıflandırıcısının nasıl oluşturulacağını açıklıyor. Mesafe dizisini sıralamak için ark sıralama yöntemiyle başlayarak, en yakın k komşuyu seçmeye, en yaygın sınıf etiketini almaya ve en yaygın etiketi döndürmeye devam ederler. Daha sonra çiçek türlerini sınıflandırmak ve %96'lık bir doğruluk oranı elde etmek için bu sınıflandırıcıyı iris veri setinde uygularlar ve KNN'nin başarılı bir şekilde uygulandığını gösterirler. Konuşmacı, izleyicileri Github depolarında bulunan kodu kontrol etmeye ve yorumlar bölümünde sorular sormaya davet ediyor.
Machine-Learning-From-Scratch/01 KNN at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
Machine-Learning-From-Scratch/01 KNN at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
  • AssemblyAI-Examples
  • github.com
Implementation of popular ML algorithms from scratch - Machine-Learning-From-Scratch/01 KNN at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
 

Python ile Lineer Regresyon sıfırdan nasıl uygulanır?

Kod: https://github.com/AssemblyAI-Examples/Machine-Learning-From-Scratch/tree/main/02%20Linear%20Regression



Python ile Lineer Regresyon sıfırdan nasıl uygulanır?

Bu video, Python kullanarak sıfırdan doğrusal regresyon uygulama sürecini kapsar. Konuşmacı, ortalama kare hatası kullanılarak en uygun doğrunun nasıl bulunacağını ve gradyan iniş ile ağırlıkların ve önyargıların nasıl hesaplanacağını açıklar. Konuşmacı ayrıca öğrenme oranının yakınsamayı nasıl etkilediğini tartışıyor ve scikit-learn'ün veri seti özelliğini kullanarak modelin nasıl test edileceğini gösteriyor. Ayrıca koddaki bir yazım hatasını düzeltirler ve tahmin satırının uyumunu iyileştirmek için öğrenme oranını ayarlarlar. Kod GitHub'da paylaşılır ve izleyiciler soru sormaya davet edilir.

  • 00:00:00 Bu bölümde, belirli bir veri kümesinin modelini anlamayı ve verilere mümkün olan en iyi şekilde uyan doğrusal bir çizgi çizmeyi içeren doğrusal regresyona odaklanılır. Ortalama kare hatası, tüm veri noktaları için çizginin hatasını hesaplamak için kullanılır ve en uygun çizgi, model veya ağırlık parametreleri için değerler hesaplanarak bulunur ve gradyan inişini kullanarak minimum ortalama kare hatası veren sapma bulunur. Öğrenme oranı, gradyan inişinin bize gitmemizi söylediği yönde ne kadar hızlı veya yavaş gitmemiz gerektiğini kontrol etmek için kullanılır; burada düşük bir öğrenme oranı, minimum hataya yavaş bir yaklaşıma neden olurken, yüksek bir öğrenme oranı, hava sahasında zıplamaya neden olabilir. ve minimumu bulamamak. Eğitim sırasında, ağırlık ve yanlılık sıfır olarak başlatılır ve denkleme tahmin etmesi veya tahmin etmesi için bir veri noktası verilir
    sonuç ve denklemin hatası hesaplanır, bu da gradyanları hesaplamak için tüm veri noktalarıyla matris çarpımını kullanmayı kolaylaştırır. Test sırasında, eğitimli bir model denklemi kullanarak sonuçları tahmin eder.

  • 00:05:00 Bu bölümde konuşmacı Python ile sıfırdan lineer regresyon uyguluyor. Konuşmacı öğrenme hızını başlatır, yineleme sayısı için varsayılan bir değer ayarlar ve ağırlıkları ve sapmaları sıfır olarak tanımlar. Konuşmacı daha sonra, x'in iç çarpımını ağırlıklarla alarak ve önyargıyı ekleyerek sonucu tahmin etmeye devam eder. Türevleri hesaplamak için konuşmacı basit bir denklem kullanır ve ardından gradyanları hesaplayarak ağırlıkları ve sapmaları günceller. Son olarak, konuşmacı tahminler ve gerçek değerler arasındaki farkları özetler ve süreç yakınsayana kadar birkaç yineleme için tekrarlanır.

  • 00:10:00 Bu bölümde, konuşmacı verilen sınıfı kullanarak doğrusal regresyon modelinin nasıl eğitileceğini ve tahminlerin nasıl yapılacağını tartışır. Ağırlıkların ve yanlılıkların güncellenmesi, sırasıyla ağırlıkların ve sapmaların türevlerinin öğrenme hızıyla çarpımı çıkarılarak yapılır. Algoritmayı çalıştırmanın birden çok yinelemesini yapmak için, algoritmayı veri kümesi üzerinde çalıştırmak üzere bir for döngüsü eklenir. Son olarak, konuşmacı, iyi performansla sonuçlanan bir çizgi uydurarak ve tahminler için ortalama karesel hatayı hesaplayarak, bir scikit-learn'ın veri seti özelliğini kullanarak doğrusal regresyon algoritmasının verimliliğinin nasıl test edileceğini gösterir. Yanlış iç çarpım hesaplaması nedeniyle bir boyut hatasıyla karşılaşıldı, bu hata x'in devriğini alarak düzeltildi.

  • 00:15:00 Bu bölümde sunucu, koddaki bir yazım hatasını düzeltir ve bunu, belirli bir veri kümesindeki x değerlerine dayalı olarak y değerlerini tahmin eden bir doğrusal regresyon modeli oluşturmak için kullanır. Daha sonra tahmin çizgisini görselleştirirler ve iyi uysa da iyileştirilebileceğini fark ederler. Sunucu, öğrenme oranını ayarlamaya karar verir ve daha iyi bir uyum elde etmek için modeli yeniden çalıştırır. Kodu GitHub'da paylaşırlar ve gerekirse izleyicileri soru sormaya davet ederler.
Machine-Learning-From-Scratch/02 Linear Regression at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
Machine-Learning-From-Scratch/02 Linear Regression at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
  • AssemblyAI-Examples
  • github.com
Implementation of popular ML algorithms from scratch - Machine-Learning-From-Scratch/02 Linear Regression at main · AssemblyAI-Examples/Machine-Learning-From-Scratch
Neden: