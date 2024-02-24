Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2831
Soruyu ayrıntılı olarak incelemedim. Fikir basit gibi görünüyor, ancak uygulama yöntemlerinde pek çok teknik incelik var.
Ayrıca.... gürültülü bir fonksiyonda maksimum bulmanın ne anlama geldiği sorusu da vardır.
Tanımdan anladığım kadarıyla - "gürültülü bir fonksiyonu optimize etmek" - bu, fonksiyonun karmaşık olduğu ve maksimumun bulunmasının zor olduğu, gradyan algoritmalarının uygulanamayacağı vb. anlamına geliyor... Kabaca konuşmak gerekirse, bu büyük bir sorun değil, küresel optimizasyon algoritması uyguladı ve küresel maksimum aramaya gitti....
Ama ben olaya farklı bakıyorum, gürültülü bir fonksiyonun maksimumunu bulmak istiyorum ama gürültüden arındırılmış olarak, gürültülü bir fonksiyonun global maksimumunu değil, gürültüden arındırılmış bir fonksiyonun global maksimumunu....
(Ve bu önemsiz değil, çünkü fonksiyon bilinmiyor ve gürültü parametreleri bilinmiyor....
1. Dick'in sorusu tamamen geçerli ve doğru bir sorudur. NS kullanmıyorum, ancak herhangi bir R paketindeki herhangi bir fonksiyonun mutlaka algoritmanın yazarına bir referans içerdiğini ve ciddi algoritmalar için, R'de uygulanan algoritmayı açıklayan makaleye / kitaba bir referans içerdiğini biliyorum. NS'yi iyi bildiğinize göre, R kullanıyor olsaydınız, R'de ilgili NS türünü arayabilir ve ilgili algoritmanın açıklandığı ilgili referansı bulabilir, algoritma hakkında bir tartışma bulabilir, profesyonellerin tüm nüanslarını öğrenebilirsiniz ... ve Dick'e müstehcen bir şeyler mırıldanmak yerine en yüksek profesyonel düzeyde cevap verebilirdiniz.
2. İsmiyle R: istatistik ve grafik dili. R'nin özü, referans aygıtının derecelendirmesini ortaya çıkarır.
İşte R paketlerinin kapsadığı konuların bir listesi. Konulardan biri makine öğrenmesidir.
İşte MO ile ilgili paketlerin bir listesi.
Birkaç yıl önce diğer uzmanlaşmış istatistik dilleri arasında R'nin rakiplerini bulmak mümkündü. Örneğin, SPPS, bugün hiç bulamadım. R, desteklenen ve denetlenen tek istatistiksel dil olarak kaldı, Microsoft yazılımına dahil olan çok sayıda aynaya sahip.
3. R ile Python'u karşılaştırmak tamamen haksızdır.
R özel bir dildir. Python ise evrensel bir dildir. Python, kullanıcı sayısında R'yi çok geride bırakır, ancak Python'un kitlesel kullanıcısı web tasarımıdır. Python'un istatistik paketlerine sahip olması, istatistik dili olarak sınıflandırılmasına izin VERMEZ. Bu temelde, hem R hem de Python'da kullanılan paketlerin uygulandığı C++ bir istatistik dili olarak sınıflandırılabilir. Ayrıntılı değerlendirme tablosu ve önerilen fonksiyonların algoritmalarına referansları nedeniyle R, istatistik teorisi ve pratiğini incelemek için kullanılabilirken, Python kullanılamaz.
Ve burada Prado'dan alıntı yapacağım, ancak kelimesi kelimesine değil, çünkü "Makine öğrenimi, ticarette klasik istatistiklere kıyasla daha fazla olanak sağlar" ifadesini unuttum
ve MO bibles python için çok iyi geliştirilmiştir, ancak diğerleri de statsmodels gibi. Yani bu gerçeklerle tartışmak ve birbirimize bir şeyler kanıtlamak anlamsız.Benim anlayışıma göre, R öğrenciler, profesörler ve hobiciler içindir. Böylece birbirinizden alıntı yapabilir ve bir şeyler hakkında övünebilirsiniz. Profesörler için, belki ders veren bazı profesörler için. Python ciddi projeler ve üretim için. R'de üretimde olan herhangi bir büyük MO projesi duymadım.
Bilmediğinizi iddia ettiğiniz bir konuda neden tartışıyorsunuz?
Microsoft, R'yi çok sayıda geliştirici tarafından büyük projeler geliştirmek için bir araç haline getirmek için bazı çabalar sarf etmiştir.İşte R ile çalışmamızı sağlayacak Microsoft ürünlerinin/hizmetlerinin listesi:
.
Ne tür hobiciler, ne tür profesörler Microsoft R Server ekosistemine ihtiyaç duyar?
Ve her şeyi ve her şeyi birleştirmenize olanak tanıyan VM sanal makineleri?
Peki ya makine öğrenimi paketleri ve işbirliğine dayalı geliştirme araçlarıyla Azura bulut hizmeti?
R artık Microsoft tarafından kendi geliştirmelerine ve Microsoft dışı geliştirmelere entegre edilen endüstriyel bir sistemdir.
Ve siz "amatörler için"...
"Orada bir şeyler olduğu" açık.
En azından Rusya'da büyük olanlar da dahil olmak üzere uygulayıcılarla iletişim kurma deneyimimden bahsediyorum.
Hepsi bunu python ile yaptı.
Microsoft'un C# ve Asure'de makine öğrenimi için sdk'sı var, ancak kimse bunları kullanmıyor.
Yani R'de büyük bir proje yaptınız, bir sunucuya koydunuz. Peki bunun bakımını kim yapacak? Hiç kimse, çünkü bu kadar uzman yok ve hiç kimse bir istatistik yüzünden R öğrenmek istemiyor.
Python için, herhangi bir öğrenciyi bir çubuk sosis için işe alın ve iyi olacaksınız.
"hiç kimse" kelimesi, KİMSE R'de herhangi bir bahaneyle yazmaz anlamına gelir. Çünkü python var.
ve siz traddun'ları R'de yazmaya yönlendiriyorsunuz, böylece ne yapacaklar? zamanlarını işe yaramaz bir dilde harcayacaklar.
Gürültülü bir fonksiyonda maksimum değeri bulmakla ne kastettiğimiz sorusu da var...
Tanımdan anladığım kadarıyla - "gürültülü bir fonksiyonun optimizasyonu" fonksiyonun karmaşık olduğu ve içinde maksimum bulmanın zor olduğu, gradyan algoritmalarının uygulanamayacağı vb. anlamına geliyor.... Kabaca konuşmak gerekirse, önemli bir şey değil, küresel optimizasyon algoritmasını uygularsınız ve küresel maksimum aramaya gider....
Ancak ben olaya farklı bakıyorum, gürültülü bir fonksiyonun maksimumunu bulmak istiyorum, ancak gürültü kaldırılmış, gürültülü bir fonksiyonda global maksimum değil, gürültüsüz bir fonksiyonda global maksimum....
(Ve bu önemsiz değildir, çünkü fonksiyon bilinmemektedir ve gürültü parametreleri bilinmemektedir....
Gürültü hakkında a priori bilgiye ihtiyacınız var. Dahası, gürültünün net bir mat modeline ihtiyacınız var - eklemeli, çarpımsal veya başka bir şey. Bir model olmadan filtre yapamazsınız. Ve bu model gerçek verilere benzer olmalıdır.
Belki de iki veya üç boyutlu verilerle çalışan coğrafi veri işleme yöntemlerine bakmalısınız. Ya da jpg görüntülerinde olduğu gibi Fourier dönüşümü veya jpg'nin yeni sürümünde olduğu gibi dalgacıklar veya çok boyutlu spline'lar gibi bir şey.
"Savaş ve ara - bul ve saklan" sloganından alıntı yapardım.
herhangi bir ölçütü, özellikle de bu standart ölçütleri özel bir ölçüt olarak ayarlayın. Yine de logloss'a göre optimizasyon yapacaktır, ancak muhtemelen bir anlam ifade eden bu özel ölçütlerde duracaktır
ve gerçekten de öyle, çünkü aynı patlamada durmak her zaman isabetlilik gibi bazı döküm kriterlerine dayanır.
Şimdiye kadar, sanırım, sadece bu şekilde. Ağaç budama işlemini özel bir kritere göre de yapabilirsiniz.
"var" olduğu açıktır.
En azından Rusya Federasyonu'ndaki büyük uygulayıcılar da dahil olmak üzere, uygulayıcılarla iletişim kurma deneyimime dayanarak konuşuyorum
her şey Python'da yapıldı
microsoft'un C# ve Asure'de makine öğrenimi için sdk'sı var, ancak kimse bunları kullanmıyor
Yani R'de büyük bir proje yaptınız, sunucuya koydunuz. Peki bunun bakımını kim yapacak? Hiç kimse, çünkü bu kadar çok sayıda uzman yok ve hiç kimse bir istatistik yüzünden R öğrenmek istemiyor.
Python içinse, herhangi bir öğrenciyi bir sosis çubuğuna kiralayın ve iyi olacaksınız.
"hiç kimse", herhangi bir bahaneyle R'de yazan kişilerin HİÇBİRİ için kullanılan bir kelimedir. Çünkü python var.
ve traddun'ları R'de yazmaya yönlendiriyorsunuz, böylece ne yapacaklar? zamanlarını işe yaramaz bir dilde harcayacaklar.
RF kötü bir örnektir, çünkü matstat anlamında son derece atıldır. Forumumuz teknisyenlerle dolu, ancak çoğunun matstat hakkında son derece zayıf fikirleri var. Enstitülerde profesörler matstat'ı Excel'de öğretiyor) Tüm bunlar bilimsel ve teknik okulumuzu son derece kötü bir şekilde karakterize ediyor - SSCB döneminden kalma ciddi çözümler, ülkede geliştirilmek yerine daha çok yurtdışından hazır olarak satın alınıyor.
Gürültü hakkında a priori bilgiye ihtiyacınız olduğu doğru bir şekilde cevaplandı . Dahası, net bir gürültü modeline ihtiyacınız var - eklemeli, çarpımsal veya başka bir şey. Bir model olmadan filtre yapamazsınız. Ve bu model gerçek verilere benzer olmalıdır.
Belki de iki veya üç boyutlu verilerle çalışan coğrafi veri işleme yöntemlerine bakmalısınız. Ya da jpg görüntülerinde olduğu gibi Fourier dönüşümü veya jpg'nin yeni sürümünde olduğu gibi dalgacıklar veya çok boyutlu spline'lar gibi bir şey.
Sorunsuz bir model oluşturabilirim, herhangi bir ayrıştırma, hatta PCA ve devam edebilirim ...
Peki ya veriler? Onlar yok, bilinmeyen bir fonksiyon ve hatta çok boyutlu....
TÜM veriler AO arama sonuçlarının dağınık noktalarıdır (eğer onları kaydederseniz).
Bu bir zaman serisi değil, yapı ya da düzen yok.
RF kötü bir örnektir, çünkü matstat anlamında son derece aptalcadır. Forumumuz teknoloji uzmanlarıyla dolu, ancak çoğunun matstat hakkında son derece zayıf fikirleri var. Enstitülerde profesörler matstat'ı Excel'de öğretiyor) Tüm bunlar bilimsel ve teknik okulumuzu son derece kötü bir şekilde karakterize ediyor - SSCB döneminden kalma ciddi çözümler ülkede geliştirilmek yerine daha çok yurtdışından hazır olarak satın alınıyor.
Excel hayatlarının ilerleyen dönemlerinde onlar için daha faydalı olacaktır :D
Sorunsuz bir model oluşturabilirim, herhangi bir ayrıştırma, hatta PCA ve devam edebilirim.
Peki ya veriler? Onlar mevcut değil, bilinmeyen bir fonksiyon ve çok boyutlu...
Veriler, AO aramasından elde edilen dağınık noktalardır (eğer onları kaydettiyseniz).
Bu bir zaman serisi değil, bir yapısı ya da düzeni yok.
Akla gelen ilk şey, alanı çok büyük veya küçük olmayan hücrelerden oluşan bir ızgaraya bölmektir (boyut, gürültü modeli tarafından belirlenir). Bazı (örneğin rastgele seçilen) hücrelerle başlayın - içindeki birkaç nokta, yumuşatılmış fonksiyonun gradyanının yönünü belirler ve bir sonraki hücreye geçer ve geçiş veya döngü olmayana kadar böyle devam eder. Ekstremumun konumu, hücrenin boyutuna göre hassas bir şekilde ayarlanır, bu nedenle çok büyük olmamalıdır, ancak aynı zamanda yumuşatma imkanı da vermelidir, bu nedenle çok küçük olmamalıdır. Ve prensipte ekstremumun kesin bir konumu olmadığı gerçeğini kabul etmeliyiz, çünkü yumuşatma yöntemine bağlı olarak değişecektir.