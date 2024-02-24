Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3332
Beyler! Konuyu karıştırmıyor musunuz? Konu dışı 2-3 sayfayı temizlemek iyi olur.
Alexey'in makalesi bir saat önce yayınlandı, okuyun.
Sanırım onun zamanındaki niceliğini her yönden zaten tartışmıştık. Daha önce söylediklerime ekleyebileceğim tek şey, ona en azından 200 dolar kazandırdığı için onun adına mutlu olduğumdur.
Teşekkür ederim, gelirim için mutlu olmak güzel - nadir!
Hangi Diyojen'i kastettiğinizi bilmiyorum ama trollük anlamında Sinoplu Diyojen ya da Laertesli Diyojen'e kıyasla hepimiz çocuğuz.
Başlığımın, kaynağa kaydımın ve bugünkü başlığımın tarihlerine bakarsanız, daha açık hale gelecektir. Kayıttan iki yıl sonra forumda yapıcı ve faydalı diyalog için hala umut vardı ve altı buçuk yıl sonra neredeyse hiç umut kalmadı. Sadece eğlence için.
Neden rastgele?
Bir sınıftaki tüm noktalar arasında dolaşın ve diğer sınıftaki tüm noktalara olan mesafeyi ölçün, minimum mesafeyi alın.
Her şey elde edildiğinde, sıralayın, ihtiyacınız olan mesafeye kadar silin, her seferinde bir çift. Silinen nokta başka bir çiftte kullanılmışsa, yeni bir minimum mesafeye sahip yeni bir nokta bulun, tekrar sıralayın ve devam edin.
Belki daha iyi bir yol düşünebilirsiniz. Belki sıralama yapmadan - sadece gerekli mesafeye kadar silin.
Sanırım doğru anlamıyorum:
Algoritmanın prototipini doğru anladım mı?
Konuya böyle bir gecikmeyle dönüyorum, çünkü CatBoost modellerindeki ve diğer ağaç topluluklarındaki yaprakların aktivasyonda güçlü bir şekilde ilişkili olabileceği fikrinden biraz etkileniyorum, bu da eğitim sırasında güvenlerini bozuyor ve bir bütün olarak model için yaprak değerinin fazla tahmin edilmesine yol açıyor.
1) Bir matris de kullanabilirsiniz, ancak zorunlu değildir, ancak hemen 0 sınıfının her noktasını 1 sınıfının en yakın noktasını bulun, yani bir kerede 2. noktayı elde ederiz.
3) hiçbir şeyi saymayın ve kümelere atıfta bulunmayın, sadece en yakın noktaların çiftlerini çıkarın. Mesafe eşikten az olduğunda, bu örnekteki eşik 0,6 olacaktır. Diğer problemlerde muhtemelen bunu seçmemiz gerekecektir.
Silinen 1 sınıflı bir nokta 0 sınıflı başka bir nokta ile eşleştirilmişse, o zaman çiftsiz kalır, 1 sınıflı yeni bir en yakın nokta bulmak zorundadır (yine bir hesaplama yapın veya 1. maddede önerdiğiniz gibi bir matris kullanın, bellek yeterliyse, 1 milyona 1 milyonluk bir matrisin herhangi bir belleğe sığmayacağını düşünüyorum, belki 100 bine kadar).
4) kalana kadar değil, eşik mesafesine kadar. Çok büyükse, başlangıçta daha fazla olan sınıflardan sadece 1'inin noktaları kalacaktır.
Ancak daha önce de yazdığım gibi, bu gürültüyü ortadan kaldırmanın iyi bir fikir olduğunu düşünmüyorum (bkz. https://www. mql5.com/ru/forum/86386/page3324#comment_50171043). Tahmin yaparken bu gürültüyü ortadan kaldıramazsınız diye bir şey yok. Ağacın kendisi gürültülü yaprakları yaklaşık %50 olasılık vererek işaretleyecek ve örneğin sınıflardan birinin olasılığı >%80 olan gürültülü olmayan yaprakları alacaktır (veya uygun gördüğünüz kadarını).
Kümelerin bununla hiçbir ilgisi yoktur. Sadece birbiriyle çelişen farklı sınıflara sahip en yakın noktaları, yani gürültüyü ortadan kaldırır. Ve sonra kümeleme veya ağaç kullanabilirsiniz - eğitmek istediğiniz her neyse.
Henüz kafamda tam olarak oturtamadım. Her şey tek bir alanda gerçekleşiyor - bir tahmin edicinin metriğinde, ama diğerlerini nasıl hesaba katacağız?
Tahmin yaparken ne yapacağıma gelince - iki model kullanmayı düşünüyordum - biri neyin düştüğünü tespit eden veya verilerin "kümelenme" bölgesinde olduğunu doğrulayan, diğeri ise zaten kalanlar üzerinde çalışan.
https://www.mql5.com/ru/articles/9138
Bir yıldır kimse umursamıyor.
Bunun gibi bir düzine ya da yirmi algoritma yazdım, bazıları iyi kurulmuş. Makaledeki, sonuçların istikrarı açısından en iyisi değil, ilk gözleme.
Bu yüzden tartışacak bir şey yok, çünkü henüz daha iyi bir şey yok.