Bu kaosun bir düzeni var mı? Hadi bulmaya çalışalım! Belirli bir örnek üzerinde makine öğrenimi. - sayfa 19

 

Kâr, zaman içinde bir noktadan itibaren fiyat hareketinin deltasına eşittir.

Henüz beni şaşırtan bir şey yok.

Uzun kuyrukları çoktan geçtik ....

 
Renat Akhtyamov #:

Kâr, zaman içinde bir noktadan itibaren fiyat hareketinin deltasına eşittir.

Henüz beni şaşırtan bir şey yok.

Uzun kuyrukları çoktan geçtik ....

Bunu neden yazdınız? Doğru, marjinlerde düşüncelerinizi işaretlemek için herhangi bir konu kullanamazsınız....

 
Aleksey Vyazmikin #:

Şekil 13, biri hariç mevcut tahmin edicilerin neredeyse tamamının kullanıldığını göstermektedir, ancak sorunun kaynağının bu olduğundan şüpheliyim. Yani sorun kullanımdan ziyade modelin oluşturulmasındaki kullanım sırası mı?

Evet, öyle. Aynı tahmin edicilerle 2 model eğitirseniz, ancak birinin ilk bölünmesi bir tahmin edicide ve diğerindeyse, her varyant için altta yatan tüm ağaç oldukça farklı olacaktır.

Diğer soru ise aynı veri kümesi üzerinde bousting yapmanın neden ilk bölünmeleri farklı yaptığıdır? Sütun sayısı için katsayı ormandaki gibi !=1 mi? Ormanda rastgelelik içindir. Ama bence ==1 olmalı.
O zaman başka bir seçenek: modeller için farklı Tohum? Aynısını deneyin, sonuç aynıysa, tohumun karlı bir modeli karsız hale getirmesinin çok kötü olduğunu düşünüyorum.

 
Bu arada, Cutbust Seed'de rastgelelik nedir?
 
Aleksey Vyazmikin #:

Bunu neden yazdınız? Doğru, marjinlerde düşüncelerinizi işaretlemek için herhangi bir konu kullanamazsınız....

grafikleriniz hakkında

 
elibrarius #:

Evet, öyle. Aynı tahmin edicilerle 2 model eğitirseniz, ancak birinde ilk bölünme bir tahmin ediciye göre, diğerinde ise başka bir tahmin ediciye göre yapılırsa, her varyantın altında yatan tüm ağaç oldukça farklı olacaktır.

Bu da bir kez daha açgözlülük yönteminin yarma seçerken hatalı olduğunu kanıtlıyor. Yaprakları seçerken bunu kendim de denedim ve aynı sonuca vardım.

elibrarius #:

Soru farklı - aynı veri kümesiyle bousting neden ilk bölünmeleri farklı yapıyor? Sütun sayısı için katsayı ormandaki gibi !=1 mi? Ormanda bu rastgelelik içindir. Ama ben ==1 olması gerektiğini düşünüyorum.

Anladığım kadarıyla, burada değerlendirme için sütunların bir kısmını seçmek için bir analog var, ancak ben hepsini zorlayacak şekilde ayarladım.

elibrarius #:

O zaman başka bir seçenek: modeller için farklı Tohum? Aynısıyla deneyin, sonuç aynıysa, tohumun karlı bir modeli karsız hale getirebilmesinin çok kötü olduğunu düşünüyorum.

Seed sonucu sabitler, yani her şey aynı olacaktır.

elibrarius #:
Bu arada, Seed Cutbust'ta neyi rastgele hale getiriyor?

Anladığım kadarıyla, rastgele sayı üreteci sayacını belirli bir değere ayarlıyor ve bu üreteç en azından "en iyi ağacın seçildiği metrikte bir rastgeleleştirme var." yazdıkları gibi kullanılıyor ve bir tür rastgele sayı üreteci artı bir katsayı kullanıyor, anladığım kadarıyla --random-strength parametresinden alınıyor (benim için 1).

İşte formül:

Score += random_strength * Rand (0, lenofgrad * q)

q, iterasyon arttıkça azalan bir çarpandır. Böylece, rastgele sonlara doğru azalır.

"

Ancak orada bir alt örneğin bir ağaç oluşturmak için kullanılabileceğini de yazıyorlar, ancak ben "--boosting-type Plain" örneğinin tam uygulaması için modu kullanıyorum.


Ayrıca böyle bir etki var, eğitimden sonra modeli kullanmayan sütunları kaldırırsam, aynı Seed ile modeli alamıyorum - ki bu net değil.

 
Renat Akhtyamov #:

grafikleriniz yazılı

" Kâr, belirli bir zamandaki fiyat hareketinin deltasına eşittir " bu grafikler için nasıl geçerlidir? " ?

Ve bu cümle o zaman "Uzun kuyrukları çoktan geçtik ...." size bir çeşit eğitim sunduğumu mu anlamalıyım? Ama ben bunu yapmıyorum ve kuyruklar genellikle burada forumda fiyat değişiminin dağılım yoğunluğunu modellerken kullanılır - histogramda sahip olduğum şey hiç değil. Ve burada daha ziyade riskler hakkında değil, şans eseri bir model oluşturmanın, tahmin edicilerin önem yapısını ve bağımlılıklarını anlamaktan daha zor olduğu gerçeği hakkında konuşmalıyız.

 
Aleksey Vyazmikin #:

" Kâr, zamanın bir noktasından itibaren fiyat hareketinin deltasına eşittir " bu grafiklerle nasıl ilişkilidir? " ?

Ve bu ifade o zaman "Uzun kuyrukları çoktan geçtik ...." size bir çeşit eğitim önerdiğimi mi anlamalıyım? Ama ben bunu yapmıyorum ve kuyruklar genellikle burada forumda fiyat değişiminin dağılım yoğunluğunu modellerken kullanılıyor - histogramda sahip olduğum şey hiç değil. Ve burada daha ziyade riskler hakkında değil, şans eseri bir model oluşturmanın, tahmin edicilerin önem yapısını ve bağımlılıklarını anlamaktan daha zor olduğu gerçeği hakkında konuşmalıyız.

Ben kaosun içinde bir düzen olduğu gerçeğine yanıt veriyordum.

Hangi mantığı/yaklaşımı/formülü/teoriyi vs. kullanırsanız kullanın, kaos sadece bu tür histogramlardır. Uyguladınız ve başka bir örüntü bulamayacaksınız.

 
Aleksey Vyazmikin #:

Bu da bir kez daha açgözlülükle yarık seçme yönteminin hatalı olduğunu kanıtlıyor. Yaprakları seçerken ben de bunu denedim ve aynı sonuca vardım.

Peki açgözlülük olmadan? Her bölünme için bir tane daha hesaplayabilir ve bir kerede bir çift seçebilirsiniz, ancak sizin durumunuzda hesaplamaların süresi 5000+ kat artacaktır. Yüz modelin ortalamasını almak daha kolay.

Anladığım kadarıyla, tahmin için sütunların bir kısmını seçmek için bir analog var, ancak hepsini kullanmaya zorladım.

Ancak bir alt örneğin bir ağaç oluşturmak için kullanılabileceğini de söylüyorlar, ancak ben "--boosting-type Plain" örneğinin tam uygulaması için modu kullanıyorum.

Rastgeleliğin etkisini azaltmak için bu doğrudur. Aksi takdirde ormandaki gibi 20-100 modelin ortalamasını almanız gerekir.

Aleksey Vyazmikin #:

Anladığım kadarıyla, rastgele üreteç sayacını belirli bir değere ayarlıyor, ancak bu üreteç en azından "en iyi ağacın seçildiği metrikte bir rastgeleleştirme var." yazdıkları gibi kullanılıyor ve bir tür rastgele üreteç artı anladığım kadarıyla --random-strength parametresinden alınan bir katsayı kullanıyor (bende 1 var).

İşte formül:

Puan += random_strength * Rand (0, lenofgrad * q)

q, iterasyon arttıkça azalan bir çarpandır. Böylece, rastgele sonlara doğru azalır.

Yani, rafine ağaçların en iyisi olmayabileceği, ancak rastgele daha kötü olabileceği ortaya çıkıyor.
Dolayısıyla modellerde erikten karlıya doğru bir yayılma söz konusudur.
Dağılım grafiklerine bakılırsa, daha fazla tüketen model var, yani ortalama alırsak, ortalama sonuç kârsız olacaktır.



Random-strength = 0'ı denemeli miyim? Umarım Tohum değişiklikleri bundan sonra modeli değiştirmeyi durdurur. Belki de rastgele kötü olanlar yerine daha iyi iyileştirme ağaçlarına sahip bir model oluşturun. En iyi model erik olacaksa, bu veriler üzerinde 10000 rastgele modelden rastgele en iyisini aramak gerçek erik için bir yoldur.

Ya da ormanda olduğu gibi rastgele seçilen birkaç modelin ortalamasını almak. Çünkü en iyisi yeniden eğitilebilir.

 
Renat Akhtyamov #:

Ben kaosun bir düzeni olduğu gerçeğine yanıt veriyordum.

hangi mantık/yaklaşım/formül/teori vb. uygularsanız uygulayın, sadece bu tür histogramlardır. Uyguladınız ve başka bir desen bulamayacaksınız

Yani bir düzen var ama siz onu bulamayacaksınız mı demek istiyorsunuz? Yoksa düzenlilik rastlantısallığın içinde mi?

Neden: