Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2800

 
mytarmailS #:

Tuhaflık şu ki, sınıflar arasında güçlü bir dengesizlik var gibi görünüyor, eğer 100 örnek için bir sınıfın 5 işareti ve diğerinin 95 işareti varsa, model ilk sınıf için nasıl 0,5'ten fazla olasılık verebilir? Bu modele yönelik bir soru değil, veri kümesinin yazarına yönelik bir soru.

Yüzde 30'un üzerinde birinci sınıf var. Ve evet, olabilir, sorunu göremiyorum. Nadiren de olsa "0" yerine "1" tahmin etme olasılığı daha yüksek olan bir kural\liste bulmak yeterlidir.

Ayrıca, hiç kimse sınıfları dengeleyerek veri setini değiştirmeyi engellemez.
 
Aleksey Vyazmikin #:

Yüzde 30'un üzerinde birinci sınıf var. Ve evet, belki de sorunu göremiyorum. Nadiren de olsa"0" yerine "1" tahmin etme olasılığı daha yüksek olan bir kural\liste bulmak yeterlidir.

Ayrıca, kimse sınıfları dengeleyerek veri kümesini değiştiremez.

Catbust'tan şikayet ediyordunuz ve catbust bir ağaç\kural\listesi değildir.

 
Sadece NS'nin dengelenmesi gerekir. Ahşap modeller balans gerektirmez.
 
mytarmailS #:

Catbuster'lardan şikayet ediyordunuz ve catbuster'lar ahşap değildir.

Şikayet algoritmayla ilgili değil, algoritma neyse o, ancak onu zaten çiğnenmiş verilerle beslemenin daha iyi olduğu gerçeğiyle ilgili.

Daha önce bunu bir şekilde anladınız ...

Ticaret, otomatik ticaret sistemleri ve ticaret stratejilerinin test edilmesi üzerine forum.

Ticarette makine öğrenimi: teori, modeller, uygulama ve algo ticareti

mytarmailS, 2016.10.29 11:22 pm.

varsayimsal durum....

100 potansiyel tahmincimiz var, açıklamanın basitliği için bunların göstergeler olmasına izin verin.

Başlangıçta tüm bu tahmincilerde tek bir karlı durum olduğunu bildiğimizi hayal edelim, RSI 90'ı geçtiğinde ve stokastik sıfırın altına düştüğünde (tabii ki tavandaki durum), bu durum %90 olasılıkla bir fiyat düşüşü verir, diğer tüm tahmin ed iciler tamamen gürültüdür, tahmin ediciler RSI ve stokastikteki diğer tüm durumlar da tamamen gürültüdür ve yüzlerce ve yüzlerce farklı durum vardır....

Yani %99,9 gürültüye karşılık yaklaşık %0,01 faydalı sinyalimiz var.

Bir mucize eseri MO'nuzun 98 tahmincinin tamamını ayıkladığını ve geriye yalnızca iki tane bıraktığını varsayalım - RSI ve stokastik.

RSI'da yüzlerce durum vardır RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. ve böylece yüzlerce ve yüzlerce, stokastikte daha az durum yoktur, çalışma durumu sadece birdir, MO'yu tüm fiyat hareketlerini tanımak için eğittiğinizden, MO, RSI ve stokastikte var olan tüm olası durumları dikkate alarak modeller oluşturacaktır ve bu durumlarda işe yarama olasılığı neredeyse sıfırdır, ancak MO, gerçek gürültü olmasına rağmen bunları dikkate almak ve bunlar üzerine bazı modeller oluşturmak zorundadır ve bu tek çalışma durumu diğer yüzlerce çözüm arasında kaybolacaktır, bu yeniden eğitim.....

Peki, sonunda nasıl başardınız???


Model temsili ve hedef oranların bununla ne ilgisi olduğunu gerekçelendirin. Modelin modernize edilmiş bir levha - bir kural - olarak temsil edilebileceğini söylüyorum.

 
elibrarius #:
Sadece NS dengelemeye ihtiyaç duyar. Ağaç modelleri dengeleme gerektirmez.

Bu iyi veriler için böyledir, her durumda algoritma içindeki sayaçlar çalışır ve tahsis edilen hedeflerin sayısı hakkında kararlar verir...

 
Aleksey Vyazmikin #:

Buradaki tuhaflık, CatBoost modelinin tüm örnekleri 0,5'ten daha düşük bir olasılığa atamayı tercih etmesidir - bu nedenle hedefi "1" olarak sınıflandırmaz ve 0 ile 0,5 arasında olanlar da çok iyi dağılmaz.

Hedef 5 etiket ("A") ve 95 etiket ("B") için 100 örneğimiz varsa.

o zaman model "A" etiketi için 0,5'ten büyük bir olasılık veremez.

Bazı münferit kurallarda verebilir, ancak yazı catbust diyor ve bu bir modeldir (kural tahminlerinin toplamı), tek bir kural değil ve toplamın bu kadar yüksek bir olasılığı olmayacaktır.


Model "A" işareti olduğundan emin olsa bile. "A" işaretinin kurallarının olasılıklarının toplamı "B" kurallarının toplamı tarafından geçersiz kılınacaktır çünkü "B" kuralları çok daha büyük olacaktır.

 
elibrarius #:
Sadece NS'nin dengelenmesi gerekir. Ahşap modeller balans gerektirmez.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

Hedefin her 100 örneği için 5 puan ("A") ve 95 puan ("B") alıyorsak

o zaman model "A" etiketi için 0,5'ten büyük bir olasılık veremez

Bazı bireysel kurallarda olabilir, ancak yazı catbust diyor ve bu bir model (kural tahminlerinin toplamı), tek bir kural değil ve toplamın bu kadar yüksek bir olasılığı olmayacak.


Model "A" işareti olduğundan emin olsa bile. "A" işaretinin kurallarının olasılığının toplamı, "B" kurallarının toplamından daha fazla tahmin edilecektir çünkü "B" kuralları çok daha büyük olacaktır.

Her şey tahmin edicilere ve modeldeki ağaç sayısına bağlıdır.

Eğitim için CatBoost modelinde ısrar etmiyorum.

 

https://www.mql5.com/ru/blogs/post/723619

16000'de 77 çok az. 77 örneğin temsili olması zor.
Tek seçenek ağacı çok derinlemesine incelemektir.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000'de 77 çok az. 77 örneğin temsili olması zor.
Tek seçenek ağacı çok derinlemesine incelemektir.

Kitap nasıl?
Neden: