Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 375

 

1) Veri setini eğitim, doğrulama ve teste bölmenin anlamını doğru anlıyor muyum:?

a) eğitimde öğretiyoruz
b) Doğrulamadaki hatayı kontrol ederiz, eğer eğitimdekinden çok daha büyükse, hata aynı olana kadar 1. adıma döneriz (aynı ne kadar - toplam hatanın yüzde 5'i? örneğin, eğitimde %15 ve doğrulamada %20)
c) Testi kontrol ediyoruz, hata ilk iki setle aynıysa (ne kadar benzer?), o zaman model kararlı, çalışabilirsin, değilse, unutabilirsin. Ve diğer tahmin edicileri arayın, filtrelemeyi değiştirin, vb.

2) Bu arada, hangi düzeyde eğitim/doğrulama/test hatası hedeflemeliyiz? %15/20/20 veya belki %5/10/15? veya diğerleri?

3) Eğitim örneklerini karıştırmanın neden önerildiğini tam olarak anlamıyorum? Her durumda, her örneği işleyeceğiz.

 
elibrarius :

Bu arada, hangi düzeyde eğitim/doğrulama/test hatası hedeflemeliyiz? %15/20/20 veya belki %5/10/15? veya diğerleri?

Önceki, evet, bunun gibi bir şey.

Hataya gelince, özelliklere bağlıdır. Diyelim ki MO veya NS bir ticarete girişi belirlerse, %50 hata yeterli olabilir. Örneğin, başarılı bir ticarette ortalama 2-3 p kar elde edersiniz ve başarısız bir ticarette 1 p kaybedersiniz. Bu durumda 0,5 puan kötü bir olasılık değildir.

 
Yuri Asaulenko :

Önceki, evet, bunun gibi bir şey.

Hata gelince, özelliklere bağlıdır. Diyelim ki MO veya NS bir ticarete girişi belirlerse, %50 hata yeterli olabilir. Örneğin, başarılı bir ticarette ortalama 2-3 p kar elde edersiniz ve başarısız bir ticarette 1 p kaybedersiniz. Bu durumda 0,5 puan kötü bir olasılık değildir.

0,5 bir şekilde yeterli değil ... Ve hangi değerler için çaba göstermeliyiz, pratikte gerçekte ne elde edilebilir (Ulusal Meclis'in diğer bazı görevleri, yani ticaret için değil)?
Sonra %10'a kadar antrenman yapmak istiyorum ama bu gerçekçi olmayan bir rakamsa zamanımı ve işlemci zamanımı boşa harcamış olurum. Diyelim ki - yaptığınız en iyi hata nedir ve hangi seviyede durabilir ve iyileştirmeler arayamazsınız?
 
elibrarius :
0,5 bir şekilde yeterli değil ... Ve hangi değerler için çaba göstermeliyiz, pratikte gerçekte ne elde edilebilir (Ulusal Meclis'in diğer bazı görevleri, yani ticaret için değil)?
Sonra %10'a kadar antrenman yapmak istiyorum ama bu gerçekçi olmayan bir rakamsa zamanımı ve işlemci zamanımı boşa harcamış olurum. Diyelim ki - yaptığınız en iyi hata nedir ve hangi seviyede durabilir ve iyileştirmeler arayamazsınız?

0,5 yeterli değil mi? Pekala, öyle.) Bu örneği zaten verdim: bir poker oyuncusunun 1/9-1/6 kazanma şansı vardır ve iyi oyuncular her zaman kazanır.

Evet ve tüm sistemlerim ~ 0,5 olasılıkla çalıştı ve her zaman siyahtı. Bilgilerime göre, birçok TS 0,5'e yakın bir olasılıkla çalışıyor - bu özellikle otomatik ticaret konferansında tartışıldı.

"Ve sonra %10'a kadar antrenman yapmak istiyorum, ancak bu gerçekçi olmayan bir rakamsa," - gerçek veya gerçekçi olmayan belirli göreve bağlıdır. Diyelim ki Ulusal Meclise MAshek'i nasıl geçeceğini öğrettim - yani orada güvenilirlik neredeyse %100.))

 
Yuri Asaulenko :

0,5 yeterli değil mi? Pekala, öyle.) Bu örneği zaten verdim: bir poker oyuncusunun 1/9-1/6 kazanma şansı vardır ve iyi oyuncular her zaman kazanır.

Evet ve tüm sistemlerim ~ 0,5 olasılıkla çalıştı ve her zaman siyahtı. Bilgilerime göre, birçok TS 0,5'e yakın bir olasılıkla çalışıyor - bu özellikle otomatik ticaret konferansında tartışıldı.

"Ve sonra %10'a kadar antrenman yapmak istiyorum, ancak bu gerçekçi olmayan bir rakamsa," - gerçek veya gerçekçi olmayan belirli göreve bağlıdır. Diyelim ki Ulusal Meclise MAshek'i nasıl geçeceğini öğrettim - yani orada güvenilirlik neredeyse %100.))

Bu doğru, bir tahmin olmadan da yapabilirsiniz (%50), sadece almanın stoptan daha büyük olmasına ihtiyacınız var, aslında, hiçbir şeyi tahmin etmek imkansız, kimse fiyatın Forex'te nereye gideceğini bilmiyor, sadece içerdekiler, kuklacılar bunu bilebilir.

 
Vasili Perepelkin :

aslında hiçbir şeyi tahmin etmek imkansız, kimse forex fiyatının nereye gideceğini bilemez bunu sadece içerdekiler, kuklacılar bilebilir.

Aslında mümkün. 0.5 bir tahminle ve bir duraktan daha fazlasını al, bu 50/50 ile aynı değil ve Tanrı'nın onu ruhunuza nasıl koyduğunu) - yani, bir tahmin olmadan. Tamamen farklı bir madeni para atıyoruz.))
 
elibrarius :

1) Veri setini eğitim, doğrulama ve teste bölmenin anlamını doğru anlıyor muyum:?

a) eğitimde öğretiyoruz
b) Doğrulamadaki hatayı kontrol ederiz, eğer eğitimdekinden çok daha büyükse, hata aynı olana kadar 1. adıma döneriz (aynı ne kadar - toplam hatanın yüzde 5'i? örneğin, eğitimde %15 ve doğrulamada %20)
c) Testi kontrol ediyoruz, hata ilk iki setle aynıysa (ne kadar benzer?), o zaman model kararlı, çalışabilirsin, değilse, unutabilirsin. Ve diğer tahmin edicileri arayın, filtrelemeyi değiştirin, vb.

2) Bu arada, hangi düzeyde eğitim/doğrulama/test hatası hedeflemeliyiz? %15/20/20 veya belki %5/10/15? veya diğerleri?

3) Eğitim örneklerini karıştırmanın neden önerildiğini tam olarak anlamıyorum? Her durumda, her örneği işleyeceğiz.


1) Hepsi değil ve bu önemli.

Büyük bir dosya alıyoruz. Eşit olmayan iki parçaya bölüyoruz.

Çoğunu tarif ettiğiniz şekilde paylaşıyoruz. Yaklaşık olarak eşit olması gereken hatalar alıyoruz.

Daha sonra dosyanın ikinci kısmındaki modeli kontrol ediyoruz. Bu bölümdeki hata yine çok farklı olmamalıdır.

Bu, aşırı antrenman eksikliğinin (overfitting) en önemli kanıtıdır.


Hata boyutu? Bu, model türü seçilerek azaltılabilen bir dizi tahmin edicinin türevi olan belirli bir sabittir.


Örneğin.

Dört hatanın tümü yaklaşık %35'e sahipse, o zaman bir model seçerek, Allah korusun, hatayı %30'a düşürün.


not.

%10'dan daha az bir hata, fazla takmanın açık bir işaretidir. Böyle bir hatanız varsa, yüz kez iki kez kontrol etmeniz gerekir.

 

Bir doğrulama sitesi ile erken durdurma yöntemiyle ALGLIB eğitiminde bulundu:

Erken durdurma kullanarak sinir ağı eğitimi (temel algoritma - düzenlileştirmeli L-BFGS).
...
Doğrulama seti hatası uzun süre artarsa algoritma durur
yeterli veya adım boyutu yeterince küçüktür (burada görevler vardır
doğrulama seti sonsuza kadar azalabilir). Her durumda çözüm
döndürülen minimum doğrulama seti hatasına karşılık gelir.

Koda bakılırsa, eğitim ve doğrulama alanlarındaki hatayı karşılaştırmaz, doğrulama alanında minimum hatayı arar. Ve bundan sonra, 30 yinelemeden sonra en iyisi bulunamazsa veya tüm yinelemeler geçerse durur.

Ancak bu yöntemin normalden daha iyi / daha doğru olduğundan emin değilim ... eğitim döngülerinin sayısı birkaç kez artırılmadığı sürece ...

İşte olanlar:

Eğitimde ortalama hata (%80) segmenti =0.535 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
Doğrulama (%20) alanında ortalama hata =0.298 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
Tam site (eğitim + doğrulama):
Ortalama Öğrenme Hatası=0.497 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
Testte ortalama hata (%20) bölümü =0.132 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6

Doğrulama sitesinde bir düzenleme yapılmış gibi görünüyor. Test bir genellikle başarılı, ancak eğitimde değildi ve karşılaştırılmadı, görünüşe göre sadece bir tesadüf.
Topluluklar bu işlevi dikkate alıyor ve orada bölme 2/3 ve her iki bölüm arasında her şey karışıyor, aynısını yapmaya çalışacağım ...
Karıştırıldı:

Eğitim (%60) segmentinde ortalama hata =0.477 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
Doğrulama grafiğindeki ortalama hata (%40) =0.472 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
Tam site (eğitim + doğrulama):
Ortalama Öğrenme Hatası=0.475 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
Test alanında ortalama hata (%20) alanı =0.279 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6

Karıştırma nedeniyle, eğitim ve doğrulama alanlarında hata düzeltildi.

Bana bir şeyler yanlış geliyor, çünkü gerçek ticarette çubuklar kendi sıralarına göre gidecek ve bir saat ve bir gün önce olanlarla karıştırılmadan gidecek.
Ve pazarın "karakteri" değişirse, yeni NN modellerini yeniden öğrenmek veya aramak gerekir.

 
Yuri Asaulenko :
Aslında mümkün. 0.5 bir tahminle ve bir duraktan daha fazlasını al, bu 50/50 ile aynı değil ve Tanrı'nın onu ruhunuza nasıl koyduğunu) - yani, bir tahmin olmadan. Tamamen farklı bir madeni para atıyoruz.))
Peki, mümkün olduğunu söylüyorum, rastgele açıyoruz ve örneğin durmanın 2 katından fazla bir alım ayarladık ve bu kadar, istatistiksel olarak bir kar olacak, örneğin 100 işlem artı 10 puan ve 100 eksi 5 puan, 500 puan kar elde edilir, tahmin gerekli değildir.
 
San Sanych Fomenko :


1) Hepsi değil ve bu önemli.

Büyük bir dosya alıyoruz. Eşit olmayan iki parçaya bölüyoruz.

Çoğunu tarif ettiğiniz şekilde paylaşıyoruz. Yaklaşık olarak eşit olması gereken hatalar alıyoruz.

Daha sonra dosyanın ikinci kısmındaki modeli kontrol ediyoruz. Bu bölümdeki hata yine çok farklı olmamalıdır.

Bu, aşırı antrenman eksikliğinin (overfitting) en önemli kanıtıdır.

4 parsel elde edilir mi? Eğitim/doğrulama/test1/test2 ?

Kaç eğitim/onaylama döngüsü yapılmalıdır? Bu konuda hiçbir bilgi görmedim ... Toplamda 1 döngü? - ve bundan hemen sonra, tahmin ediciler kümesindeki veya ağ şemasındaki bir şeyi onaylıyor veya değiştiriyoruz? Daha doğrusu, N eğitim döngüsü için bize en iyilerinden biri gösterilecektir.