Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 31

 
Alexey Burnakov :

Yuri, verileriniz üzerindeki ilk test:

yöntem kayıp_fonksiyon cv_folds bag_frac model_params AUC_cv doğruluk_tren doğruluk_validate
GBM Bernoulli 4 0,4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
GBM Bernoulli 4 0,6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

Eğitim için iki farklı parametre değeri seti. Çapraz doğrulamada AUC'nin kaidenin altında olması dikkat çekicidir.

Genel olarak, testte %51.5'lik bir doğruluk elde ettiğimiz en iyisidir.

%60'a nasıl ulaştığını bile bilmiyorum.

Evet, bu tahmin edicileri atmanız gerekiyor.

Her şeyde aptalca artışlar alırsanız, birkaç osilatör toplamda 5000'den fazla gözlemle 100'den fazla tahmin edicidir, yani. H1, daha sonra böyle bir kümeden, sadece% 40'tan daha az bir tahmin hatası vermeyecek, aynı zamanda en önemlisi, AŞIRI OLMAYAN bir model verecek olan 10-15 tahminci seçmek mümkün olacaktır.

 
San Sanych Fomenko :

Evet, bu tahmin edicileri atmanız gerekiyor.

Her şeyde aptalca artışlar alırsanız, birkaç osilatör toplamda 5000'den fazla gözlemle 100'den fazla tahmin edicidir, yani. H1, daha sonra böyle bir kümeden, sadece% 40'tan daha az bir tahmin hatası vermeyecek, aynı zamanda en önemlisi, AŞIRI OLMAYAN bir model verecek olan 10-15 tahminci seçmek mümkün olacaktır.

Yuri'nin sette hangi özellikleri içerdiğini henüz bilmiyoruz. Hepsinin gerekli olduğunu söylüyor.
 

Genel olarak, %51,5 sınıflandırma doğruluğundan daha iyi bir sonuç elde edemedim. Buna göre, metriklerin geri kalanı da rastgele tahmine yakın olacaktır.

Testteki cevapların dengesi neredeyse mükemmel 50/50.

Yuri, açıklamalarını bekliyorum.

 
test.csv'deki doğru tahmin sayım yaklaşık %50, her şey boş. Tahminci setinin çok iyi olmadığına katılıyorum Yuri, daha fazla standart gösterge ekle, eğer modelin gerçekten o kadar iyiyse, o zaman iyi tahminciler kullanarak %80 veya daha fazla tahmin doğruluğu elde edebileceğini düşünüyorum.
 
Alexey Burnakov :

Genel olarak, %51,5 sınıflandırma doğruluğundan daha iyi bir sonuç elde edemedim. Buna göre, metriklerin geri kalanı da rastgele tahmine yakın olacaktır.

Testteki cevapların dengesi neredeyse mükemmel 50/50.

Bilgi için teşekkürler. Hiç kimse daha iyi bir sonuç elde edemezse ve ben bu veri setini Weka'da sürdüm ve ayrıca bir serseri varsa, o zaman libVMR sürümünü güncelleme zamanı gelmiştir. Bu tür örneklerdeki doğru cevapların %60'ı yeni sürüm uygulandığında sınır değildir.
Alexey Burnakov :

Yuri, açıklamalarını bekliyorum.

hiçbir şey saklamam. Sonuçlarını yukarıda belirttiğim eski sürüm için, tüm bilgiler kamuya açıktır:

İkili sınıflandırıcı oluşturma yönteminin açıklaması: https://sites.google.com/site/libvmr/

Yorumlu Java kaynakları: https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

Montajlar: https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова
  • sites.google.com
Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью
 
Yuri, teşekkürler.

Bir şeyi anlamıyorum. Küme lineer olarak ayrılabilir ise, neden normal SVM yöntemini kullanmıyorsunuz? Seninki nasıl daha iyi olurdu?
 
Alexey Burnakov :
Yuri, teşekkürler.

Bir şeyi anlamıyorum. Küme lineer olarak ayrılabilir ise, neden normal SVM yöntemini kullanmıyorsunuz? Seninki nasıl daha iyi olurdu?

Küme lineer olarak ayrılabilir ise, potansiyel ayırıcı hiperdüzlemlerin sayısı sonsuzdur. Bu durumda, yeterli bir hiperdüzlem belirlemek için bazı kriterler bulmak gerekir. Bu kriterlerden biri kitaptaki destek vektör makinesi için formüle edilmiştir: Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition. M.: Nauka, 1974. Daha doğrusu, bu kitap birçok farklı kriteri tartışıyor.

Hem SVM hem de VMR, destek vektör makineleridir.

  • SVM, ampirik verilerden bağımlılıkları kurtarmak için bir yöntemdir. Kriter, uzay lineer olarak ayrılabilir ise, destekleyici hiperdüzlemler arasındaki maksimum mesafedir. Bkz. Vapnik VN Ampirik verilerden bağımlılıkların yeniden yapılandırılması. Moskova: Nauka, 1979
  • VMR, güçlü bağımlılıkları belirlemek ve zayıf olanları ortadan kaldırmak (azaltmak) için bir yöntemdir. Kriter, lineer ayrılabilirlikten bağımsız olarak, destekleyici hiperdüzlemler arasındaki minimum mesafedir. Onlar. VMR, bağımlılıkları geri yüklemez (eğitim örneğinde açıkça bulunmayan modele hiçbir şey eklemez), ayrıca bazı örtük bağımlılıkların modele girmediğinden (ayırma) bahsetmez. Daha spesifik olarak, VMR bazı özellikleri azaltarak hiper alanı azaltır.

Yöntemlerden hangisinin daha iyi veya daha kötü olduğu, uzun süre tartışılabilir. Ancak, genelleme yeteneğini alıp kontrol edebilirsiniz ve sonra her şey yerine oturacaktır.

 
Yuri Reshetov :

Küme lineer olarak ayrılabilir ise, potansiyel ayırıcı hiperdüzlemlerin sayısı sonsuzdur. Bu durumda, yeterli bir hiperdüzlem belirlemek için bazı kriterler bulmak gerekir. Bu kriterlerden biri kitaptaki destek vektör makinesi için formüle edilmiştir: Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition. M.: Nauka, 1974. Daha doğrusu, bu kitap birçok farklı kriteri tartışıyor.

Hem SVM hem de VMR, destek vektör makineleridir.

  • SVM, ampirik verilerden bağımlılıkları kurtarmak için bir yöntemdir. Kriter, uzay lineer olarak ayrılabilir ise, destekleyici hiperdüzlemler arasındaki maksimum mesafedir. Bkz. Vapnik VN Ampirik verilerden bağımlılıkların yeniden yapılandırılması. Moskova: Nauka, 1979
  • VMR, güçlü bağımlılıkları belirlemek ve zayıf olanları ortadan kaldırmak (azaltmak) için bir yöntemdir. Kriter, lineer ayrılabilirlikten bağımsız olarak, destekleyici hiperdüzlemler arasındaki minimum mesafedir. Onlar. VMR, bağımlılıkları geri yüklemez (eğitim örneğinde açıkça bulunmayan modele hiçbir şey eklemez), ayrıca bazı örtük bağımlılıkların modele girmediğinden (ayırma) bahsetmez. Daha spesifik olarak, VMR bazı özellikleri azaltarak hiper alanı azaltır.

Yöntemlerden hangisinin daha iyi veya daha kötü olduğu, uzun süre tartışılabilir. Ancak, genelleme yeteneğini alıp kontrol edebilirsiniz ve sonra her şey yerine oturacaktır.

Sorunlar ortaya çıktıkça çözülmelidir ve arabayı (modeli) atın (tahminciler) önüne koymak kesinlikle boş bir alıştırmadır. Ve dahası, arabaları, içlerinde nelerin koşumlandığı ve koşumlarının olup olmadığı bilinmediğinde karşılaştırmak için.

Herhangi bir model türünü uygulamadan önce, tahmin ediciler listesi gürültüden arındırılmalı ve yalnızca hedef değişkenle "ilişkisi" olan tahmin ediciler bırakılmalıdır. Bu yapılmazsa, Satürn'ün halkalarına, kahve telvesine ve birkaç yüz yıldır pratikte yaygın olarak kullanılan diğer tahmin edicilere dayalı bina modellerine kolayca geçilebilir.

Dr. Trader'ın Üstünde   tahmin edicilerinden gürültüyü kaldırma işini yapmaya çalıştı.

Sonuç olumsuz.

Olumsuz sonucun nedeninin, çok sayıda tahmin ediciye sahip az sayıda gözlem olduğuna inanıyorum. Ancak HERHANGİ bir modeli uygulamadan önce kazmanız gereken yön budur.

 
Yuri Reshetov :

Küme lineer olarak ayrılabilir ise, potansiyel ayırıcı hiperdüzlemlerin sayısı sonsuzdur. Bu durumda, yeterli bir hiperdüzlem belirlemek için bazı kriterler bulmak gerekir. Bu kriterlerden biri kitaptaki destek vektör makinesi için formüle edilmiştir: Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition. M.: Nauka, 1974. Daha doğrusu, bu kitap birçok farklı kriteri tartışıyor.

Hem SVM hem de VMR, destek vektör makineleridir.

  • SVM, ampirik verilerden bağımlılıkları kurtarmak için bir yöntemdir. Kriter, uzay lineer olarak ayrılabilir ise, destekleyici hiperdüzlemler arasındaki maksimum mesafedir. Bkz. Vapnik VN Ampirik verilerden bağımlılıkların yeniden yapılandırılması. Moskova: Nauka, 1979
  • VMR, güçlü bağımlılıkları belirlemek ve zayıf olanları ortadan kaldırmak (azaltmak) için bir yöntemdir. Kriter, lineer ayrılabilirlikten bağımsız olarak, destekleyici hiperdüzlemler arasındaki minimum mesafedir. Onlar. VMR, bağımlılıkları geri yüklemez (eğitim örneğinde açıkça bulunmayan modele hiçbir şey eklemez), ayrıca bazı örtük bağımlılıkların modele girmediğinden (ayırma) bahsetmez. Daha spesifik olarak, VMR bazı özellikleri azaltarak hiper alanı azaltır.

Yöntemlerden hangisinin daha iyi veya daha kötü olduğu, uzun süre tartışılabilir. Ancak, genelleme yeteneğini alıp kontrol edebilirsiniz ve sonra her şey yerine oturacaktır.

Yuri, teşekkürler. Düşüneceğim.

Gerçekten bir sorumuz var. Tahmincileri nasıl seçtiniz?
 



Ne yazık ki, R'de Sharpe ve benzerlerini hesaplayamıyorum, çünkü 49 rastgele örneğim var, üst üste bindirildiğinde işlem sırası geri yüklenmez.


R ihtiyacınız olan her şeye sahiptir. fTrading::sharpRatio'ya bakın.

Evet ve PerformanceAnalytics bakmayı engellemez.

İyi şanlar

Neden: