Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 742

 

Unutma 31/01/2018 tarihinden bu güne kadar kazandıran bir model aldım diyorum ama bu model 05/03/2018 tarihinden bu güne kadar bu iki hafta bu şekilde çalışıyor. test sonucu.

40 noktada eğitilmiş ve zaten OOS'ta 1.5 aydır çalışan yaşlı bir kadın için hiç de fena değil.

İşte 31.01.2018 tarihinden itibaren tam OOC'si

Hala uygun olduğunu düşünüyor musun???? Size hatırlatmama izin verin, ekran görüntülerinde OOS sitesinde

 

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

  • tahmin edicilerin hedef değişkeni etkilediğine dair dikkatli bir gerekçe olmadan
  • overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

İlk veri:

54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long

Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.

RF hesaplama sonuçları: 500 ağaç, düğüm başına 7 tahminci.

Modeli oluşturmak için kullanılan gözlem sayısı: 2491

Eksik değer ataması etkin.


aramak:

randomForest(formül = trenY ~.,

veri = crs$veri kümesi[crs$örnek, c(crs$giriş, crs$hedef)],

ntree = 500, mtry = 7, önem = DOĞRU, değiştir = YANLIŞ, na.action = randomForest::na.roughfix)


Rastgele orman türü: sınıflandırma

Ağaç sayısı: 500

hayır. her bölmede denenen değişken sayısı: 7


OOB hata oranı tahmini: %1,61

Karışıklık matrisi:

-1 0 1 sınıf hatası

-1 498 5 2 0.01386139

0 3 1067 17 0.01839926

1 1 12 886 0.01446051

En harika sonuç! Kâse! OOB'nin dosyanın eğitimde kullanılmayan parçası olduğunu not ediyorum.

Buradaki öğrenme hatasına bakalım. 500'e gerek olmadığını görüyoruz, 50 veya 100 ağaçla geçinebilirsiniz.



Test sitesinde kontrol edin

Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 110 3 0 2.7

0 3 221 2 2.2

1 0 2 194 1.0


Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 20,6 0,6 0,0 2,7

0 0,6 41,3 0,4 2,2

1 0,0 0,4 36,3 1,0


Genel hata: %1,8, Ortalama sınıf hatası: %1,966667


Çıngırak zaman damgası: 2018-03-14 10:57:23 kullanıcı


Öğrenme sonucu onaylanır. Kâse!


Doğrulama sitesinde iki kez kontrol edeceğiz

Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 105 1 0 0.9

0 1 218 2 1.4

1 0 1 205 0,5


Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 19.7 0.2 0.0 0.9

0 0,2 40,9 0,4 1,4

1 0.0 0.2 38,5 0,5


Genel hata: %0.9, Ortalama sınıf hatası: %0.9333333


Çıngırak zaman damgası: 2018-03-14 10:59:52 kullanıcı


Kâse! Bir mikrofinans şirketine koşabilir ve mümkün olduğunca çok para ödünç alabilirsiniz!


Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.

Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b

Ve işte sonuç:

Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (sayılar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 0 324 237 100.0

0 0 633 540 46.0

10 152 697 17,9


Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (oranlar):


tahmin edilen

Gerçek -1 0 1 Hata

-1 0 12,5 9,2 100,0

0 0 24,5 20,9 46,0

10 5,9 27,0 17,9


Genel hata: %48,5, Ortalama sınıf hatası: %54.63333


Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı


FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.


Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.

Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.



 
San Sanych Fomenko :

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

  • overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

Testte, doğrulamada bu kadar iyi sonuçlar almanız garip. Deneylerimde ve orada her şey çok daha kötüydü. Karıştırmadan önce RNG'nin farklı başlatılmasını yaparak, test ve doğrulama için farklı sonuçlar elde ettim - farklı RNG için hem hata hem de işlem sayısı açısından çok farklı.

Sonuç olarak, test ve doğrulamanın hiç gerekli olmadığı ve bir alanda eğitim ve diğerinde değerlendirme yapılması gerektiği sonucuna vardım (ayrı bir dosyada var). Bu, rastgele "başarı" karıştırma faktörünü ortadan kaldıracaktır.

 

Beyler, kase hazır mı?

 
San Sanych Fomenko :

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

  • tahmin edicilerin hedef değişkeni etkilediğine dair dikkatli bir gerekçe olmadan
  • overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

İlk veri:

54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long

Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.



Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.

Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b



Genel hata: %48,5, Ortalama sınıf hatası: %54.63333


Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı


FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.


Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.

Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.



Bu, alt kümelere ayrılırken (tren / val / test) ana hatadır. Sıra şu şekilde olmalıdır:

  1. Zaman sıralı veri setini tren/val/test olarak ayırdık.
  2. Antrenman yaparken sadece eğitim setini karıştırıyoruz (asla doğrulama ve test değil) . Sınıflandırmadan bahsediyorum.
  3. Tüm dönüşüm parametreleri, tahmin edici dönüşümler sadece eğitim setinde elde edilir. Val/testte bunları kullanıyoruz.
  4. Tahmin, seçim, tahmin edicilerin oluşturulması sadece eğitim setinde.

İyi şanlar

 

Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.

Model öngörücü seçiminin kullanımını bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.

İyi şanlar

 
Vladimir Perervenko :
  1. Antrenman yaparken sadece eğitim setini karıştırıyoruz (asla doğrulama ve test değil) . Sınıflandırmadan bahsediyorum.

Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.


Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).

Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Ancak bu deneyler az miktarda veri (5 gün) üzerindeydi ve örnek sayısı 10 kat artırılırsa karıştırmanın daha üniform olması ve bu alanlardaki verilerin daha homojen olması mümkündür. (yani aynı nitelikte) - bu durumda geçerli yararlı olabilir.

Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.
 
Vladimir Perervenko :

Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.

Tahmin edicilerin model seçimini kullanmayı bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.

İyi şanlar

Ve bence en gelişmişi tamamen farklı bir ürün ;-).... İçinde biraz farklı uygulanıyor.

Numunenin 2 alt örneğe bölündüğü ve test edildiği iki ağ, burada B ağı (ikinci polinom) için tren test ve test trendir. Bu durumda, yalnızca bir polinomun yarısını diğer yarısının yerine getirdiği test örneği dikkate alınır. Ve sınıflar eşit olarak bölünür. Yani birler tren ve teste eşit olarak bölündü ve buna göre sıfırlar da eşit olarak bölündü. Ve ne yazık ki orada zaman yok. Dosya en azından vektörlerin sıralamasına göre gönderilebilir. Belki de fazla takmayı azaltmanın anahtarı budur ???


Doğru, tam olarak anlamadım, belki doğrulama bölümünden bahsediyorum, burası FAVORİ optimize edicimdeki tren bölümü ???

Ve sizin durumunuzda, Test bölümü bir kontrol bölümüdür, ağın bir süre çalışmasına izin verdiğimizde ... Kavramlarda kafam karıştı ...

 

Her halükarda, test bölümünün eğitim bölümünü hiçbir şekilde etkileyemeyeceğini ve mümkün olduğunca rastgele oluşturulması gerektiğini düşünüyorum, burada kontrol bölümünün zamanında düzenli gitmesi bile bu zamana bağlı olmayacak sınıflandırma görevleri için. Niye ya? Evet, çünkü tüm verileri karıştırarak, bu kümeden gerçek potansiyeli çıkarmaya çalışıyoruz ve koşulların düzen şeklinde başarılı bir kombinasyonunu değil. Genel olarak, verileri karıştırarak, gerçekten neler yapabildiklerini görüyorsunuz, bu veriler ... Bunun gibi bir şey ....

Tekrarlanan optimizasyon ile, sonuç %10-20 arasında atlamalıdır, bu, verilerin sıralanması nedeniyle aynıdır, bir kez iyi sıralanmıştır, bir dahaki sefer biraz daha kötüydü, vb. ... IMHO ! !!

 
elibrarius :

Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.


Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).

Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Bununla birlikte, bu deneyler az miktarda veri üzerindeydi (5 gün) ve örneklerin sayısı 10 kat artırılırsa, karıştırma muhtemelen daha tekdüze olacak ve bu alanlardaki veriler daha homojen olacaktır (örn. aynı doğa).

Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.

Zıtlıkların genç ruhu yılmaz :)

Zaman serisi sınıflandırmasından bahsettim. Örneğin, M15 için, yaklaşık 1000 barı eğitmek için iki hafta. Onay için gelecek hafta - 500 bar. Eğitim sırasında eğitim seti karıştırılır, ancak doğrulama seti karıştırılmaz.

Tüm seti ayırmadan önce karıştırmak iki durumda gereklidir: tabakalı setler ve çapraz doğrulama. Ve bu durumda, her iki kümede de aynı örnekleri almamak için örnekleme yerine koymadan yapılmalıdır.

Örnek sayısında herhangi bir kısıtlamamız olmadığı ve bunların hala zaman serileri olduğu düşünüldüğünde, karıştırmadan önce bölmek daha iyidir. Benim nacizane fikrime göre

Neden: