Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası

Mihail Marchukajtes 2018.03.14 08:57 #7411

Unutma 31/01/2018 tarihinden bu güne kadar kazandıran bir model aldım diyorum ama bu model 05/03/2018 tarihinden bu güne kadar bu iki hafta bu şekilde çalışıyor. test sonucu.

40 noktada eğitilmiş ve zaten OOS'ta 1.5 aydır çalışan yaşlı bir kadın için hiç de fena değil.

İşte 31.01.2018 tarihinden itibaren tam OOC'si

Hala uygun olduğunu düşünüyor musun???? Size hatırlatmama izin verin, ekran görüntülerinde OOS sitesinde

Ve JAPON MUMLARI kimin Fiyat hareketinin yukarı veya Çığ

СанСаныч Фоменко 2018.03.14 09:08 #7412

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

tahmin edicilerin hedef değişkeni etkilediğine dair dikkatli bir gerekçe olmadan
overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

İlk veri:

54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long

Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.

RF hesaplama sonuçları: 500 ağaç, düğüm başına 7 tahminci.

Modeli oluşturmak için kullanılan gözlem sayısı: 2491

Eksik değer ataması etkin.

aramak:

randomForest(formül = trenY ~.,

veri = crs$veri kümesi[crs$örnek, c(crs$giriş, crs$hedef)],

ntree = 500, mtry = 7, önem = DOĞRU, değiştir = YANLIŞ, na.action = randomForest::na.roughfix)

Rastgele orman türü: sınıflandırma

Ağaç sayısı: 500

hayır. her bölmede denenen değişken sayısı: 7

OOB hata oranı tahmini: %1,61

Karışıklık matrisi:

-1 0 1 sınıf hatası

-1 498 5 2 0.01386139

0 3 1067 17 0.01839926

1 1 12 886 0.01446051

En harika sonuç! Kâse! OOB'nin dosyanın eğitimde kullanılmayan parçası olduğunu not ediyorum.

Buradaki öğrenme hatasına bakalım. 500'e gerek olmadığını görüyoruz, 50 veya 100 ağaçla geçinebilirsiniz.

Test sitesinde kontrol edin

Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 110 3 0 2.7

0 3 221 2 2.2

1 0 2 194 1.0

Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 20,6 0,6 0,0 2,7

0 0,6 41,3 0,4 2,2

1 0,0 0,4 36,3 1,0

Genel hata: %1,8, Ortalama sınıf hatası: %1,966667

Çıngırak zaman damgası: 2018-03-14 10:57:23 kullanıcı

Öğrenme sonucu onaylanır. Kâse!

Doğrulama sitesinde iki kez kontrol edeceğiz

Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 105 1 0 0.9

0 1 218 2 1.4

1 0 1 205 0,5

Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 19.7 0.2 0.0 0.9

0 0,2 40,9 0,4 1,4

1 0.0 0.2 38,5 0,5

Genel hata: %0.9, Ortalama sınıf hatası: %0.9333333

Çıngırak zaman damgası: 2018-03-14 10:59:52 kullanıcı

Kâse! Bir mikrofinans şirketine koşabilir ve mümkün olduğunca çok para ödünç alabilirsiniz!

Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.

Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b

Ve işte sonuç:

Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (sayılar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 0 324 237 100.0

0 0 633 540 46.0

10 152 697 17,9

Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (oranlar):

tahmin edilen

Gerçek -1 0 1 Hata

-1 0 12,5 9,2 100,0

0 0 24,5 20,9 46,0

10 5,9 27,0 17,9

Genel hata: %48,5, Ortalama sınıf hatası: %54.63333

Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı

FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.

Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.

Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.

Machine learning in trading: Bayesian regresyon - Bu "Rastgele Ormanlar Öngörü Trendleri"

Aleksei Kuznetsov 2018.03.14 09:24 #7413

San Sanych Fomenko :

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

Testte, doğrulamada bu kadar iyi sonuçlar almanız garip. Deneylerimde ve orada her şey çok daha kötüydü. Karıştırmadan önce RNG'nin farklı başlatılmasını yaparak, test ve doğrulama için farklı sonuçlar elde ettim - farklı RNG için hem hata hem de işlem sayısı açısından çok farklı.

Sonuç olarak, test ve doğrulamanın hiç gerekli olmadığı ve bir alanda eğitim ve diğerinde değerlendirme yapılması gerektiği sonucuna vardım (ayrı bir dosyada var). Bu, rastgele "başarı" karıştırma faktörünü ortadan kaldıracaktır.

MT4-Test Cihazı VS MT5-Test [UYARI, KONU KAPALI!] Forumu Teoriden pratiğe

Alexander Ivanov 2018.03.14 09:30 #7414

Beyler, kase hazır mı?

Vladimir Perervenko 2018.03.14 09:54 #7415

San Sanych Fomenko :

İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:

tahmin edicilerin hedef değişkeni etkilediğine dair dikkatli bir gerekçe olmadan
overfitting (overfitting) sadece eğitim süresi dışındaki TIME dosyalarında belirlenir.

İlk veri:

54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long

Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.

Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.

Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b

Genel hata: %48,5, Ortalama sınıf hatası: %54.63333

Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı

FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.

Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.

Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.

Bu, alt kümelere ayrılırken (tren / val / test) ana hatadır. Sıra şu şekilde olmalıdır:

Zaman sıralı veri setini tren/val/test olarak ayırdık.
Antrenman yaparken sadece eğitim setini karıştırıyoruz (asla doğrulama ve test değil) . Sınıflandırmadan bahsediyorum.
Tüm dönüşüm parametreleri, tahmin edici dönüşümler sadece eğitim setinde elde edilir. Val/testte bunları kullanıyoruz.
Tahmin, seçim, tahmin edicilerin oluşturulması sadece eğitim setinde.

İyi şanlar

Tüccarlar için tema. Makine Öğrenimi ve Sinir Piyasa fenomenleri

Vladimir Perervenko 2018.03.14 10:23 #7416

Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.

Model öngörücü seçiminin kullanımını bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.

İyi şanlar

MT için Python'da bir FX stratejim - PipMachine. Makroekonomik göstergelere dayalı piyasa

Aleksei Kuznetsov 2018.03.14 11:07 #7417

Vladimir Perervenko :

Antrenman yaparken sadece eğitim setini karıştırıyoruz (asla doğrulama ve test değil) . Sınıflandırmadan bahsediyorum.

Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.

Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).

Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Ancak bu deneyler az miktarda veri (5 gün) üzerindeydi ve örnek sayısı 10 kat artırılırsa karıştırmanın daha üniform olması ve bu alanlardaki verilerin daha homojen olması mümkündür. (yani aynı nitelikte) - bu durumda geçerli yararlı olabilir.

Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.

[UYARI, KONU KAPALI!] Forumu "Alım Satım Robotunun Prototipi" Trend nedir?

Mihail Marchukajtes 2018.03.14 11:12 #7418

Vladimir Perervenko :

Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.

Tahmin edicilerin model seçimini kullanmayı bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.

İyi şanlar

Ve bence en gelişmişi tamamen farklı bir ürün ;-).... İçinde biraz farklı uygulanıyor.

Numunenin 2 alt örneğe bölündüğü ve test edildiği iki ağ, burada B ağı (ikinci polinom) için tren test ve test trendir. Bu durumda, yalnızca bir polinomun yarısını diğer yarısının yerine getirdiği test örneği dikkate alınır. Ve sınıflar eşit olarak bölünür. Yani birler tren ve teste eşit olarak bölündü ve buna göre sıfırlar da eşit olarak bölündü. Ve ne yazık ki orada zaman yok. Dosya en azından vektörlerin sıralamasına göre gönderilebilir. Belki de fazla takmayı azaltmanın anahtarı budur ???

Doğru, tam olarak anlamadım, belki doğrulama bölümünden bahsediyorum, burası FAVORİ optimize edicimdeki tren bölümü ???

Ve sizin durumunuzda, Test bölümü bir kontrol bölümüdür, ağın bir süre çalışmasına izin verdiğimizde ... Kavramlarda kafam karıştı ...

Daha yüksek zaman dilimlerinde MARTINGALE'i akla getirin. Fourier tabanlı hipotez

Mihail Marchukajtes 2018.03.14 11:29 #7419

Her halükarda, test bölümünün eğitim bölümünü hiçbir şekilde etkileyemeyeceğini ve mümkün olduğunca rastgele oluşturulması gerektiğini düşünüyorum, burada kontrol bölümünün zamanında düzenli gitmesi bile bu zamana bağlı olmayacak sınıflandırma görevleri için. Niye ya? Evet, çünkü tüm verileri karıştırarak, bu kümeden gerçek potansiyeli çıkarmaya çalışıyoruz ve koşulların düzen şeklinde başarılı bir kombinasyonunu değil. Genel olarak, verileri karıştırarak, gerçekten neler yapabildiklerini görüyorsunuz, bu veriler ... Bunun gibi bir şey ....

Tekrarlanan optimizasyon ile, sonuç %10-20 arasında atlamalıdır, bu, verilerin sıralanması nedeniyle aynıdır, bir kez iyi sıralanmıştır, bir dahaki sefer biraz daha kötüydü, vb. ... IMHO ! !!

[ARŞİV] Forumu kirletmemek için Yeni başlayanlardan sorular MQL5 MT4 için Olasılıksal Sinir

Vladimir Perervenko 2018.03.14 12:33 #7420

elibrarius :

Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.

Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).

Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Bununla birlikte, bu deneyler az miktarda veri üzerindeydi (5 gün) ve örneklerin sayısı 10 kat artırılırsa, karıştırma muhtemelen daha tekdüze olacak ve bu alanlardaki veriler daha homojen olacaktır (örn. aynı doğa).

Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.

Zıtlıkların genç ruhu yılmaz :)

Zaman serisi sınıflandırmasından bahsettim. Örneğin, M15 için, yaklaşık 1000 barı eğitmek için iki hafta. Onay için gelecek hafta - 500 bar. Eğitim sırasında eğitim seti karıştırılır, ancak doğrulama seti karıştırılmaz.

Tüm seti ayırmadan önce karıştırmak iki durumda gereklidir: tabakalı setler ve çapraz doğrulama. Ve bu durumda, her iki kümede de aynı örnekleri almamak için örnekleme yerine koymadan yapılmalıdır.

Örnek sayısında herhangi bir kısıtlamamız olmadığı ve bunların hala zaman serileri olduğu düşünüldüğünde, karıştırmadan önce bölmek daha iyidir. Benim nacizane fikrime göre

Optimizasyon ve numune dışı "Üçüncü Nesil Nöral Ağlar: Sinir tüccarları, geçmeyin :)

Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 742