Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 102

 
Alexey Burnakov :

Yaptığınız şeyde simus var.

Ancak, gecikmeli getirme yapmayı da deneyebilirsiniz. Bu bir klasik. Tren, Test, Doğrulama.

Ve prosedürü daha da karmaşık hale getirin. Eğitim ve test açısından iyi performans gösteren her model için bu modele X diyelim, biriktirmede doğrulama yapalım. Bu sayede sadece eğitim ve test yaparak doğru modeli seçip seçmediğiniz konusunda fikir sahibi olursunuz. Farklı parametrelerle birçok model yapın, en iyisini seçin (10, 100, 1000). Doğrula. "En iyi" metriğinizin gelecekteki verilere yansıtılıp yansıtılmadığını anlayacaksınız. Sadece bundan sonra savaşa gidin.

Bir rasgele değişkenin birçok değeri varsa, o zaman güven aralıklarını hesaplayabilir ve ardından "yakın değerler" yerine "güven aralıklarının kesişmesi/çatışması" ile işlem yapabilirsiniz.
 
mytarmailS :

Dün için işlem sonucunu görebilir miyim?

Ve bu bugün için. Elbette hatasız değil, ama sonunda oldukça eşit ....

 
Michael Marchukajtes :

Ve bu bugün için. Elbette hatasız değil, ama sonunda oldukça eşit ....

fena değil, ama bu yeşil daireler ne ve oklar ne anlama geliyor?

 
San Sanych Fomenko :
Bir rastgele değişkenin birçok değeri varsa, o zaman güven aralıklarını hesaplayabilirsiniz ve ardından "yakın değerler" yerine "güven aralıklarının kesişmesi/tesadüfleri" ile işlem yapabilirsiniz.

Sansan, bir kez daha açıklayacağım. Ve sanırım herkes için daha net olacak.

Aşağıdaki tablo deneyin günlüğüdür. Her deney bir tabloya yazılır. Değişkenler J sütunundan önce gelir. Model, eğitim kaybı işlevi, araç, tahmin ufku, model parametreleri (GBM), şapkada henüz optimize edilmemiş parametreler, ancak bunları döngüde de optimize ediyorum: çapraz geçerli kat sayısı, eğitim için seçilen tahminci sayısı, rastgeleleştirme ağaç için, belirsizliğin gri alanında olduğu için tahminlerin payını kesmek.

Sonra kalite metriklerim var: eğitimde (tüm dizi 10 yaşında), çapraz geçerli test kıvrımlarında ve ertelenmiş örneklerde. En ilginç sütunları kırmızıyla işaretledi.

Daha uzağa. Gecikmeli numunelerde harika bir artı olan en iyi modelleri gösterebilirim. Ama zor bir uyum!

Tutarlı veriler ve uygun bir eğitim yöntemi göz önüne alındığında, gecikmeli örnekler üzerindeki metrik ile çapraz doğrulama metriği (test) arasında bir ilişki elde etmeyi bekliyorum. Bakalım ne almışım:

Objektif olarak, gecikmiş bir örnekte seçilen modellerin kalitesinin (gerçek ticaret dönemini taklit eden) testteki kalite metriğiyle (çapraz geçerli test kıvrımları) neredeyse hiçbir ilgisi yoktur.

Sonuç arkadaşlar: Aşağıdaki "model testte daha iyi olmalı" buluşsal yöntemiyle en iyi modeli seçersem, modelin gelecekte nasıl performans göstereceği konusunda sıfır kesinlik elde ederim.

Bu tanım aşağıdaki senaryoya kadar uzanır: "Gecikmeli örneklemede en iyi model iyi performans gösterecek" buluşsal yöntemine dayalı bir model seçiyorum; arkadaşlar böyle bir seçim belirsizliği de beraberinde getirecektir. Her şey olasılıktır, elbette şanslı olabilirsiniz ama istatistikleri aldatamazsınız.

Bu ve yalnızca bu, gecikmeli getirmenin faydasıdır. Modelin performansını kontrol etme, en iyi modeli seçme buluşsal yöntemlerini kontrol etme.

Not: Sonucu nasıl iyileştireceğimi düşünüyorum. İyi bir şekilde, eliptik bir eğik buluta ihtiyacınız var. Ondan, sağ kenardan vb. Komiteler alabilirsiniz. ve ortalama olarak çalışacaktır.

 

Buluşsal yöntemleri sağlam bir şekilde değerlendirmek için iyi bir araç takımı geliştirdiniz. Geliştirdiğiniz modelin (komitenin) eğitim yönteminin Forex'e uygun olmadığını kanıtladınız, peki sırada ne var?

Eğitim verilerinin kendisindeki sonuçlar, testteki sonuçlar ve gecikmiş numunedeki sonuçlar arasında bir korelasyon olması için bir model oluşturmanın bir yolunu geliştirmemiz gerekiyor.

Benim de benzer bir durumum var, örneğin, farklı veri ön işleme yöntemleri, eğitim/tahmin için farklı paketler, tahminin kalitesini değerlendirmek için farklı işlevler arasında sıralama yapıyorum. Bütün bunlar önemlidir ve bunların sonsuz kombinasyonları vardır. Occam'ın ustura kuralına bağlı kalmaya çalışıyorum - ne kadar az tahminciye ihtiyacınız varsa ve model ne kadar az parametreye sahipse o kadar iyi.

 

Ayrıca benim öznel görüşüm, tahmincilerinizin hedef değerlerinizi tahmin etmek için kullanılamayacağıdır. En azından dat_train_final_experimental1.csv dosyanızla çalışıyorum - gbm parametrelerini uydururken uygunluk işlevim için olumlu bir sonuç alamıyorum. Yani, hangi model olursa olsun, hangi parametrelerle kurarsam oluşturayım, çapraz doğrulama sonuçları bana uymuyor. Kanıtlayamam, sadece kişisel bir görüş, daha fazla tahminci almanızı ve bir model oluştururken sayılarını azaltmaya çalışmanızı tavsiye ederim.

Örneğin, eğitim tablosundaki her çubuk için 150 tahmincim var, toplamda 100 bar, toplamda 15.000 tahmincim var. Ardından, uygunluk fonksiyonunun en iyi sonucunu elde ederek, modelin tahmin edicileri ve parametreleri üzerinde yineleme yapmak için genetiği kullanırım. Böylece, tam olarak hedef değerlerle gerçekten bir tür bağlantısı olan ve modelin bir şeyi tahmin edebileceği temel alan tahmin ediciler seçilecektir. Seçimin sonunda sadece 10-20 tahmincim kaldı. Uygunluk fonksiyonunun sonucu kullanılan her tahmin için mutlaka biraz azalır, dün forumda uygunluk fonksiyonu için yaklaşık bir R kodu yazdım, orada daha net.

 
mytarmailS :

fena değil, ama bu yeşil daireler ne ve oklar ne anlama geliyor?

Yeşil noktalar bir sinyal olduğunu gösterir, her bir yeşil nokta dizisi ya mavi ya da kırmızı bir nokta ile biter, bu da sırasıyla almak ya da satmak için bir Sıra sinyali anlamına gelir. Oklar, doğru bir sinyal veya yanlış bir sinyal yazan Reshetov sınıflandırıcısının çalışmasıdır ....

Bu arada Dizi saldırıda, sağlığınıza kullanın....

Dosyalar:
 
Dr.Tüccar :

Ayrıca benim öznel görüşüm, tahmincilerinizin hedef değerlerinizi tahmin etmek için kullanılamayacağıdır.

Sanırım daha iyi ifade edebildim -

Eğitim örneklerinin kendileriyle ilgili tahminin sonuçları, ortalama olarak, test örnekleri üzerindeki sonuçlarla iyi bir korelasyon göstermez.

Bir ForeCA paketi vardır ve bir sinyalin "öngörülebilirliğini" değerlendiren bir Omega işlevi içerir. %100 olarak değerlendirilirse - sinyal bazı gereksinimleri karşılar ve tahmin edilmesi kolaydır. %0'lık bir puan - sinyal sadece gürültüdür, bunu tahmin etmek imkansızdır.

Son sütunun fiyat artışı olduğu dat_test_features_experimental.RData tablonuz hala elimde. Örneğin, eurusd için tahmin = %0,83 (%83 değil, %0,83, birden az). ForeCA'ya göre bu zaman serisini tahmin etmek imkansız. Bu pakete gerçekten güvendiğimden değil, ama yazarı açıkça bir şey anlıyor, dinlerdim.

Omega(dat_test_features[dat_test_features[, 109 ] == "eurusd" , 110 ])

Hangi zaman diliminde çalıştığınızı hatırlamıyorum, ancak M1 ise, daha fazlasını denemek için iyi nedenler var, örneğin H1.

 
Dr.Tüccar,

Seni duydum. Birkaç saatlik bir ufukla çalışıyorum.

Dakikalarda, gerileme iyidir, ancak işlemin yeterli MO'su yoktur. Saatte, mutlak fiyat farkı yaklaşık 8 puandır. Orada bir yerde .... Anlıyor musun? %65_70'lik bir tahmin doğruluğuna ihtiyacınız var. Ve saat 9'da 53-53 yüzdesi yayılmanın üstesinden gelmek için yeterli.
 
Dr.Tüccar :

...

Bir ForeCA paketi vardır ve bir sinyalin "öngörülebilirliğini" değerlendiren bir Omega işlevi içerir. %100 olarak değerlendirilirse - sinyal bazı gereksinimleri karşılar ve tahmin edilmesi kolaydır. %0'lık bir puan - sinyal sadece gürültüdür, bunu tahmin etmek imkansızdır.

...

Bu pakette "öngörülebilirlik" ne anlama geliyor? Bana bu, önceki (önceki) değerlerin tahmininde bulunma (kelime budur) yeteneği anlamına geliyordu. Artışları alırsak, o zaman en yaygın kullanılan araç, birçok nüansla çok iyi geliştirilmiş: ARIMA, bu model işe yaramazsa, o zaman çeşitli ARCH. Ve ForeCA paketini bu modellerle karşılaştırmanız gerekiyor.

Genel olarak, bana orijinal fikir kaybolmuş gibi görünüyor. Benim için bu ilk düşünce, MODELDEN BAĞIMSIZ OLARAK, hedef değişkeni tahmin etmek için kullanılan tahmin edicilerin her birinin yeteneğini belirleyecek yöntemlere ihtiyaç olduğuydu. "Tahmin(ler)/hedef değişken" bağlantısında zorunludur. Ve gürültüyü filtrelediğimizde, modelleri veya onların komitelerini kullanırız .... Ama sadece gürültüyü filtreledikten sonra. Ve gürültü olmaması gerçeği, modelin performans göstergelerinin farklı örnekler üzerinde yaklaşık değişmezliği ile belirlenir. Tahmin hatasının mutlak değeri değil, (eşitlik) modelin fazla uydurma olmadığının kanıtı olarak yorumlanan performans göstergelerinin yaklaşık eşitliği gerçeği. HİÇBİR YENİDEN EĞİTİM bizim her şeyimiz değildir. Model belirli bir tahmin ediciler kümesi üzerinde yeniden eğitilirse, geri kalan her şey bir sayı oyunudur. Yalnızca aşırı eğitimli olmayan modeller ilgi çekicidir.

Neden: