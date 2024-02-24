Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 32
Yuri, teşekkürler. Düşüneceğim.
Ben onları seçmiyorum. VMR'nin yaptığı budur. 21. yüzyıl, 16 yıldan fazla bir süredir başladı ve tüm kaba işler insanlar tarafından değil, otomatik sistemler tarafından yapılmalıdır.
Yuri Reshetov :
... Daha spesifik olarak, VMR bazı özellikleri azaltarak hiper alanı azaltır.
VMR'nin tahmin edicilerden birini otomatik olarak azalttığına dair belirli bir örnek bile vardır. Bkz. İflasın Öngörülmesi
Ve bu sayfada, basit bir klasik örnek kullanarak algoritmanın bunu nasıl yaptığını bile anlayabilirsiniz: Eğitim setindeki önemsiz (bilgi vermeyen) tahmin edicilerin ve destek olmayan vektörlerin (örnekler) azaltılması
Mutlaklaştırmadığım deneyimlerime göre, modellerde yerleşik olan öngörücü seçim algoritmaları en verimsiz olanlardır. Öngörücüleri seçmek için çok sayıda ayrı paket ve işlevin yanı sıra.
Neden öyle diyorum?
Benim için ticaret için basit ve basit bir test var.
Modeli öğrenmek. Eğitim örneğinin dışında kalan bir örnek üzerinde zamanında kontrol edip hataları karşılaştırıyoruz. İlk olarak, hatalar yaklaşık %50 olamaz - bu genellikle eğitilebilir bir model değildir. Hataları %40'tan az olarak kabul ediyoruz. Bu hatalar eğitim ve doğrulama örneklerinde yaklaşık olarak eşitse, model fazla takılmamıştır. Bu hatalar önemli ölçüde farklıysa ve birkaç kez farklılaşabiliyorsa, özellikle eğitim sırasında hata %10'dan azsa, model fazla sığdırılmıştır. Fazla uydurmanın nedeni, model öğrenme algoritmasının ATLAMADIĞI gürültü tahmincilerinin varlığıdır.
Şimdiye kadar, aralarında gürültü olmayacak bir dizi tahmin ediciye rastlamadım. Ve tahmin edicileri seçmek için tüm algoritmalar bu gürültüyle baş edemedi, modellerin kabalaştırılması (düzenleme) fikirleri baş edemedi!
Bu nedenle, fikriniz hatalı ve aşırı eğitimli modellerin alınması göz önüne alındığında, gerçek hayatta her zaman "örnek dışı" olan tehlikelidir.
Bir numaralı sorunu öneriyorum . Çözümümü daha sonra yayınlayacağım. SanSanych onu zaten gördü, lütfen cevap vermeyin.
Giriş: Bir ticaret algoritması oluşturmak için, fiyatı, eğilimi veya bir anlaşma açma yönünü tahmin etmek için temel olarak hangi faktörlerin kullanılacağını bilmeniz gerekir. Bu tür faktörlerin seçimi kolay bir iş değildir ve sonsuz derecede karmaşıktır.
Ekte, yaptığım yapay bir csv veri setine sahip bir arşiv var.
Veriler, input_ ön eki olan 20 değişken ve en sağdaki bir değişken olan output içerir.
Çıkış değişkeni, giriş değişkenlerinin bazı alt kümelerine bağlıdır ( alt küme 1 ila 20 giriş içerebilir).
Görev: Mevcut veriler üzerinde çıkış değişkeninin durumunu belirleyebileceğiniz giriş değişkenlerini seçmek için herhangi bir yöntemi (makine öğrenimi) kullanmak.
İkili sınıflandırma ile başka hangi görevler olacak? Ardından, hem sonuçları hem de örnek oluşturma yöntemini zaten yayınladığımda, üst sınır analizine geldim.
Katılmak ve aynı zamanda ikili sınıflandırıcımın yeni bir versiyonunu test etmek istiyorum.
Yuri, lütfen özel bir mesaja cevap ver.
Ekli komut dosyası.
Veri seti EURUSD H1'den alınmıştır.
Her zaman zorluklar vardır :)
Arşivde iki dosya var - train.csv ve test.csv. Dosyalardaki son sütun, ikili sınıflandırmanın gerekli sonucudur. Modeli eğitmek için train.csv dosyasını kullanmanız ve ardından modeli test.csv'ye uygulamanız gerekir. Test.csv için zaten bilinen hedef sonuçları önceden kullanılamaz, yalnızca son kontrol için gereklidir. Veriler eurusd d1, sınıf 0 veya 1 - bir sonraki çubuk için düşen veya yükselen fiyattan alınmıştır. Model, test.csv sonucunu 10'dan en az 6'sında doğru tahmin ederse, o zaman zaten Forex'te işlem yapmayı deneyebilirsiniz, prensipte birleşmeyecektir, ancak büyük bir kar da beklememelisiniz. 10'dan 7'sinde (ve daha fazla) zaten doğru tahmin ediyorsa - bu, kâseye giden doğru yoldur, eğitimi denemek ve modeli diğer yıllarda ve aylarda test etmek için kalır ve her yerde aynıysa, o zaman çok mükemmel
Geçmişteki hataları hesaba kattım, şimdi dosyalar ham değerlere değil, çubukların deltasına dayanıyor. Ve her şey, sütunlarla değil, aynı satırdaki aynı tür tahminciler dikkate alınarak satırlarla normalleştirilir.
Ben kendim, tahmin edicilerin çeşitlerini sıralamak için genetiği kullanmaya çalışıyorum. Bir dizi tahmin edici üzerinde, iki çapraz doğrulama ile bir ana bileşen modeli eğitiyorum ve sınıflandırma hatasını genetik için bir uygunluk değeri olarak döndürüyorum. Genetik sınırına ulaştığında, son tahmin edicileri alıyorum, yine iki çapraz doğrulama ile bir nöronu eğitiyorum. Test verilerindeki son tahmin hatası yaklaşık %40 civarındadır. Kötü haberin başladığı yer burasıdır - nöronun parametrelerine (iç ağırlıkların sayısı, çapraz doğrulamalar arasındaki yinelemelerin sayısı) bağlı olarak, son hata bağlıdır, rastgele %30 - %50 arasında yürür. Bir zamanlar sadece %30 aldığım için mutluydum ama ortaya çıktı ki, kontrol edemiyorum ve sadece ortalama %40 alıyorum.
Mantıklı soru, neden ortada bir ana bileşen modeline ihtiyacımız var? Sadece eğitim parametrelerine sahip değil, veri gönderdi, bir model aldı, test verilerinde çapraz doğrulama hatasını hesapladı. Genetiğin uygunluk fonksiyonunu belirlemek için hemen bir nöron kullanırsanız, eğitim süresi çok artar, ayrıca sinir ağının kendisi için hangi eğitim parametrelerinin kullanılacağı net değildir.
Ayrıca uygulamada Yuri'nin VMR modelini R'ye taşıdım. Verilerimi gürültü tahmincileri ile aldım, eğitim verilerinde %30 ve test verilerinde %60 hata aldım yani bir mucize olmadı, model yeniden eğitildi. Kodu taşırken sıkışmalar olsa da, herhangi bir tutarsızlık görürse lütfen bana bildirin. Modeli eğitirken, büyük bir nükleer makine için yeterli belleğe sahip değildim, orta bir tane kullandım ( kernelTrickMode <- 2 parametre). Her sütun için bir milyon yineleme bekleyemedim, 10000 kullandım (iterPerColumn <- 10000).
Her zaman zorluklar vardır :)
Arşivde iki dosya var - train.csv ve test.csv.
Maalesef RAR arşivim açılamıyor. IMHO, her şeyi ZIP'de paketlemek daha iyidir. Çünkü Tüm platformlarda ZIP biçimleri için paket açıcılar vardır. Ayrıca birçok kullanıcı RAR kullanmaz.
Ayrıca uygulamada Yuri'nin VMR modelini R'ye taşıdım. Verilerimi gürültü tahmincileri ile aldım, eğitim verilerinde %30 ve test verilerinde %60 hata aldım yani bir mucize olmadı, model yeniden eğitildi. Kodu taşırken sıkışmalar olsa da, herhangi bir tutarsızlık görürse lütfen bana bildirin.
kesinlikle bakacağım. R'yi yeterince iyi bilmememe rağmen.
Liman elle mi yoksa bir tür makine aracılığıyla mı yapıldı?
Belki başka biri gürültüyü filtrelemek için temel bileşen yöntemini deneyecek, ancak binlerce gözlemi olan ve Dr.Trader gibi olmayan öngörücüler deneyecek mi?
Neden denemiyorsun?
not. Uzun zamandır deniyorum, ilginç bir şey çıkmadı
Araştırmam sırasında bazı mütevazı ama ilginç sonuçlar ortaya çıktı, paylaşmak isterdim ama bu "harika" forumda resim ekleyemiyorum veya dosya ekleyemiyorum, belki biri sorunun ne olduğunu biliyor mu?