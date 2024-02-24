Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 188
jPrediction 11 Çıktı
Küçük bir aksaklık düzeltildi (CSV'deki virgül, sayılar için nokta ile değiştirilmedi). Modeller için önemli tahmin edicileri seçmek için geliştirilmiş algoritma.
Güncellemeyi ana sayfadaki ilk mesaj olan web sitemden (profilde belirtilmiştir) indirebilirsiniz.
Ben de tahmincilerin seçimi hakkında yazmak istedim ...
Ana deneye ek olarak, bir borsa varlığının biraz daha analizini yapıyorum.
Özelliklere eklediğim normal ciltler var.
Daha sonra farklı çıktılar (11 tanesi) için her bir tahmin ediciye olağan lineer modeli (OLS regresyon) [Hedef ~ Predictor] uyguladım.
Hesaplanan f-stat.modelleri. Sonuç bu resim:
Ve sonra bir sürpriz - hacimlerle ilişkili tüm tahmin bloklarının gereksiz olduğu ortaya çıktı. Ayrıca, fiyat artışlarının otokorelasyonuna dayalı tahmin edicilerin de gereksiz olduğu ortaya çıktı.
Çıktı değişkeninin gecikmesi ne kadar büyükse, anlamlılığın o kadar kötü olduğu da görülebilir.
Sonra tüm gürültüyü F kritik (0,01 düzeyinde) ile filtreledim.
Şu şekilde çıktı:
Bu, olası etkileşimleri hesaba katmadan maalesef ...
Ancak bazı girdiler için doğrusal modelin önemi fena değil.
Tahmin edicilerin önemini tek tek analiz etmemeye çalışıyorum. Burada güzel bir örnek vardı:
İki öngörücü var. Görsel olarak, ikisinin bir kerede analizi ile çalışmak çok kolaydır, ikinci hedefin modellerle bulunabilecek net kümeler oluşturduğu açıktır. Bu tahmin edicileri tek tek kullanırsanız, tahminde her biri işe yaramaz olacaktır.Resim tamamen varsayımsaldır. Ancak Forex ile ilgili olarak, iyi tahmincilerin bir şekilde orada benzer kümeler oluşturduğuna dair birkaç işarete dayanarak karar verebilirim, sadece 2 değil, 30 tahminciye ihtiyacım var.
...
Daha önce, sürüm 10'da, daha fazla sayıda girdi kullanan jPrediction, genelleme yeteneğini artırmadı ve yeniden eğitilmesi gerekiyordu, ancak şimdi modeldeki tahmin edicilerin artmasıyla birlikte, modelin bir bütün olarak genelleme yeteneği da artar, ancak bu tür modellerin çalışması daha uzun ve daha iyi sürer ...
Geri dönüşünüz için teşekkür ederiz!
Sürüm 11'i sahip olduğum örnekler üzerinde test ederek benzer bir sonuca vardım. Bu varsayımsal sonucu bağımsız çalışmalarla doğrulamak gerekiyordu (deneyin yeniden üretilmesi). Sonuçta herkesin farklı görevleri var. Bu nedenle, bazı görevler için sınıflandırıcının zıt sonuçlar vermesi olasılığı vardı. Ayrıca, yeni sürümde önemli tahmin edicileri seçme süresi, herkesin hoşuna gitmeyebilir, gözle görülür şekilde arttı.
Model eğitim süresine gelince, kaliteyi düşürmeden (genelleme yeteneği) potansiyel olarak azaltılabilir - bu zaten bir teknoloji meselesidir. Ana şey, anlamak için zamanında yapıcı geri bildirim almaktır: jPrediction'ı bu yönde geliştirmeye değer mi, yoksa yön yanlış mı çıktı ve geri dönmeniz mi gerekiyor? Aksi takdirde, taviz vermeyen özellikler için zaman ve çaba harcamanız gerekir.
...
Kendimde kullanılan verileri alıyorum -% 92.3 (oos).
...
Lütfen içten tebriklerimi kabul edin! (Yalan söylemiyorsan).
Ve bunun kamuya açık alanda değil, sizinle birlikte bir yerde olduğuna üzülüyorum.
Neyin kapalı erişimde olduğunu tartışmak anlamsızdır, çünkü jPrediction'a yönelik "iddialarınızı" kanıtlamak veya çürütmek imkansızdır.
Az önce konuyla ilgili bir makaleye rastladım, özellikle Ulusal Meclis hayranları için ilginç olduğunu düşündüm.
Benim için makalenin sonu ilginç görünüyordu, burada örneklemdeki tahmin hatası ve numunenin DIŞINDAKİ tahmin hatası karşılaştırılmıştır: bu, bu hataların korelasyonu yoluyla yapılır. Benim terminolojime göre bu, eğer korelasyon yüksekse (madde 0.8'de), o zaman modelin fazla takılmadığı anlamına gelir.
Genel olarak, tüm bunlar doğrudur. Etkileşimlerde, marjinal girdilerin bilgilerinin toplamını aşan ek bilgi içeriği görünür.
Karar ağaçları, torbalama ve model etkileşimlerini kolayca artırma. Yani ekstra çaba harcamadan. Doğrusal modeller için birçok problem vardır. OLS regresyonu, tahmin edicilerin oluşum sırasını hesaba katar... Tahmin edicilerin açgözlü alternatif eklenmesi prensipte çalışır, ancak açgözlülük nedeniyle, tek taraflı bir model olduğu ortaya çıkar. Aynı şey ormanlar ve ağaçlar için de geçerlidir.
Ancak düzinelerce tahmin edicinin dahil edilmesi konusunda dikkatli olurdum. 30 değişkenin etkileşimini hayal ediyor musunuz? Bir ağaç için bu, en az 30'luk bir derinlik olacaktır. Bunu aşırı uydurma olmadan modellemek için çok büyük miktarda veriye ihtiyacınız var...
Uygulamada, 3-5'e kadar olan etkileşim derinliği zaten yeterlidir.
Benim için tahmin edicilerin etkileşimi son derece şüpheli bir şey. O kadar çok soru var ki...
Ve OLS'de hala etkileşim varsa, o zaman bu kesinlikle düşünülemez. Alırsanız ve OLS'nin uygulanabilir olduğu tüm koşulları bir kağıda dikkatlice yazarsanız. Sonra bir kağıt parçasına yazılan her şeyi finansal zaman serilerindeki gerçeklikle karşılaştırın.
not.
Veri madenciliği üzerine hemen hemen herhangi bir kitap alırsanız, ilişkili tahmin edicileri kaldırma prosedürleri mutlaka açıklanmıştır.
