Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2381

 
Maksim Dmitrievski :

katbust oldukça güçlü bir düzenliliğe sahiptir, özellikle işaretler kategorik ise, o zaman onları boost'ta bu şekilde beyan etmeniz gerekir.

İyileştirmeler, L2 düzenlemesinde bir azalma vermedi. Yani Lasso daha iyi.

 
elibrarius :

Belki de bu, sınav örneğinin sadece şanslı bir parçasıdır. Ve bunun için en iyi parametrelere sahip bir model seçerek bir ayarlama yaparsınız.

Şimdi her zaman çapraz doğrulama (veya ileriye doğru yürüme) ile kontrol ediyorum, küçük bir alan için uygun değil, ancak hemen tüm veriler için bunun en iyi eğitim seçeneği olduğunu düşünüyorum.
Doktor ayrıca forumdan kaybolmadan önce kontrol etmesini tavsiye etti.

İlk olarak, Kement'i nasıl kuracağımı bilmiyorum, bu yüzden hiç uydurma yok - parametreler olduğu gibi ortaya çıkıyor.

İkincisi, bu CatBoostom ile aynı site - ve aralarından seçim yapabileceğiniz 800 model var ve neredeyse en iyi seçenekleri seçtim.

Dosyayı ekledim - farklı modelleri kendiniz deneyin, Kement özellikle ikili örnekler için önerildi - işin püf noktası bu.

 
Alexey Vyazmikin :

İlk olarak, Kement'i nasıl kuracağımı bilmiyorum, bu yüzden hiç uydurma yok - parametreler olduğu gibi ortaya çıkıyor.

İkincisi, bu CatBoostom ile aynı site - ve aralarından seçim yapabileceğiniz 800 model var ve neredeyse en iyi seçenekleri seçtim.

Dosyayı ekledim - farklı modelleri kendiniz deneyin, Kement özellikle ikili örnekler için önerildi - işin püf noktası bu.

Çapraz doğrulama için olduğu gibi deneyin. Toplam veri miktarının 1/10'u farklı bilinmeyen alanlara sahip 10 kez bir döngüde. Bu, bazı parametrelerle bir cut-boost veya varsayılan parametrelere sahip bir kement seçmek için en iyi tahmin olacaktır.

 
Maksim Dmitrievski :


aynı şekilde deneyin. Özel test cihazında iyi çıktı, modeli dışa aktarırken bir sorun var, daha sonra bir hata arayacağım.

Mashka eğitimde yer alıyorsa, modelin uygulamasında olması gerekmez mi?

Mashka'nın tip işaretlemesindeki özü - sadece bir sınıf yukarıda ve sadece bir başka aşağıda mı?

 
elibrarius :

Çapraz doğrulama için olduğu gibi deneyin. Toplam veri miktarının 1/10'u farklı bilinmeyen alanlara sahip 10 kez bir döngüde. Bu, bazı parametrelerle bir cut-boost veya varsayılan parametrelere sahip bir kement seçmek için en iyi tahmin olacaktır.

Binarization belirli bir örnek değerlendirme yöntemine göre gerçekleşir, bu nedenle çapraz doğrulama ana örnek alanlarında daha iyi sonuçlar gösterecektir.

Çapraz doğrulama, zamana bağlı numuneler için tamamen uygun değildir, ancak ticaret durumunda böyle bir bağlantı vardır - piyasa yavaş yavaş değişmektedir ve model zaman içinde istikrarlı modeller bulmalıdır ve çapraz doğrulama durumunda, eğitim ve doğrulama süresi yakın veya eğitilmiş örnekten parçalanmış olabilir.

Şimdi, aslında, CatBoost tüm verilerin %60'ı üzerinde eğitilmiştir - %20'si durdurma tarafından kontrol edilir ve son %20'si model tarafından değerlendirilir.

Eğitim için %10'dan bahsedersek, bu örnek için çok az.
 
Alexey Vyazmikin :

Çapraz doğrulama, zamana bağlı numuneler için tamamen uygun değildir, ancak ticaret durumunda böyle bir bağlantı vardır - piyasa yavaş yavaş değişmektedir ve model zaman içinde istikrarlı modeller bulmalıdır ve çapraz doğrulama durumunda, eğitim ve doğrulama süresi yakın veya eğitilmiş örnekten parçalanmış olabilir.

Bazı standart/eski çapraz doğrulama hakkında yazıyorsunuz.
Öncelikle satırları karıştırmanıza gerek yok, 0-90 eğitim 90-100 test, ardından 10-100 eğitim, 0-10 test, sonra 20-100-10 eğitim 10-20 test gibi bloklar halinde alın. , vb.
İkincisi, Prado'nun tavsiyesine göre, tren ve test arasında bir boşluk (budama) bırakılması gerekiyor, böylece tren ve testten komşu örneklerin işe girmemesi gerekiyor. Testten 10-100 örneğin yanında trenden bir örnek bir ipucu/dikizleme olacaktır. Daha fazlasını buradan okuyun https://dou.ua/lenta/articles/ml-vs-financial-math/
Ya da işte bir resim:

Alexey Vyazmikin :

Şimdi, aslında, CatBoost tüm verilerin %60'ı üzerinde eğitilmiştir - %20'si durdurma tarafından kontrol edilir ve son %20'si model tarafından değerlendirilir.

Eğitim için %10'dan bahsedersek, bu örnek için çok az.
%20 veya ne istersen yapabilirsin.

Ve son olarak, çapraz doğrulama yerine ileriye doğru yürümeyi kullanabilirsiniz. Test bölümünü bir daire içinde değil, sadece önde alır.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maksim Dmitrievski

Shuffle parametresi ne işe yarar? Genellikle False ise, sonuçlar True'dan çok daha kötüdür.

train_test_split(X, y, train_size = 0.5 , test_size = 0.5 , shuffle=True)
 

İleriye doğru yürümenin açıklamasını içeren bir resim.

 
Evgeni Gavrilovi :

Shuffle parametresi ne işe yarar? Genellikle False ise, sonuçlar True'dan çok daha kötüdür.

örnekleri sıralı olarak gitmemeleri için eğitmek ve test etmek için karıştırır

 
Maksim Dmitrievski :

örnekleri sıralı olarak gitmemeleri için eğitmek ve test etmek için karıştırır

rastgele mi? yani burada belirtildiği gibi? rastgele örnek testi %50

Neden: