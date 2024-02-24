Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2381
katbust oldukça güçlü bir düzenliliğe sahiptir, özellikle işaretler kategorik ise, o zaman onları boost'ta bu şekilde beyan etmeniz gerekir.
İyileştirmeler, L2 düzenlemesinde bir azalma vermedi. Yani Lasso daha iyi.
Belki de bu, sınav örneğinin sadece şanslı bir parçasıdır. Ve bunun için en iyi parametrelere sahip bir model seçerek bir ayarlama yaparsınız.
Şimdi her zaman çapraz doğrulama (veya ileriye doğru yürüme) ile kontrol ediyorum, küçük bir alan için uygun değil, ancak hemen tüm veriler için bunun en iyi eğitim seçeneği olduğunu düşünüyorum.
Doktor ayrıca forumdan kaybolmadan önce kontrol etmesini tavsiye etti.
İlk olarak, Kement'i nasıl kuracağımı bilmiyorum, bu yüzden hiç uydurma yok - parametreler olduğu gibi ortaya çıkıyor.
İkincisi, bu CatBoostom ile aynı site - ve aralarından seçim yapabileceğiniz 800 model var ve neredeyse en iyi seçenekleri seçtim.
Dosyayı ekledim - farklı modelleri kendiniz deneyin, Kement özellikle ikili örnekler için önerildi - işin püf noktası bu.
Çapraz doğrulama için olduğu gibi deneyin. Toplam veri miktarının 1/10'u farklı bilinmeyen alanlara sahip 10 kez bir döngüde. Bu, bazı parametrelerle bir cut-boost veya varsayılan parametrelere sahip bir kement seçmek için en iyi tahmin olacaktır.
aynı şekilde deneyin. Özel test cihazında iyi çıktı, modeli dışa aktarırken bir sorun var, daha sonra bir hata arayacağım.
Mashka eğitimde yer alıyorsa, modelin uygulamasında olması gerekmez mi?
Mashka'nın tip işaretlemesindeki özü - sadece bir sınıf yukarıda ve sadece bir başka aşağıda mı?
Çapraz doğrulama için olduğu gibi deneyin. Toplam veri miktarının 1/10'u farklı bilinmeyen alanlara sahip 10 kez bir döngüde. Bu, bazı parametrelerle bir cut-boost veya varsayılan parametrelere sahip bir kement seçmek için en iyi tahmin olacaktır.
Binarization belirli bir örnek değerlendirme yöntemine göre gerçekleşir, bu nedenle çapraz doğrulama ana örnek alanlarında daha iyi sonuçlar gösterecektir.
Çapraz doğrulama, zamana bağlı numuneler için tamamen uygun değildir, ancak ticaret durumunda böyle bir bağlantı vardır - piyasa yavaş yavaş değişmektedir ve model zaman içinde istikrarlı modeller bulmalıdır ve çapraz doğrulama durumunda, eğitim ve doğrulama süresi yakın veya eğitilmiş örnekten parçalanmış olabilir.
Şimdi, aslında, CatBoost tüm verilerin %60'ı üzerinde eğitilmiştir - %20'si durdurma tarafından kontrol edilir ve son %20'si model tarafından değerlendirilir.Eğitim için %10'dan bahsedersek, bu örnek için çok az.
Bazı standart/eski çapraz doğrulama hakkında yazıyorsunuz.
Öncelikle satırları karıştırmanıza gerek yok, 0-90 eğitim 90-100 test, ardından 10-100 eğitim, 0-10 test, sonra 20-100-10 eğitim 10-20 test gibi bloklar halinde alın. , vb.
İkincisi, Prado'nun tavsiyesine göre, tren ve test arasında bir boşluk (budama) bırakılması gerekiyor, böylece tren ve testten komşu örneklerin işe girmemesi gerekiyor. Testten 10-100 örneğin yanında trenden bir örnek bir ipucu/dikizleme olacaktır. Daha fazlasını buradan okuyun https://dou.ua/lenta/articles/ml-vs-financial-math/
Ya da işte bir resim:
Ve son olarak, çapraz doğrulama yerine ileriye doğru yürümeyi kullanabilirsiniz. Test bölümünü bir daire içinde değil, sadece önde alır.
Shuffle parametresi ne işe yarar? Genellikle False ise, sonuçlar True'dan çok daha kötüdür.
İleriye doğru yürümenin açıklamasını içeren bir resim.
rastgele mi? yani burada belirtildiği gibi? rastgele örnek testi %50