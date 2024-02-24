Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3281
normalleştirilmemiş çapraz korelasyonlar )çapraz kovaryans.
Pearson'a ihtiyacın var.
Nasıl yapacağımı bilmiyorum ve uykum var.
Benzer bir şey.
Evet, öyle değil.
Doğru, yanlış.
Neredeyse bir şey, araştır, ben gidiyorum.
Uzun bir dizide benzer kısa dizeleri hızlı bir şekilde bulmaya çalışmak.
Alglib aracılığıyla bu tür bir uygulamanın milyonuncu dizede benzer kısa dizeleri (300) araması altı saniyeden fazla sürer.
Hızlandırdım.
Sonuç.
Şimdi 300 milisaniyede.
Hiçbir matris bunu yapamazken.
10M'lik bir dizgide benzer 30K dizgiyi bulmak üç saniye sürer.
300/1M fft değildir, 30K/10M fft'dir.
Etkileyici sonuç!
2010'dan 2023'e kadar olan bir örneği (47 bin satır) aldım, kronolojik sırayla 3 parçaya böldüm ve bu parçaları değiştirirsek ne olacağını görmeye karar verdim.
Alt örneklemlerin büyüklüğü eğitim - %60, test - %20 ve sınav - %20.
Bu kombinasyonları (-1) yaptım - bu standart sıralamadır - kronolojik. Her alt örneğin kendi rengi vardır.
Her örnek kümesi için farklı Tohum ile 101 model eğitildi ve aşağıdaki sonuç elde edildi
Tüm metrikler standarttır ve modellerin ortalama kârının (AVR Kârı) yanı sıra eğitime katılmayan son örnekte kârı 3000 puanı aşan modellerin yüzdesini belirlemenin zor olduğu görülebilir.
Belki de -1 ve 0 varyantlarının eğitim örneklem boyutundaki göreceli başarı oranı azaltılmalıdır? Genel olarak, Recall'ın buna tepki verdiği görülüyor.
Sizce bu tür kombinasyonların sonuçları bizim durumumuzda birbirleriyle karşılaştırılabilir mi? Yoksa veriler geri dönüşü olmayan bir şekilde güncelliğini mi yitirdi?