Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3333

 
Aleksey Vyazmikin #:

Henüz kafamı toparlayamadım. Her şey tek bir alanda gerçekleşiyor - bir tahmincinin metriğinde, ama diğerlerini nasıl hesaba katacağız?

Tahmin yaparken ne yapacağıma gelince - iki model kullanmayı düşünüyordum - biri neyin elendiğini tespit ediyor veya verilerin "kümelenme" alanında olduğunu doğruluyor ve diğeri zaten geriye kalanlar üzerinde çalışıyor.

Örnekte 2 tahminci var, yani 2 boyutlu uzayda mesafeyi değiştiriyoruz (hipotenüsü hesaplayın). Eğer 5000 işaret olacaksa, o zaman 5000 boyutlu uzaydaki mesafeyi ölçeceksiniz (nasıl ölçülür - Algibe'deki k-means koduna bakın, orada sadece bu ana görevdir - mesafeleri ölçmek, temel olarak almak).
Tüm uzaylarda katetlerin karelerinin toplamının kökü gibi görünüyor https://wiki.loginom.ru/articles/euclid-distance.html.

Eğer gerçekten yapacaksanız - tahmin edicileri ayarlamayı unutmayın, böylece örneğin 1...100000'lik hacimler hesaplamalarda 0,00001...0,01000'lik fiyat deltalarını yutmaz.

Nasıl tespit edilir? İşte asıl soru bu. Özellikle de örnekteki gibi gürültülü alanın bu kadar net bir şekilde ayrılmayacağı piyasa verilerinde. Her şey gürültülü olacaktır, yüzde 90-99.

Gürültülü çizgileri kaldırmak için hazır paketleri kullanmak daha kolay olabilir, belki bir detektörleri vardır....

 
Maxim Dmitrievsky #:

https://www.mql5.com/ru/articles/9138

Kimsenin umursamadığı bir yıl oldu.

Bu tür bir düzine veya yirmi algoritma yazdım, bazıları kendilerini iyi kanıtladı. Makale, sonuçların istikrarı açısından en iyisi değil, ilk gözleme.

Bu yüzden tartışacak bir şey yok, çünkü henüz daha iyi bir şey yok.


Peki, neden bir durum yok - sanırım python henüz tüccarlar arasında yaygın değil, bu yüzden insanlar aktif tartışmaya geçiyor.
Yaklaşımınızı daha sonra örneğimde deneyeceğim.

CatBoost out-of-the-box yöntemini denediniz mi?

 

sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.

"Ama ne yazık ki, bence, yine tamamen rastlantısallık. Resim, göstermek için bir grafik parçasıdır."

Haklısınız, o kadar basit değil

 
Forester #:

Örnekte 2 tahminci var, yani 2 boyutlu uzayda mesafeyi değiştiriyoruz (hipotenüsü hesaplayın). Eğer 5000 işaret olacaksa, o zaman 5000 boyutlu uzaydaki mesafeyi ölçeceksiniz (nasıl ölçülür - alglib'deki k-means koduna bakın, oradaki ana görev budur - mesafeleri ölçmek, temel olarak almak).
Tüm uzaylardaki katetlerin karelerinin toplamının köküne benziyor https://wiki.loginom.ru/articles/euclid-distance.html.

Şimdi bir anlayış ortaya çıkıyor - teşekkürler - bunu düşüneceğim.

Forester #:

Eğer bunu gerçekten yapacaksanız - tahmin edicileri ayarlamayı unutmayın, böylece örneğin 1...100000 hacimleri hesaplamalarda 0,00001...0,01000 fiyat deltalarını yutmaz.

Doğru, normalleştirmek gerekir. Ancak, bunları sayısallaştırmazsak ve metrikleri tamamen endekslerle hesaplarsak ne olur? :) Ve kateterler aracılığıyla sayma fikrini sevmiyorum - bu haliyle yapay.

Yine de doğru olan, önerilen algoritmayı yeniden üretmek ve ardından onu geliştirmeyi düşünmek olacaktır.

Forester #:

Nasıl tespit edilir? Asıl soru bu. Özellikle örnekteki gibi gürültülü alanın bu kadar net bir şekilde ayrılmayacağı piyasa verilerinde. Her şey gürültülü olacak, yüzde 90-99 oranında.

Gürültülü hatları kaldırmak için hazır paketleri kullanmak daha kolay olabilir, belki bir detektörleri vardır....

Aslında, videoyu izlediniz mi? Videonun sonuna yakın bir yerde, modelin oluşturulduğu ve verilerin hangi alana ait olduğunu tespit ettiği ve eğer kümülatif değilse, eğitimin gerçekleştiği örneğe göre sinyalin göz ardı edildiği yazıyor, anladığım kadarıyla. Burada tartışılandan çok daha kötü verilere sahip olduğumuz açıktır, ancak hedef "1" in% 20-30'u ise, zaten mutlu olacağım.

Diğer bir seçenek de, genel örneklemde bu satırları işaretleyerek modeli bu hariç tutulan örnekleri tespit edecek şekilde eğitmektir.

 
Aleksey Vyazmikin #:

Bu doğru, normalleştirmeliyiz. Ancak, ya sayısallaştırılmamışlarsa ve metrik tamamen endekslerle hesaplanıyorsa? :) Ve kateterler aracılığıyla sayma fikrini sevmiyorum - bu yapay.

Bir çip 2 kuantaya, diğeri 32 kuantaya ayarlanmış. Bu işe yaramaz.

Aleksey Vyazmikin #:

Aslında, videoyu izlediniz mi? Videonun sonuna yakın bir yerde, modelin oluşturulduğu ve verilerin hangi alana ait olduğunu tespit ettiği ve eğer kümülatif değilse, eğitimin gerçekleştiği örneğe göre, anladığım kadarıyla sinyalin göz ardı edildiği yazıyor. Açıkçası, burada tartışılandan çok daha kötü verilere sahibiz, ancak hedef "1" in% 20-30'u ise, mutlu olacağım.

Diğer bir seçenek de, genel örneklemde bu satırları işaretleyerek modeli bu hariç tutulan örnekleri tespit edecek şekilde eğitmektir.

Hiç bakmadım.
Tüm bu hesaplamalar olmadan da dışlanmış örnekleri tespit edebilirsiniz. Size zaten söyledim - sadece sınıflardan birinin olasılığı yaklaşık %50 olan yaprakları hariç tutun.

 
Forester #:

Bir çip 2 kuantaya, diğeri 32 kuantaya ayarlanmış. Bu hiç iyi değil.

Hayır, aynı göreceli yer olacak - ayırıcı sayısı (bölmeler) - herkes için sabit.

Forester #:

Tüm bu hesaplamalar olmadan da dışlanmış örnekleri tespit edebilirsiniz. Size daha önce de söyledim - sadece sınıflardan birine ait olma olasılığı yaklaşık %50 olan yaprakları hariç tutun.

Birçok farklı yöntem olabilir. Ben model oluşturmadan önce işleme varyantıyla ilgileniyorum - bana öyle geliyor ki, daha az kombinasyon oluşturma varyantı veriyor, bu da nihai sonuçtaki hatayı azaltıyor - genel olarak nihai modelin başarılı bir şekilde eğitilip eğitilmediği.
Ayrıca, bir şeyi "atabileceğiniz" gerçeğinden bahsediyorsak, hangi modellerden bahsettiğimizi belirtmelisiniz. Eğer bu bir orman ise, "atılmayan" yaprakların yüzdesini mi saymalıyız yoksa bu yaprakların %50'ye yakın aktivasyonlarının sayısını mı saymalıyız ve eşikleri aşılırsa sinyale tepki vermemeli miyiz?
Bousting yaparken, orada daha da eğlenceli - toplamda belirsiz yapraklar olasılığı bir yönde veya başka bir yönde kaydırabilir - olasılık kaymasına bağlı olarak ağırlıkların nasıl dağıldığını göstermek için bir grafik yapmak istiyorum, ancak ertelemeye devam ediyorum. Bilgisayar üç gün boyunca model yaprakların benzerliğini dikkate alıyor - algoritmayı optimize etmeyi düşünüyorum - çok uzun....

 
Forester #:
5000 özellik varsa
Bu kadar büyük bir boyutlulukta KNN gibi metrik algoritmalar çok az anlam ifade eder. Kabaca konuşmak gerekirse, tüm örneklemin herhangi bir noktadan neredeyse aynı uzaklıkta olduğu ortaya çıkar ve sonuç, mesafelerin küçük rastgele sapmalarıyla belirlenir.
 
Aleksey Vyazmikin #:

Peki, neden bir durum yok - sanırım python henüz tüccarlar arasında yaygın değil, bu yüzden insanlar aktif tartışmaya geçiyor.
Yaklaşımınızı daha sonra örneğimde deneyeceğim.

CatBoost'un kullanıma hazır yöntemini denediniz mi?

Kutudan çıkarma yöntemi nedir
Python isteğe bağlıdır. Çok fazla literatür attı.
Eh, ben de henüz başlamayanların bir süre kapris yapacağını ve sonra bu konuya geleceğini tahmin ediyorum :) belki 10 yıl sonra, belki 100 yıl sonra

Sanki başka seçenek yokmuş gibi, hiç yok. Diğer sinir ağları ile seçenekler olabilir, ancak prensip aynıdır - böl ve fethet.
 
Maxim Dmitrievsky #:
Kutudan çıkan yöntem nedir

Bu işlevselliktir.

Maxim Dmitrievsky #:
Sanki başka seçenek yokmuş gibi, sadece yoklar. Diğer sinir ağlarıyla ilgili varyantlar olabilir, ancak prensip aynıdır - böl ve fethet.

Verileri bölmenin/ayırmanın farklı yolları vardır ve bunlar daha önce bu başlıkta denenmiştir - önemli sonuçlar göstermediler, bu yüzden "unutuldular".

Bayesian ağları var - ilk bakışta sadece neden-sonuç ilişkilerini yeniden kurma yetenekleri nedeniyle ilginçler.

 
Aleksey Vyazmikin #:

İşte bu işlevsellik.

Verileri bölmenin/ayırmanın farklı yolları vardır ve bunlar bu başlıkta daha önce denenmiştir - önemli sonuçlar göstermedikleri için "unutulmuşlardır".

Bayesian ağları var - ilk bakışta sadece neden-sonuç ilişkilerini yeniden kurma yetenekleri nedeniyle ilginçler.

Hayır, onları denemedim. Bu gece ne olduğunu göreceğim.
Bu yöntemler modele bağımlıdır. Veri kendi başına ayrılmaz ya da ayrıştırılmaz. Bunu nasıl açıklayacağımı bilmiyorum. Bir kere denedim ve yine optimizatörlerle başım derde girdi. Kitaplarda yazıyor.
Burada sola gidersen, bir at kaybedersin. Sağa gidersen, iki başlı ejderhayı kaybedersin.
Neden: