Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 57

 
Yuri Reshetov :
Ne de olsa Duc, potansiyel fazla takmayı önlemek gerektiğinden stabilite elde edilir. Ve dengesiz bir eğitim seti, temsili olmayan sınıflar için fazla uydurmanın potansiyel bir nedenidir. Sonuçta, öğrenme algoritması, genelleme yeteneğini artırmak için gerekli değil, kendisi için daha kolay gibi davranmaya çalışır. Örnek dengesizse, en az temsili sınıflarda öğrenme hatalarını en aza indirecektir, çünkü bu tür sınıflar için çok az örnek var ve bunları genellemek yerine ezbere öğrenmek en kolayı. Böyle bir tıkanıklıktan sonra, eğitim örneğinin dışında, temsili olmayan sınıflardaki algoritma hatalarının büyük olasılıkla olacağına şaşıracak bir şey yoktur.
Eğitim örneğini dengelemeye karşı hiçbir şeyim yok. Tarihe göre bölmeden doğrulama için rastgele bir alt örnek almaya karşıyım. Doğrulamayla ilgili metriğe fazla değer biçilecektir.
 
Alexey Burnakov :

Düşünce basit. Gerçek hayatta hiç kimse, gerçek ticaretin kalitesini değerlendirmek için gelecekten gözlemler içeren karışık bir örnek almanıza izin vermez. Tüm gözlemler x gününden sonra gidecek.

Bu nedenle, doğrulama sırasında karışık bir örnek alarak (tarihlere göre ayırmadan), doğrulama için kalite metriğini olduğundan fazla tahmin edersiniz. Bu kadar. Sonra hoş olmayan sürprizler olacak.

Peki ya düşünce? Düşünceler özneldir. Hem doğru hem de açıkça yanlış düşünmek mümkündür. Çünkü hayal gücünü sınırlamak sorunludur. Gerçeğin ölçütü her zaman deneyimdir.

Biri önceden dengelenmiş ve diğeri aşırı derecede dengesiz olmak üzere iki eğitim örneği alın. Algoritmayı her iki örnek üzerinde eğitin ve test parçalarındaki genelleme yeteneğini ölçün. Sonra genelleme yeteneklerini karşılaştırın. En iyi genelleme kabiliyetini veren ve doğruluk ölçütü olacak seçenek.

Aksi takdirde, ivme kaybedene kadar düşünecek ve tahminde bulunacağız. Gerçekten de, anlaşmazlıklar anlaşmazlıklardan doğar ve gerçek deneyimden doğar.

Bu nedenle, eğitim numunesi dengesi konusunun daha fazla tartışılmasıyla bağlanıyorum. Aksi takdirde, bu holivar süresiz olarak devam ettirilebilir, çünkü. iki farklı görüş var ve hangimizin daha doğru düşündüğü konusunda ölçülmeye devam etmek zaman kaybıdır.

 
Yuri Reshetov :
Sonuçta Duc, aşırı takmayı önlemek için gerekli olduğu için stabilite elde edilir. Ve dengesiz bir eğitim seti, temsili olmayan sınıflar için fazla uydurmanın potansiyel bir nedenidir. Sonuçta, öğrenme algoritması, genelleme yeteneğini artırmak için gerekli değil, kendisi için daha kolay gibi davranmaya çalışır. Örnek dengesizse, en az temsili sınıflarda öğrenme hatalarını en aza indirecektir, çünkü bu tür sınıflar için çok az örnek var ve bunları genellemek yerine ezbere öğrenmek en kolayı. Böyle bir tıkanıklıktan sonra, eğitim örneğinin dışında, temsili olmayan sınıflardaki algoritma hatalarının en olası olmasına şaşıracak bir şey yoktur.

1. Dengesiz sınıflarda, genel olarak, şeytan şu şekilde ortaya çıkar: sınıflar arasındaki hata zaman zaman farklılık gösterebilir. Ve hangisi doğru?

2. Sınıfları dengelemek her zaman mümkün değildir.

AL|SAT ile örneğiniz. 3000'in üzerindeki gözlem sayısı (bar) ile dengesizlik farkı %10 maksimum %20 olacaktır. Dengelemek oldukça mümkündür.

Ve burada yukarıda Dr.Trader "ters/geri dönüş yok" hedef değişkenini önerdi. ZZ'den alınmış gibi. Dolayısıyla böyle bir hedef değişkende, sınıfların dengesizliği büyüklük sıralarına göre farklılık gösterecektir. Maksimum sınıfa eklersek, böyle dengeli bir örnek üzerinde öğretmek mümkün müdür? Bana öyle geliyor ki hayır.

Yani dengeleme o kadar kolay değil.

Kendi deneyimimden:

  • dengesizlik büyük değilse (% 20'den fazla değil), o zaman dengelemek gerekir.
  • dengesizlik büyükse (çoklu), o zaman dengelemek imkansızdır ve genel olarak böyle bir hedef değişkeni reddetmek gerekir.

Başka çözüm bulunamadı.

 
Yuri Reshetov :
Şimdi her şeyden vazgeçeceğim, yüzümde ciddi bir kupa ile tsifiri oynamak için R ustası olacağım.
Rakamlarla oynadığınızı fark edene kadar, ama yüzleri bilmiyorum - görünmez.
 
San Sanych Fomenko :
Rakamlarla oynadığınızı fark edene kadar, ama yüzleri bilmiyorum - görünmez.
Sonuçta, avatardaki yüzüm oldukça ciddi görünüyor? En azından, mümkün olduğunca kaşlarını çatmak için çok uğraştım. Ama pek iyi çalışmıyor gibi görünüyor, değil mi?
 
Yuri Reshetov :

Peki ya düşünce? Düşünceler özneldir. Hem doğru hem de açıkça yanlış düşünmek mümkündür. Çünkü hayal gücünü sınırlamak sorunludur. Gerçeğin ölçütü her zaman deneyimdir.

Biri önceden dengelenmiş ve diğeri aşırı derecede dengesiz olmak üzere iki eğitim örneği alın. Algoritmayı her iki örnek üzerinde eğitin ve test parçalarındaki genelleme yeteneğini ölçün. Sonra genelleme yeteneklerini karşılaştırın. En iyi genelleme kabiliyetini veren ve doğruluk ölçütü olacak seçenek.

Aksi takdirde, ivme kaybedene kadar düşünecek ve tahminde bulunacağız. Gerçekten de, anlaşmazlıklar anlaşmazlıklardan doğar ve gerçek deneyimden doğar.

Bu nedenle, eğitim numunesi dengesi konusunun daha fazla tartışılmasıyla bağlanıyorum. Aksi takdirde, bu holivar süresiz olarak devam ettirilebilir, çünkü. iki farklı görüş var ve hangimizin daha doğru düşündüğü konusunda ölçülmeye devam etmek zaman kaybıdır.

Ben bir şeyden bahsediyorum, sen başka bir şeyden bahsediyorsun. Kümeyi kesinlikle tarihlere göre bölmek gerekiyor diyorum. Dengeden mi bahsediyorsun?
 
Alexey Burnakov :
Ben bir şeyden bahsediyorum, sen başka bir şeyden bahsediyorsun. Kümeyi kesinlikle tarihlere göre bölmek gerekiyor diyorum. Dengeden mi bahsediyorsun?

Üzgünüm ama bu holivar'ı sürdürmenin bir anlamı olmadığını zaten söyledim. Daha önce örneklerle denge eksikliğini açıklamaya çalıştım. Muhtemelen çok inandırıcı değil mi? Yüzümde ciddi bir kupa varken siyahı beyaz gibi gösterecek kadar güçlü değilim. O yüzden yargılama.

Büyük olasılıkla nedeni, gerçekliği dengelemek için sizi sözde "zorlamaya" çalıştığıma beni ikna etmeye çalışmanızdır? Ama benim öyle bir niyetim yok. Gerçekliğin ve ne yazık ki, çoğu zaman dengesiz olduğunu ve onu dengeleme olanaklarının her zaman mevcut olmadığını biliyorum. Bu nedenle, eğitim örneğinin dışında gerçeği dengelemeye çalışmanın gerekli olmadığını, ancak eğitim örneğini dengelemek için gerekli ve yeterli olduğunu yazılarımda size açıklamaya çalıştım, böylece ondan elde edilen modelin eğri olmaması için. son derece temsili sınıflar. Genel numuneyi tarihlere göre parçalara bölerken, bir denge sağlamak da çoğu zaman imkansızdır. Bu nedenle, eğitim örneğini tarihlere göre değil, içindeki sınıfların eşit temsiline göre dengeliyorum.

Eğitim örneğini dengeleme hakkında daha fazla soruya cevap vermeyeceğim. Yani bu holivar çoktan sürüklendi.

 
Yuri Reshetov :

Üzgünüm ama bu holivar'ı sürdürmenin bir anlamı olmadığını zaten söyledim. Daha önce örneklerle denge eksikliğini açıklamaya çalıştım. Muhtemelen çok inandırıcı değil mi? Yüzümde ciddi bir kupa varken siyahı beyaz gibi gösterecek kadar güçlü değilim. O yüzden yargılama.

Büyük olasılıkla nedeni, gerçekliği dengelemek için sizi sözde "zorlamaya" çalıştığıma beni ikna etmeye çalışmanızdır? Ama benim öyle bir niyetim yok. Gerçekliğin ve ne yazık ki, çoğu zaman dengesiz olduğunu ve onu dengeleme olanaklarının her zaman mevcut olmadığını biliyorum. Bu nedenle, eğitim örneğinin dışında gerçeği dengelemeye çalışmanın gerekli olmadığını, ancak eğitim örneğini dengelemek için gerekli ve yeterli olduğunu yazılarımda size açıklamaya çalıştım, böylece ondan elde edilen modelin eğri olmaması için. son derece temsili sınıflar. Genel numuneyi tarihlere göre parçalara bölerken, bir denge sağlamak da çoğu zaman imkansızdır. Bu nedenle, eğitim örneğini tarihlere göre değil, içindeki sınıfların eşit temsiline göre dengeliyorum.

Eğitim örneğini dengeleme hakkında daha fazla soruya cevap vermeyeceğim. Yani bu holivar çoktan sürdü.

TAMAM . seni ikna etmeyeceğim.
 

Bütünlük adına müdahalede bulunmak ve şube ile ilgili yukarıda belirttiğim görüşlerimi tekrarlamak istiyorum.

1. İki veri setine sahip olmak gereklidir: ikincisi, ilkinin zaman içinde devamıdır.

2. İlk veri setini dengeliyoruz. Dengeye ihtiyacımız var.

3. İlk veri seti rastgele üç bölüme ayrılmıştır: eğitim, test ve doğrulama.

  • eğitim veri setinde çapraz doğrulama kullanarak modeli öğreniriz
  • eğitilen model, test ve doğrulama setlerinde çalıştırılır.
  • hata üç sette de yaklaşık olarak eşitse, 4. adıma gidin. Aksi takdirde, daha iyi tahminciler aramaya başlarız. çünkü hatadaki önemli bir fark, yordayıcılar arasında gürültünün (hedef değişkenle zayıf bir ilişkisi olan) yordayıcılarının varlığından kaynaklanan modelin fazla uyumunu kanıtlamaktadır.

4. İlk setin süre olarak devamı olan ikinci sette hata alıyoruz.

Tüm DÖRT kümelerdeki hata yaklaşık olarak aynıysa, model fazla takılmamıştır. Hatanın iyi bir değeri varsa, güvenle daha ileri gidebilirsiniz, yani. test cihazından geçirin.

Önemli bir fark varsa (%30'dan fazla), orijinal tahmin ediciler seti modelin yeniden eğitilmesine yol açar ve kişisel deneyime göre model türünü değiştirmek, yeniden eğitim anlamında hiçbir şeyi düzeltemez. Gürültü tahmincilerinden kurtulmamız gerekiyor. Öngörücüler arasında HİÇBİR GÜRÜLTÜ öngörücünün olmadığı kolayca ortaya çıkabilir.

 
Konuşmanızı destekleyeceğim beyler, Yuri'nin optimize edicisini bir yıldan fazla süredir kullandığım için ve PRNG jeneratörü kullanarak örnekleme konusunda onunla kesinlikle aynı fikirdeyim. Gerçek şu ki, görev, çıktı bilgileriyle ilgili girdi verilerindeki bilgileri tanımlamaktır. Yani, optimize edici, girdi verilerinin çıktımız için ne kadar bilgilendirici olduğunu söyler (ki bu idealdir). Yani, optimize edici bu soruyu cevaplar. Ve veriler zayıf bir sonuç gösteriyorsa, çıktı hakkında bilgi taşımadıkları veya daha doğrusu tahmin edicinin verdiği genelleme düzeyine taşıdıkları anlamına gelir. Şimdi böyle bir durum hayal edin, 10 girdimiz olduğunu varsayalım. Soru şu ki, numuneyi sıfıra indirmek için kaç kayda (saman) ihtiyacınız var???? Sana bir ipucu vereceğim. 10 girişli 100 giriş, sıfıra optimize edilmelidir. Çünkü 100 giriş ile verilerin tam bir sayımı yapılacaktır. Belki kendimi net ifade edemedim, özür dilerim. Yuri elbette bundan bahsetmiyor, ancak reklamı yapılmayan bir tahminci kullanmanın bir nüansı var, FAKAT herhangi bir verinin genelleme yeteneğini artıran. Yani 10 giriş ile tamamen veri sistemi ile ilgili olmasa bile 100 satır gönderme. Algoritma, genelleme yeteneğinin yüksek olacağı bir model oluşturacaktır. %90 ve üzerinde. Bu modelin gelecekte yeterince çalışacağı bir gerçek değil çünkü veriler tavandan alınıyor ve sistemle hiçbir şekilde alakalı değil. Ancak Predictor, çok boyutlu bir alanı minimum hatayla kesebilir. Ancak bunun için zor olmayan bir veri işleme gerçekleştirmeniz gerekir. Ve bu yüzden Yuri'ye tamamen katılıyorum. Bu durumda girdilerin çıktıya ve verilerin sırasına göre bilgilendiriciliğini belirleme görevi herhangi bir rol oynamaz. Bu durumda GSHR bir seçenektir ....
Neden: