Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 551

 

Konuyu destekleyeceğim: Son birkaç gündür optimizasyon sürecini hızlandırmak için girdi değişkenlerinin sayısını azaltmayı da düşündüm. Ve bu günlerde gereksiz girişleri eleme konusunda biraz başarı elde ettiğimi söylemeliyim.

Soru: Gürültü oldukları için eğitim örneğinden hangi girdi değişkenleri çıkarılmalıdır????

Aslında, bu soru çok önemsiz değil, çünkü hangi girdilerin gürültü olduğunu ve hangilerinin olmadığını bilseydik. Bu model oluşturma basit bir mesele olurdu. Ve tüm girdilere sahip olduğumuzda, çıktıyla bir veya başka bir ilişkisi vardır. Sonra ne????? Hangileri kaldırılacak?

Benim için cevap çok basit çıktı .... Yalnızca normal dağılım yasasına sahip olan girdi verilerini bırakmanız gerekiyor. Histogram normal bir dağılım gibi göründüğünde ve orta kısmı aralığın ortasında olduğunda. Öğrenme için yararlı olabilecek bu değişkenlerdir. Çıktı için bir alfa olduğu gibi değişkenlerde olduğunu söylemiyorum. Orada olmayabilir. Ancak aramanın kendisi daha kapsamlı olacaktır ve bu tür değişkenlerde algoritmanın giriş sayısını yakalaması ve artırması daha olasıdır. İşte bir örnek:

Bu giriş iyi olarak kabul edilir. Normal bir dağılıma sahip olduğundan ve histogramın orta kısmı aralığın ortasında olduğundan

Ancak bu veriler, ana histogramların dışındaki aykırı değerlerle çarpık bir dağılıma sahiptir. Bu histogram, verilerin bir tarafa çarpık olduğunu ve bunun bir model oluşturmak için yararlı olma ihtimalinin düşük olduğunu gösterir.

Girdi verilerini seçmenin ilk aşamasında, çıktı için şu veya bu girdinin önemini yargılayamayız. Çünkü aynı zamanda optimize edici için de çalışıyor. İlk aşamada, değişkenin sadece sıfıra göre dağılımını değerlendirebiliriz. Ve bu dağılım normalse (veriler bir tarafta ve diğerinde sıfıra göre eşit olarak dağıtılır), o zaman büyük olasılıkla, verilerin çoğu negatif bölgedeyken, sıfıra göre çarpık verilerin aksine, optimize edicilerin daha fazla seçeneği olacaktır. ya da tam tersi.

Yani böyle....

 

onları hangi model için seçtiğinize bağlı olarak :) bilgilendirici olmayan bir özelliği kaldırdıktan sonra, model doğrulukta fazla bir şey kaybetmiyorsa, bunun için ne gereklidir. Silindi, yeniden eğitildi - yine gereksiz bir şey olup olmadığına bakın.

ve çıktıda durağan olmayan bir sürece sahip bir regresyon modeliniz varsa, o zaman bu yaklaşımla, aksine, her şeyi mahvedeceksiniz, çünkü normal olarak dağıtılmış gürültü üzerinde yeniden eğitilecek

 
Maksim Dmitrievski :

onları hangi model için seçtiğinize bağlı olarak :) bilgilendirici olmayan bir özelliği kaldırdıktan sonra, model doğrulukta fazla bir şey kaybetmiyorsa, bunun için ne gereklidir. Silindi, yeniden eğitildi - yine gereksiz bir şey olup olmadığına bakın.

ve çıktıda durağan olmayan bir sürece sahip bir regresyon modeliniz varsa, o zaman bu yaklaşımla, aksine, her şeyi mahvedeceksiniz, çünkü normal olarak dağıtılan gürültü üzerinde yeniden eğitilecek


Sıfıra göre sınıflandırma. Bu amaçlar için, bu yaklaşım doğru IMHO!

 
Michael Marchukajtes :

Ancak bu veriler, ana histogramların dışındaki aykırı değerlerle çarpık bir dağılıma sahiptir. Bu histogram, verilerin bir tarafa çarpık olduğunu ve bunun bir model oluşturmak için yararlı olma ihtimalinin düşük olduğunu gösterir.

Vladimir'in yazılarında aykırı değerlerin kaldırılması ile ilgili bir paragraf var, 2 numaralı şeklinizdeki aykırı değerleri kaldırırsanız daha normal bir dağılım elde edersiniz.

Ve sonra girdi verilerinin merkezlenmesi var - bu durumu daha da iyileştirecek.

 
elibrarius :

Vladimir'in yazılarında aykırı değerlerin kaldırılması ile ilgili bir paragraf var, 2 numaralı şeklinizdeki aykırı değerleri kaldırırsanız daha normal bir dağılım elde edersiniz.

Ve sonra girdi verilerinin merkezlenmesi var - bu durumu daha da iyileştirecek.


Bu aykırı değer yeni verilere ulaştığında ne yapmalı? Model bunu nasıl yorumluyor?

Veriden bir aykırı değeri çıkarmak, diğer girdiler için bu vektörde önemli veriler olması durumunda, belirli bir aykırı değer için tüm girdi vektörünü çıkarmak anlamına gelir. Girdinin doğası bu tür aykırı değerlere yatkınsa, bu girdiyi hiç almamak daha iyidir. BENİM NACİZANE FİKRİME GÖRE.

 
Michael Marchukajtes :

Sıfıra göre sınıflandırma. Bu amaçlar için, bu yaklaşım doğru IMHO!


evet, çıktılar yaklaşık olarak aynı yasaya göre dağıtılırsa, değilse, aynı yeniden eğitim olacaktır.

 
elibrarius :

Vladimir'in yazılarında aykırı değerlerin kaldırılması ile ilgili bir paragraf var, 2 numaralı şeklinizdeki aykırı değerleri kaldırırsanız daha normal bir dağılım elde edersiniz.

Ve sonra girdi verilerinin merkezlenmesi var - bu durumu daha da iyileştirecek.


aykırı değerlerin kaldırılması, handikap tahminlerini önemli ölçüde kötüleştirebilecek ve tüm sistemi geçersiz kılabilecek istatistiksel bir önlem veya bir koltuk değneğidir (her şeyi durağan hale getirmeye çalışmaktır).

Millet Meclisi'nin genel olarak nerede ve hangi amaçlarla kullanıldığını anlamanız gerekir.. ve sadece kitaplara göre bir şey yapmayın :)

Vladimir, modellerinin sağlamlığına dair tek bir onaya sahip değil .. sadece aynı R'deki modellerin çok kaba testleri

bu yüzden bu hayatta neye inanacağımı biliyorum. .her şeyin yeniden kontrol edilmesi gerekiyor

 
Maksim Dmitrievski :

evet, çıktılar yaklaşık olarak aynı yasaya göre dağıtılırsa, değilse, aynı yeniden eğitim olacaktır.


Çıktıyı her zaman eşit miktarda "0" ve "1" sınıfı için dengelerim. Yani çıktım dengeli ve aynı zamanda sıfıra göre normal dağılıma sahip girdiler alıyorum. Optimize edicinin birkaç kez çalıştırılması gerekir, ancak kural olarak modelde ne kadar çok girdi kullanılırsa performansı o kadar iyi olur. Bu nedenle, test sitesinde maksimum sonuç ile daha parametrik olan modeli seçiyorum. Daha fazla güçlendirici ve diğer losyonlar ...

 
Michael Marchukajtes :

Bu aykırı değer yeni verilere ulaştığında ne yapmalı? Model bunu nasıl yorumluyor?

Veriden bir aykırı değeri çıkarmak, diğer girdiler için bu vektörde önemli veriler olması durumunda, belirli bir aykırı değer için tüm girdi vektörünü çıkarmak anlamına gelir. Girdinin doğası bu tür aykırı değerlere yatkınsa, bu girdiyi hiç almamak daha iyidir. BENİM NACİZANE FİKRİME GÖRE.

Yeni verilerde, eğitim sırasında elde edilen aralığa göre aykırı değerler de kaldırılır. Diyelim ki eğitim sırasında -100'den +100'e çıkardık, hatırladık - ve yeni verilerde aynı seviyelerde çıkardık. Bu mutlak değerlerde yapılmalı ve ardından normalleştirebilirsiniz. Aykırı değerleri kaldırmadan, normalleştirilmiş veri merkezim her zaman değişti ve bir hafta önce kendileriyle karşılaştırılamaz hale geldiler.

Ve emisyonlar sadece haber bültenleri veya olağanüstü olaylar anlarında ortaya çıkar, ancak her seferinde bu emisyonların gücü farklı olacaktır. Kendim için onları atmanın daha iyi olduğuna karar verdim, Vladimir, bunu kendisi bulmadı, görünüşe göre bu birçok insanın çalışmasıyla doğrulandı.

 
Michael Marchukajtes :


Çıktıyı her zaman eşit miktarda "0" ve "1" sınıfı için dengelerim. Yani çıktım dengeli ve aynı zamanda sıfıra göre normal dağılıma sahip girdiler alıyorum. Optimize edicinin birkaç kez çalıştırılması gerekir, ancak kural olarak modelde ne kadar çok girdi kullanılırsa performansı o kadar iyi olur. Bu nedenle, test sitesinde maksimum sonuç ile daha parametrik olan modeli seçiyorum. Daha fazla güçlendirici ve diğer losyonlar ...


yani, artık jPredictor değil mi? :)

Neden: