"Rastgele Ormanlar Öngörü Trendleri" makalesi için tartışma - sayfa 9

 
Reshetov:
Şimdi her şeyi mahvettin. Yüksek yapay zekanız nasıl oldu da önemsiz bir meblağı hemen fark etmedi?
 
gpwr:

faa1947, lütfen aşağıdaki örnek üzerinde modelinizin nasıl çalıştığını gösterin. İlk sütun modellenen seri, 2. ve 3. sütunlar ise tahmin edicilerdir. Bu tahmin edicilerin tahmin gücü nedir?

-0.35742 0.461646 -0.81907
0.431277 0.004545 0.426731
-0.00018 -0.4037 0.403528
-0.08575 0.90851 -0.99426
0.773826 0.008975 0.764852
0.426905 -0.96485 1.391757
0.253233 0.487955 -0.23472
0.20994 0.880554 -0.67061
-0.09929 0.160276 -0.25956
0.332911 -0.08736 0.420268
0.032258 0.360106 -0.32785
0.253027 -0.06859 0.321621
-0.66668 -0.54985 -0.11683
-0.5476 -0.13231 -0.41529
-0.75652 0.536488 -1.29301
-0.66109 -0.87314 0.212052
-0.09993 -0.86293 0.763
0.014625 0.715032 -0.70041
-0.48345 -0.62666 0.143206
-0.03596 0.935653 -0.97161
-0.17023 0.678024 -0.84826
0.293376 0.079529 0.213847
0.002922 0.754594 -0.75167
0.329194 -0.05535 0.384546
0.639423 -0.41358 1.053007
0.431631 -0.60334 1.034973
0.59125 0.497989 0.093262
0.266098 -0.79645 1.062549
-0.02624 0.643164 -0.6694
0.055014 -0.46214 0.517154
0.436132 -0.89992 1.336052
-0.30143 0.628619 -0.93005
-0.12168 0.886467 -1.00814
-0.10851 -0.0507 -0.0578
-0.74573 -0.50921 -0.23653
-0.574 0.244825 -0.81883
-0.87313 0.336188 -1.20932
-0.00344 0.117363 -0.1208
-0.20265 0.424326 -0.62697
0.177873 -0.17967 0.357541

Ben genelci bir matematikçi değilim. Çok somut bir şekilde akıl yürütmeye çalışıyorum ve ticaret gerekçesiyle 10000 satırlık bir örnek almak zor değil. Bahsettiğim her şey bu tür örneklere uygulanabilir olsa da, 40 satırdan nasıl sonuç çıkaracağımı bilmiyorum ve öğrenmeye gerek görmüyorum. Tıp için 40 satır normaldir.

1. Genel olarak, "tahmin yeteneğinin" ortaya çıktığı modelin aşırı eğitimi hakkında yazıyorum.

2. Ben nominal değerlerin tahmini ile ilgileniyorum - "uzun-kısa". Bunlar sınıflandırma modelleridir. Örneğiniz, regresyon modelleri yapmıyorum.

Devam etmeye hazırım.

Üzerinde bir ZZ çalıştırabileceğim ve birden fazla kopuşa sahip olabileceğim bir teklife ihtiyacım var. Oradan oldukça büyük bir dosyaya ihtiyacım var.

Kotirin kendisine ek olarak, birkaç tahminci, hatta bir tane. Şu soruyu cevaplayacağım: Bu tahmincinin uzun-kısa tahmin gücü var mı?

Ve tabii ki bir dosyaya ihtiyaç var - yoksa her şeyi elle yazmayı mı önerirsiniz?

 

TheXpert:

Reshetov:

Örneğinizin "yüksek genellenebilirliğinin" sırrı ortaya çıktı: ilk sütunun değeri, diğer iki sütunun değerlerinin toplamıdır.


Şimdi her şeyi mahvettiniz) . Peki nasıl oldu da yüksek yapay zekanız önemsiz bir toplamı hemen fark etmedi?

Ve toplamları tanımak için tasarlanmamıştır, çünkü ikili sınıflandırma için modeller oluşturur ve görev çoklu regresyon bölümündendir.

Model ikili sınıflandırma için olsa da, yine de ifade:

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

y ~ v0 + v1 şeklinde basitleştirilir.

Ve sonra geriye kalan tek şey hipotezi bir elektronik tabloda test etmektir.

 

İyi günler, SanSanych.

Yetersiz antrenman, aşırı antrenman konusunda taslak kitaba buradan http://www.iro.umontreal.ca/~bengioy/dlbook/ bakabilirsiniz.

Bölüm 5.3.3 her şeyi çok iyi açıklıyor. Genel olarak, özellikle coryphets tarafından yazılmış tüm kitap çok yararlıdır.

İyi şanslar

 
vlad1949:

İyi günler, SanSanych.

Yetersiz antrenman, aşırı antrenman konusunda taslak kitaba buradan http://www.iro.umontreal.ca/~bengioy/dlbook/ bakabilirsiniz.

Bölüm 5.3.3 her şeyi çok iyi açıklıyor. Genel olarak, özellikle coryphets tarafından yazılmış tüm kitap çok yararlıdır.

İyi şanslar

İyi günler!

Bağlantı için teşekkürler.

Konuyla ilgili eksiksiz bir araç setine ve bir dizi literatüre sahibim. Ancak pratik uygulamayı kolaylaştırmıyor.

Dilerseniz, tüm bu araç setini otomatikliğe bir araya getirme umuduyla paylaşabilirim.

 
faa1947:

İyi günler!

Bağlantı için teşekkürler.

Bu konuda eksiksiz bir araç setine ve bir dizi literatüre sahibim. Ancak pratik uygulamayı daha kolay hale getirmiyor.

Dilerseniz tüm bu araç setini otomatizme bir araya getirme umuduyla paylaşabilirim.

Ben bu sorunu programatik olarak çözüyorum. Sonuçlar iyi.

İyi şanslar

 
faa1947:

Ben evrensel bir matematik uzmanı değilim. Çok somut bir şekilde akıl yürütmeye çalışıyorum ve ticaret temelinde 10000 satırlık bir örnek almak zor değil. Bahsettiğim her şey bu tür örnekler için geçerli olsa da, 40 satırdan nasıl sonuç çıkaracağımı bilmiyorum ve öğrenmeye gerek görmüyorum. Tıp için 40 satır normaldir.

1. Genel olarak, "tahmin yeteneğinin" ortaya çıktığı modelin aşırı eğitimi hakkında yazıyorum.

2. Ben nominal değerlerin tahmini ile ilgileniyorum - "uzun-kısa". Bunlar sınıflandırma modelleridir. Örneğiniz, regresyon modelleri yapmıyorum.

Devam etmeye hazırım.

Üzerinde bir ZZ çalıştırabileceğim ve birden fazla kopuşa sahip olabileceğim bir teklife ihtiyacım var. Oradan oldukça büyük bir dosyaya ihtiyacım var.

Kotirin kendisine ek olarak, birkaç tahminci, hatta bir tane. Şu soruyu cevaplayacağım: Bu tahmincinin uzun-kısa tahmin gücü var mı?

Ve tabii ki bir dosyaya ihtiyaç var - yoksa her şeyi elle yazmayı mı önerirsiniz?

Anlıyorum. Eğitim örneğindeki ve dışındaki davranışını karşılaştırarak modelin aşırı eğitilip eğitilmediğini kontrol etmek oldukça kolaydır. Ancak modelin aşırı eğitilmemesini nasıl sağlayacağımız, hangi tahminci girdilerinin modellenen seriyle ilgili olduğunu ve hangilerinin olmadığını belirleme yeteneğimize bağlıdır ve bu da aşırı eğitimi belirlemekten çok daha zordur. Bir modelin genelleme yeteneği, aşırı uyumuna bağlıdır. Verdiğim örnek çok basittir. Modellenen y serisi gürültülü bir sinüs dalgasıdır. İlk tahminci x1 rastgele sayılardır. İkinci tahminci x2 ise x2 = y-x1 farkıdır. Başka bir deyişle, model y = x1+x2 tahmin edicilerinin toplamı ile doğru bir şekilde tanımlanır. Yönteminizi bu basit örneğe uygulamayı reddetmeniz, yönteminizin verilerin uygunluğunu belirleme yeteneğine sahip olmadığı şüphesini uyandırmaktadır ve bu uygunluğu belirlemek, tam olarak aşırı eğitimi tanımlamanın ve ortadan kaldırmanın ana hedefidir. Gerçek modelleme problemleri benim örneğimden çok daha karmaşıktır - hem ilgili verileri hem de çok daha alakasız verileri içerirler. Birini diğerinden ayırmak inanılmaz derecede zordur. Tüm girdilere sahip bir sinir ağı, ilgili ve ilgisiz girdilerle bağlantıları olacak şekilde eğitilecek ve böylece yeniden eğitilecektir. Görünüşe göre verilerin uygunluğunu nasıl belirleyeceğinizi bilmediğiniz için makaleleriniz ve kitaplarınızla ilgilenmiyorum. İyi şanslar!
 
gpwr:

Eğitim örneğindeki ve dışındaki davranışını karşılaştırarak modelin aşırı eğitilip eğitilmediğini kontrol etmek oldukça kolaydır.

Bu büyük bir yanılsamadır ve anladığım kadarıyla henüz sizin tarafınızdan ödenmemiştir. Makalede verilen model, eğitim dışındaki üç örnek üzerinde eşit derecede iyi sonuçlara sahiptir - ancak bu model aşırı eğitilmiştir.

Modelin aşırı eğitilmemesini nasıl sağlayacağımız ise, hangi tahmin edici girdilerin modellenen seriyle ilgili olduğunu ve hangilerinin olmadığını belirleme becerimize bağlıdır ki bu, aşırı eğitimi belirlemekten çok daha zordur.

Öncelikle, makaleyi dikkatlice okuyun - Tablo 3, hedef değişkeni tahmin etmede tahmin edicilerin önemini vermektedir

Ve sonra matrisi öğrenin, örneğin, varSerf, Boruta, FSelector tahmincilerini seçmek için özel paketleri inceleyin. Ve CORElearn paketi, hedef değişken için önemli olan tahmin edicileri seçmek için 35 (!) farklı algoritmaya sahiptir.

Hedef değişken için önemli olan tahmin edicileri seçme konusundaki deneyimlerime göre

1. Oldukça büyük bir öngörücü kümesi oluşturuyoruz, örneğin, çubuk sayısı 15000 olan 50 adet.

2. Yukarıda bahsedilen algoritmalardan birinin yardımıyla bu 15 bin çubuk üzerinde tahmin ediciler seçiyoruz - genellikle model oluşturmada vakaların %20'sinden daha sık kullanılan 15 ila 20 parça elde ediyoruz.

3. Daha sonra daha küçük bir pencere alırız, örneğin 2000 çubuk ve her seferinde bir çubuk hareket ettirmeye başlarız, önceden seçilen 20'den 50'ye kadar önemli tahmin ediciler seçeriz.

4. Önemli öngörücülerin belirli listesi her zaman değişir.

Görünüşe göre verilerin alaka düzeyini nasıl belirleyeceğinizi bilmediğiniz için makaleleriniz ve kitaplarınızla ilgilenmiyorum.

Elinizdeki bu paketleri kullanmanın verimliliği, neden gerekli olduğunu ve nasıl anlaşılacağını açıklayan kitabıma ve gerçek veriler üzerinde gerçek örneklere küçük bir miktar para harcarsanız büyük ölçüde artacaktır.

Ve eğer siz ve ben birlikte tahmin edicileriniz üzerinde eğitimsiz bir model oluşturmaya çalışırsak etkisi daha da büyük olacaktır. Başarı garanti değil ama benimle iletişim kurduktan sonra böyle yüzeysel yazılar yazmayacağınız garanti. Üstelik gerçek hesaplarda çok daha dikkatli olacaksınız.

 
faa1947:

1. Oldukça büyük bir tahminci seti oluşturuyoruz, örneğin, çubuk sayısı 15000 olan 50 adet.

Şimdi neden ticaret değil de kitabınızı satarak para kazandığınız anlaşılıyor.

 
faa1947:

Bunlar büyük yanılsamalar ve anladığım kadarıyla henüz sizin tarafınızdan ödenmemiş. Makalede verilen model, eğitim dışında üç örnek üzerinde eşit derecede iyi sonuçlara sahiptir - ancak bu model aşırı eğitilmiştir.

Aşırı antrenman köklü ve oldukça spesifik bir terimdir. Siz sadece bunu değiştirmiyorsunuz, aynı zamanda kendi anlayışınıza göre ne olduğunu da açıklamıyorsunuz.

Konuşma tarzınız Sulton'u çok andırıyor.