Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1373

 
elibrarius :
Darch'ı R'de gördüm. Yorumlarda açıklanan birkaç hata bulundu. Birkaç haftalık sessizlikten sonra bu Darch, CRAN arşivine girdi.
Geliştiriciden düzeltmesini ve bir şeyi düzeltmesini istedim, yaptı. Ardından, tüm düzeltmeleri silerek genellikle ilk sürüme geri döndü. Sonuç olarak, kullandığım tüm değişiklikler kullanılamaz hale geldi.
Sonuç - ya her şeyi kendiniz yapın ya da och ile üst düzey ürünler kullanın. iyi destek.

1. Tüm değişiklikleri evde yapmanız ve yapmanız gerekir. Kabul edilebilirler veya edilmeyebilirler, ancak sürümünüzü GitHub'ınızdan kullanabileceksiniz.

2. Tabii ki, bu en güvenilir seçenektir.

 
Maksim Dmitrievski :

Kompleks için çabalayan, ancak basitin ne kadar güzel olabileceğini anlamayanlar için

ve ingilizce. tabii ki istendiği gibi. Hayır, kendim tercüme etmeyeceğim. Videoda makaleleri çevirebileceğiniz siteye bir bağlantı var.


Bu çok ilginç rapor sadece basit ve karmaşık hakkında değil. Karmaşık ön işlemeyi kullanarak problemin çözümünü basit modellere indirgemenin mümkün olduğu vurgulanır. Makalelerimde tekrar etmekten asla bıkmadığım basit bir gerçeğin teyidi: "Ana çabalar, tahmin edicilerin ön işlemesine yönlendirilmelidir, modeller ikincildir.

Spiker komik.

İyi şanlar

 
Vladimir Perervenko :

Bu çok ilginç rapor sadece basit ve karmaşık hakkında değil. Karmaşık ön işlemeyi kullanarak problemin çözümünü basit modellere indirgemenin mümkün olduğu vurgulanır. Makalelerimde tekrar etmekten asla bıkmadığım basit bir gerçeğin teyidi: "Ana çabalar, tahmin edicilerin ön işlemesine yönlendirilmelidir, modeller ikincildir.

Spiker komik.

İyi şanlar

XGBOOST , satır ağırlıkları olan bir girdi dizisi ağırlıklarına sahiptir. Diğer bazı paketlerde de bu var.
Orada, eski satırlar için satırların ağırlığını 1'den (taze için) 0,5'e kadar yazabileceğinizi düşündüm. Bu, yeni verilerin etkisini artıracaktır.
Denedim - fazla bir gelişme fark etmedim.

Başka biri denedi mi - herhangi bir gelişme var mı?

 
elibrarius :
XGBOOST, satır ağırlıkları olan bir girdi dizisi ağırlıklarına sahiptir. Diğer bazı paketlerde de bu var.
Orada, eski satırlar için satırların ağırlığını 1'den (taze için) 0,5'e kadar yazabileceğinizi düşündüm. Bu, yeni verilerin etkisini artıracaktır.
Denedim - fazla bir gelişme fark etmedim.

Başka biri denedi mi - herhangi bir gelişme var mı?

Biraz yanlış. Örneğin, tren[2000, ] ve test[500, ] var. İlk örnek ağırlıkları = 1.0 olan trende eğitin, testin[] eğitilmiş bir modeli tahmin etmesini sağlayın. Her test örneğinin tahmin edicisinin kalitesine bağlı olarak, bunun için bir ağırlık belirlersiniz. Ardından, tren ve testi birleştirir ve yeni bir eğitim seti oluşturur, modeli eğitir, test eder, vb. tüm öğrenme numunesi bu şekilde elde edilen ağırlıklara sahip olana kadar. Daha eski çubuklar için onlara bir indirgeme faktörü uygulamak mümkündür, ancak bunu test etmedim. Bütün bunlar elbette sınıflandırma için.

now_train <- rbind(train,test)%>% tail(dim(train)[ 1 ])

ELM ile test edildi, iyi sonuçlar verdi.

İyi şanlar

 
Vladimir Perervenko :

Biraz yanlış. Örneğin, tren[2000, ] ve test[500, ] var. İlk örnek ağırlıkları = 1.0 ile nrain üzerinde eğitin, test[] yapın, eğitilmiş bir model tahmin edin. Her test örneğinin tahmin edicisinin kalitesine bağlı olarak, bunun için bir ağırlık belirlersiniz. Ardından, tren ve testi birleştirir ve yeni bir eğitim seti oluşturur, modeli eğitir, test eder vb. tüm öğrenme numunesi bu şekilde elde edilen ağırlıklara sahip olana kadar. Daha eski çubuklar için onlara bir indirgeme faktörü uygulamak mümkündür, ancak bunu test etmedim. Bütün bunlar elbette sınıflandırma için.

ELM ile test edildi, iyi sonuçlar verdi.

İyi şanlar

Çapraz doğrulamada olduğu gibi - verileri 5-10 parçaya bölün ve her döngüdeki satırların bir bölümünün ağırlıklarını, tümü indirilene kadar azaltın. Dengelemek için 2-3 tam daire yapmanız gerektiğini düşünüyorum.

Bana en iyi satır ağırlıklarını ayarlamak için kendi kendine çalışmadaki gibi birkaç yinelemeyi hatırlatıyor.
 
elibrarius :
Çapraz doğrulamada olduğu gibi - verileri 5-10 parçaya bölün ve her döngüdeki satırların bir bölümünün ağırlıklarını, tümü indirilene kadar azaltın. Dengelemek için 2-3 tam daire yapmanız gerektiğini düşünüyorum.

Bana en iyi satır ağırlıklarını ayarlamak için kendi kendine çalışmadaki gibi birkaç yinelemeyi hatırlatıyor.

Çapraz mod ile kontrol edilebilir.

 
elibrarius :
XGBOOST, satır ağırlıkları olan bir girdi dizisi ağırlıklarına sahiptir. Diğer bazı paketlerde de bu var.
Orada, eski satırlar için satırların ağırlığını 1'den (taze için) 0,5'e kadar yazabileceğinizi düşündüm. Bu, yeni verilerin etkisini artıracaktır.
Denedim - fazla bir gelişme fark etmedim.

Başka biri denedi mi - herhangi bir gelişme var mı?

Eh, o zaman sadece yenilerinin altında öğren. Bu ağırlıklar, modelin varyansını veri setinde eşitlemek için kullanılır; değişken varyanslı logit regresyonda da kullanılır (ne hakkında olduğunu karıştırmazsam)

veri kümesine uyma dışında kavramsal olarak önemli iyileştirmeler vermemelidir.

küçük bir alt örnek üzerinde bir popülasyon için geçerli bir genellemeye ihtiyacınız varsa, bunlar Bayes yaklaşımlarıdır.
 
elibrarius :
XGBOOST, satır ağırlıkları olan bir girdi dizisi ağırlıklarına sahiptir. Diğer bazı paketlerde de bu var.
Orada, eski satırlar için satırların ağırlığını 1'den (taze için) 0,5'e kadar yazabileceğinizi düşündüm. Bu, yeni verilerin etkisini artıracaktır.
Denedim - fazla bir gelişme fark etmedim.

Başka biri denedi mi - herhangi bir gelişme var mı?

Teorik olarak, bu ağırlıklar ilk ağacın yapısını etkileyecektir, yani. hemen hemen aynı tohum ve torbalama, farklı yöntemler. Teorik olarak, iyi ayrılmış tahminciler doğru sınıflandırmayı verdikleri satırlarda arka plana taşınırsa sonuç büyük ölçüde değişebilir.

Ve tahmin edicinin uygulamasını yalnızca X bölünmesinden başlayarak ayarlamanın bir yolu yok mu? Bence bu iyi bir model bulmak için çok faydalı bir şey.
 
Maksim Dmitrievski :

Eh, o zaman sadece yenilerinin altında öğren. Bu ağırlıklar , modelin varyansını veri setinde eşitlemek için kullanılır ; değişken varyanslı logit regresyonda da kullanılır (ne hakkında olduğunu karıştırmazsam)

veri kümesine uyma dışında kavramsal olarak önemli iyileştirmeler vermemelidir.

küçük bir alt örnek üzerinde bir popülasyon için geçerli bir genellemeye ihtiyacınız varsa, bunlar Bayes yaklaşımlarıdır.

Onlar. hizalama, Vladimir'in önerdiği yöntemle mi seçilir?

 
Alexey Vyazmikin :

Teorik olarak, bu ağırlıklar ilk ağacın yapısını etkileyecektir, yani. hemen hemen aynı tohum ve torbalama, farklı yöntemler. Teorik olarak, iyi ayrılmış tahminciler doğru sınıflandırmayı verdikleri satırlarda arka plana taşınırsa sonuç büyük ölçüde değişebilir.

Ve tahmin edicinin uygulamasını yalnızca X bölünmesinden başlayarak ayarlamanın bir yolu yok mu? Bence bu iyi bir model bulmak için çok faydalı bir şey.

Bu ağırlıklar sadece artırmada değil, durumda da. Ormanlar da Millet Meclisine verilebilir. Görünüşe göre teknik tüm MO sistemleri için ortaktır.
Eski verilerin etkisini azaltmaya yönelik ilk deney hiçbir gelişme göstermedi.

30.000 satır için eğitim yaparken, test 80.000 satır için eğitimden daha iyi görünüyor 80.000'de daha az işlem var ve hata daha yüksek. Ağırlığı orantılı olarak azaltmaya çalıştım (taze için 1'den eski için 0,5'e) - sonuçlar neredeyse değişmedi.


Görünüşe göre bu, Maxim'in belirttiği gibi, Vladimir tarafından açıklanan yöntemle dağılımı eşitlemek için aynıdır.

Neden: