Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 189

 
San Sanych Fomenko :


Veri madenciliği üzerine hemen hemen herhangi bir kitap alırsanız, ilişkili tahmin edicileri kaldırma prosedürleri mutlaka açıklanmıştır.

Etkileşen öngörücüler mutlaka korelasyon göstermezler... Hedefle etkileşime girerler...

Ve etkileşimin varlığı, formun sonuçlarını verir:

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

Tüm öngörücüler önemlidir (ve etkileşimleri). F-istatistikleri harika...

 
Alexey Burnakov :

Etkileşen öngörücüler mutlaka korelasyon göstermezler... Hedefle etkileşime girerler...

Ve etkileşimin varlığı, formun sonuçlarını verir:

> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))


Call:

lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16, 

    data = train_sample_list[[1]])


Residuals:

      Min        1Q    Median        3Q       Max 

-0.035970 -0.000824  0.000001  0.000847  0.027278 


Coefficients:

                                          Estimate Std. Error t value Pr(>|t|)    

(Intercept)                              3.883e-05  3.146e-05   1.234  0.21714    

price_diff_lag_11                        4.828e-02  9.092e-03   5.310 1.12e-07 ***

price_diff_min_lag_16                   -3.055e-02  1.141e-02  -2.678  0.00743 ** 

price_diff_lag_11:price_diff_min_lag_16 -3.520e+00  3.515e-01 -10.014  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.0024 on 10465 degrees of freedom

Multiple R-squared:  0.01611, Adjusted R-squared:  0.01583 

F-statistic: 57.11 on 3 and 10465 DF,  p-value: < 2.2e-16

Tüm öngörücüler önemlidir (ve etkileşimleri). F-istatistikleri harika...

Belki de "etkileşim" kelimesinin anlamı hakkında farklı bir fikrim vardı.
 

Sihirbaz_ :

Veri göndermeyeceğim...

Veri yok, yani tartışılacak bir şey yok.

Dinlenme ... bunlar!

 
Sihirbaz_ :
Yur, peki, en azından aptal olma) 9 yaşında sana ağı doğru şekilde yapılandırmadığını kimin söylediğini unuttum, ancak formülü polianalistten çıkarabilirsiniz)))
Hiçbir iddia ve sır yok, bazen küçük düzenlemelerle standart dm araçlarını kullanıyorum. Yalnızca tavsiyelerle ilgileniyorsanız, dinleyin,
ama gerçekler biraz farklı... Bir önceki deney gerçek verilere dayanıyordu. Basit-yapay olarak yapılmıştır. İlk set kesinlikle tanınır
Sağ. Karışık ........ Cevap %100 olmalı, ancak jPrediction 11 o kadar belirsiz "ai" ki onu vermeyi başardım))) Kısacası, hassaslaştırın,

pribluda henüz çalışmıyor. Verileri atmayacağım, sen yapacaksın, kendin bitireceksin ... “reklam” bugünkü gibiyse hala 20 versiyona bakacağım)))


Ve birkaç optimizasyonla her zaman farklı bir sonuç aldığınızı biliyorsunuz. Bu optimizasyon, eğer her zaman net bir cevaba ulaşsaydı, kesinlikle iyi olurdu, ama çok garipti, birkaç kez optimize etmeye çalışın, 10 seferden 8'inin %100'ünüzü alacağınız doğru Yani bunun gibi bir şey. ...
 
San Sanych Fomenko :
Belki de "etkileşim" kelimesinin anlamı hakkında farklı bir fikrim vardı.


Doğrusal modellerde etkileşimlerin yorumlanması için açık kurallar vardır. Doğrusal kombinasyon yorumundan biraz daha karmaşıktırlar: https://www.r-bloggers.com/interpreting-interaction-coective-in-r-part1-lm/

Ancak anlamlı etkileşimler bulmak için birçok kombinasyonu incelemeniz gerekir. İşte pusu.

Interpreting interaction coefficient in R (Part1 lm)
Interpreting interaction coefficient in R (Part1 lm)
  • grumble10
  • www.r-bloggers.com
Interaction are the funny interesting part of ecology, the most fun during data analysis is when you try to understand and to derive explanations from the estimated coefficients of your model. However you do need to know what is behind these estimate, there is a mathematical foundation between them that you need to be aware of before being able...
 
Michael Marchukajtes :
Ve birkaç optimizasyonla her zaman farklı bir sonuç aldığınızı biliyorsunuz. Bu optimizasyon, eğer her zaman net bir cevaba ulaşsaydı, kesinlikle iyi olurdu, ama çok garipti, birkaç kez optimize etmeye çalışın, 10 seferden 8'inin %100'ünüzü alacağınız doğru Yani bunun gibi bir şey. ...

Evet, eğitimden önceki genel örneğin rastgele parçalara ayrıldığının farkında bile değil: bazı desenler eğitim bölümüne, diğerleri test bölümüne düşüyor. Ve böyle bir arıza ile, kalıpları netleştirmek için gerekli bazı kalıpların test bölümünde kalabalık olduğu ve eğitim bölümünde sunulmadığı ortaya çıkabilir. Algoritma sadece eğitim kısmında çalıştığından ve test kısmında ne olduğunu bulmak için telepatik yeteneklere sahip olmadığı için genelleme yeteneği hesaplanırken hatalar oluşacaktır. Onlar. inanılmaz bir şey olmuyor.

Ancak örüntüleri netleştirmesi gereken örüntüler, örneğin farklı bölümlerine eşit olarak dağıtıldığında, öğrenme yeteneği yukarıdaki duruma göre daha yüksektir.

Onlar. her seferinde bir kez gerekli değildir ve er ya da geç herhangi bir kaza istenmeyen bir taraftan kendini gösterebilir.

Genel örneklemin rastgele değil de deterministik olarak parçalara ayrılacağı bir yöntem bulmak oldukça mümkün mü? Ancak şimdiye kadar, deneyimlerin gösterdiği gibi, numuneyi bölerken herhangi bir determinizm, sonraki yeniden eğitime uyma ile doludur.

 
Yuri Reshetov :

Genel örneklemin rastgele değil de deterministik olarak parçalara ayrılacağı bir yöntem bulmak oldukça mümkün mü? Ancak şimdiye kadar, deneyimlerin gösterdiği gibi, numuneyi bölerken herhangi bir determinizm, sonraki yeniden eğitime uyma ile doludur.

Birkaç kez eğitim yapmak ve aynı zamanda her seferinde vaka örneğini bölmek gerekebilir. yol? Ve bu hazır eğitimli model setinden, modelin ne kadar uygun olduğunu seçebilir ve genel olarak değerlendirebilirsiniz.
Bu şekilde, rastgele yerleştirilmiş bir model elde etme olasılığını reddedebilir ve aynı zamanda determinizmin rehineleri haline gelmeyebiliriz.

 
Andrey Dik :
Birkaç kez eğitim yapmak ve aynı zamanda her seferinde vaka örneğini bölmek gerekebilir. yol? Ve bu hazır eğitimli model setinden, modelin ne kadar uygun olduğunu seçebilir ve genel olarak değerlendirebilirsiniz.
Bu şekilde, rastgele yerleştirilmiş bir model elde etme olasılığını reddedebilir ve aynı zamanda determinizmin rehineleri haline gelmeyebiliriz.

Bu, jPrediction'da zaten uygulanmaktadır, yani. farklı CPU çekirdeklerinde, birkaç farklı örnek bölme paralel olarak hesaplanır (iki ikili sınıflandırıcı, bir boş çekirdek başına bir terra sınıflandırıcıdır). İşlemci %100 yüklü. Sorun şu ki, CPU'daki çekirdek sayısı sınırlıdır, bu nedenle düzensiz bir desen dağılımı olasılığı yalnızca azaltılabilir, ancak bunları geçersiz kılmak çok sorunludur. Modelleri kişisel bilgisayarlarda değil de süper bilgisayarlarda eğitmedikçe.

Örneğin, Çinli süper bilgisayar Tianhe-2'deki modelleri hesaplarsak, 3.120.000 çekirdek vardır. Numunenin bölümleri arasında desenlerin eşit olmayan dağılımı olasılığı ihmal edilebilir. Modelleri 4 çekirdekli bir kişisel bilgisayarda hesaplarsanız (ve hatta diğer görevler için birkaç çekirdek ayırırsanız), er ya da geç eşitsizlikle karşılaşmanız şaşırtıcı değildir.

 
Kimsenin bana bunu neden yaptığımı sormadığı numunenin tek tip bölünmesini hatırlatayım, AMA böyle bir çıktı değişkeni yapıyorum, böylece birler ve sıfırlar eşit oluyor. Bunu, sinyallerin karını -10 pip'ten + 50'ye ayarlayarak yapıyorum. Eşit sayıda birler ve sıfırlarla, model genellikle yarıya iner. Ve bir kez daha hatırlatıyorum, nasıl bölüneceği önemli değil, önemli olan bölümün istikrarlı olması.....
 
Yuri Reshetov :

Bu, jPrediction'da zaten uygulanmaktadır, yani. farklı CPU çekirdeklerinde, birkaç farklı örnek bölme paralel olarak hesaplanır (iki ikili sınıflandırıcı, bir boş çekirdek başına bir terra sınıflandırıcıdır). İşlemci %100 yüklü. Sorun şu ki, CPU'daki çekirdek sayısı sınırlıdır, bu nedenle düzensiz bir desen dağılımı olasılığı yalnızca azaltılabilir, ancak bunları geçersiz kılmak çok sorunludur. Modelleri kişisel bilgisayarlarda değil de süper bilgisayarlarda eğitmedikçe.

Örneğin, Çinli süper bilgisayar Tianhe-2'deki modelleri hesaplarsak, 3.120.000 çekirdek vardır. Numunenin bölümleri arasında desenlerin eşit olmayan dağılımı olasılığı ihmal edilebilir. Modelleri 4 çekirdekli bir kişisel bilgisayarda hesaplarsanız (ve hatta diğer görevler için birkaç çekirdek ayırırsanız), er ya da geç eşitsizlikle karşılaşmanız şaşırtıcı değildir.

Yani yapılmasında fayda var. Yani 4 bölme yerine bunun yeterli olmadığı aşikar, 40 bölme yapmanız gerekiyor. 4 çekirdek için hesaplaması 10 kat daha uzun sürecek ama sağlamlık adına zamandan fedakarlık yapılabileceğine inanıyorum.

"Yapılabilirse ve herhangi bir faydası olacaksa, o zaman yapılmalıdır." (c) Papo Carlo Albertovich.

Neden: