Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 9

 
Dr.Tüccar :

Bir önceki gönderiye biraz eklendi. Hayır, delta yok. Denemek zorunda kalacak.

Genel olarak, verilerinize bir bağımlılık aramaya çalıştım. Evet'ten daha büyük olasılıkla hayır. Öyle oldu ki, trenden rastgele alınan gözlemlerin yarısında bir şey buldum. Diğer yarısını kontrol etmeye başladım ama böyle bir bağımlılık yok. Ya hiç var olmadığı ya da verilerin, onlara iyi bağımlılıklar bulmak imkansız olacak şekilde yapılandırıldığı ortaya çıktı.

Ancak, tekrar deneyeyim. Ve geri yazacağım.

Alexey

 

Bu verilerde bir şeylerin eksik olduğundan şüpheleniyorum. İlk gönderideki görevinizde olduğu gibi - bu 6 girdiden en az birini örnekten kaldırırsanız, sonuç tahmin edilemez hale gelir. Forex açıkça kendi geçmiş fiyatına, günün saatine vb. Ve bu "vb" verilerimde yeterli değil ve bu nedenle modeller herhangi bir kalıp bulamıyor ve mantığı tanımlayamıyor. Görünüşe göre orman, "yüksekten düşükten çıkar" gibi farklı kombinasyonları deneyemiyor ve optimizasyon sırasında bunların en iyisini alabiliyor ve bu tür şeyleri seçime kendiniz eklemeniz gerekiyor. Şimdi, tavsiyeye göre, forex verilerini csv'de kaydeden, oraya çok sayıda delta ve ayrıca önceki zikzak tepelerine mesafeler ekleyen betiğimi elden geçiriyorum. Sonra deneyler için veriler içeren yeni bir dosya göndereceğim.

 
San Sanych Fomenko :

Ekte, ilk öngörücü kümesini gürültüden temizleme sorununu çözdüğü ve çok daha yüksek kalitede bir dizi makale ekliyorum. Maalesef şu anda denemek için zamanım yok. Belki biri deneyip sonucu yazar?

Tarif edilen işlemi tekrarlayabildim. Sonuçlara göre - tahmincilerimin seti, sonucu% 0.1 kesinlik ile açıklıyor veya bunun gibi bir şey ... Bilgimin ötesinde çok fazla teori var, her şeyi anlamadım.

3 dosya ekledim. Orada basitçe csv dosyasının yolunu değiştirebilir ve çalıştırabilirsiniz. Gerekli sonuç csv'deki son sütunda olmalıdır, diğer her şey bir tahmin edicidir. Hiçbir şeyi önceden normalleştirmeyin, verileri olduğu gibi gönderin.

1) Temel Bileşenler Regresyon 01. Makalenin giriş kısmından bazı kodlar, bence kodu çalıştırırken hatalar olduğu için içinde bir şeyler eksik. Her girdiye bir değerlendirme vermeli ve bir grafik çizmeli, burada ne yazık ki neyin ne olduğunu ve nasıl uygulanacağını anlamıyorum.

2) Temel Bileşenler Regresyonu 03. Temel Bileşenler Regresyonu, Pt. 2: Y-Aware Yöntemleri. İlk bölümü atladım çünkü makale ilk bölümün farklı, daha zayıf bir algoritma olduğunu söylüyor.
Kod birkaç parçaya bölünmüş, her bölümden sonra R'de çizilen grafiğe bakabilmek için tek tek çalıştırmanız gerekiyor.

İlk başlatma - dosyadan ikinci adımın başlangıcına kadar her şeyi kopyalayıp çalıştırmanız gerekir (ikinci adımın başlangıcı kalın harflerle vurgulanmıştır ADIM 2). R konsolunda, girişin değeri ne kadar düşükse o kadar iyi olduğu bir tablo görünecektir. Değer = 1 = çöp. Artı, çizelge ne kadar uzunsa çizgi o kadar kötü, tabloya benzer.

Ardından, kodu ikinci adımdan çalıştırmanız gerekir. Sonunda, satır girdiyi ne kadar uzun gösterirse, o kadar güvenilir olduğu bir grafik olacaktır (1. adımda durum tam tersiydi). Kodda ayrıca 1. adımdaki tablodaki psig değerine göre girdilerin taranmasından sorumlu olan bir examplePruneSig değişkeni vardır. Tüm girdilerin dönüştürülmüş güven değerine bakmak istiyorsanız değişkeni =1 olarak ayarlayabilirsiniz. . İlk adımda girdi kötü değerlendirilmiş olabilir, ancak ikinci adımda daha iyi hale geldi. Bazı eşik değerleri veya examplePruneSig = 1/number_of_inputs alınması önerilir, ancak kesin talimatlar yoktur.

üçüncü adım, Temel Bileşen Analizinin (prcomp) kendisidir. Bu benim için yine yeni bir şey, ama sonuç olarak, bu işlevin çok sayıda "temel bileşen" (PC) (istenen sonucun bağlı olduğu dahili değişkenler gibi) çıktısını almaya çalışmasıdır. Bu dahili değişkenlerin her biri farklı bir girdi kümesine dayanır. Ayrıca, görev, sonucu güvenilir bir şekilde belirleyebilecek bu tür minimum PC setini toplamaya indirgenmiştir. Ve tahmin edicilerin etkin seçimi, bu minimum kümeye giren bilgisayarların tahmin edicileridir.
Makalenin kendisinde bu sorun çözülmüyor, sadece ilk 2 bilgisayarı alıp işe yarayıp yaramadığına bakıyorlar. Ama bir şeyi anlayamadım ya da kaçırdım, prcomp'u anlıyorsan kendin okuman daha iyi.
Bunun yerine, adımın sonunda, ilk 5 PC'nin ve kullandıkları girişlerin bir diyagramı çizilecektir. Grafikteki çizgi ne kadar uzun olursa, giriş o kadar önemli olur.

dördüncü, beşinci, altıncı adımlar - eğitim ve test verileri üzerindeki sonucun değerlendirilmesi.


3) Temel Bileşenler Gerilemesi 04. Başka bir paketten, Temel Bileşenler Gerilemesi 03'tekiyle aynı her şeyi yapan bazı işlevler. Ancak, bonus, PC'nin kendisini filtrelemesi ve sonucu doğrulukla tanımlayabilecek minimum bir dizi bırakmasıdır. %95.
Ancak burada yeterli örnek ve grafik yok, sanırım Temel Bileşenler Regresyon 03'ten bir şey kullanmanız gerekiyor.


tl; dr:

1) Gürültülü değerlerin taranması. "Principal Components Regression 03" dosyasını alıyoruz, sadece ikinci adıma kadar olan kodu çalıştırıyoruz (ikinci dahil değil). R'de bir tablo olacak, sadece eşikten daha az psig değerine sahip girdiler almanız gerekiyor. "1" değeri gürültü ve rastgeledir. "0" iyidir. Eşik (1/giriş sayısı) belirsiz bir şekilde önerilir. Bu yöntem, girdilerin doğru örneklenmesi için herhangi bir garanti vermez, bunun yerine gerçekten rastgele ve gürültülü değerleri kaldırmanıza izin verir.

2) Daha karmaşık bir yaklaşım. Kurnaz algoritma, sonucu hesaplamak için kullanılabilecek bazı Temel Bileşenler oluşturur. PC, simüle edilmiş modelde meydana gelen bazı dahili süreçleri tanımlayan bir fonksiyon gibi bir şeydir. Ve modelin kendisinin sonucu, bir dizi PC etkileşimidir. Ardından, sonucu yüksek doğrulukla tanımlayan minimum PC setini alıyoruz, bu PC'ler için kullanılan girdilere bakıyoruz. Bu girdiler, çöp olmadan ihtiyacımız olan kümelerdir. "Principal Components Regresyon 04" dosyası, bu tür minimum PC setini almanıza izin verir, ancak bununla ne yapılacağı bir şekilde belirsizdir, yine de kullanılan tahmin edicileri çıkarmanız gerekir.

İşte yine makalenin kendisi ve bunun kodu.

http://www.r-bloggers.com/principal-components-regression-pt-2-y-aware-methods/

https://github.com/WinVector/Examples/blob/master/PCR/YAwarePCA.Rmd


Principal Components Regression, Pt. 2: Y-Aware Methods | R-bloggers
Principal Components Regression, Pt. 2: Y-Aware Methods | R-bloggers
  • Nina Zumel
  • www.r-bloggers.com
In our previous note, we discussed some problems that can arise when using standard principal components analysis (specifically, principal components regression) to model the relationship between independent (x) and dependent (y) variables. In this note, we present some dimensionality reduction techniques that alleviate some of those problems...
 
Dr.Tüccar :

Bu verilerde bir şeylerin eksik olduğundan şüpheleniyorum. İlk gönderideki görevinizde olduğu gibi - bu 6 girdiden en az birini örnekten kaldırırsanız, sonuç tahmin edilemez hale gelir. Forex açıkça kendi geçmiş fiyatına, günün saatine vb. Ve bu "vb" verilerimde yeterli değil ve bu nedenle modeller herhangi bir kalıp bulamıyor ve mantığı tanımlayamıyor. Görünüşe göre orman, "yüksekten düşükten çıkar" gibi farklı kombinasyonları deneyemiyor ve optimizasyon sırasında bunların en iyisini alabiliyor ve bu tür şeyleri seçime kendiniz eklemeniz gerekiyor. Şimdi, tavsiyeye göre, forex verilerini csv'de kaydeden, oraya çok sayıda delta ve ayrıca önceki zikzak tepelerine mesafeler ekleyen betiğimi elden geçiriyorum. Sonra deneyler için veriler içeren yeni bir dosya göndereceğim.

Tekrar aramaya çalıştım. Ve bir doğrulama kontrolü yaptı. Ancak bulunan bağımlılık doğrulanmadı. Genel olarak verilerde yeterli bilgi olmadığını düşünüyorum. Giriş listesini genişletmeye çalışın, evet.

Ve işte forex verilerim: https://drive.google.com/drive/folders/0B_Au3ANgcG7CYnhVNWxvbmFjd3c

dat_train_final - modeli eğitmek için dosya. 10 yıllık 5 döviz çifti geçmişi ve tüm tahminlerim var.

many_samples - R'ye yüklemeniz gerekiyor. Bu bir listedir - her öğe bir doğrulama örneği içerir ve toplamda 49 tanesi vardır. Bunlardan herhangi birini veya tümünü doğrulayabilirsiniz.

Meet Google Drive – One place for all your files
  • accounts.google.com
Google Drive is a free way to keep your files backed up and easy to reach from any phone, tablet, or computer. Start with 15GB of Google storage – free.
 

Dosyalarınızı göremiyorum, bağlantı sadece boş bir klasör.

Genel olarak, eurusd'da modeli eğitmek için yeni dosyam burada (h1, 5 bar, hedef bir sonraki bar için fiyatın yükselişi / düşüşü). Yukarıda bahsedilen temel bileşenler-regresyon-pt-2-y-aware-yöntemleri makalesine göre analiz ettim, verilerin sonuçların %1'inden daha azını güvenilir bir şekilde açıkladığı ortaya çıktı.
(SanSanych'ten RData için, bu sayı Rat_DF1 için %10'dan fazla), yani görünüşe göre yine çöpüm var. Modeli bu dosya üzerinde eğitmek pek mümkün değildi, eğer birisi tahmin edicileri filtrelemeyi denemek isterse daha uygundur.

Arşivde 2 dosya var, onlarla çalışmanın koşulu şudur - modeli ilk dosyada eğitin (test ve doğrulama için birkaç parçaya bölmek daha uygundur, Rattle varsayılan olarak% 75 / 15'e böler) % / %15), daha sonra girdiler seçildiğinde ve model eğitildiğinde - ikinci dosya üzerinde bir fonksiyonel test yapın. Hata %45'ten az ise, böyle bir modeli Forex'te takas etme şansı vardır. Kâr olmayabilir, ancak işlem sayısı ve indirimler için komisyoncu bonusları alabilirsiniz. İkinci dosyadaki sınıflandırma hatası %40'tan az ise bu zaten karlı bir stratejidir.

Dosyalar:
 
Dr.Tüccar :

2) Temel Bileşenler Regresyonu 03. Temel Bileşenler Regresyonu, Pt. 2: Y-Aware Yöntemleri. İlk bölümü atladım çünkü makale ilk bölümün farklı, daha zayıf bir algoritma olduğunu söylüyor.

Bana belki yanılıyorum gibi geldi, ancak sonucunuzun belirsizliği, temel bileşen yönteminin özünü anlamamaktan kaynaklanıyor. Ve nokta şudur.

Mevcut öngörücülerden, bazı yeni yararlı özelliklere sahip olacak yeni öngörücüler oluşturun.

Sonuç, başlığı PC1, PC2... sembollerini içeren bir tablo şeklinde sunulur, tablo satırlarının adları tahmincilerinizin adlarıdır ve her bilgisayarın altındaki sütunlarda sayılar vardır. - bunlar, PC değerini oluşturmak için orijinal tahmincinizi çarpmanız gereken katsayılardır. Yani: belirli bir çubuk için, ilk tahmin edicilerin değerlerini alıyoruz, katsayılarla çarpıyoruz ve PC değerini, ardından bir sonraki çubuğu vb. Sonuç olarak, orijinal vektörlerinize ek olarak, örneğin Ask, bir vektör daha elde ederiz.

Tablodaki tüm bilgisayarlar sıralanmıştır. Birincisi orijinal setteki değişkenliği en çok açıklayan PC, ikincisi ise ilk PC'den geriye kalanlardan değişkenliği en çok açıklayan PC. Örneğin, PC1 = 0.6, PC2 = 0.2, o zaman PC1 + PC2 toplamı, değişkenliğin 0.8'ini açıklar. Genellikle, büyük yordayıcı kümeleri için, değişkenliğin %95'inden fazlasını açıklayan bu aynı "temel bileşenlerden" 5-6 tanesi yeterlidir. Bu, tahmin edicilerin çoğu gürültü ise ve aralarında gerçekten "ana" olanlar varsa böyledir!

Klasik "temel bileşenleri" tanımladım. Bizim için makale ilginç çünkü klasiklerin aksine değişkenliği hedef değişkene göre hesaplıyor. Tamamen umutsuz bir dizi tahmin ediciden en azından bir şey seçmek için eşiklere ihtiyaç vardır. Bana öyle geliyor ki bu bizim için geçerli değil. Bu, örneğin, ek bir şey toplamanın çok zor olduğu sosyolojideki istatistikler için geçerlidir. Bizimle, tek bir döviz çiftinde bile ölçülemeyen sayıda tahmin oluşturabilirsiniz.

Belki de bu temel bileşenler üzerinde bir yarış (varış) daha yapacaksınız?

not.

1. Ana bileşenlerin ilk verilerin ön normalizasyonunu gerektirdiğini unutmayalım.

2. Ortaya çıkan ana bileşenlerin dikkate değer bir özelliği vardır - bunlar birbirinden bağımsızdır.

3. Temel bileşenler tahmin edilebilir

 

Şimdi anladım, açıklama için teşekkürler. Bu modeli sadece makaleden öğrendim. PC1 ve PC2,3,4'ün katsayılara değil, farklı tahmin kümelerine karşılık geldiğini düşündüm. Katsayı tablosunu gördüm, şimdi neyi nereden alacağımı çabucak buldum.

PrincipalComponentRegression 04 .txt'den gelen kod biraz fazla karmaşık. Ayrıca, hedef değişkenle ilgili bir değişkenlik tanımı yok gibi görünüyor, bu sabah eklediğim arşivden PrincipalComponentRegression 03 .txt dosyasına döndüm.

İlk 5 adımı tamamlamanız gerekiyor.

Daha ileri,

> model$coefficients

(Kestirme) PC1 PC2

0.02075519 0.40407635 -0.42250678

yürütme sonucu intercept + coef1 * PC1 + coef2 * PC2 + ... + varsa diğer PC'ler olmalıdır

PC1, PC2.. değerleri:

> proj

>proj

PC1 PC2

X_clean 0.00516309881 0.0047776325

X1_clean 0,00142866076 0,00149863842

X2_clean -0.00008292268 0.00001010802

.....

PC1 = X_clean * 0.00516309881 + X1_clean*0.00142866076 +...

Şimdi bu benim için bir gizem - "temiz" son eki, normalleştirmeler ve dönüşümlerden önce X, X1, X2, ... girdilerinin orijinal değerini almanız gerektiğine dair bir referans mı?

Daha sonra daha basit bir örnek alıp formülleri doğru anlayıp anlamadığımı karşılaştırmak için tüm değerleri elle hesaplayacağım. Şimdilik sadece bir tahmin)

Ancak daha sonra, bu yöntemin, tahmin edicileri ortadan kaldırmak için tasarlanmadığı, daha ziyade, kendi başına maksimum tahmin edici sayısını yok sayan bir modeli eğitmek için tasarlandığı ortaya çıkıyor. Her tahmin edici için yalnızca ortalama katsayısını hesaplayabilir ve eşiğin altındaki herhangi bir şeyi hariç tutabiliriz.
Bu arada, bu modelin kendisi bir nörona çok benzer, sadece aktivasyon fonksiyonu olmadan ve iç katmanın nöronlarında bir kayma olmadan. Ama özü aynı.

Başka bir sorun, bir PC bileşeninin ne kadar alınacağıdır. Güvenilirlik %95'ten azsa, üçüncü adıma geri dönmeniz ve proj <- ExtractProjection(2,princ) öğesini ikiden üçe değiştirmeniz, ardından 3,4,5 adımlarını gerçekleştirmeniz, hatayı hesaplamanız ve eğer %95'ten az - 3 adıma dönün ve bileşen sayısını tekrar artırın.

Genel olarak, makaledeki kodun ayrıca bir ön test kontrolü vardır, yani, MT5'ten R'ye doğrudan erişim olsaydı, makalenin sonunda ticaret yapabilecek hazır eğitimli bir modelimiz olurdu. Anladığım kadarıyla bu model fazla takma sorunu yaşamıyor, oluyorsa çok iyi. Yani %10 güvenirliğe ulaştım ve bu iyi.

Modelle ilgili hemen hemen her şey açık. Katsayılar için sadece karar mantığını uygulamak için MT5'te uygulamak çok iyi olurdu. R'nin MT5 ile nasıl arkadaş olabileceği belli değil. Tüm verileri mt5'ten csv'ye yazmak için dışa aktarabilir, ardından bunları R'de işleyebilir, modeli eğitebilir, katsayıları başka bir csv'ye yazabilirsiniz. Danışmandan okunacak katsayıları olan CSV. Ve sonra çok kötü olacak, çünkü R'de birçok fonksiyon, PC'yi onlardan hesaplamadan önce veri normalleştirme ile ilgilenir. MT5'te normalleştirme için böyle bir kodu tekrarlamak pek mümkün değildir. Düşünmek gerek.

 
Dr.Tüccar :

Şimdi anladım, açıklama için teşekkürler. Bu modeli sadece makaleden öğrendim. PC1 ve PC2,3,4,..'nin katsayılara değil, farklı öngörücü kümelerine karşılık geldiğini düşündüm. Katsayı tablosunu gördüm, şimdi neyi nereden alacağımı çabucak buldum.

PrincipalComponentRegression 04 .txt'den gelen kod biraz fazla karmaşık. Ayrıca, hedef değişkenle ilgili bir değişkenlik tanımı yok gibi görünüyor, bu sabah eklediğim arşivden PrincipalComponentRegression 03 .txt dosyasına döndüm.

İlk 5 adımı tamamlamanız gerekiyor.

Daha ileri,

(Kestirme) PC1 PC2

0.02075519 0.40407635 -0.42250678

yürütme sonucu intercept + coef1 * PC1 + coef2 * PC2 + ... + varsa diğer PC'ler olmalıdır

PC1, PC2.. değerleri:

>proj

PC1 PC2

X_clean 0.00516309881 0.0047776325

X1_clean 0,00142866076 0,00149863842

X2_clean -0.00008292268 0.00001010802

.....

PC1 = X_clean * 0.00516309881 + X1_clean*0.00142866076 +...

Şimdi bu benim için bir gizem - "temiz" son eki, normalleştirmeler ve dönüşümlerden önce X, X1, X2, ... girdilerinin orijinal değerini almanız gerektiğine dair bir referans mı?

Daha sonra daha basit bir örnek alıp formülleri doğru anlayıp anlamadığımı karşılaştırmak için tüm değerleri elle hesaplayacağım. Şimdilik sadece bir tahmin)

Ancak daha sonra, bu yöntemin, tahmin edicileri ortadan kaldırmak için tasarlanmadığı, daha ziyade, kendi başına maksimum tahmin edici sayısını yok sayan bir modeli eğitmek için tasarlandığı ortaya çıkıyor. Her tahmin edici için yalnızca ortalama katsayısını hesaplayabilir ve eşiğin altındaki herhangi bir şeyi hariç tutabiliriz.
Bu arada, bu modelin kendisi bir nörona çok benzer, sadece aktivasyon fonksiyonu olmadan ve iç katmanın nöronlarında bir kayma olmadan. Ama özü aynı.

Başka bir sorun, bir PC bileşeninin ne kadar alınacağıdır. Güvenilirlik %95'ten azsa, üçüncü adıma geri dönmeniz ve proj <- ExtractProjection(2,princ) öğesini ikiden üçe değiştirmeniz, ardından 3,4,5 adımlarını gerçekleştirmeniz, hatayı hesaplamanız ve eğer %95'ten az - 3 adıma dönün ve bileşen sayısını tekrar artırın.

Genel olarak, makaledeki kodun ayrıca bir ön test kontrolü vardır, yani, MT5'ten R'ye doğrudan erişim olsaydı, makalenin sonunda ticaret yapabilecek hazır eğitimli bir modelimiz olurdu. Anladığım kadarıyla bu model fazla takma sorunu yaşamıyor, oluyorsa çok iyi. Yani %10 güvenirliğe ulaştım ve bu iyi.

Modelle ilgili hemen hemen her şey açık. Katsayılar için sadece karar mantığını uygulamak için MT5'te uygulamak çok iyi olurdu. R'nin MT5 ile nasıl arkadaş olabileceği belli değil. Tüm verileri mt5'ten csv'ye yazmak için dışa aktarabilir, ardından bunları R'de işleyebilir, modeli eğitebilir, katsayıları başka bir csv'ye yazabilirsiniz. Danışmandan okunacak katsayıları olan CSV. Ve sonra çok kötü olacak, çünkü R'de birçok fonksiyon, PC'yi onlardan hesaplamadan önce veri normalleştirme ile ilgilenir. MT5'te normalleştirme için böyle bir kodu tekrarlamak pek mümkün değildir. Düşünmek gerek.

Bana öyle geliyor ki, Temel Bileşenler Regresyonu, Pt bölümünü kullanmalısınız. 2: Y-Aware Yöntemleri

Metne yüzeysel bir bakıştan da anladığım kadarıyla vurgulanan, ölçeklemenin amaç fonksiyonu dikkate alınarak yapılmasıdır. Geleneksel PCA'da amaç fonksiyonu hiç dikkate alınmaz. Bu nedenle, varsayılan olarak, ilk bileşenlerin, tüm tahmin edicilerin değişkenliğini açıklamadan, amaç fonksiyonunu açıklamak için en önemli bileşenler olduğu ortaya çıkıyor!


Başka bir sorun, bir PC bileşeninin ne kadar alınacağıdır.

Bu nedenle tüm peynirler borludur. Sezgisel olarak, orada herhangi bir eşik olmadan. İlk 5 bileşen değişkenliğin %95'inden fazlasını açıklamıyorsa, yeni bir dizi tahmin edici aranmalıdır. Her ne kadar doğru olmayabilir.

Modelle ilgili hemen hemen her şey açık. MT5'te uygulamak çok iyi olurdu

MT4'te her şey yolunda gidiyor. Kaynak kodlu bir Pascal kütüphanesi var. Kendim denemedim, ama benim için MT4 Pascal'daki kütüphaneye erişebiliyorsa, MT5'in daha da fazla olması gerekir.

R'nin çok çekiciliği buna benziyor.

1. OnInit'te R ile bağlantı kurulur, özel hazırlanmış veriler varsa çalışma alanı yüklenir. Ek olarak, R kodu bir veya daha fazla fonksiyona yüklenir. Her işlevdeki satır sayısı doğal olarak keyfidir - mantık tarafından belirlenir.

2. Bir danışman veya gösterge gövdesinde bu işlevlere denir.

R'nin terminal penceresine bağlı olmayan en zengin grafiklere sahip olduğunu dikkate alırsak, terminal ile paralel veri görselleştirme için zengin fırsatlar vardır.

 
San Sanych Fomenko :
Burada okuyorum, okuyorum .... ve resmi bir bakış açısından ilk başta hedef değişkenin ne olduğunu anlayamıyorum: gerçek bir sayı (regresyon) veya nominal bir değer (sınıflandırma). Ek olarak, tahmin edicilerin hedef değişken üzerindeki etki derecesini tartışıyorsak, bu hedef değişkenin anlamlı anlamını bilmek güzel olurdu.

Paradoksal değildir, ancak sınıflandırma aynı gerilemedir.

Yalnızca regresyon için çıktı gerçektir ve sınıflandırma için olasılıktır.

Ve regresyon için hedef sürekli bir eğridir ve sınıflandırma için dürtüler (0, 1) veya (-1, +1)'dir.

Daha sonra bu çıktı ilgili sınıfa (ifelse(y > 0.5, 1, 0) aktarılır.

 
Dr.Tüccar :

Dosyalarınızı göremiyorum, bağlantı sadece boş bir klasör.


bu eğitici: https://drive.google.com/file/d/0B_Au3ANgcG7CN2tTUHBkdEdpVEU/view?usp=sharing

bu doğrulamadır: https://drive.google.com/file/d/0B_Au3ANgcG7CZmFWclFOd0RqNFk/view?usp=sharing

doğrulama bu yük gibi ele alınmalıdır(validation_file)

her liste öğesi, gözlemlerin bağımsız olduğu benzersiz bir doğrulama kümesi içerir. Doğrulama örnekleri, içlerindeki gözlemler rastgele zaman noktalarından alındığından, neredeyse birbirleriyle kesişmezler. Her doğrulama örneği, ticaretin bir nokta tahmini olarak düşünülebilir.

Bu, işlemleri her dakika simüle etmemek için yapılır. İşlemler yaklaşık olarak her 12 saatte bir simüle edilir.

Neden: