"Rastgele Ormanlar Öngörü Trendleri" makalesi için tartışma

СанСаныч Фоменко 2014.12.18 20:41 #91

TheXpert:

Aşırı antrenman köklü ve oldukça spesifik bir terimdir. Siz sadece bunu değiştirmiyorsunuz, aynı zamanda kendi anlayışınıza göre ne olduğunu da açıklamıyorsunuz.

Bu bana iletişim tarzında Sulton'u hatırlatıyor.

Model eğitimi, modelin sadece eğitim örneğinde değil, aynı zamanda eğitim örneğinin dışında da yer alan sürecin özünü, yerel jargonda "örüntüleri" çıkardığı zamandır.

Aşırı eğitim (overfitting), modelin eğitim örneğinin dışında var olmayan bazı rastgelelikleri seçmeye başlaması ve bu nedenle modelin eğitim hatasından çok farklı bir hata değeri vermesidir.

Bu forumdaki pek çok kişi aşırı eğitimle karşı karşıya kalmıştır (belki de farkında olmadan), çünkü test cihazındaki optimizasyonun yardımıyla aşırı eğitimli bir EA elde etmek çok kolaydır.

Ama bunların hepsi felsefe.

Gerçeklik, bu süreçte kullanılan araçlarda, belirli bir beceridedir.

Makalem ve kitabımla aşırı eğitim sorununu çözmeye çalışmıyorum, sadece gelecekte kaliteli şeyleri tahmin etmeyi öğreten (modeller) tahmin modelleri dünyasına kapı açmaya çalışıyorum. Sayın gpwr birkaç saatini ayırıp Rattle'ı inceleseydi, makalemi okuma zahmetine katlanmadığını ama içeriği hakkında fikir sahibi olduğunu göstermeden soruları çok daha fazla içeriğe sahip olurdu. Ancak en önemlisi, Rattle, örneklem dışı modellerin performansının tahmin edilmesi, önemli tahmincilerin listesi, bulunan modellerin sayısı dahil olmak üzere çok karmaşık modeller oluşturma sürecinin tamamını kapsar ..... Gerçek modeller farklı olsa da ben hala Rattle kullanıyorum. Sadece anlamak için bir fikri test edin..... 20-30 dakika ve geliştirme yönü kökten değişebilir.

Çok sınırlı bir hedef.

Makale ve kitabın yanı sıra ücretli hizmetler de sunuyorum. Ve ilan edilen iş listesini gerçekleştirmek için gerekli niteliklere sahip olup olmadığıma karar vermek herkese bağlıdır. Ve ben, belirli bir siparişi almadan önce, müşterinin emeğimin sonucunu anlayıp anlayamayacağına karar veririm.

Dosyalar:

PredictTrend.zip 858 kb

"Sinir Ağları Ucuz ve Ticarette makine öğrenimi: teori, Bu kaosun bir düzeni

Vladimir 2014.12.19 06:55 #92

faa1947:

1. Oldukça büyük bir öngörücü kümesi oluşturun, örneğin çubuk sayısı 15000 olan 50 adet

2. Yukarıdaki algoritmalardan birini kullanarak, bu 15 bin çubuk üzerinde tahmin ediciler seçiyoruz - genellikle model oluşturmada vakaların %20'sinden daha sık kullanılan 15 ila 20 adet elde ediyoruz.

3. Daha sonra daha küçük bir pencere alırız, örneğin 2000 çubuk ve her seferinde bir çubuk hareket ettirmeye başlarız, önceden seçilen 20'den 50'ye kadar önemli tahmin ediciler seçeriz.

4. Önemli belirleyicilerin spesifik listesi her zaman değişmektedir.

1. Nasıl? 60 yıllık günlük geçmişe ihtiyacınız var mı?

2. Geleceğe bakıyorsunuz, saygıdeğer kişi. Tüm geçmişte 15-20 tahminci seçiyorsunuz ve sonra bunları aynı 15000 çubuğun "eğitimsiz" örneğinde mi kontrol ediyorsunuz? Eğer birisi bana bugün gelecekte hangi 15-20 tahmincinin "örnekleneceğini" söyleseydi, milyarder olmak için başka bir şeye ihtiyacım olmazdı.

MatLab kullanıyorum. Orada pek çok farklı araç kutusu var. Yani sizin yöntemlerinizi bilmediğimi varsaymanıza gerek yok. Benim yüzeysel ya da gayretli bir yaklaşımım olduğunu da varsaymamalısınız (ki ben de sizin yaklaşımınız hakkında tam olarak böyle düşünüyorum). Herkes farklı paketleri ve araç kutularını kullanabilir. Ancak herkes bunların özünü anlayamaz. Ayrıca bana hizmetlerinizi ve kitabınızı tanıtmanıza da gerek yok. Benim sorunlarım aşırı antrenman tanımından çok daha karmaşık. Elimde 10 bin ekonomik gösterge-öngörücü var ve piyasayı etkileyenleri seçmek çok zor. Her bir öngörücüyü tek tek incelersem, hedef serinin öngörücülerden biriyle eşleşmediği, ancak bu öngörücünün hedef serinin modeline dahil edildiği yukarıdaki örneğim gibi durumları kaçıracağım. Farklı tahmin edicilerin olası tüm kombinasyonlarını gözden geçirirseniz, bunu yapmak için yeterli zamanınız olmayacaktır. Hatta 10.000 tahminci arasından iki tahminciyi aramak bile bir haftadan fazla zaman alır. Şimdiye kadar N ilgili değişkeni seçmek için biyolojik bir kendi kendine budama ağım var (açıklaması uzun, anlamak için biraz eğitime ihtiyacınız var). Bu ağ, tüm olası tahminci kombinasyonlarını aramaktan daha hızlı, ancak yine de yavaş. Eğer örneğimde sadece y ve x1'e bakarak x1'in y modelinin bir parçası olduğunu nasıl belirleyeceğinize dair parlak bir fikriniz varsa, size altın madalya vereceğim.

Yardım Gerekiyor'da dizi aralık Ticarette makine öğrenimi: teori, Hizmet Masası: tembellik, otizm

СанСаныч Фоменко 2014.12.19 09:01 #93

gpwr:

1. Bu nasıl? 60 yıllık günlük tarihe mi ihtiyaç var?

2. Geleceğe bakıyorsunuz, saygıdeğer kişi. Tüm geçmişte 15-20 tahminci seçiyorsunuz ve sonra bunları aynı 15000 çubuğun "eğitimsiz" örnekleminde mi kontrol ediyorsunuz? Eğer birisi bana bugün gelecekte hangi 15-20 tahmincinin "örnekleneceğini" söyleseydi, milyarder olmak için başka hiçbir şeye ihtiyacım olmazdı.

MatLab kullanıyorum. Orada pek çok farklı araç kutusu var. Yani sizin yöntemlerinizi bilmediğimi varsaymanıza gerek yok. Benim yüzeysel ya da gayretli bir yaklaşımım olduğunu da varsaymamalısınız (ki ben de sizin yaklaşımınız hakkında tam olarak böyle düşünüyorum). Herkes farklı paketleri ve araç kutularını kullanabilir. Ancak herkes bunların özünü anlayamaz. Ayrıca bana hizmetlerinizi ve kitabınızı tanıtmanıza da gerek yok. Benim sorunlarım aşırı antrenman tanımından çok daha karmaşık. Elimde 10 bin ekonomik gösterge-öngörücü var ve piyasayı etkileyenleri seçmek çok zor. Her bir öngörücüyü tek tek incelersem, hedef serinin öngörücülerden biriyle eşleşmediği, ancak bu öngörücünün hedef serinin modeline dahil edildiği yukarıdaki örneğim gibi durumları kaçıracağım. Farklı tahmin edicilerin olası tüm kombinasyonlarını gözden geçirirseniz, bunu yapmak için yeterli zamanınız olmayacaktır. Hatta 10.000 tahminci arasından iki tahminciyi aramak bile bir haftadan fazla zaman alır. Şimdiye kadar N ilgili değişkeni seçmek için biyolojik bir kendi kendine budama ağım var (açıklaması uzun, anlamak için biraz eğitime ihtiyacınız var). Bu ağ, tüm olası tahminci kombinasyonlarını aramaktan daha hızlı, ancak yine de yavaş. Örneğimde sadece y ve x1'e bakarak x1'in y modelinin bir parçası olduğunu nasıl belirleyeceğinize dair parlak bir fikriniz varsa, size iyi bir fikir vereceğim.

1. Bu nasıl? 60 yıllık günlük geçmişe mi ihtiyaç var?

Abartmayalım.

Ben forex'te çalışıyorum. Trendleri tahmin ediyorum ve 50-100 piplik geri dönüşleri olan trendlerden oldukça memnunum. Bunun için günlük geçmişe ihtiyacım yok. Örneklerimde bu H1, 18000 üç yıldır.

2. Geleceğe bakıyorsun, onurlu biri. Tüm geçmişte 15-20 tahminci seçiyor ve ardından bunları aynı 15000 çubuğun "eğitimsiz" bir örneğinde test ediyor musunuz?

Bunu zaten açıklamıştım. Şahsen sizin için açıkladığım şeyi okumanız çok arzu edilir. Ben geleceğe bakmıyorum. Performans her zaman örneklem dışıdır. Rattle, istesem bile önerdiğiniz diğer olasılığı sunmuyor.

Aşırı antrenmanı tanımlamaktan çok daha karmaşık sorunlarım var. Elimde 10 bin ekonomik gösterge-öngörücü var ve piyasayı etkileyenleri nasıl seçeceğim çok zor. Her bir öngörücüyü tek tek incelerseniz,

Tam arama diye bir şey yoktur. Rastgele ormanlar en iyi tahminci sayısı binlerle ölçüldüğünde çalışır, bir keresinde 50 bin gibi bir rakam görmüştüm. Benim verilerimde rakamlar aşağıdaki gibidir: 90 tahminci, 10000 satır (çubuklar) - model eğitim süresi tek çekirdekte yaklaşık bir dakika. Sonuç olarak: sınıf etiketleri, sınıf etiketlerinin olasılığı, model oluşturmada her bir tahmin edicinin önemi.

Bu ağ, tüm olası tahminci kombinasyonlarının aranmasından daha hızlıdır,

Tahmin edici arama yoktur. Algoritma aşağıdaki gibidir. Bir parametre vardır - bir ağaç düğümündeki tahmin edicilerin sayısı, sınıflandırma kararının verildiği temelde. Bunu kendiniz ayarlayabilirsiniz, varsayılan = sqrt (maksimum tahminci sayısının 90'ına sahibim). Her düğümde yaklaşık olarak 9 tahminci kullanılır. Algoritma, ağacın her bir düğümünü değerlendirirken her zaman 9 tahminci alır, ancak her zaman toplam sayı=90'dan rastgele seçim yapar. Çapraz doğrulama yoluyla, en önemli tahmin ediciler sonunda seçilir ve nihai ağaç yapımında kullanılır.

NOT.

Neden R kullanmıyorsun? Ücretliyse, SAS....

Matlab uzmanlaşmış istatistiksel paketler arasında değildir.

Ticarette makine öğrenimi: teori, Doğrusal yavaşlama - bir Zigzaglar, dalgalar, trendler.

CyberCortex 2015.01.14 23:57 #94

Lütfen açıklayın, neden tahmincileri seçme zahmetine giriyorsunuz? Sonuçta, modern algoritmalar, bu tahmin edicilerin çoğu rastgele olsa bile binlerce tahmin ediciyi işleme kapasitesine sahiptir. Bu durumda modeller güvenilirdir.

СанСаныч Фоменко 2015.01.15 08:13 #95

CyberCortex:
Lütfen açıklayın, neden tahmincileri seçme zahmetine giriyorsunuz? Sonuçta, modern algoritmalar binlerce tahmin ediciyi işleme kapasitesine sahiptir, bu tahmin edicilerin çoğu rastgele olsa bile. Ve modeller güvenilirdir.

Ne yazık ki durum böyle değil. En azından benim için değil.

Tahminci seçim algoritmalarının farkında değilim (birkaç düzine seçim algoritması bilmeme rağmen), bundan sonra (algoritmalar) modelin aşırı eğitimi hariç tutulacaktır.

Eski istatistik kuralı hala geçerlidir: "Çöp içeri - çöp dışarı".

Forumu kirletmemek için herhangi Bayesian regresyon - Bu Teoriden pratiğe

CyberCortex 2015.01.15 10:07 #96

faa1947:

Maalesef öyle değil. En azından benim için.

Herhangi bir tahminci seçim algoritmasından haberdar değilim (düzinelerce seçim algoritması bilmeme rağmen), bu (algoritmaların) çalışmasından sonra modelin aşırı eğitimi hariç tutulacaktır.

Eski istatistik kuralı hala geçerlidir: "Çöp içeri - çöp dışarı".

Bilmiyorum, programımı test ettim ve iyi görünüyor.

Başka bir kaynaktaki yazımdan alıntı yapmam gerekirse: "Programın doğruluğunu buradan alınan veriler üzerinde test ettik:

http://archive.ics.uci.edu/ml/index.html

(Makine Öğrenimi ve Akıllı Sistemler Merkezi'nin sitesi).

Bu durumda, sağlıklı insanlardan ve kanser hastalarından alınan kan analizi verilerini kullandık. Hipotez, analizlerine dayanarak insanlarda kanseri tahmin edebilecek bir model oluşturmaktı. Sınıflandırmanın 2 sınıfa (hasta - hasta değil) ayrılması gerekiyordu.

Eğitim örneğinin uzunluğu 10000 özellikti. Bunların 3000'i rastgele nitelikteydi ve sınıflandırma kalitesini test etmek için özel olarak eklendi. Eğitim örneğinde toplamda 100 örnek kullanıldı ki bu şüphesiz çok küçük bir sayı ama daha fazlasını bulamadık. Test sırasında 100 adetlik başka örnekler de kullandık.

http://archive.ics.uci.edu/ml/datasets/Arcene

(Orijinal verilerin bulunduğu arşive bağlantı).

Bilinmeyen veriler üzerinde tanıma doğruluğu %75'ti. Eğitmek için daha fazla veri olsaydı, tahminlerin doğruluğunu önemli ölçüde artırabileceğimize inanıyoruz." Alıntı sonu.

Not: Eğitim süresi 8 çekirdekli işlemci ve 8 Gb belleğe sahip bir bilgisayarda yaklaşık 2 dakika sürdü, çünkü algoritmanın eğitim süresi tahminci sayısı ile üstel olarak artmıyor. Ve bilgilendirici olmayan tahmin ediciler otomatik olarak kullanılmaz.

İlgilenen varsa, işte cybercortex.blogspot.ru bağlantısı (bunu bir reklam olarak düşünmeyin:)

Ticarette makine öğrenimi: teori, Uydurma ve gerçek kalıplar MTS'de yapay zeka kullanımı

СанСаныч Фоменко 2015.01.15 18:36 #97

CyberCortex:

Bilmiyorum, programımı test ettim ve her şey yolunda görünüyor.

Başka bir kaynaktaki yazımdan alıntı yapmam gerekirse: "Programın doğruluğunu buradan alınan veriler üzerinde test ettik:

göstergeler gibi resmi, matematiksel değerler kullanılır. Ve ortaya çıktığı üzere, çeşitli çöpleri modele dahil etmek çok kolaydır ve "çöp içeri - çöp dışarı" kuralı işlemeye başlar.

Çöp tahmincilerin, yani hedef değişken üzerinde zayıf bir etkisi olan tahmincilerin modele dahil edilmesi, eğitim örneğinde her şeyin yolunda olduğu, ancak örneklem dışında sorunların ortaya çıktığı modelin aşırı eğitimine yol açar.

CyberCortex 2015.01.15 19:01 #98

faa1947:

Sorunu göstermek için harika ve tipik bir örneğiniz var.

1. Yüzeyde, sizin örneğinizden farklı olarak, tüm finansal serilerin, değerlerin sırasının önemli olduğu zaman serilerine ait olduğu gerçeği vardır. Bu nedenle, tıp alanındaki modellerin aksine, finansal piyasalardaki modeller bu nüansı dikkate almalıdır.

2. Ancak çok daha ciddi bir durum var ve bu doğrudan sorunuzun konusuyla ilgili.

Tıpta, "hasta-hasta değil" sorusunun çözümü teşhisi ifade eder ve bu tüm tıbbın yarısıdır. Pek çok insan araştırma yapar, gerekçelendirir, bizim terminolojimizde "öngörücüler" arar ve bu araştırmacılara göre bunlar "hasta ya da hasta değil" kararıyla ilgilidir. Forex'te böyle bir şey görmüyoruz. Borsada, ekonomik nedenler ve hareket yönü arasındaki ilişki üzerine araştırmalar yaygındır, ancak bunların hiçbiri gün içi aralıklar için geçerli değildir.

Bu nedenle, gün içi aralıklarda makine öğrenimi modelleri oluştururken, göstergeler gibi resmi, matematiksel değerler kullanılır. Ve ortaya çıktığı üzere, çeşitli çöpleri modele dahil etmek çok kolaydır ve "çöp içeri - çöp dışarı" kuralı işlemeye başlar.

Çöp tahmin edicilerin modele dahil edilmesi, yani hedef değişken üzerinde zayıf bir etkiye sahip olan tahmin ediciler, eğitim örneğinde her şeyin yolunda olduğu, ancak örneklem dışında sorunların olduğu modelin yeniden eğitilmesine yol açar.

1. "Tüm finansal seriler, değerlerin sırasının önemli olduğu sözde zaman serilerine aittir." - Bunu kimse inkar etmiyor ve bir zaman serisi olmasına rağmen bu düzen ihlal edilmiyor. Modeli P1, P2, P3...Pn fiyatları üzerinde eğittikten sonra, Örneklem Dışı veya gerçek kullanımda test ederken bunların sırasını değiştirmezsiniz.

2. Bir konuda size katılıyorum: eğer girdi %100 çöp tahmincilerden oluşuyorsa, çıktıda %100 çöp elde ederiz. Bu çok açık ve kimse bununla tartışmıyor. Tek söylediğim, veriyi ayıklamanın önemli olmadığı algoritmalar olduğu, çünkü %100 dışında herhangi bir miktarda çöp veriyle Örneklem Dışı'nda iyi sonuçlar verdikleri, çünkü çöp verinin fiilen kullanılmadığı. Burada, temel bileşen analizi veya oto kodlayıcılar gibi veri boyutluluğunun azaltılmasının kritik olduğu algoritmalar ile veri boyutluluğuna duyarsız algoritmalar arasında ayrım yapmak da önemlidir.

"Borsada, ekonomik nedenler ve hareket yönü arasındaki ilişki üzerine yapılan araştırmalar yaygındır, ancak bunların hiçbiri gün içi aralıklar için geçerli değildir." - Evet geçerlidir ve Tarım Dışı İstihdamın açıklanması gibi gün içi aralıklar için geçerlidir.

3. Elbette sizi anlıyorum, herkes kazanabildiği kadar kazanıyor, ancak hiç kendiniz herhangi bir makine öğrenimi algoritması uyguladınız mı? Bir algoritmanın nasıl çalıştığını anlamak için onu sıfırdan kendiniz yazmanız gerektiğine inanıyorum. İnanın bana, bu durumda kitaplarda yazmayan şeyleri keşfedeceksiniz. Ve hatta daha önce kolay görünen bariz unsurlar bile aslında düşündüğünüzden farklı çalışır:) Saygılarımla.

Çoklu Zaman Çerçevesi Göstergeleri Ticarette makine öğrenimi: teori, Elliot Dalga Teorisine dayalı

CyberCortex 2015.01.15 19:14 #99

faa1947:

Ayrıca, gün içi aralıklarda makine öğrenimi modelleri oluştururken, göstergeler gibi resmi, matematiksel değerler kullanılır. Ve görüldüğü gibi, modele çeşitli çöpleri dahil etmek çok kolaydır ve "çöp içeri - çöp dışarı" kuralı işlemeye başlar.

Ve evet, bu arada, "göstergeler gibi matematiksel nicelikler" kullanmak gerekli değildir. İsterseniz fiyat, hacim, zaman ve deltaya bağlı birçok kendi sezgisel yönteminizi bulabilirsiniz. Benim kullanacağım ve gerçekten matematiksel olan tek göstergeler ortalama, standart sapma ve korelasyondur.

Dijital Filtrelere Dayalı Ticaret Göstergesiz ticaret. İlk Kutsal İnek: "Bir

Andrey Dik 2015.01.15 21:32 #100

CyberCortex:
....

3. Elbette sizi anlıyorum, herkes bildiği gibi kazanıyor, ancak hiç makine öğrenimi algoritmalarını kendiniz uyguladınız mı? Bir algoritmanın nasıl çalıştığını anlamak için onu sıfırdan kendiniz yazmanız gerektiğine inanıyorum. İnanın bana, bu durumda kitaplarda yazmayan şeyler keşfedeceksiniz. Ve hatta daha önce kolay görünen bariz unsurlar bile aslında düşündüğünüzden farklı çalışıyor:) Saygılarımla.

Böyle bir cümleyi es geçemezdim. Saygılar!

"Rastgele Ormanlar Öngörü Trendleri" makalesi için tartışma - sayfa 10