Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1297

 
Alexey Vyazmikin :

İlginç bir söz. Ancak, sonraki ağaçlar mevcut ağaç kompozisyonundan kaynaklanan hatayı azaltmak için inşa edilir, ancak neden örnekleme kullanmadıklarını anlamıyorum, bize daha ayrıntılı anlatın, belki derin bir şey anlamıyorum ...

> 1 numaralı ağaçların yapraklarını onlara ilk verileri sağlayarak inceleme şansınız var mı? Evet ise, sonuç rastgele olmalıdır, çünkü. bu ağaçlar orijinal verilerden değil, hatalardan ders aldı. Onlar. Ağacın ve yapraklarının çözmek için eğitilmediği bir problemi çözüyorsunuz.
O ağaçlar olaydan olsaydı. ormanlar - o zaman hepsi orijinal veriler üzerinde eğitilir ve kullanılabilir (ancak hiçbir anlamı yoktur, çünkü 1 ağaç yanlışlıkla ormandan çok daha düşüktür). Güçlendirmede - hayır, çünkü. 1 ağacı diğerleri olmadan düşünmenin bir anlamı yok.

 
elibrarius :

> 1 numaralı ağaçların yapraklarını onlara ilk verileri sağlayarak inceleme şansınız var mı? Evet ise, sonuç rastgele olmalıdır, çünkü. bu ağaçlar orijinal verilerden değil, hatalardan ders aldı. Onlar. Ağacın ve yapraklarının çözmek için eğitilmediği bir problemi çözüyorsunuz.
O ağaçlar olaydan olsaydı. ormanlar - o zaman hepsi orijinal veriler üzerinde eğitilir ve kullanılabilir (ancak hiçbir anlamı yoktur, çünkü 1 ağaç yanlışlıkla ormandan çok daha düşüktür). Güçlendirmede - hayır, çünkü. 1 ağacı diğerleri olmadan düşünmenin bir anlamı yok.

Dolayısıyla aynı şey, her bir sonraki algoritmanın kompozisyonun eksikliklerini öncekilerden telafi etmeye çalıştığı sıralı bir iyileştirme yöntemi olarak güçlendirme tanımından da çıkar.
 
elibrarius :

Evet, hatayı azaltmak için hataları hedef alırlar, sonra çıkarırlar.

İşte güçlendirme algoritması, sadece kendim çalışıyorum https://neurohive.io/en/osnovy-data-science/gradientyj-busting/


Bunun klasik bir güçlendirme olduğunu anlıyorum. Belki de kedi baskınında kendilerine ait bir şey buldular ...

makaleye baktım. Evet, orada gerçekten ortaya çıkıyor, anladığım kadarıyla, bir ağaç oluşturulmuş, bir numuneye uygulanmış ve gerçek hedef ile öngörülen hedef arasındaki delta hesaplanmış, ardından hatayı azaltmak için bir sonraki ağaç inşa edilmiş, yani. deltayı tahmin edin. Ama aslında aynı örnek üzerinde yeni ağaçlar da kurulur ve yeni ve yeni bağlantılar kurulur, yani. aslında sadece hedef değişir. Ancak bu yaklaşım, rastgele bir ormanda aşikar olmayacak yeni bağlantılar (yapraklar) bulmayı mümkün kılar ve bu bağlantılar ilk ağaca bağlıdır ve CatBoost'taki seçime (yeni olmayan) ancak sonraki ağaçlara bağlıdır. ya verilen yineleme sayısına kadar ya da dur işaretine kadar inşa edilecektir ve bu işaret test numunesi tarafından belirlenir. İşaret, modelin kalitesini değerlendirmek için hesaplanmış bir göstergedir (farklı göstergelerin bir listesi vardır). Tam olarak bir özellik temelinde öğrenmeyi bırakmayı seçiyorum, çünkü aynı anda iki örnek üzerinde bir iyileştirme elde etmek istiyorum ve eğer sadece eğitimde ise, bu açıkça fazla uydurmadır. Bu nedenle, öğrenmeyi doğrudan etkileyen örneklemlerin büyüklüğü ile ilgili soru ortaya çıkmaktadır. eğitim örneğinin boyutu sabit olsa bile, test örneğinin boyutu öğrenmeyi etkileyecektir.


elibrarius :

> 1 numaralı ağaçların yapraklarını onlara ilk verileri sağlayarak inceleme şansınız var mı? Evet ise, sonuç rastgele olmalıdır, çünkü. bu ağaçlar orijinal verilerden değil, hatalardan ders aldı. Onlar. Ağacın ve yapraklarının çözmek için eğitilmediği bir problemi çözüyorsunuz.
O ağaçlar olaydan olsaydı. ormanlar - o zaman hepsi orijinal veriler üzerinde eğitilir ve kullanılabilir (ancak hiçbir anlamı yoktur, çünkü 1 ağaç yanlışlıkla ormandan çok daha düşüktür). Güçlendirmede - hayır, çünkü. 1 ağacı diğerleri olmadan düşünmenin bir anlamı yok.

Doğru düşünün, sadece yaprakları incelemek için bir platform hazırlıyorum (catboost'ta bunlar oldukça ikili ağaçlar). Çok sayıda ağaç varsa sonuç önemsiz olabilir, ancak ilk ağacın yaprağında büyük bir hata hatası varsa ve dördüncü ağaç bu hatayı yaprağında düzelttiyse, teoride bile değerli bağlantılar olabilir. aslında yeni bağlantının mantıklı bir anlamı olacak ve kendi başına örneği doğru bir şekilde sınıflandıracaktır. Teknik olarak, catboost'ta her ikili ağacın (yaprak) cevabının sonucu olan bir dizi var, daha sonra bu cevaplar toplanır, ancak işin püf noktası, ikili ağaçların (yaprakların) sadece küçük bir kısmının bir cevap vermesidir. örneğin bir satırı. Bu nedenle, teorik olarak, çok düşük tahmin kabiliyetine sahip ikili ağaçları (yaprakları) genel olarak seçmek (sıfır çıkarmak) mümkündür, çünkü bunlar ya ilk hataya sahip ağaçlar ya da küçük ayarlamalar (yeniden eğitim nedeniyle) ve yaprakları sadece önemli değerler. Başka bir yön, bu bağlantıları, son dizide büyük bir ağırlığın olduğu, bu bağlantıların ve dolayısıyla tahmin edicilerin önemli olduğu ve geri kalanının daha az önemli olduğu için eşik tarafından filtrelenmesi gerektiği durumlarda, tahmin edicilerin önemini değerlendirmek için kullanmaktır. . Eğer böyle bir tarama yapılırsa, o zaman model önce daha anlamlı tahmin ediciler üzerinde eğitilebilir ve daha sonra daha az anlamlı tahmin ediciler üzerinde eğitilebilir, bu da öğrenme sonucunu iyileştirmesi gerekir, çünkü daha az anlamlı tahmin ediciler daha istikrarlı ilişkiler kurmaya müdahale etmeyecek, ancak sadece olacaktır. mümkünse mümkünse ekleyin.

Sonuç olarak, önemsiz ikili ağaçlar montaj için gerçekten ilgi çekici değildir ve toplam ağırlığı büyük olan mikro topluluklar (2-3 ikili ağaç (yaprak)) veya tek ikili ağaçlar da büyük önem taşır ve sınıflandırma için ayrı ayrı kullanılabilir.

Ne yazık ki, şu anda tek tek ikili ağaçları (yaprakların olağan anlayışında) çıkarmak ve bunları normal okunabilir bir kurala dönüştürmek için bir mekanizmam yok, bu yüzden şimdilik her şey sadece teoride, ancak işbirliğine açığım.

 
Alexey Vyazmikin :

Ne yazık ki, şu anda tek tek ikili ağaçları (yaprakların olağan anlayışında) çıkarmak ve bunları normal okunabilir bir kurala dönüştürmek için bir mekanizmam yok, bu yüzden şimdilik her şey sadece teoride, ancak işbirliğine açığım.

Ve modeli MT5'te nasıl çiziyorsunuz? Peki, orada ne ticaret yapardı ya da test cihazında uzaklaşırdı. Bunu yapmanın en iyi yolunu düşünüyorum, anlayana kadar: ya tamamen Python'a geçin ve MT5 ile bağlanın ya da bir catbust ikili dosyası alın

 
Maksim Dmitrievski :

Ve modeli MT5'te nasıl çiziyorsunuz? Orada veya arabayı sürmek için test cihazında ne takas edilir. Bunu yapmanın en iyi yolunu düşünüyorum, anlayana kadar: ya tamamen Python'a geçin ve MT5 ile bağlanın ya da bir catbust ikili dosyası alın

C++ modeli MQL5'e dönüştürülür - aslında orada sadece diziler alınır ve bu modelin MQL'de bir yorumlayıcısı vardır (kod benim değil). Buna göre, modeller Expert Advisor'a yüklenir, şimdi dosya aracılığıyla yüzlerce modeli hemen yükleyebilir ve optimize edici sürücü de dahil olmak üzere zaten terminalde izleyebilirim.

 
Alexey Vyazmikin :

C++ modeli MQL5'e dönüştürülür - aslında orada sadece diziler alınır ve bu modelin MQL'de bir yorumlayıcısı vardır (kod benim değil). Buna göre, modeller Expert Advisor'a yüklenir, şimdi dosya aracılığıyla yüzlerce modeli hemen yükleyebilir ve optimize edici sürücü de dahil olmak üzere zaten terminalde izleyebilirim.

peki, makale bir tür çerçeve ve fikirle yazılacaktı (fikir kozmikten daha az olmamalıdır) ve ne tür bir yardıma ihtiyaç var ya da orada ne var?

Anladığım kadarıyla, topluluk bölünmüştür: bazıları çıkar, bazıları ise tam tersine genelleştirir. Örneğin ben bu yaklaşıma katılmıyorum, belki hayat bu fikri tam olarak anlamamıştır.
 
Maksim Dmitrievski :

peki, makale bir tür çerçeve ve fikirle yazılacaktı (fikir kozmikten daha az olmamalıdır) ve ne tür bir yardıma ihtiyaç var ya da orada ne var?

Makaleler için derin teorik bilgiye sahip değilim, farklı kavramlar buluyorum ve yerleşik fenomenlerin yorumunu değiştiriyorum - bu akademik bir yaklaşım değil.

Model yorumlayıcının ilginç olacağını düşünüyorum, ancak kod tarafımdan yazılmadığı için yayınlayamıyorum.

Ve teoride kalan, uygulanamayan kodlarla (kapalı sınıflar nedeniyle) her şeyin ilginç olmayacağını düşünüyorum. Ve bir model oluşturma ve seçme süreci bence herkes tarafından kararlaştırıldı ve orada da ilgi yok.

 
Maksim Dmitrievski :

Anladığım kadarıyla, topluluk bölünmüştür: bazıları çıkar, bazıları ise tam tersine genelleştirir. Örneğin ben bu yaklaşıma katılmıyorum, belki hayat bu fikri tam olarak anlamamıştır.

Ve topluluk hakkında bilgim yok, yani. Diğer bölgelerdeki diğer insanların bunu nasıl yaptığını bilmiyorum?

MO kullanarak bir insan davranışı modeli (veya algoritması) aradığım için veri çekmek bana mantıklı geliyor, bu tür birçok davranış modeli olabilir ve bunlar bağımsız olabilir, bu yüzden mümkün olduğunca çıkarmak mantıklı , bu yüzden her şeyi birlikte nasıl genelleştireceğimizi imkansız. Ve bazıları için, piyasa bütün bir şeydir, kolektif zihnin çalışmasının sonucu, kuralsız belirli bir oylama organı, bu durum için görünüşte doğru olan, piyasanın davranışını ayrı bir olarak tanımlayan bir model arıyorlar. organizma.

 
Alexey Vyazmikin :

ilk ağacın yaprağında büyük bir hata hatası varsa ve dördüncü ağaç bu hatayı yaprağında düzelttiyse, aslında yeni ilişki mantıklı bir anlama sahip olacak ve örneği kendi başına doğru bir şekilde sınıflandıracaktır .

Bundan emin değilim, 4. ağaç ilkinin hatalarını yapraklarıyla düzeltiyor. Sadece bir çift olarak mantıklı olduklarını düşünüyorum. Ama yanılıyor olabilirim. Çünkü Bu tür şeylerle denemedim.

 
elibrarius :

Bundan emin değilim, 4. ağaç ilkinin hatalarını yapraklarıyla düzeltiyor. Sadece bir çift olarak mantıklı olduklarını düşünüyorum. Noah yanılıyor olabilir. Çünkü Bu tür şeylerle denemedim.

Oldukça ilkel ise, ilk ağacın örneğe yanıtı yoktur, sıfır döndürür ve dördüncü ağaç bu yanıtı alır ve "olasılığı" 0,6 olarak dikkate alır - teknik olarak ilk ağacın hatasını düzeltir, ancak gerçekte daha önce hiç var olmayan bir bağlantıyı ortaya çıkardı. Tüm ağaçların tüm örneği böldüğünü hayal etsek bile (ve görünüşe göre durum böyle değil), o zaman sıfır değil 0,1 olsun ve bir sonraki ağaç 0,5 olsun, o zaman aynı etki. Bununla birlikte, burada olasılık tam olarak bir olasılık değildir, dizideki değerler daha sonra ancak etkinleştirilmiş ikili ağaçların tüm değerleri eklendikten sonra olasılığa benzer bir şeye dönüştürülür.

Neden: