Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2111

 
Alexey Vyazmikin :

Hayır, sade kalıp olacak, anlamlı bir model değil!

Aynı fikirde olmamak. Kuantizasyon ile bilgi miktarını azaltırsınız. Maksimum niceleme numarası maksimum bilgiyi bırakacaktır.

Ancak 65535'te niceleme yapmak 255'ten daha uzun sürer.

 
elibrarius :

Nasıl olduğunu biliyor musun?

Evet, üzerinde çalışıyorum - başlangıçta genetik ağaçlar için yapılmıştı.

Bilginin örnek içindeki dağılımını ve hedefle ilişkisini değerlendirmek gerekir. Belirli bir niceleme bölümünde hatanın nasıl azaldığına ve içerdiği örneklerin yüzdesine bakıyorum - bu göstergelerin dengesi en iyi bölümleri seçmenize izin veriyor.

 
elibrarius :

Aynı fikirde olmamak. Kuantizasyon ile bilgi miktarını azaltırsınız. Maksimum niceleme numarası maksimum bilgiyi bırakacaktır.

Ancak 65535'te niceleme yapmak 255'ten daha uzun sürer.

Anlaşmazlıkları boşuna - orada çok az bilgi var ve gürültüden ayrılması gerekiyor. Her 5 yılda bir tekrar edenlere değil, istikrarlı bağımlılıklara ihtiyacımız var ve bu nedenle belirli bir hedef için eğilimlerini değerlendirmek için sadece istatistiklere sahip olmaları yeterli değil, yetersiz sayıda örnek kullanmak sadece uydurmaya yol açıyor.

 
Alexey Vyazmikin :

Evet, üzerinde çalışıyorum - başlangıçta genetik ağaçlar için yapılmıştı.

Bilginin örnek içindeki dağılımını ve hedefle ilişkisini değerlendirmek gerekir. Belirli bir niceleme bölümünde hatanın nasıl azaldığına ve içerdiği örneklerin yüzdesine bakıyorum - bu göstergelerin dengesi en iyi bölümleri seçmenize izin veriyor.

Kuantizasyondaki hatayı nasıl tahmin edersiniz. Ayrıca, yalnızca eğitimi çalıştırarak ve aynı anda tüm sütunlar için ve şu anda nicelenen her biri için değil, elde edilebilir.

 
elibrarius :
Alexey Vyazmikin :

Kuantizasyondaki hatayı nasıl tahmin edersiniz. Ayrıca, yalnızca eğitimi çalıştırarak ve aynı anda tüm sütunlar için ve şu anda nicelenen her biri için değil, elde edilebilir.

Numunenin tamamına göre hedef dengedeki değişikliği tahmin ediyorum. Bu, özellikle ikiden fazla hedef varsa geçerlidir.

 
Alexey Vyazmikin :

Numunenin tamamına göre hedef dengedeki değişikliği tahmin ediyorum. Bu, özellikle ikiden fazla hedef varsa geçerlidir.

Her durumda, bir sonraki bölünme, niceleme noktası aracılığıyla 2 parçaya bölünecektir.

Büyük 255 parçayı niceleyerek, kuantum sınırını oldukça kabaca değiştirebilirsiniz - boyutunun %5-10-20'si. 65535 kuant uygulayarak, kuantınızın %0,5'lik bir adımına sahip olacaksınız. Ve ağaç en iyi seçeneği seçecektir.

Zor da olsa. Genellikle tam ortada veya çeyreklerde vurur. 65535 kuanta ile orta daha doğru bulunur ve 255 kuanta ile 256 kat daha pürüzlüdür.

 
elibrarius :

Her durumda, bir sonraki bölünme, niceleme noktası aracılığıyla 2 parçaya bölünecektir.

Büyük 255 parçayı niceleyerek, kuantum sınırını oldukça kabaca değiştirebilirsiniz - boyutunun %5-10-20'si. 65535 kuant uygulayarak, kuantınızın %0,5'lik bir adımına sahip olacaksınız. Ve ağaç en iyi seçeneği seçecektir.

Zor da olsa. Genellikle tam ortada veya çeyreklerde vurur. 65535 kuanta ile orta daha doğru bulunur ve 255 kuanta ile 256 kat daha pürüzlüdür.

Bölünme tam olarak bu olacaktır, ancak bölünme %50 değil, eşitsiz olacaktır - üst bölme(ler) ile olan yazışmaya bağlı olarak, ancak mantık, segmentin nerede doygun olduğunu ararsanız, şansın farklı olacağını öne sürüyor. birimler veya tek tip miktar olduklarında (tüm numunenin dengesine göre). Amaç, yapraklardaki örnekten en az %1'ini ve aynı zamanda bir sınıfın etiketlerinin yaklaşık %65'ini elde etmektir.

 
Alexey Vyazmikin :

Bölünme tam olarak bu olacaktır, ancak bölünme %50 değil, eşitsiz olacaktır - üst bölme(ler) ile olan yazışmaya bağlı olarak, ancak mantık , segmentin nerede doygun olduğunu ararsanız, şansın farklı olacağını öne sürüyor. birimler veya tek tip miktar olduklarında (tüm numunenin dengesine göre). Amaç, yapraklardaki örnekten en az %1'ini ve aynı zamanda bir sınıfın etiketlerinin yaklaşık %65'ini elde etmektir.

Bence bu çok zor bir görev.

Ve eğer böyle bir özellik varsa, MO olmadan bile sadece üzerinde çalışabilirsiniz.

Maalesef bizde böyle özellikler yok.

 
Maksim Dmitrievski :

sınavlar için gerekli değildir, ancak kullanışlı olabilir

Sonuçların garip olduğu ortaya çıktı - test ve eğitim örneklerinde Geri çağırma 0.6-0.8 , ve 0.009 dönüşümü olmayan ve 0.65 dönüşümü olan sınavda - burada bir sorun var :(

CatBoost, dönüşüm algoritmasını öğrenmiş gibi geliyor :)

Eski ve yeni satırları işaretlemek mümkün mü? Daha sonra dönüştürülen örnekten dönüştürülen satırları çıkarmak ve bunun bir yorumlama sorunu olup olmadığını veya yüksek kaliteli eğitim olup olmadığını görmek mümkündür.

 
elibrarius :

Bence bu çok zor bir görev.

Ve eğer böyle bir özellik varsa, MO olmadan bile sadece üzerinde çalışabilirsiniz.

Maalesef bizde böyle özellikler yok.

y için - ızgara bölümlemesi ve tüm örnekteki her sınıfın hedefinin toplamının yüzdesi olarak X sapması için. %5 filtreleyin. Farklı alanlarda farklı sınıfların hakim olduğu görülebilir, bir ayna değişikliği vardır - daha sonra belirli bir sınıf nedeniyle iyileşme gerçekleşir (histogram eksiye gider), ancak bazen olmaz. Bütün bunlar eğitimde kullanılmalı ama benim bildiğim standart öğretim yöntemleri bunu pek dikkate almıyor. Genetikle büstün daha etkili olması mümkündür (daha doğrusu eleme için) - yapılmalıdır.