Alıntılardaki bağımlılık istatistikleri (bilgi teorisi, korelasyon ve diğer özellik seçim yöntemleri) - sayfa 11

 
HideYourRichess :

Bilgi entropisi kavramı, bağımsız semboller için Shannon tarafından tanıtıldı. Bana inanmıyorsanız, akademik sözlüğe bakın. Bu konu hakkında seninle daha fazla tartışmayacağım. Piyasa için bilgi entropisini hesaplayamazsınız çünkü alfabeyi bilmiyorsunuz, sembollerin sıklığını bilmiyorsunuz, sembollerin bağımsızlığı da bilinmiyor.

Bir sonraki soru, koşullu entropi, orijinal alfabe arasında bağımlılıklar olduğunda tam olarak durumdur. Bu, tartışılan bilgi entropisi ile aynı şey değil.

Arşivleyici örneğinin sizi hangi sonuçlara götürdüğünü anlamıyorum ama şunu söyleyeceğim. Arşivleyicinin görevi, koşullu entropiyi bilgi olana çevirmektir. Onlar. Karakterlerin elde edilen dizide mümkün olduğunca bağımsız olacağı mükemmel bir şekilde tanımlanmış sınırlı bir alfabe oluşturun. Edebi metnin sıralı yapısını harf düzeyinde karıştırırsanız, elbette bu harf dizileri bozulacak ve sıkıştırma kötüleşecektir. Tamamen rastgele bir harf kümesinin artık sıkıştırılamayacağı noktaya kadar.


Bana başlangıçta soruyla ilgili ifadeniz paradoksal görünüyor. Karşılıklı bilgileri sayma sonucunda 0'dan farklı bir değer alırsak, bağımlılıkları olan bir alfabe aldık. Bağımsız değerler üzerinde çalışıyorsanız, karşılıklı bilgi her zaman 0 olacaktır (veya bu değere çok yakın).
 
Karşılıklı entropi, koşullu ile aynı değildir ve bilgisel ile aynı değildir.
 
TheXpert : Rakamlar neden bir alfabe değil?

Alfabe - ama bir sayı sistemi değil.

Alfabe seçimi.

Tamam, öyle olsun. Alfabeyi şöyle oluşturdum:

Tarih boyunca koşulsuz bir getiri dağılımı buluyorum (EURUSD, H1, yaklaşık 10 yıl). Histogram az çok bilinir. Bu, bir Gauss çanını andıran bir tür eğridir, ancak sıfıra yakın ve kuyruk kısımlarında farklılıklar vardır. Onu buraya çizmeyeceğim.

Sonra dağılımı kaç kuantile böleceğimi seçerim. 30 diyelim. Bu alfabe olacak. İşte burada:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0,000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

Açıklamalar: önce nicelik numarası gelir (0'dan 29'a kadar). Ardından, kuantilin sınırlarını beş basamaklı piplerle karakterize eden yarı aralık gelir. Diyelim ki nicelik 22, 62'den 80 puana kadar pozitif bir getiriye karşılık geliyor. Ve son sayı, bu niceliğe düşen değerlerin sayısıdır (kuantillere bölünmenin doğruluğunu kontrol etmek için).

Evet, büyük getiriler için pek hoş değil çünkü. gerçekte, iadeler yaklaşık 3.000 yeni ürün olabilir. Eh, bunlar şişman kuyruklar, hiçbir şey yapılamaz ...

Ki-kare testini hesaplarken böyle bir alfabe benim için uygun oldu. Bu uygundur, çünkü bağımsızlıktan çok ciddi sapmalar için bile, minimum eklem vuruş sıklığı 5'ten az değildi (ki-karenin doğruluğu için koşul budur). Belki farklı bir alfabe seçimi daha iyi olurdu.

Genel olarak, diyelim ki, nicelik sayısı 50 olduğunda, aşırı niceliklerin iç sınırları yaklaşık 380 yeni noktaya taşınır (önceki 300 yerine). Zaten daha iyi, ama yine de harika değil.

 
Mathemat :

Sonra dağılımı kaç kuantile böleceğimi seçerim. 30 diyelim. Bu alfabe olacak. İşte burada:

zor değilse, bize alfabeyi kullanarak verileri nasıl analiz edeceğimizi söyleyin? Şimdi matlab'da NS yardımıyla analiz ederken benzer bir görevle mücadele ediyorum.

NN dışında bir alfabe şeklinde sunulan verileri analiz etmenin herhangi bir yolu var mı?

 
Mathemat :

Oldukça gerçek . Orada herhangi bir sınır fark etmedim, ancak MQL4'te toplamlar ve logaritmalar yapılabilir. Sergeev'in ne yaptığını bilmiyorum. Ama diğer kaynaklardan bildiğim kadarıyla hesaplamaların en zor kısmı gama fonksiyonunun hesaplanmasıydı. Herhangi bir TI konuşulmadı.


İnsanlar göstergeyi Y. Sultonov'un "Piyasa fiyatlarını tahmin etmek için evrensel regresyon modeli" makalesine göre yazdı - burada kod tabanında.

Orada kullanılan benzer yapılar var mı? Ya da değil?

 
HideYourRichess :
Karşılıklı entropi, koşullu ile aynı değildir ve bilgisel ile aynı değildir.

Sen soruyu bırak. Bir gereklilik olarak sisteme rastgele değerlerin bağımsızlığını dayatıyorsak, karşılıklı bilgi istatistiklerini uygulamanın amacı nedir? Bu durumda karşılıklı bilgi sıfıra eşit olacaktır. Her yerde yazıyor.

Ayrıca entropi kavramının TI'ye girişinin Sovyet okulunun özelliği olduğunu söyleyeceğim. Amerikalılar karşılıklı bilgiyi hesaplamak için aşağıdaki klasik formülü veriyorlar:

Yani kavram olarak entropi yoktur.

 
HideYourRichess : Bilgi entropisi kavramı, bağımsız semboller için Shannon tarafından tanıtıldı. Bana inanmıyorsanız, akademik sözlüğe bakın.

Bilgisel entropi hakkında bir makale buldum (Wiki). Oradan 1 alıntı:

Entropi , istatistiksel olarak bağımsız mesajlar üreten bir kaynağın temel mesajı başına bilgi miktarıdır.

Bu entropi, sıradan entropi. Bu tanımdan mı bahsediyorsunuz?

Evet, fazlalık ve bağımlılık olmaması için alfabedeki harflerin istatistiksel olarak bağımsız olması gerektiğine katılmaya hazırım. Arşivleyicinin yaptığı tam olarak budur, metni oluşturmak için kullanılan alfabeden açıkça farklı bir alfabe oluşturur.

Ama biz öyle düşünmüyoruz! Ne düşündüğümüz hakkında daha fazlası.

Ayrıca, aynı yerden size zaten 2. Alıntı verildi:
koşullu entropi

Alfabetik karakterlerin sırası bağımsız değilse (örneğin, Fransızca'da “q” harfini neredeyse her zaman “u” izler ve Sovyet gazetelerinde “lider” kelimesinden sonra “üretim” veya “emek” kelimesi gelir. genellikle takip edildi), bu tür sembollerin (ve dolayısıyla entropinin) dizisini taşıyan bilgi miktarı açıkça daha küçüktür. Bu tür gerçekleri açıklamak için koşullu entropi kullanılır.

Bu farklı ve bunun hakkında zaten yazdınız:

HideYourRichess : Bir sonraki soru, koşullu entropi, kaynak alfabenin karakterleri arasında bağımlılıklar olduğunda tam olarak durumdur. Bu, tartışılan bilgi entropisi ile aynı şey değil.

Topicstarter'ın konuşması (ve benimki de) bilgi entropisi hakkında değil, kahretsin, karşılıklı bilgi hakkındaydı (yine Wiki)!!

Karşılıklı bilgi , bir rastgele değişkende bulunan bilgi miktarını diğerine göre tanımlayan iki rastgele değişkenin istatistiksel bir fonksiyonudur.

Karşılıklı bilgi, iki rastgele değişkenin entropisi ve koşullu entropisi cinsinden [I(X,Y) formülü aşağıdaki gibi] tanımlanır.

Şimdi son noktanız için:

HideYourRichess : Arşivleyicinin görevi koşullu entropiyi bilgi entropiye dönüştürmektir. Onlar. mükemmel tanımlanmış sınırlı bir alfabe yaratın, karakterlerin ortaya çıkan dizide mümkün olduğunca bağımsız olacağı. Edebi metnin sıralı yapısını harf düzeyinde karıştırırsanız, elbette bu harf dizileri bozulacak ve sıkıştırma kötüleşecektir. Tamamen rastgele bir harf kümesinin artık sıkıştırılamayacağı noktaya kadar. Ne olmuş? Peki ya çarşı?

Çarşı, bilgi entropisi dediğiniz şeyden değil, karşılıklı bilgiden bahsetmemize rağmen. Her şey. Nokta. Piyasa bitti.

 
IgorM :

zor değilse, bize alfabeyi kullanarak verileri nasıl analiz edeceğimizi söyleyin? Şimdi matlab'da NS yardımıyla analiz ederken benzer bir görevle mücadele ediyorum.

NN dışında bir alfabe şeklinde sunulan verileri analiz etmenin herhangi bir yolu var mı?

Dürüst olmak gerekirse, sorunuzu gerçekten anlamadım. Alfabenin her karakterine bir seri numarası atarız - ve sonra sayıları her zamanki gibi analiz ederiz. Belki özel bir şey vardır, ama bilmiyorum.

Roman.: İnsanlar göstergeyi Y. Sultonov'un "Piyasa fiyatlarını tahmin etmek için evrensel regresyon modeli" makalesine dayanarak yazdı - burada kod tabanında.

Orada kullanılan benzer yapılar var mı? Ya da değil?

Evet, ne terver / istatistik ne de bilgi teorisi hakkında bir ipucu bile yok! Yusuf , gönderisini bu konuya gönderdi, ancak konu dışı olduğu ortaya çıktı, çünkü tartışma konusu ile ilgisi yoktur. Her ne kadar ... evet, orada logaritmalar varmış gibi görünüyordu ...
 
Mathemat :

Evet, ne terver / istatistik ne de bilgi teorisinin bir ipucu bile yok! Her ne kadar ... evet, orada logaritmalar var gibiydi ...

Demek istediğim, burada ve burada dalgalı eğriler bana çok benziyor ... :-))), bir gama dağılımının varlığı da dahil olmak üzere, bu nedenle çözüme yaklaşımlar BENZER olmalıdır.

Bu, en azından ŞARTLI OLARAK mümkün mü?

 

İşin püf noktası, gama dağılım işlevinin makalede, sözde deterministik hareket difurasını çözerken, sanki havadan çıkmış gibi görünmesi, ancak istatistiksel veya terver analizinin bir sonucu olmamasıdır. Roman , şimdiye kadar çözüme yaklaşımlarda herhangi bir benzerlik görmüyorum - şartlı olarak bile.

Ama yakından bakarsanız, yine de benzerlik bulabilirsiniz - diyelim ki, Yusuf'un makalesinde de bulunan "dağıtım" kelimesinde :)

Neden: