Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 11

 
HideYourRichess:

Понятие информационной энтропии введено Шенноном для независимых символов. Не верите, сверьтесь с академическим словарём. Больше я на эту тему спорить с вами не буду. Посчитать информационную энтропию вы не можете для рынка, так как не знаете алфавит, не знаете частотность символов, независимость символов так же неизвестна.

Следующий вопрос, условная энтропия, как раз тот случай когда между исходного алфавита есть зависимости. Эта штука не то же самое что и информационная энтропия, о которой шла речь.

Я не понимаю, на какие выводы Вас наводит пример с архиватором, но скажу так. Задача архиватора перевести условную энтропию в информационную. Т.е. создать совершенно определенный ограниченный алфавит, символы из которого, в результирующей последовательности, были бы как можно более независимы. Если Вы упорядоченную структуру литературного текста перемешаете на уровне букв, конечно эти последовательности букв будут нарушены и сжатие ухудшится. Вплоть до того, что совершенно случайный набор буковок нельзя больше сжать.


Мне кажется парадоксальной ваша постановка вопроса изначально. Если в результате подсчета взаимной информации получаем значение, отличное от 0, значит мы брали алфавит с зависимостями. Если изучать независимые значения, то взаимная информация всегда будет равняться 0 (или очень близко к этому значению).
 
Взаимная энтропия это не то же что условная и не то же что информационная.
 
TheXpert: Чем цифры не алфавит?

Алфавит - но не система счисления.

Выбор алфавита.

ОК, пусть так. Я строил алфавит так:

Нахожу безусловное распределение возвратов на всей истории (EURUSD, H1, примерно 10 лет). Гистограмма более-менее известна. Это некая кривая, напоминающая колокол Гаусса, но с отличиями около нуля и в хвостовых частях. Рисовать тут ее не буду.

Затем выбираю, на сколько квантилей буду делить распределение. Скажем, на 30. Это и будет алфавит. Вот он какой:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0.000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

Пояснения: вначале идет номер квантиля (от 0 до 29). Затем идет полуинтервал, характеризующий границы квантиля в пятизнаковых пипсах. Скажем, квантиль 22 соответствует положительному возврату от 62 до 80 пунктов. И последнее число - это количество значений, попавших в этот квантиль (для контроля корректности разбиения на квантили).

Да, не очень красиво для крупных возвратов, т.к. в реальности возвраты могут быть примерно до 3000 новых пунктов. Ну это жирные хвосты, ничего не поделаешь...

Такой алфавит был удобен именно мне при вычислении критерия хи-квадрат. Удобен тем, что даже для очень серьезных отклонений от независимости минимальная частота совместного попадания не была меньше 5 (это условие корректности хи-квадрата). Возможно, другой выбор алфавита будет лучше.

А вообще, скажем, при числе квантилей 50 внутренние границы крайних квантилей отодвигаются примерно до 380 новых пунктов (вместо прежних 300). Это уже получше, но все еще не очень.

 
Mathemat:

Затем выбираю, на сколько квантилей буду делить распределение. Скажем, на 30. Это и будет алфавит. Вот он какой:

если не затруднит, то расскажите как анализировать данные с использованием алфавита? я сейчас схожей задачей бьюсь, пока анализирую с помощью НС в матлабе.

есть ли какие способы анализа данных представленных в виде алфавита кроме НС?

 
Mathemat:

Вполне реально. Пределов вроде там не заметил, а вот суммы и логарифмы в MQL4 сделать можно. Что делал sergeev, не знаю. Но, насколько мне известно из других источников, самой сложной частью расчетов было вычисление гамма-функции. Ни о какой ТИ там речи не было.


Люди писали индикатор по статье Ю.Султонова "Универсальной регрессионная модель для прогнозирования рын. цены" - вот в кодобазе.

Там же используются подобные какие-то конструкции? Или нет?

 
HideYourRichess:
Взаимная энтропия это не то же что условная и не то же что информационная.

От вопроса Вы уходите. Какова цель применения статистики взаимной информации, если в качестве требования мы предъявляем к системе назависимость случайных значений? Взаимная информация будет равна нулю в таком случае. Это уж везде написано.

И еще скажу, ввод понятия энтропии в ТИ был характерен для советской школы. Американцы дают следующую классическую формулу расчета взаимной информации:

То есть, здесь нет энтропии как понятия.

 
HideYourRichess: Понятие информационной энтропии введено Шенноном для независимых символов. Не верите, сверьтесь с академическим словарём.

Нашел статью об информационной энтропии (Вики). Цитата 1 оттуда:

Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.

Это - энтропия, обычная энтропия. Вы об этом определении толкуете?

Да, готов согласиться, что буквы алфавита должны быть статистически независимы, чтобы не было избыточности и зависимостей. Именно этим примерно и занимается архиватор, создавая алфавит, явно отличный от алфавита, использованного при создании текста.

Но мы ж не это считаем! О том, что мы считаем, - дальше.

Далее, Вам уже приводили Цитату 2 оттуда же:
Условная энтропия

Если следование символов алфавита не независимо (например, во французском языке после буквы «q» почти всегда следует «u», а после слова «передовик» в советских газетах обычно следовало слово «производства» или «труда»), количество информации, которую несёт последовательность таких символов (а, следовательно, и энтропия), очевидно, меньше. Для учёта таких фактов используется условная энтропия.

Это - другое, и Вы уже написали по этому поводу:

HideYourRichess: Следующий вопрос, условная энтропия, как раз тот случай когда между символами исходного алфавита есть зависимости. Эта штука не то же самое что и информационная энтропия, о которой шла речь.

Речь топикстартера (и моя тоже) шла не об информационной энтропии, а, черт побери, о взаимной информации (снова Вики)!!

Взаимная информация — статистическая функция двух случайных величин, описывающая количество информации, содержащееся в одной случайной величине относительно другой.

Взаимная информация определяется через энтропию и условную энтропию двух случайных величин как [дальше идет формула для I(X,Y)]

Теперь - Ваш последний довод:

HideYourRichess: Задача архиватора перевести условную энтропию в информационную. Т.е. создать совершенно определенный ограниченный алфавит, символы из которого, в результирующей последовательности, были бы как можно более независимы. Если Вы упорядоченную структуру литературного текста перемешаете на уровне букв, конечно эти последовательности букв будут нарушены и сжатие ухудшится. Вплоть до того, что совершенно случайный набор буковок нельзя больше сжать. Ну и что? Причем здесь базар?

Базар при том, что речь идет не о том, что Вы называете информационной энтропией, а о взаимной информации. Всё. Точка. Базар окончен.

 
IgorM:

если не затруднит, то расскажите как анализировать данные с использованием алфавита? я сейчас схожей задачей бьюсь, пока анализирую с помощью НС в матлабе.

есть ли какие способы анализа данных представленных в виде алфавита кроме НС?

Честно говоря, не очень понял Ваш вопрос. Просто приписываем каждому символу алфавита порядковый номер - а дальше анализируем числа как обычно. Возможно, есть что-то специфичное, но мне это не известно.

Roman.: Люди писали индикатор по статье Ю.Султонова "Универсальной регрессионная модель для прогнозирования рын. цены" - вот в кодобазе.

Там же используются подобные какие-то конструкции? Или нет?

Да нет там даже намека ни на тервер/статистику, ни на теорию информации! Юсуф разместил свой пост в этой теме, но он оказался офтопиком, т.к. к теме обсуждения не имеет никакого отношения. Хотя... да, логарифмы там, кажись, были...
 
Mathemat:

Да нет там даже намека ни на тервер/статистику, ни на теорию информации! Хотя... да, логарифмы там, кажись, были...

Я лишь к тому, что кривулины с загогулинами здесь и здесь по мне уж сильно похожи... :-))), включая наличие гамма - распределения, следовательно, и подходы к решению должны быть ПОДОБНЫ.

Такое возможно, хотя бы УСЛОВНО?

 

В том-то и фишка, что функция гамма-распределения появляется в статье как бы из воздуха, якобы при решении детерминистской дифуры движения, - но не в результате статистического или терверного анализа. Роман, пока не вижу никакого подобия в подходах к решению - даже условно.

Но если внимательно присмотреться, то некое подобие все же можно найти - скажем, в слове "распределение", которое тоже встречается в статье Юсуфа :)

Причина обращения: