Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 10

 

Разговор о другой зависимости.

Как зависит "а" от "б" вне любого текста? Никак, т.е. "а" из других символов не получишь.

А как зависят скажем 1, 2, 3, 4, 5, 6? Очевидно, что это не очень подходящий для алфавита набор, как его ни обозначай.

Разве не так?

 
TheXpert:

Разговор о другой зависимости.

Как зависит "а" от "б" вне любого текста? Никак, т.е. "а" из других символов не получишь.

А как зависят скажем 1, 2, 3, 4, 5, 6? Очевидно, что это не очень подходящий для алфавита набор, как его ни обозначай.

Разве не так?

почему не подходящий? Шестиричная система исчисления. Нормальный алфавит - не хуже двоичного :)

А русские буквы ю,я,ё можно получить из других букв.

 
Avals:

А русские буквы ю,я,ё можно получить из других букв.

Не буквы а звуки :)

Или как в том анекдоте? "Кокой прастой руске езыг -- слофа "йошь" пишица ф две букфы!"

 
TheXpert:

Не буквы а звуки :)

Или как в том анекдоте? "Кокой прастой руске езыг -- слофа "йошь" пишица ф две букфы!"

ну не ссуть))). Есть и в других языках примеры, где одним символом заменяют несколько т.е. один символ можно получить из других. Я просто несовсем понял принципиальность этого. И вообще, как определить подходящий алфавит или нет
 

Я тоже немного запутался, но что-то мне подсказывает, что HideYourRichess прав.

Сравнение с системой счисления наверное таки не совсем корректно. Число представимо единственным образом, а для котировок -- представлений множество, т.е. получается символ может быть выражен огромным (бесконечным точнее) числом вариантов через другие символы, т.е.

а == цдрмиыкепи == фсрпл == мфлнкп == явлпорпфпор == фвылфрмилфпф == ...

Непорядок, имхо.

 

Господа, я видел статью немецких исследователей как раз в ключе топика. Найду - выложу. То есть я же не предлагаю ничего нового, все уже лет 10 как минимум исследовалось.

Есть такой исследователь Battiti (статью можно поискать по словам Mutual Information Feature Selection). Он отец методики отобора переменных с помощью взаимной информации. Там товарищ работает с разными источниками экспериментальных данных, в частности, с данными о солнечной активности (это вообще популярный источник значений). И результаты исследования подтверждают пользу от статистики I (X,Y) для прогозирования. Надо почитать, как он там дискретезирует случайные значения и создает алфаваит. Никто, кажется, так еще не заморачивался в теории (как местные старожилы).

 

А при чем тут система счисления, TheXpert? Не понимаю, почему разговор перекинулся на системы счисления.

Чесслово, ну вот не вижу ни одного аргумента HideYourRichess, который хоть в чем-то мешал бы применению ТИ к котировкам.

 
Mathemat:

А при чем тут система счисления, TheXpert? Не понимаю, почему разговор перекинулся на системы счисления.

Да не перекинулся, а так, к слову. Чем цифры не алфавит?

Чесслово, ну вот не вижу ни одного аргумента HideYourRichess, который хоть в чем-то мешал бы применению ТИ к котировкам.

Выбор алфавита.

______

Таки я наверное лучше почитаю.

 
TheXpert:

Я тоже немного запутался, но что-то мне подсказывает, что HideYourRichess прав.

Сравнение с системой счисления наверное таки не совсем корректно. Число представимо единственным образом, а для котировок -- представлений множество, т.е. получается символ может быть выражен огромным (бесконечным точнее) числом вариантов через другие символы, т.е.

а == цдрмиыкепи == фсрпл == мфлнкп == явлпорпфпор == фвылфрмилфпф == ...

Непорядок, имхо.


на разных языках напишите слово "Непорядок" и так же будет равенство :) и даже в одном алфавите можно привести примеры синонимов, или устаревшие слова

з.ы. число так же можно представить бесконечным числом способов в зависимости от исчисления, что фактически и есть алфавит

Алфавит вещь условная - придуманная человеком для перечисления большого кол-ва предметов, явлений меньшим кол-вом символов. Само собой, символов д.б. дискретное множество. Других строгих требований к нему нет - вопрос удобства для пользователей

 
Mathemat:

Mathemat:

HideYourRichess, если Вы думаете, что весь тервер сводится к сериям Бернулли или закону больших чисел, то Вы сильно ошибаетесь.

Я не думаю, я это точно знаю.

Эта пять! Хачу две!
HideYourRichess: Вы что, не понимаете, что речь там идёт о последовательности независимых событиях?

О каких независимых событиях Вы говорите? О последовательности символов алфавита от источника? Да нет, не обязательно они независимы, Вам уже это объясняли. Обычный русскоязычный литературный текст - это последовательность зависимых букв. Если бы они были независимыми, литературные тексты сжимались бы архиватором гораздо хуже, чем на самом деле. Возьмите и перемешайте какой-нибудь литературный текст и сравните результаты архивирования исходного и перемешанного.

Или Вы думаете, что ансамбли источника и приемника - независимые переменные?

Понятие информационной энтропии введено Шенноном для независимых символов. Не верите, сверьтесь с академическим словарём. Больше я на эту тему спорить с вами не буду. Посчитать информационную энтропию вы не можете для рынка, так как не знаете алфавит, не знаете частотность символов, независимость символов так же неизвестна (но зато известно, что действия участников рынка очень даже зависимы).

Следующий вопрос, условная энтропия, как раз тот случай когда между символами исходного алфавита есть зависимости. Эта штука не то же самое что и информационная энтропия, о которой шла речь.

Я не понимаю, на какие выводы Вас наводит пример с архиватором, но скажу так. Задача архиватора перевести условную энтропию в информационную. Т.е. создать совершенно определенный ограниченный алфавит, символы из которого, в результирующей последовательности, были бы как можно более независимы. Если Вы упорядоченную структуру литературного текста перемешаете на уровне букв, конечно эти последовательности букв будут нарушены и сжатие ухудшится. Вплоть до того, что совершенно случайный набор буковок нельзя больше сжать. Ну и что? Причем здесь базар?

Причина обращения: