Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 7

 
TheXpert:

Как они могут быть дискретными, если вы работаете с относительными приращениями?

И второй вопрос -- какое количество символов ) ?


А мы их дискретезируем. Есть две основные схемы: это квантили (делаем PDF равномерной) и равные промежутки (PDF очень похожа на результат на сырых данных).

Количество символов задается исследователем.

 
Mathemat:А для меня в этой задаче ТИ - в первую очередь инструмент добычи данных (data mining). Что делать с этими данными - это уже другой вопрос. Важно, что мы действительно видим нечто не заметное невооруженным глазом. И о каких других науках Вы говорите?

Открываю в пакете СТАТИСТИКА закладку "добыча данных" - порядка порядка 20 наименований разделов и отдельных процедур. Все это прекрасно согласуется с учебниками и монографиями в этой области, но ничего про ТИ для добычи данных.

 
alexeymosc:
Очевидно, вроде бы, что в нашей интерпретации процесса - это дискретные значения returns.

Если Вы не привлекаете "экономических и прочих смыслов", то о каких процессах речь идет? Процесс - это "физическое" явление, у него есть причины и есть следствия. Например, процесс падения яблока на голову Ньютону. В приложении к рынкам, процесс купли-продажи. Где это всё в returns?

Следующий момент. Тер.вер., на котором базируется тер.инф., требует независимость рассматриваемых событий, или символов. Иначе использование этих мат.аппаратов некорректно. В каком месте у returns заложена независимость? Допустим я, из спекулятивных побуждений, купил немного акций (речь о настоящем рынке, не о дц), и в ценах случился returns. Через какое то время, по прошествии нескольких returns, я решил продать эти акции, случился другой returns. Это два события совершенно четко связанные между собой, через меня, мои спекулятивные побуждения. Так как на рынке много таких дураков как я, и все они так же покупают-продают, все returns получаются связанные между собой, - зависимые. Так почему Вы пытаетесь применять к зависимым событиям мат.аппарат от независимых? Корректно ли это?

По этому, всё далеко не очевидно.

 
faa1947:

Открываю в пакете СТАТИСТИКА закладку "добыча данных" - порядка порядка 20 наименований разделов и отдельных процедур. Все это прекрасно согласуется с учебниками и монографиями в этой области, но ничего про ТИ для добычи данных.


Это недоработка Статистики. Сам ей пользуюсь, кстати.
 
alexeymosc:

А мы их дискретезируем. Есть две основные схемы: это квантили (делаем PDF равномерной) и равные промежутки (PDF очень похожа на результат на сырых данных).

Количество символов задается исследователем.

Т.е. если мы не знаем алфавита рынка, давайте мы придумаем его себе сами, и будет именно его изучать.

Я конечно могу ошибаться, и делаю это не редко, но вот такой подход мне не кажется удачным.

 
HideYourRichess:

Т.е. если мы не знаем алфавита рынка, давайте мы придумаем его себе сами, и будет именно его изучать.

Я конечно могу ошибаться, и делаю это не редко, но вот такой подход мне не кажется удачным.


Понимаете, я не хочу спорить и не люблю, но так делают исследователи для непрерывных переменных, их дискретезируют. По другому нельзя, альтернатива - вообще не применять ТИ к непрерывным переменным.

А вот как это делать - отдельная тема. Есть методика определения количества символов алфавита через анализ распределения непрерывной величины (называется Parzen Windows - гугл рулит...), но я ей не пользовался в данном случае и думаю немного потерял.

 
Похоже, Вы вообще не поняли, о чём речь шла. Ну что же, Удачи.
 
HideYourRichess:
Похоже, Вы вообще не поняли, о чём речь шла. Ну что же, Удачи.

Я понял про ваши рассуждения о независимости приращений. Не уверен, что могу полностью согласиться. Я бы еще с Mathemat посоветовался на эту тему.
 
HideYourRichess:

Если Вы не привлекаете "экономических и прочих смыслов", то о каких процессах речь идет? Процесс - это "физическое" явление, у него есть причины и есть следствия. Например, процесс падения яблока на голову Ньютону. В приложении к рынкам, процесс купли-продажи. Где это всё в returns?

Следующий момент. Тер.вер., на котором базируется тер.инф., требует независимость рассматриваемых событий, или символов. Иначе использование этих мат.аппаратов некорректно. В каком месте у returns заложена независимость? Допустим я, из спекулятивных побуждений, купил немного акций (речь о настоящем рынке, не о дц), и в ценах случился returns. Через какое то время, по прошествии нескольких returns, я решил продать эти акции, случился другой returns. Это два события совершенно четко связанные между собой, через меня, мои спекулятивные побуждения. Так как на рынке много таких дураков как я, и все они так же покупают-продают, все returns получаются связанные между собой, - зависимые. Так почему Вы пытаетесь применять к зависимым событиям мат.аппарат от независимых? Корректно ли это?

По этому, всё далеко не очевидно.


в данном случае независимость не требуется как я понял, а является как раз предметом оценки.
 
Множество примеров применения ТИ, на русском языке, относятся к анализу буквенного алфавита русского, и других, языков, а также к анализу слов и фраз (последовательностей слов). А ведь все эти символы априори не являются статистически независимыми, и по этим примерам оценивается взаимная информация, величина, которая показывает количество зависимости. Так что априорная независимость изучаемых величин не является необходимым условием корректного применения ТИ.
Причина обращения: