Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 637

 
Alexander_K2:

:)))) В этом деле Колдуна надо звать на помощь :)))).

Могу сказать только одно - именно негэнтропия отвечает за состояние тренд/флет. Тренд - это "память" процесса, его "хвост" распределения и негэнтропия при этом огромная, а во флете она почти 0. Сам с этим только разбираюсь, но понимаю важность этого малоисследованного параметра.

Ему уже ниче не поможет.  Переключалка тренд/флет, как ложка к обеду, должна быть хороша вовремя.

Красная лин.- актуал. Син.-модель. В данном примере поздно. Нижний рисунок, модель запаздывает...


 
Mihail Marchukajtes:
Братцы осталось сделать маленький шажок для нас, но это будет огромный шаг для всего человечества.....

Миша, я верил! Я знал! Красавчек! Ты лучший!)))

 
Vizard_:

Миша, я верил! Я знал! Красавчек! Ты лучший!)))

Спасибо за поддержку ДРУЖИЩЕ!!!!! Она мне очень нужна. Только в следующий раз обращаясь в мой адрес пиши правильно.    КрасавчеГГГ!!!! Так звучит намного солидней....

 

Продолжим...

Есть два стобца со значениями, я посчитал вероятность события в столце А и вероятность другого события в слолбце Б. Условие очень просто >0. Посчитал количество событий больше нуля в столце А и разделил на общее число строк, тоже самое посчитал количество значений в столце Б и разделил на общее число наблюдений.

Далее оперируя моими значениями как мне расчитать условную вероятность???? Если учесть что у меня два столба и оба по 40 строк????

 
Mihail Marchukajtes:

Хорошо, зайду с другой стороны. Предположим у меня есть входной набор из 100 входов. Я посчитай энтропию для каждого входа и получил результаты от -10 до 10. Вопрос: Какие входа предпочтительней взять????

Скажем у меня 10 входов ниже нуля, остальные выше, НО все значения лежать в пределах от -10 до 10.....

Mihail Marchukajtes:

И ещё... никак не могу посчитать взаимную информацию.... Вернее условную вероятность, для последующего рассчёта энтропии и ВИ.

Может ктонить объяснить на пальцах или лучше пример.

первый столбик 40 строк входная переменная

второй столбик 40 строк выходная....

Ночью проделал большую работу по выявлению гипотезы. Упёрся вот в эти вещи и никак. Помогите пожалуйста и я выскажу свои соображения по поводу моей гипотезы...


Теорию информации я не изучал, но есть немного опыта с энтропией в R.

По сути, чем больше энтропия тем больше в данных хаоса. Предиктор с высокой энтропией довольно плохо связан с таргетом. И наоборот - низкая энтропия говорит о том что таргет легко определяется из предиктора.

Негэнтропия - противоположность энтропии, никаких новых знаний по сравнению с энропией не приносит, просто введена для удобства. Если у предиктора энтропия большая, то негэнтропия маленькая. Если энтропия маленькая, то негэнтропия большая. Это как жар и холод, свет и тьма, итд, одно плавно переходит в другое.

Но это не всё, есть ещё кросс-энтропия. Это то как оба предиктора вместе связаны с таргетом, высокая кросс-энтропия плохо, низкая - хорошо. В машинном обучении часто бывает что два предиктора с высокой энтропией при совместном использовании дают низкую кросс-энтропию, это то что нам всем нужно. Даже если каждый из предикторов может быть сам по себе плохо связан с таргетом (высокая энтропия у обоих), но вместе они могут попасть в яблочко (низкая кросс-энтропия). Поэтому нельзя просто измерить энтропию каждого предиктора отдельно, и выбрать набор согласно оценке. Нужно подбирать весь набор набор предикторов с низкой кросс-энтропией, я например вообще не смотрю какая у них энтропия по отдельности.

Вот примеры - 

1) Предиктор с высокой энтропией. По нему вообще невозможно предсказать класс таргета.

2) Предиктор с низкой энтропией. Если присмотреться, то если значение предиктора от 0 до 0.25 или меньше 0.4 то значение класса = 1. Иначе класс = 2. Это очень удобный для использования в МО предиктор.

3) два предиктора, у каждого высокая энтропия, и модель никогда не сможет предсказать таргет используя только первый или только второй предиктор. Но нарисовав их вместе (ось X - значение первого, и Y - значение второго) сразу видно что они вместе очень хорошо дают информацию о классе таргета (одинаковый знак у обоих предикторов = класс1, разный знак = класс2). Это пример низкой кросс-энтропии.


 
Mihail Marchukajtes:

Спасибо за поддержку ДРУЖИЩЕ!!!!! Она мне очень нужна. Только в следующий раз обращаясь в мой адрес пиши правильно.    КрасавчеГГГ!!!! Так звучит намного солидней....

Вот за это мы тебя и любим Учитель! Всегда подскажет, всегда поправит! Дорогой ты наш человек!!!)))

                                                                                                   "Свидетели Мишанины". Февраль 2018г.


 
Невзирая на упрёки продолжу. Условная вероятность расчитана мною следующим образом. Количество данных удовлетворяющих условию в первом столце 19, во втором 20. Чтобы найти условную вероятность. Складываю 19+20 и делю это всё на общее количество записей которое равно 80 (40 в первом столбце и 40 во втором). И нужно поделить навероятность.... Если у меня столбец А-вход, а столбец Б-выход, то чтобы узнать условную вероятность входа к выходу нужно общую вероятность поделить на вероятность столбца входа. Правильно???
 
Mihail Marchukajtes:

Опять же вопрос. Есть 8 моделей НС. На текущем сигнале энтропии выходов НС следующие

5.875787568 -5.702601649 5.066989592 9.377441857 7.41065367 1.401022575 4.579082852 5.119647925

Какую выбрать? Красную? ведь у неё отрицательная энтропия или синюю? она ближе к нулю. Скажу что эти две модели смотрят в разные стороны, но мы то знаем что время покажет кто был прав.... В итоге победит какаято одна. Кто что думает по этому поводу???

Суммируя то что я написал выше - нужно сначала определить кроссэнтропию комбинаций предикторов, и взять ту комбинацию предикторов где кроссэнтропия ниже. Странно что она у вас отрицательная, в моём случае она просто от бесконечности до ноля, но не важно, берите самую отрицательную тогда.

Энтропия выхода НС - на мой взгляд плоха как оценка самой нейронки. Можно ведь подогнать выходы сети чтоб она давала правильный ответ в 100% случаев, и получится низкая энтропия, но при этом возможен большой оверфит. Оверфит плохо.

 

Дело в том что я нашёл надстройку для Ексель, которая и расчитывает энтропию. Я её допили в нужный мне вид, не меняя логику расчёта и соотвественно у меня такой вот вопрорс. Объясните что тут происходит в расчёте этих циклоа. Что конкретно они делают я понял, но вот каким то видать другим способом.... ХМ....

For Each Value In ActiveSheet.Range(Data1)

    X(I) = Value

    Nn = Nn + Value

    I = I + 1

  Next Value

В этом цикле происходит запись массива Х и также идёт накопительная сумма, как бы вопросов нет, а вот дальше....

For I = 1 To N

    X(I) = X(I) / Nn

Next I

Мы каждый элемент массива делим на общую сумму значений, я так подозреваю что это как раз таки поиск частоты. Правильно????

Ну всё... вроде понял, чтобы узнать вероятность, нам нужно сложить все частоты. Так ведь?

 
Dr. Trader:

Суммируя то что я написал выше - нужно сначала определить кроссэнтропию комбинаций предикторов, и взять ту комбинацию предикторов где кроссэнтропия ниже. Странно что она у вас отрицательная, в моём случае она просто от бесконечности до ноля, но не важно, берите самую отрицательную тогда.

Энтропия выхода НС - на мой взгляд плоха как оценка самой нейронки. Можно ведь подогнать выходы сети чтоб она давала правильный ответ в 100% случаев, и получится низкая энтропия, но при этом возможен большой оверфит. Оверфит плохо.

Чтобы найти кросс энтропию сначала нужно найти условную энтропию двух событий чем собственно сейчас и занимаюсь....

А оценка энтропии модели нужна в момент работы модели на ООС. Выдав сигнал мы сможем посчитать энтропию этого сигнала и уже по ней сделать выводы. Энтропия сигнала выросла. Ну его нафиг, упала- это наш паровоз....

Причина обращения: