Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 84

 
 да я им тоже всё время говорю, что прогнозировать рынок на 5 лет это не реально. Тут хотябы на неделю, другую построить модель адекватную и быть этому рад, а они хотят построить модель аж за 5 лет. Утопия. И вопрос к всезнающему Алексею, Скажи, а как модель поступить если будут определенны два совершенно одинаковых класса, а рекция рынка в них будет диаметрально противоположной. Так сказать противоречивость данных.... как в таком случае поведёт себя модель???? Ведь сам патерн не важен, важна реакция рынка на этот патерн....
 
Mihail Marchukajtes:
 да я им тоже всё время говорю, что прогнозировать рынок на 5 лет это не реально...

Бесполезно говорить и увещевать. У многих людей имеются когнитивные искажения, среди которых также есть фильтры информации, такие как: если информация не соответствует мировоззрению, то она либо вообще не воспринимается, либо вызывает ответную злобную реакцию.

Т.е. большинство здешних обитателей либо вообще не обратят внимание на твои разговоры, либо начнут ворчать и называть тебя тролем.

Но это не суть. Суть в том, что в jPrediction начиная с 7-й версии появилась возможность оценки значимости предикторов. Для этого, после создания (обучения) новой модели или загрузки ранее сохранённой модели из файла, нужно вызвать пункт меню "View a significant of predictors" или нажать "горячую" клавишу F5:

И можно посмотреть таблицу значимости предикторов:

The best predictor - это самый лучший - наиболее значимый предиктор.  Если из данной выборки удалить столбец "Competitiviness", то после обучения получим сообщение "Garbage in, Garbage out".

The worst predictor - это самый худший - наименее значимый предиктор. Если из данной выборки удалить столбец "Operating risk", то обобщающая способность не ухудшится.

Остальные предикторы помеченные в Description как "-" имеют среднюю значимость. Если их удалить из данной выборки, то обобщающая способность заметно ухудшится.

 
Yury Reshetov:

Бесполезно говорить и увещевать. У многих людей имеются когнитивные искажения, среди которых также есть фильтры информации, такие как: если информация не соответствует мировоззрению, то она либо вообще не воспринимается, либо вызывает ответную злобную реакцию.

Т.е. большинство здешних обитателей либо вообще не обратят внимание на твои разговоры, либо начнут ворчать и называть тебя тролем.

Но это не суть. Суть в том, что в jPrediction начиная с 7-й версии появилась возможность оценки значимости предикторов. Для этого, после создания (обучения) новой модели или загрузки ранее сохранённой модели из файла, нужно вызвать пункт меню "View a significant of predictors" или нажать "горячую" клавишу F5:

И можно посмотреть таблицу значимости предикторов:

The best predictor - это самый лучший - наиболее значимый предиктор.  Если из данной выборки удалить столбец "Competitiviness", то после обучения получим сообщение "Garbage in, Garbage out".

The worst predictor - это самый худший - наименее значимый предиктор. Если из данной выборки удалить столбец "Operating risk", то обобщающая способность не ухудшится.

Остальные предикторы помеченные в Description как "-" имеют среднюю значимость. Если их удалить из данной выборки, то обобщающая способность заметно ухудшится.

Спасибо!!! Крайне полезное дополнение. Продолжаю крутить.... мутить...
 
Yury Reshetov:

Бесполезно говорить и увещевать. У многих людей имеются когнитивные искажения, среди которых также есть фильтры информации, такие как: если информация не соответствует мировоззрению, то она либо вообще не воспринимается, либо вызывает ответную злобную реакцию.

Т.е. большинство здешних обитателей либо вообще не обратят внимание на твои разговоры, либо начнут ворчать и называть тебя тролем.

Но это не суть. Суть в том, что в jPrediction начиная с 7-й версии появилась возможность оценки значимости предикторов. Для этого, после создания (обучения) новой модели или загрузки ранее сохранённой модели из файла, нужно вызвать пункт меню "View a significant of predictors" или нажать "горячую" клавишу F5:

И можно посмотреть таблицу значимости предикторов:

The best predictor - это самый лучший - наиболее значимый предиктор.  Если из данной выборки удалить столбец "Competitiviness", то после обучения получим сообщение "Garbage in, Garbage out".

The worst predictor - это самый худший - наименее значимый предиктор. Если из данной выборки удалить столбец "Operating risk", то обобщающая способность не ухудшится.

Остальные предикторы помеченные в Description как "-" имеют среднюю значимость. Если их удалить из данной выборки, то обобщающая способность заметно ухудшится.

А как вычисляется знАчимость предикторов?
 
СанСаныч Фоменко:
А как вычисляется знАчимость предикторов?

Если очень коротко (но не очень ясно), то значимость предикторов вычисляется по весовым коэффициентам, полученным после обучения.

Более подробно алгоритм вычисления значимости предикторов можно посмотреть в исходниках jPrediction. Ну или придётся написать целую статью, чтобы объяснить более доходчиво.

 
Mihail Marchukajtes:
Спасибо!!! Крайне полезное дополнение. Продолжаю крутить.... мутить...

Главное, что теперь очень быстро можно вычислять малозначимые предикторы и заменять их на другие. После замены нужно обязательно смотреть: увеличилась ли обобщающая способность или нет? Если не увеличилась, то замена была сделана неправильно, т.е. более значимый предиктор был заменён на менее значимый.

Вчера экспериментировал в котировками. Быстро нашёл наиболее значимые осцилляторы ТА. Но их оказалось всего 5 штук. А дальше обобщающая способность уже не растёт, хоть что подставляй. Т.е. получается, что как не перебирай индикаторы и осцилляторы ТА, а по сути они все строятся на одних и тех же данных - небольшом отрезке предыдущей истории (нескольких барах), хоть и они обрабатывают эти данные немного по разному. Все индикаторы и осцилляторы ТА - это одни и те же "яйца", только вид сбоку. Как ни тасуй колоду, а в ней одни и те же карты. Все индюки и осциллы слишком сильно коррелируют друг с другом и очень слабо коррелируют с будущим.

Чтобы повысить обобщающую способность, необходимо ещё какие-то данные откуда-то брать, которые влияют на котировки, но не являются производными от котировок. Т.е. нужны какие-то дополнительные источники информации. А где из взять, ума не приложу? Можно конечно же попробовать в качестве предикторов: фазы луны, объёмы пятен на солнце, результаты игр команды по дворовому футболу г. Мухосранска, уровень воды в реке Вонючке или количество блох на квадратный сантиметр у дворняги Тузика. Но вряд ли они будут значимыми?

 
Yury Reshetov:

Главное, что теперь очень быстро можно вычислять малозначимые предикторы и заменять их на другие. После замены нужно обязательно смотреть: увеличилась ли обобщающая способность или нет? Если не увеличилась, то замена была сделана неправильно, более значимый предиктор заменён на менее значимый.

Вчера экспериментировал в котировками. Быстро нашёл наиболее значимые осцилляторы ТА. Но их оказалось всего 5 штук. А дальше обобщающая способность уже не растёт, хоть что подставляй. Т.е. получается, что как не перебирай индикаторы и осцилляторы ТА, а по сути они все строятся на одних и тех же данных - небольшом отрезке предыдущей истории (нескольких барах), хоть и они обрабатывают эти данные немного по разному. Все индикаторы и осцилляторы ТА - это одни и те же "яйца", только вид сбоку. Как ни тасуй колоду, а в ней одни и те же карты. Все индюки и осциллы слишком сильно коррелируют друг с другом и очень слабо коррелируют с будущим.

Чтобы повысить обобщающую способность, необходимо ещё какие-то данные откуда-то брать, которые влияют на котировки, но не являются производными от котировок. Т.е. нужны какие-то дополнительные источники информации. А где из взять, ума не приложу? Можно конечно же попробовать в качестве предикторов: фазы луны, объёмы пятен на солнце, результаты игр команды по дворовому футболу г. Мухосранска, уровень воды в реке Вонючке или количество блох на квадратный сантиметр у дворняги Тузика. Но вряд ли они будут значимыми?

Насчет астрологии, я бы не отвергал тысячелетнюю практику.  Как болельщик могу сказать, проигрыш любимой команды негативно сказывается на производительности труда.  Если Мухосранск это моногород с каким нибудь сырьевым монополистом типа Норникеля, то может упасть производство , о чем косвенно свидетельствует падение уровня воды в реке Вонючке.

 Невозможно предположить какая бабочка, где и когда, взмахом крыла вызовет цунами.

 
Yury Reshetov:

Главное, что теперь очень быстро можно вычислять малозначимые предикторы и заменять их на другие. После замены нужно обязательно смотреть: увеличилась ли обобщающая способность или нет? Если не увеличилась, то замена была сделана неправильно, т.е. более значимый предиктор был заменён на менее значимый.

Вчера экспериментировал в котировками. Быстро нашёл наиболее значимые осцилляторы ТА. Но их оказалось всего 5 штук. А дальше обобщающая способность уже не растёт, хоть что подставляй. Т.е. получается, что как не перебирай индикаторы и осцилляторы ТА, а по сути они все строятся на одних и тех же данных - небольшом отрезке предыдущей истории (нескольких барах), хоть и они обрабатывают эти данные немного по разному. Все индикаторы и осцилляторы ТА - это одни и те же "яйца", только вид сбоку. Как ни тасуй колоду, а в ней одни и те же карты. Все индюки и осциллы слишком сильно коррелируют друг с другом и очень слабо коррелируют с будущим.

Чтобы повысить обобщающую способность, необходимо ещё какие-то данные откуда-то брать, которые влияют на котировки, но не являются производными от котировок. Т.е. нужны какие-то дополнительные источники информации. А где из взять, ума не приложу? Можно конечно же попробовать в качестве предикторов: фазы луны, объёмы пятен на солнце, результаты игр команды по дворовому футболу г. Мухосранска, уровень воды в реке Вонючке или количество блох на квадратный сантиметр у дворняги Тузика. Но вряд ли они будут значимыми?

Попробуй кумулятивную дельту. Накопление распределение по реальным объёмам..... Zscore системы/ Ye cjjndtcndtyyj dc` 'nj c hfpys[ gfh? vj;yj lf;t 'rpjnbxtcrb[? nfv rjhhtkzwbz ljk;yf jncencndjdfnm ^-)
 
Mihail Marchukajtes:
Попробуй кумулятивную дельту. Накопление распределение по реальным объёмам..... Zscore системы/ Ye cjjndtcndtyyj dc` 'nj c hfpys[ gfh? vj;yj lf;t 'rpjnbxtcrb[? nfv rjhhtkzwbz ljk;yf jncencndjdfnm ^-)
Ну и конечно данныей с других пар, можно даже экзотических не связанных с прогнозной...
 

Может кому то будет интересно,  нашел пакет в котором можно симулировать торговлю, и строить торговые системы называется quantstrat 

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf 

Причина обращения: