Обсуждение статьи "Оценка и выбор переменных для моделей машинного обучения" - страница 2

 

Alexey Oreshkin:

...а воз и ныне там.... с такими даже не интересно говорить.

Взаимно, т.е. нет никакого интереса общаться с ламерами, у которых воз и ныне там, поскольку они ничего не могут предложить, кроме как бегать по всем топикам, горлопанить и навязывать своё малахольное мнение о том, что якобы "ничего не работает". Гораздо интереснее общаться с теми, кто предлагает решение проблем "сдвига воза" в нужную сторону на основании личного опыта, а не на голословной отсебятине.
 

Статья интересная. Спасибо автору за труд. Неплохо бы продемонстрировать описанные методы на конкретном примере. Предлагаю такой пример: предсказание S&P500 на два квартала вперёд. Я этим занимаюсь уже долгое время и обсуждаю свои результаты на другой ветке. У меня своя методика выбора входов и нормализации их. Это всё там описано. Я дам вам и всем желающим файл со всеми квартальными экономическими данными начиная с 1960-го года. Могу также дать S&P500 усреднённые квартальные значения за тот же период.

Задача:

1. Выбрать входные данные. Можете выбирать из экономических данных, а также из всех известных индикаторов самого ценового ряда S&P500.

2. Нормализовать данные. 

3. Создать и обучить модель предсказания квартальных S&P500 значений на промежутке от 1960 года до 1999 года включительно. Начало обучающей истории можно выбрать любым.

4. Показать поведение модели вне обучающей истории, на промежутке 2000-сегодня.

5. Показать ошибку предсказания на два квартала вперёд на обучающем промежутке и вне. Ошибка на нормализованных данных расчитывается таким образом:

Err = SQRT { SUM(Предсказание[i] - Реальное Значение[i])^2 / SUM(Реальное Значение[i])^2 }

Расчёт ошибки предсказания таким образом имеет глубокий смысл. Общепринятая методика расчёта ошибки модели основана на СКО:

СКО_модель = SUM(Предсказание[i] - Реальное Значение[i])^2

Банальные предсказания основаны на предположении что ненормализованное значение предсказуемой переменной будет равно её последнему известному значению. При нормализации по отношения к последнему известному значению, банальное предсказание это просто 0. Таким образом, СКО банальных нормализованных предсказаний равна:

СКО_банальная = SUM(0 - Реальное Значение[i])^2 = SUM(Реальное Значение[i])^2

Предлагаемая формула расчёта ошибки предсказаний Err это просто квадратный корень отношения СКО_модель/СКО_банальная. Если Err > 1, то построенная модель хуже банальных предсказаний.

Если мое предложение интересует вас, то помещю здесь таблицы экономических показателей и S&P500. Детали модели, нормализации данных, и их выбора меня не интересуют. Меня интересуют результаты предсказаний на необученном участке 2000 год - сегодня (график реальных значений и предсказанных и ошибка предсказаний расчитанная по моей формуле Err).

 
Vladimir:

Статья интересная. Спасибо автору за труд. Неплохо бы продемонстрировать описанные методы на конкретном примере. Предлагаю такой пример: предсказание S&P500 на два квартала вперёд. Я этим занимаюсь уже долгое время и обсуждаю свои результаты на другой ветке. У меня своя методика выбора входов и нормализации их. Это всё там описано. Я дам вам и всем желающим файл со всеми квартальными экономическими данными начиная с 1960-го года. Могу также дать S&P500 усреднённые квартальные значения за тот же период.

Задача:

1. Выбрать входные данные. Можете выбирать из экономических данных, а также из всех известных индикаторов самого ценового ряда S&P500.

2. Нормализовать данные. 

3. Создать и обучить модель предсказания квартальных S&P500 значений на промежутке от 1960 года до 1999 года включительно. Начало обучающей истории можно выбрать любым.

4. Показать поведение модели вне обучающей истории, на промежутке 2000-сегодня.

5. Показать ошибку предсказания на два квартала вперёд на обучающем промежутке и вне. Ошибка на нормализованных данных расчитывается таким образом:

Err = SQRT { SUM(Предсказание[i] - Реальное Значение[i])^2 / SUM(Реальное Значение[i])^2 }

Расчёт ошибки предсказания таким образом имеет глубокий смысл. Общепринятая методика расчёта ошибки модели основана на СКО:

СКО_модель = SUM(Предсказание[i] - Реальное Значение[i])^2

Банальные предсказания основаны на предположении что ненормализованное значение предсказуемой переменной будет равно её последнему известному значению. При нормализации по отношения к последнему известному значению, банальное предсказание это просто 0. Таким образом, СКО банальных нормализованных предсказаний равна:

СКО_банальная = SUM(0 - Реальное Значение[i])^2 = SUM(Реальное Значение[i])^2

Предлагаемая формула расчёта ошибки предсказаний Err это просто квадратный корень отношения СКО_модель/СКО_банальная. Если Err > 1, то построенная модель хуже банальных предсказаний.

Если мое предложение интересует вас, то помещю здесь таблицы экономических показателей и S&P500. Детали модели, нормализации данных, и их выбора меня не интересуют. Меня интересуют результаты предсказаний на необученном участке 2000 год - сегодня (график реальных значений и предсказанных и ошибка предсказаний расчитанная по моей формуле Err).

Все, что Вами описано - это предсказание регрессии, т.е. предсказывается некая величина с указанием доверительного интервала

 

Мне не понятна практическая ценность таких предсказаний в трейдинге. И вот почему.

Терминал поддерживает приказы купить/продать. Это чистой воды номинальная переменная, принимающая качественные значения.

Можно вспомнить, что имеются еще лимитные приказы. Но в их основе также указываются купить/продать.

Если мы предсказываем значение, а не "купить/продать", то оказывается, что ошибка предсказания может покрывать последнее значение  предсказываемой переменной и не возможно определить тип приказа buy/sell.

 

ПС. Регрессионные модели машинного обучения широчайше применяются в экономике, практически во всех фирмах, например, при прогнозе объема продаж. На валютных рынках при хеджировании валютных рисков (комплектующие за валюты, а сбыт за рубли). Но в трейдинге?  

 
СанСаныч Фоменко:

Все, что Вами описано - это предсказание регрессии, т.е. предсказывается некая величина с указанием доверительного интервала

 

Мне не понятна практическая ценность таких предсказаний в трейдинге. И вот почему.

Терминал поддерживает приказы купить/продать. Это чистой воды номинальная переменная, принимающая качественные значения.

Можно вспомнить, что имеются еще лимитные приказы. Но в их основе также указываются купить/продать.

Если мы предсказываем значение, а не "купить/продать", то оказывается, что ошибка предсказания может покрывать последнее значение  предсказываемой переменной и не возможно определить тип приказа buy/sell.

 

ПС. Регрессионные модели машинного обучения широчайше применяются в экономике, практически во всех фирмах, например, при прогнозе объема продаж. На валютных рынках при хеджировании валютных рисков (комплектующие за валюты, а сбыт за рубли). Но в трейдинге?  

Если на выходе сигналы купить или продать, то как в таком случае оцениваем важность или пригодность входов согласно данной статьи? Как мы будем количественно оценивать успешность модели? На основе прибыли? На основе drawdown? PF? Видел я тут такие модели много раз, пальцем тыкать не буду, авторы сами себя распознают. Выбор торговых показателей как целевой функциеи для оценки входов и модели чреват тем что вместо правильного выбора входов и модели, создатели начинают химичить с разными способами измерения успеха и заканчивают советниками-пересижывателями/сливаторами. Тут много творческих возможностей для само-обмана.
 
Vladimir:
Если на выходе сигналы купить или продать, то как в таком случае оцениваем важность или пригодность входов согласно данной статьи? Как мы будем количественно оценивать успешность модели? На основе прибыли? На основе drawdown? PF? Видел я тут такие модели много раз, пальцем тыкать не буду, авторы сами себя распознают. Выбор торговых показателей как целевой функциеи для оценки входов и модели чреват тем что вместо правильного выбора входов и модели, создатели начинают химичить с разными способами измерения успеха и заканчивают советниками-пересижывателями/сливаторами. Тут много творческих возможностей для само-обмана.

Регрессия имеет свои оценки, а классификация имеет свои оценки.

Наиболее очевидный способ оценить результативность моделей классификации - это процент совпадения классов факта и предсказания (процент правильно предсказанных buy/sell). В статье используются более информативные методы оценки результативности моделей классификации. Не только используются, но и указаны инструменты.

ПС. 

Наиболее распространен ROC. 

 
Yury Reshetov:

Где вы увидели регрессию? В статье рассматривается бинарная классификация:

Я отвечал Vladimir 
 
СанСаныч Фоменко:

Регрессия имеет свои оценки, а классификация имеет свои оценки.

Наиболее очевидный способ оценить результативность моделей классификации - это процент совпадения классов факта и предсказания (процент правильно предсказанных buy/sell). В статье используются более информативные методы оценки результативности моделей классификации. Не только используются, но и указаны инструменты.

ПС. 

Наиболее распространен ROC. 

Под классификацией имеете в виду классификацию баров на BUY, SELL, HOLD, правильно? Такая классификация в принципе неправильна так как неодназначна. Например, можно классифицировать какой-то бар как BUY даже если цена пошла вниз после него и потом спорить что сигнал был правильным так как нужно было пересиживать drawdown пока не вышли на прибыль. Тот же бар с тем же успехом можно классифицироать как SELL так как цена пошла вниз. Тот же бар можно классифицировать как HOLD если цена после атого бара колеблется в корридоре меньше ожидаемой прибыли. Так пто получается неодназначность. При такой классификации нужно добавлять дополнительные условия, например сколько позволим drawdown, сколько времени будем ждать пока не выйдем на прибыль, какая цель прибыли, что делаем при закрытии сессии (ждём понедельника?).

Намного проще классифицировать бары по ожидаемому направлению движения цены на данном баре: верх или вниз. В моём описанном выше примере предсказания S&P500, вместо предсказаний количественного движения цены на два квартала вперёд, можно ограничится предскзаниями направления движения цены. Это будет одназначно и ошибку можно расчитывать как % правильности угадывания направления движения.

Мое предложение вверху остаётся в силе, но мне так кажется что писуны статей здесь так и будут продолжать описывать методики и руководства по использованию каких-то инструментов вместо демонстрации этих инструментов на конкретных примерах. Теория всё это, а деньги зарабатываются написанием статей и книг, а не сипользованием этих инструментов в торговле. Спор о практической пользы статей здесь уже не новый.

 
Vladimir:

Под классификацией имеете в виду классификацию баров на BUY, SELL, HOLD, правильно? Такая классификация в принципе неправильна так как неодназначна. Например, можно классифицировать какой-то бар как BUY даже если цена пошла вниз после него и потом спорить что сигнал был правильным так как нужно было пересиживать drawdown пока не вышли на прибыль. Тот же бар с тем же успехом можно классифицироать как SELL так как цена пошла вниз. Тот же бар можно классифицировать как HOLD если цена после атого бара колеблется в корридоре меньше ожидаемой прибыли. Так пто получается неодназначность. При такой классификации нужно добавлять дополнительные условия, например сколько позволим drawdown, сколько времени будем ждать пока не выйдем на прибыль, какая цель прибыли, что делаем при закрытии сессии (ждём понедельника?).

Намного проще классифицировать бары по ожидаемому направлению движения цены на данном баре: верх или вниз. В моём описанном выше примере предсказания S&P500, вместо предсказаний количественного движения цены на два квартала вперёд, можно ограничится предскзаниями направления движения цены. Это будет одназначно и ошибку можно расчитывать как % правильности угадывания направления движения.

Мое предложение вверху остаётся в силе, но мне так кажется что писуны статей здесь так и будут продолжать описывать методики и руководства по использованию каких-то инструментов вместо демонстрации этих инструментов на конкретных примерах. Теория всё это, а деньги зарабатываются написанием статей и книг, а не сипользованием этих инструментов в торговле. Спор о практической пользы статей здесь уже не новый.

1. Если бы Вам привили в детстве привычку читать книги и статьи, то Вы бы поняли, что написанное мною и автором статьи и написанное Вами - об одном и том же.

2. Если бы Вам в детстве привили привычку уважать других людей, то Вы бы не позволили себе писАть или пИсать "писуны".

Удачи Вам в обучении читать. 

 
Vladimir:

Под классификацией имеете в виду классификацию баров на BUY, SELL, HOLD, правильно? Такая классификация в принципе неправильна так как неодназначна. Например, можно классифицировать какой-то бар как BUY даже если цена пошла вниз после него и потом спорить что сигнал был правильным так как нужно было пересиживать drawdown пока не вышли на прибыль. Тот же бар с тем же успехом можно классифицироать как SELL так как цена пошла вниз. Тот же бар можно классифицировать как HOLD если цена после атого бара колеблется в корридоре меньше ожидаемой прибыли. Так пто получается неодназначность. При такой классификации нужно добавлять дополнительные условия, например сколько позволим drawdown, сколько времени будем ждать пока не выйдем на прибыль, какая цель прибыли, что делаем при закрытии сессии (ждём понедельника?).

Намного проще классифицировать бары по ожидаемому направлению движения цены на данном баре: верх или вниз. В моём описанном выше примере предсказания S&P500, вместо предсказаний количественного движения цены на два квартала вперёд, можно ограничится предскзаниями направления движения цены. Это будет одназначно и ошибку можно расчитывать как % правильности угадывания направления движения.

Мое предложение вверху остаётся в силе, но мне так кажется что писуны статей здесь так и будут продолжать описывать методики и руководства по использованию каких-то инструментов вместо демонстрации этих инструментов на конкретных примерах. Теория всё это, а деньги зарабатываются написанием статей и книг, а не сипользованием этих инструментов в торговле. Спор о практической пользы статей здесь уже не новый.

Сначала дается определение Классификации на уровне детского сада. Потом рассказывается о том, что порождается неопределенность(!?) А заканчивается как всегда : "Где ключ от квартиры где деньги лежат?"

Вам нужно повысить теоретическую подготовку. Учиться, учиться и еще раз ... Ну вы знаете.

И будьте скромнее.

ПС. Свое предложение разместите во Фриланс. Получите реальный продукт.

 
СанСаныч Фоменко:
Я отвечал Vladimir 
Пардон
Причина обращения: