Что такое кроссвалидация на дополнительных выборках в другом временном диапазоне? - Общее обсуждение

Alexey Burnakov 2016.10.17 16:46 #1621

СанСаныч Фоменко:

1) Если посмотреть первые публикации автора алгоритмов случайных лесов, то автор на полном серьезе утверждал, что rf вообще не склонен к переобучению и приводил массу примеров. Сам пакет randomforest построен таким образом чтобы исключить даже малейшее подозрение в переобучении.

Вместе с тем самый переобучаемый алгоритм - это randomforest. Лично обжегся.

2) Подавляющее число публикаций по машинному обучению не тестируется на каком-либо аналоге второго файла. Причина банальна. Алгоритмы применяются НЕ на временных рядах. И оказывается вполне достаточным то случайное деление файла номер один. И это действительно так, например, при распознавании рукописного текста.

1) Переобучается и форест и GBM и любые другие методы. Незаметно на фоне складных данных и очень заметно на сильно зашумленных.

2) Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.

Как правильно сравнивать два Обсуждение статьи "Графические интерфейсы Есть ли закономерность в

СанСаныч Фоменко 2016.10.17 17:13 #1622

Alexey Burnakov:

2) Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.

Если не затруднит, ссылку

Alexey Burnakov 2016.10.17 17:31 #1623

СанСаныч Фоменко:
Если не затруднит, ссылку

Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

В обсуждениях есть ссылки на статьи.

Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.

Nested cross validation for model selection

stats.stackexchange.com

How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...

Обсуждение статьи "Рецепты MQL5 Обсуждение статьи "Кластеризация временных Нулевая корреляция выборки вовсе

Alexey Burnakov 2016.10.17 18:01 #1624

Если кракто (уже писал об этом):

Модель выбранная через кроссвалидацию должна повторно провалидироваться еще одно отложенной по времени выборкой.

Причем вложенная кроссвалидация подразумевает построение n k-фолдных кроссвалидаций (на разных данных) с последующей валидацией на n отложенных выборках (каждый раз на разных данных).

И даже это еще не все. Если на верхнем слое отложенных выборок производится повторный отбор, например, комитета моделей, опирающийся на данных этих отложенных выборок, то валидация комитета должна осуществиться еще на одной отложенной выборке.

В самом идеале этот процесс:

k-fold кроссвалидация

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего

нужно повторить не один, а m раз, чтобы ПОЛУЧИТЬ РАСПРЕДЕЛЕНИЕ результатов на самом верхнем уровне. Так снижается selection bias до практически реализуемого минимума.

Но при этом ожидаемое значение, например, ФВ может уменьшится в разы... Боль.

Bayesian regression - Делал Есть ли закономерность в Трейдерский самообман: недоверие к

Dr. Trader 2016.10.17 18:07 #1625

Alexey Burnakov:

введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

Распределение ценовых приращений Обсуждение статьи "Выцарапываем профит Есть ли закономерность в

Mihail Marchukajtes 2016.10.17 18:16 #1626

А хотите дам подсказку которую собираюсь подробно осветить в своей статье????? Хотите или нет???

Mihail Marchukajtes 2016.10.17 18:26 #1627

Dr.Trader:

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

Ответ: 9

Alexey Burnakov 2016.10.17 18:29 #1628

Dr.Trader:

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

Это подгонка. Подбором параметров и входов можно Легко получить модели, работающие хоть на 3 годах теста.

У меня тоже неск. Моеделей (100) которые на данных вне обучения показывают хороший результат. Речь идет о 10 годах... Но это только потому, что модели выбираются именно по данным теста (вне обучения). Иными словами, погоднка под тест.

Ваш следующий шаг - оценить эти модели или любой выбранный комитет на дополнительной отложенной выборке. Причем желательно, каждую модель на уникальных данных. Тогда вы поймёте как качество на тесте соотносится с качеством на выборке, по которой модель Не выбиралась.

Прогнозирование цены с использованием Группировка листьев - требуются Обсуждение статьи "Случайные леса

СанСаныч Фоменко 2016.10.17 18:43 #1629

Alexey Burnakov:

Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

В обсуждениях есть ссылки на статьи.

Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.

Спасибо. Приятно видеть, что не я один озаботился.

Mihail Marchukajtes 2016.10.17 18:46 #1630

Тю... какой вы народ скучный, особенно в области новых познаний...

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 163