Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 163

 
СанСаныч Фоменко:

1) Если посмотреть первые публикации автора алгоритмов случайных лесов, то автор на полном серьезе утверждал, что rf вообще не склонен к переобучению и приводил массу примеров. Сам пакет randomforest построен таким образом чтобы исключить даже малейшее подозрение в переобучении. 

Вместе с тем самый переобучаемый алгоритм - это randomforest. Лично обжегся.


 

2) Подавляющее число публикаций по машинному обучению не тестируется на каком-либо аналоге второго файла. Причина банальна. Алгоритмы применяются НЕ на временных рядах. И оказывается вполне достаточным то случайное деление файла номер один. И это действительно так, например, при распознавании рукописного текста.

 

1) Переобучается и форест и GBM и любые другие методы. Незаметно на фоне складных данных и очень заметно на сильно зашумленных.

 

2)  Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне. 

 
Alexey Burnakov:

 

2)  Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне. 

Если не затруднит, ссылку
 
СанСаныч Фоменко:
Если не затруднит, ссылку


Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation 

 В обсуждениях есть ссылки на статьи.

Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/ 

Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Если кракто (уже писал об этом):

 

Модель выбранная через кроссвалидацию должна повторно провалидироваться еще одно отложенной по времени выборкой.

 Причем вложенная кроссвалидация подразумевает построение n k-фолдных кроссвалидаций (на разных данных) с последующей валидацией на n отложенных выборках (каждый раз на разных данных).

И даже это еще не все. Если на верхнем слое отложенных выборок производится повторный отбор, например, комитета моделей, опирающийся на данных этих отложенных выборок, то валидация комитета должна осуществиться еще на одной отложенной выборке.

 

В самом идеале этот процесс:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

нужно повторить не один, а m раз, чтобы ПОЛУЧИТЬ РАСПРЕДЕЛЕНИЕ результатов на самом верхнем уровне. Так снижается selection bias до практически реализуемого минимума.

Но при этом ожидаемое значение, например, ФВ может уменьшится в разы... Боль. 

 
Alexey Burnakov:

введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.  

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

 
А хотите дам подсказку которую собираюсь подробно осветить в своей статье????? Хотите или нет???
 
Dr.Trader:

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

Ответ: 9 
 
Dr.Trader:

Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.

Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.

Это подгонка. Подбором параметров и входов можно Легко получить модели, работающие хоть на 3 годах теста.

У меня тоже неск. Моеделей (100) которые на данных вне обучения показывают хороший результат. Речь идет о 10 годах... Но это только потому, что модели выбираются именно по данным теста (вне обучения). Иными словами, погоднка под тест.

Ваш следующий шаг - оценить эти модели или любой выбранный комитет на дополнительной отложенной выборке. Причем желательно, каждую модель на уникальных данных. Тогда вы поймёте как качество на тесте соотносится с качеством на выборке, по которой модель Не выбиралась.
 
Alexey Burnakov:


Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation 

 В обсуждениях есть ссылки на статьи.

Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/ 

Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.

Спасибо. Приятно видеть, что не я один озаботился.
 
Тю... какой вы народ скучный, особенно в области новых познаний...
Причина обращения: