Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 163
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
1) Если посмотреть первые публикации автора алгоритмов случайных лесов, то автор на полном серьезе утверждал, что rf вообще не склонен к переобучению и приводил массу примеров. Сам пакет randomforest построен таким образом чтобы исключить даже малейшее подозрение в переобучении.
Вместе с тем самый переобучаемый алгоритм - это randomforest. Лично обжегся.
2) Подавляющее число публикаций по машинному обучению не тестируется на каком-либо аналоге второго файла. Причина банальна. Алгоритмы применяются НЕ на временных рядах. И оказывается вполне достаточным то случайное деление файла номер один. И это действительно так, например, при распознавании рукописного текста.
1) Переобучается и форест и GBM и любые другие методы. Незаметно на фоне складных данных и очень заметно на сильно зашумленных.
2) Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.
2) Есть, есть публикации, где обсуждается введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.
Если не затруднит, ссылку
Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
В обсуждениях есть ссылки на статьи.
Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.
Если кракто (уже писал об этом):
Модель выбранная через кроссвалидацию должна повторно провалидироваться еще одно отложенной по времени выборкой.
Причем вложенная кроссвалидация подразумевает построение n k-фолдных кроссвалидаций (на разных данных) с последующей валидацией на n отложенных выборках (каждый раз на разных данных).
И даже это еще не все. Если на верхнем слое отложенных выборок производится повторный отбор, например, комитета моделей, опирающийся на данных этих отложенных выборок, то валидация комитета должна осуществиться еще на одной отложенной выборке.
В самом идеале этот процесс:
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
нужно повторить не один, а m раз, чтобы ПОЛУЧИТЬ РАСПРЕДЕЛЕНИЕ результатов на самом верхнем уровне. Так снижается selection bias до практически реализуемого минимума.
Но при этом ожидаемое значение, например, ФВ может уменьшится в разы... Боль.
введение вложенной кроссвалидации на дополнительных выборках в другом временном диапазоне.
Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.
Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.
Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.
Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.
Я что-то подобное тоже делаю. Допустим есть данные для обучения за год. Я обучу 12 моделей - одну на данных за январь, вторую модель на данных за февраль, третью за март, итд. Подбором предикторов и параметров модели я добиваюсь что любая из этих моделей обученных на своём небольшом участке данных хорошо торгует на протяжении всего года, это даёт какую-то надежду что используемые предикторы имеют постоянные зависимости между собой. Принимаю решение на новых данных с помощью всего этого ансамбля моделей.
Из всех способов кроссвалидаций что я пробовал, этот дал самые лучшие результаты на новых данных. Но есть куча нерешённых проблем - сколько моделей должно быть, т.е. я могу обучить и сотню вместо 12, но есть ли смысл? Оценка торговли тоже важна, на выбор что угодно, включая рф или шарп, нужно экспериментально подбирать лучшее.
Одно из обсуждений: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Туда же: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
В обсуждениях есть ссылки на статьи.
Одна из интересных статей: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Как видно из названия речь идет про переобучение, случающееся на стадии оценки модели на валидационных фолдах кроссвалидации. Соответственно, помимо кроссвалидации нужна еще выборка для оценки уже отобранной модели.