Обсуждение статьи "Преодоление ограничений машинного обучения (Часть 5): Краткий обзор кросс-валидации временных рядов"

 

Опубликована статья Преодоление ограничений машинного обучения (Часть 5): Краткий обзор кросс-валидации временных рядов:

В этой серии статей мы рассмотрим проблемы, с которыми сталкиваются алгоритмические трейдеры при внедрении торговых стратегий, основанных на машинном обучении. Некоторые проблемы в нашем сообществе остаются незамеченными, поскольку требуют более глубокого технического понимания. Сегодняшнее обсуждение служит отправной точкой для изучения "белых пятен" кросс-валидации в машинном обучении. Несмотря на то, что этот шаг часто рассматривается как рутинный, при небрежном обращении он может легко привести к вводящим в заблуждение или недостаточно оптимальным результатам. В этой статье кратко рассматриваются основы кросс-валидации временных рядов, чтобы подготовить нас к более глубокому пониманию скрытых слепых зон.

В своей соответствующей серии статей мы рассмотрели многочисленные тактические приемы решения проблем, возникающих в результате поведения рынка. Однако в этой серии мы сосредоточимся на проблемах, связанных с алгоритмами машинного обучения, которые мы хотим использовать в своих стратегиях. Многие из этих проблем возникают из-за архитектуры модели, алгоритмов, используемых при выборе модели, функций потерь, которые мы определяем для измерения результатов, и многих других вопросов такого же характера.

Все движущиеся части, которые в совокупности создают модель машинного обучения, могут непреднамеренно создавать препятствия в нашем стремлении применить машинное обучение к алгоритмической торговле, требуя тщательной диагностической оценки. Поэтому для каждого из нас важно понимать эти ограничения и, как сообщество, разрабатывать новые решения и определять новые стандарты для себя.

Модели машинного обучения, используемые в алгоритмической торговле, сталкиваются с уникальными вызовами, часто обусловленными тем, как мы их проверяем и тестируем. Одним из важнейших этапов является кросс-валидация временных рядов - метод оценки эффективности модели на основе невидимых хронологически упорядоченных данных.

В отличие от стандартной кросс-валидации, данные временных рядов нельзя перемешать, поскольку это приведет к утечке будущей информации в прошлое. Это усложняет повторную выборку и приводит к уникальным компромиссам между смещением, дисперсией и надежностью.

В этой статье мы расскажем о кросс-валидации временных рядов, объясним ее роль в предотвращении переобучения и покажем, как она может помочь в обучении надежных моделей даже на ограниченных данных. Используя небольшой набор данных за два года, мы демонстрируем, как надлежащая кросс-валидация улучшила результаты глубокой нейронной сети по сравнению с простой линейной моделью.


Автор: Gamuchirai Zororo Ndawana