Обсуждение статьи "Машинное обучение и Data Science (Часть 29): Как отбирать лучшие форекс-данные для обучения ИИ"

 

Опубликована статья Машинное обучение и Data Science (Часть 29): Как отбирать лучшие форекс-данные для обучения ИИ:

В этой статье мы подробно рассмотрим важные аспекты при выборе наиболее релевантных и качественных данных с рынка Forex для повышения производительности моделей искусственного интеллекта.

В трейдинге доступно огромное количество данных и информации: индикаторы (в MetaTrader 5 встроено более 36 индикаторов), торговые символы (более 100), которые могут использоваться в стратегиях корреляции, финансовые новости и другая информация. То есть у трейдеров есть в распоряжении обширный массив данных как для ручной торговли, так и для построения моделей искусственного интеллекта, помогающих принимать более обоснованные торговые решения.

Однако среди всей доступной информации неизбежно присутствуют некачественные или нерелевантные данные. Не все индикаторы, стратегии или данные применимы к конкретному торговому символу, стратегии или рыночной ситуации. Как определить наиболее ценные данные для торговли и построения моделей машинного обучения, чтобы добиться максимальной эффективности и прибыльности? Именно здесь на помощь приходит отбор признаков.

Автор: Omega J Msigwa

 
Спасибо за четкую и хорошо написанную статью, Это именно то, что я пытался понять и работал, чтобы проверить корреляции самостоятельно. Спасибо также за файл python, так как он делает простой шаблон для меня, чтобы адаптировать. Надеюсь, после некоторого анализа я скажу спасибо за то, что открыли мне глаза на то, что возможно.
 
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
Убийство рыночной информации. Это классический подход так называемой вольной «очистки данных», основанной на предубеждении, берущим свои корни прямиком из обучения в стационарной среде.

Вот в этой, например, Статье https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
доказывают, что OHLC — это не просто четыре числа, а единый топологический объект.

Если мы оставим только Close, мы потеряем информацию о волатильности внутри бара. Высокая корреляция в 99% — это «шум» для линейной регрессии, но эти 1% разницы — это «сигнал» для трейдера (длина теней, сила пробоя). Удаление «коррелированных» цен превращает свечной график в линейный, уничтожая саму суть свечного анализа.


«Коэффициент корреляции... оценивает только линейные зависимости между числовыми переменными»

Автор сам признает ограниченность метода, но все равно предлагает использовать его для отбора признаков.
Рынок не линеен. Таже Статья вводит понятие структурных ограничений (Hig≥ Close). Корреляция Пирсона не видит этих ограничений. Если мы следуем логике первой статьи и удаляем «избыточные» High/Low, модель перестает понимать границы допустимых значений. В итоге мы получаем алгоритм, который не понимает разницы между «спокойным рынком» и «рынком с огромными хвостами», если их цены открытия совпали.


«Снижение размерности... мы упрощаем модель и снижаем вычислительные затраты»

Это «экономия на спичках».
Можно не «выбрасывать» данные для упрощения, а трансформировать их (Unconstrained Transformation). Вместо того чтобы удалять High и Low из-за их корреляции с Open, нужно преобразовать их в относительные величины (размах свечи, положение закрытия относительно экстремумов). Таким образом, размерность остается той же (или чуть меньше), но информативность (геометрия) сохраняется на 100%, а проблема корреляции исчезает.

A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
  • 2024.03.05
  • link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...