Обсуждение статьи "Машинное обучение и Data Science (Часть 18): Сравниваем эффективность TruncatedSVD и NMF в работе со сложными рыночными данными"

 

Опубликована статья Машинное обучение и Data Science (Часть 18): Сравниваем эффективность TruncatedSVD и NMF в работе со сложными рыночными данными:

Усеченное сингулярное разложение (TruncatedSVD) и неотрицательная матричная факторизация (NMF) представляют собой методы уменьшения размерности. Оба метода могут быть весьма полезными при работе с торговыми стратегиями, имеющими в своей основе анализ данных. В этой статье мы рассмотрим их применимость к обработке сложных рыночных данных — их возможности по уменьшению размерности для оптимизации количественного анализа на финансовых рынках.

Будем честны: в большинстве реальных приложений многие наборы данных, используемые для построения моделей машинного обучения, имеют очень большое количество функций или переменных (размерностей). Данные высокой размерности могут привести к разного рода проблемам, таким как повышение сложности вычислений, риск переобучения и трудности визуализации. При этом набор данных, с которым мы обычно имеем дело, содержит 5 независимых переменных!

Представим, что мы взяли все (38) стандартные индикаторные буферы из платформы MetaTrader 5. При этому у нас наберется данных на 56 буферов. Это очень большая выборка. 

Данные всех индикаторов

Проклятие размерности

Это проклятие реально, и для тех, кто не верит, попробуйте реализовать модель линейной регрессии с большим количеством коррелирующих независимых переменных.

Наличие сильно коррелированных функций может привести к тому, что модели машинного обучения будут улавливать шум и конкретные закономерности, присутствующие в обучающих данных, которые могут плохо обобщаться на новые, незнакомые данные.

Автор: Omega J Msigwa