Обсуждение статьи "Архитектура системы машинного обучения в MetaTrader 5 (Часть 4): Скрытый изъян пайплайна финансового ML — одновременность меток"

 

Опубликована статья Архитектура системы машинного обучения в MetaTrader 5 (Часть 4): Скрытый изъян пайплайна финансового ML — одновременность меток:

Узнайте, как исправить критический изъян в финансовом машинном обучении, который приводит к переобученным моделям и плохой работе в реальной торговле, — одновременность меток. При использовании метода тройного барьера (triple-barrier) обучающие метки перекрываются во времени, нарушая базовое предположение IID большинства ML-алгоритмов (алгоритмов машинного обучения). В статье показано практическое решение через взвешивание наблюдений: как измерять временное перекрытие торговых сигналов, рассчитывать взвешивание наблюдений с учётом уникальной информации и применять эти веса в scikit-learn для построения более устойчивых классификаторов. Освоение этих техник поможет сделать торговые модели более устойчивыми, надёжными и прибыльными.

Большинство исследователей машинного обучения вне финансовой сферы могут предполагать, что наблюдения можно считать IID-наблюдениями, то есть являются независимыми и одинаково распределёнными (IID — Independent and Identically Distributed). Например, можно взять анализы крови у большого числа пациентов и измерить уровень холестерина. Конечно, различные общие базовые факторы будут сдвигать среднее значение и стандартное отклонение распределения холестерина, но сами образцы всё равно остаются независимыми: одно наблюдение соответствует одному субъекту. Предположим, вы взяли эти анализы крови, а кто-то в вашей лаборатории пролил кровь из каждой пробирки в следующие девять пробирок справа. То есть пробирка 10 содержит кровь пациента 10, но также кровь пациентов с 1 по 9. Пробирка 11 содержит кровь пациента 11, но также кровь пациентов со 2 по 10, и так далее. Теперь вам нужно определить признаки, предсказывающие высокий уровень холестерина — диету, физическую активность, возраст и т. д., — не зная наверняка уровень холестерина каждого пациента. Это эквивалентно той задаче, с которой мы сталкиваемся в финансовом ML, с дополнительным осложнением: схема такого “перетекания” или “загрязнения” недетерминирована и заранее неизвестна.

Модели, обученные на наблюдениях с перекрывающимися по времени метками, часто показывают завышенное качество на обучающей выборке, потому что они многократно усваивают одни и те же паттерны, но слабую вневыборочную эффективность, потому что реальная частота этих паттернов намного ниже, чем предполагает модель.

Взвешивание наблюдений предлагает элегантное решение. Вместо того чтобы считать все наблюдения равнозначными, мы назначаем им веса в зависимости от того, сколько уникальной информации содержит каждое наблюдение. Наблюдения, сильно перекрывающиеся с другими, получают меньшие веса, тогда как действительно независимые наблюдения получают более высокие веса.


Автор: Patrick Murimi Njoroge