Обсуждение статьи "Архитектура системы машинного обучения в MetaTrader 5 (Часть 4): Скрытый изъян пайплайна финансового ML — одновременность меток"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Архитектура системы машинного обучения в MetaTrader 5 (Часть 4): Скрытый изъян пайплайна финансового ML — одновременность меток:
Большинство исследователей машинного обучения вне финансовой сферы могут предполагать, что наблюдения можно считать IID-наблюдениями, то есть являются независимыми и одинаково распределёнными (IID — Independent and Identically Distributed). Например, можно взять анализы крови у большого числа пациентов и измерить уровень холестерина. Конечно, различные общие базовые факторы будут сдвигать среднее значение и стандартное отклонение распределения холестерина, но сами образцы всё равно остаются независимыми: одно наблюдение соответствует одному субъекту. Предположим, вы взяли эти анализы крови, а кто-то в вашей лаборатории пролил кровь из каждой пробирки в следующие девять пробирок справа. То есть пробирка 10 содержит кровь пациента 10, но также кровь пациентов с 1 по 9. Пробирка 11 содержит кровь пациента 11, но также кровь пациентов со 2 по 10, и так далее. Теперь вам нужно определить признаки, предсказывающие высокий уровень холестерина — диету, физическую активность, возраст и т. д., — не зная наверняка уровень холестерина каждого пациента. Это эквивалентно той задаче, с которой мы сталкиваемся в финансовом ML, с дополнительным осложнением: схема такого “перетекания” или “загрязнения” недетерминирована и заранее неизвестна.
Модели, обученные на наблюдениях с перекрывающимися по времени метками, часто показывают завышенное качество на обучающей выборке, потому что они многократно усваивают одни и те же паттерны, но слабую вневыборочную эффективность, потому что реальная частота этих паттернов намного ниже, чем предполагает модель.
Взвешивание наблюдений предлагает элегантное решение. Вместо того чтобы считать все наблюдения равнозначными, мы назначаем им веса в зависимости от того, сколько уникальной информации содержит каждое наблюдение. Наблюдения, сильно перекрывающиеся с другими, получают меньшие веса, тогда как действительно независимые наблюдения получают более высокие веса.
Автор: Patrick Murimi Njoroge