Обсуждение статьи "Преодоление ограничений машинного обучения (Часть 9): Обучение признаков на основе корреляции в задачах самообучения на финансовых данных"

 

Опубликована статья Преодоление ограничений машинного обучения (Часть 9): Обучение признаков на основе корреляции в задачах самообучения на финансовых данных:

Самостоятельное обучение (Self-supervised learning) - это мощная парадигма статистического обучения, которая заключается в поиске управляющих сигналов, генерируемых в результате самих наблюдений. Такой подход превращает сложные задачи обучения без наблюдения в более привычные задачи обучения под наблюдением. Эта технология не нашла применения для достижения нашей цели как сообщества алгоритмических трейдеров. Таким образом, наше обсуждение направлено на то, чтобы предоставить читателю доступный мостик к открытой исследовательской области самостоятельного обучения, и предлагает практические виды применения, которые позволяют создавать стабильные и надежные статистические модели финансовых рынков без переобучения небольшими наборами данных.

В научных текстах часто приводятся статистические тесты для определения того, выдерживаются ли допущения модели. Важно понимать, насколько хорошо допущения вашей модели соответствуют характеру поставленной задачи, поскольку это позволяет определить, насколько выбранная нами модель в состоянии выполнить задачу, которую мы хотим ей поручить. Однако эти стандартные статистические тесты внедряют дополнительный набор существенных проблем в дополнение к и без того сложной задаче. Вкратце, стандартные академические решения не только сложны в исполнении и тщательной интерпретации, но и подвержены риску получения ложных результатов, что означает, что они могут передать модель, являющуюся ненадежной. Это подвергает практиков неконтролируемым рискам.

Таким образом, в данной статье предлагается более практичное решение, гарантирующее, что допущения вашей модели о реальном мире не будут нарушены. Мы сосредоточимся на одном допущении, присущем всем статистическим моделям — от простых линейных моделей до современных глубоких нейронных сетей. Все они допускают, что выбранная вами целевая величина является функцией имеющихся у вас наблюдений. Мы показываем, что более высоких уровней эффективности можно достичь, рассматривая данный набор наблюдений как исходный материал, из которого мы генерируем новые потенциальные целевые объекты, которые могут легче поддаваться обучению. Эта парадигма также известна как самостоятельное обучение.

Эти новые целевые значения, сгенерированные на основе входных данных, по самому своему определению гарантированно являются функциями цели. Это может показаться ненужным, но на самом деле это устраняет одну из самых больших слепых зон наших статистических моделей, помогая нам создавать более стабильные и надежные торговые приложения с численным управлением. Давайте приступим!


Автор: Gamuchirai Zororo Ndawana