Moscow ALGO-2014, часть III: Big Data и Machine Learning — современное оружие в руках алготрейдера (продолжение)

Moscow ALGO-2014, часть III: Big Data и Machine Learning — современное оружие в руках алготрейдера (продолжение)

11 февраля 2015, 14:23
Aleksandr Sorokin
0
1 090

Мой третий материал из серии, посвященной конференции Moscow ALGO-2014, продолжает рассказ о семинаре по Big Data и машинному обучению. Напомню, в дискуссии участвовали профессионалы финансового и информационного сектора. Обсуждали они вопрос того, каким образом большие данные» можно использовать для алгоритмического трейдинга, в какую сторону будет двигаться это направление и с какими проблемами столкнется эта многообещающая область.

Итак, в семинаре участвовали:

Клаудиа Кинонес, специалист по сбору новостной ленты в Bloomberg

Бреннан Карли, руководитель платформы глобальной аналитики в Thomson Reuters.

модератор секции, Георгий Заря, руководитель департамента продаж по странам СНГ и Азии ФГ БКС;

вице-президент компании Quanthouse, Стефан Леруа;

Никита Богославский, руководитель департамента MathWorks MATLAB;

Роман Сульжик, с апреля 2012 г по январь 2015 г — управляющий директор Московской биржи по срочному рынку

и Сергей Поляков, управляющий директор по информационным технологиям Московской биржи. 


В первой части дискуссии участники пришли к выводу, что лишь малая толика инвестиционных и трейдинговых компаний сейчас использует BigData в своей работе, и связано это с недостатком специалистов, программного обеспечения и глобальным недостатком опыта на мировой арене. Однако бурное развитие этой отрасли в последние годы дает все шансы надеяться на то, что через несколько лет торговые роботы будут уметь не только решать, «когда и как» торговать, но и «чем и почему», используя для этого и цифровые накопленные данные, и нецифровые (настроения в соцсетях, информацию из новостных агентств и т.д.).

Затем (на видео - с момента 33.40 мин.) модератор дискуссии попытался перейти к вопросу машинного обучения: Объединение машинного обучения и BigData – “сожительствующие» темы. Как они будут уживаться между собой в вопросе алготрейдинга?

Клаудиа Кинонес: Проблема сегодня заключается в том, что данных с каждым днем становится все больше и больше, и нужны внятные инструменты для работы с ними. Например, очень сложно получить точность машинного анализа настроений в соцсетях выше 70% - в любом случае пока на подстраховку нужен человек рядом. Наша команда по машинному обучению в Bloomberg, к примеру, сейчас создает набор базовых атрибутов корреляции для сортировки настроений. Надо понимать, что это серьезнейшая работа: уметь обрабатывать входящий поток в считанные миллисекунды, выставлять направление и вес этой новости, выдавать ее на экран эксперту для моментального анализа...

В том числе и поэтому сейчас во всем мире пытаются решить проблему глубокого машинного обучения. Тот, кто решит ее, кто сможет создавать действительно очень мощные умные модели, по сути, будет владеть миром.

Роман Сульжик, с апреля 2012 по январь 2015 г — управляющий директор Московской биржи по срочному рынку

Роман Сульжик: Я работаю в IT с 1990 годов. Тогда только еще начинала развиваться теория коллаборативной фильтрации. Сейчас она используется совсем по-другому, но тогда нам показывали удивительные чудеса, основанные только на статистике. К примеру, если у тебя есть какие-либо исторические данные — n измерений какого-либо процесса, и есть данные по n-1-ому измерению, то ты можешь с большой точностью определить, какое значение покажет n-ное измерение. Выглядит фантастично, и меня тогда поразило, почему бы не использовать это в финансах.

Сейчас это начали развивать, и вот по поводу машинного обучения у меня огромный оптимизм. Каким я вижу использование BigData и эволюцию машинного обучения лет через, например, 10? Огромное количество накопленных данных плюс машинный анализ новостных медиа — и мы видим, как количество статистики перейдет в качество, а машина полностью заменит человека в трейдинге. Мы будем наблюдать просто процесс принятия решений машиной. Роботы начнут торговать как Уоррен Баффет — и самое главное, сотрется грань между техническим и фундаментальным анализом — оба эти вида соединятся в один и будут выполняться машиной за считанные доли секунды.

Ведь вы же знаете, что уже сейчас создали компьютер, который может вербально пройти тест Тьюринга. Не за горами полноценный искусственный интеллект, и я уверен на 100%, что первый его образец появится именно в финансовой сфере: никто не будет понимать, как он торгует, никто не сможет понять, на основе чего он принимает решения, но решения будут выдаваться. И они будут правильнее, чем у людей.

Сергей Поляков опять выступал скептически. Машина умеет очень много — но в рамках заданных параметров. А человеческими глазами все данные не рассмотреть. Выхода нет — нужна и машина, и человек. Но ведь машина копается в данных исходя из принципов, заложенных в нее человеком. Лично мне пока непонятно, какие принципы «копания» нудо заложить в машину, чтобы ее осенило, и она увидела то, о чем мы и догадаться не можем. Без первичной гипотезы не работает ни одна модель, потому что не создано моделей по разработке гипотез. О каком машинном обучении мы вообще говорим тогда?

Пока единственные бенефициары от BigData и так называемого машинного обучения — это поставщики оборудования для хранения данных (ведь это невообразимые объемы, и они требуют огромного количества свободной площади на дисках и серверах).

Модератор: А в чем вообще суть машинного обучения сейчас? В каком направлении еще идет работа, кроме того, о чем рассказала Клаудиа?

Бреннан Карли: Проблема — в том, чтобы соотнести BigData с финансовыми инструментами правильно, аналитически.

Простейший пример: кто-то твитнул слово Apple. Откуда нам знать, о чем идет речь — о компании Apple, о глазном яблоке, об обычном яблоке? Есть специализированные техники машинного обучения, которые по источнику или из контекста поймут, стоит это Apple вашего внимания и денег.

Никита Богославский, руководитель департамента MathWorks MATLAB

Никита Богославский: Я не открою Америки. Все машинное обучение строится на статистике. А статистика — это классификация, кластеризация, деревья решений — словом, все, что люди используют для «копания» в данных, о котором говорил Сергей. И как производитель инструментария, наша компания старается подготовиться к чисто техническим проблемам и предотвратить их. К примеру, данные не помещаются в оперативную память компьютера — значит, надо использовать не SQL-базы данных, а интегрироваться, например, с Hadoop. То есть, мы в MathLab в основном сейчас заняты тем, чтобы алгоритмы, которые мы пытаемся реализовать, не упирались в технические ограничения и чтобы их можно было реализовать на любой платформе.

Скоро выйдет релиз нашего проекта Machine Learning Toolbox – это подготовка к развитию сферы BigData в инфраструктурном плане. Важно еще, чтобы была возможность разделения ролей и создания замкнутого цикла.

Немного поясню: помните, мы с вами говорили в первой части нашей беседы о том, что идеальный специалист для BigData — это своеобразная помесь математика, программиста и знатока финансовых рынков. Так вот, это — мало того, что ультраредкая комбинация, так еще и наверняка очень дорогая. Поэтому для популяризации и отладки методик нужно выстраивать правильный производственный цикл с разделением труда: люди, которые разбираются в рынках, дают техническое задание математикам, те выстраивают статистическую модель и несут ее программистам, программисты пишут код и несут его специалистам по быстрым интерфейсам — и так далее. Разделение ролей ведет к большей эффективности, но для этого нужно придумать и построить идеальную инфрастркутуру. Я не знаю, подходит ли это под определение Machine Learning, но не сказать об этом было нельзя.

Модератор: мы с вами уже выяснили, что основная проблема BigData в алгоритмическом трейдинге, как и везде, - это трансформация массива данных на что-то идейное. Предположим, есть поток данных с какой-то площадки, массивы гигантские. Что делать, с чего начинать? Нужен ли для выхода на этот уровень гигантский бюджет?

Бреннан Карли: Cами по себе BigData — не панацея, они не могут решить всех проблем. Начинать надо с гипотезы и с вопроса о том, какие мне нужны данные, чтобы эту гипотезу усилить. А уже через BigData проверять, подтверждается гипотеза или нет.

Какие-то компании будут пытаться извлекать и накапливать данные самостоятельно. А кто-то придет купить готовые сортированные массивы Data в тот же Bloomberg или к нам, в Reuters, где данные уже даже визуализированы. Выгоднее использовать готовую чужую базу данных и облачные системы хранения — на рынке сейчас масса предложений.

вице-президент компании Quanthouse, Стефан Леруа

Стефан Леруа: Первое, что нужно для начала, - это мозги и понимание того, что конкретно вы собираетесь делать с большими данными. Второе — собственно, сами BigData. Третье — системы хранения нового поколения, специфические, разработанные именно под финансовые рынки, которые позволяют быстро извлекать данные. И, наконец, четвертое — мощный аналитический движок, который позволит кодировать идеи, торговать и визуализировать данные. Всё.

А еще вам нужно решить, будете вы покупать техническое решение или собирать его сами. Ну и, конечно, тут вы можете столкнуться с проблемой: вполне возможно, что технического решения под вашу идею в природе вообще не существует, и тогда придется работать над ним самому.

Вот почему вопрос использования BigData — это так сложно. По большей части наши клиенты — это пионеры, инноваторы. И они создают подобные системы сами. Цена, конечно, высока, но с каждым годом она снижается. Поэтому поиск денег — вопрос уже десятый. Если у вас есть работоспособная гипотеза, свои деньги вы отобьете.

Модератор: а у кого лучше покупать данные? Есть какие-то признанные консолидаторы?

Бреннан Карли: для трейдера проще всего обратиться в компании, которые продвинулись в специальной агрегации финансовых данных и нормализуют их именно с точки зрения использования рынка (например, опять те же Bloomberg и Reuter).

Смысл сейчас есть идти не к оптовым поставщикам данных, а к тем, кто уже надстроил сверху базу аналитики и моделирования данных, делает их релеватными под работу на финансовых рынках.

Клаудиа Кинонес: Я согласна с Бреннаном. Если у вас нет инвестиционного бюджета для получения легкого доступа к большим объемам данных, мощностям, системам сбора информации — а это страшно дорого — то начинать надо с аналитики. Поиск компонентов формулы — это один из самых сложных этапов. Инвестируйте в аналитику, поймите, какие потенциальные корреляции нужны вам для вашей модели — и приходите к поставщику, как в магазин, с конкретным списком продуктов, которые вам нужны.

Далее была дискуссия со зрительным залом, в которой практически повторялись вопросы, рассмотренные во время беседы.

В следующем материале я расскажу о том, как проходил круглый стол «Новые инструменты — новые возможности алгоритмической торговли. Мировые валюты».

Все материалы по теме: