Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 257

 

Я как-то запутался.

 

Есть цена. Беру последних 200 баров, пытаюсь обучить на них модель на два класса (купить/продать). Обучить можно что угодно, хоть лес, хоть нейронку, но всё это будет без толку, так как если представить все обучающие примеры как точки в 200-х мерном пространстве, то оба класса там равномерно перемешаны, и попытки их разделить гиперплоскосятми - недостаточно точны.

Теперь вариант получше - всякие хедж-фонды на основе цены создают новые предикторы (индикаторы, кластеры, какие-то формулы, и всё что угодно). И на полученных новых предикторах обучают ту-же модель что в первом пункто, но в этом случае рубят капусту.

 

Так вот, во втором случае там ведь не образуется и не добавляется какая-то новая информация, это всё те-же точки в 200-х мерном пространстве, которые были перемещены в менее мерное пространство. Т.е. такое своеборазное уменьшение размерности, перемещение точек одного класса поближе друг к другу в пространстве. Но ведь модели машинного обучения это тоже делают, они тоже своими алгоритмами уменьшают размерность и переносят классы ближе друг к другу. В чём отличие этих двух способов?

Почему если сближать точки в пространстве полуавтоматически, разными трюками, с последующим обучением модели, то это работает. А если доверить самой модели работать с оригинальным пространством, то она фейлит? Это ведь похожие операции в обоих случаях.

 
Dr.Trader:

Теперь вариант получше - всякие хедж-фонды на основе цены создают новые предикторы (индикаторы, кластеры, какие-то формулы, и всё что угодно). И на полученных новых предикторах обучают ту-же модель что в первом пункто, но в этом случае рубят капусту.

...

Почему если сближать точки в пространстве полуавтоматически, разными трюками, с последующим обучением модели, то это работает. А если доверить самой модели работать с оригинальным пространством, то она фейлит? Это ведь похожие операции в обоих случаях.

А Вы не учитываете, что крупные участники рынка двигают цену?
 
Dr.Trader:

Я как-то запутался.

 

Есть цена. Беру последних 200 баров, пытаюсь обучить на них модель на два класса (купить/продать). Обучить можно что угодно, хоть лес, хоть нейронку, но всё это будет без толку, так как если представить все обучающие примеры как точки в 200-х мерном пространстве, то оба класса там равномерно перемешаны, и попытки их разделить гиперплоскосятми - недостаточно точны.

Теперь вариант получше - всякие хедж-фонды на основе цены создают новые предикторы (индикаторы, кластеры, какие-то формулы, и всё что угодно). И на полученных новых предикторах обучают ту-же модель что в первом пункто, но в этом случае рубят капусту.

 

Так вот, во втором случае там ведь не образуется и не добавляется какая-то новая информация, это всё те-же точки в 200-х мерном пространстве, которые были перемещены в менее мерное пространство. Т.е. такое своеборазное уменьшение размерности, перемещение точек одного класса поближе друг к другу в пространстве. Но ведь модели машинного обучения это тоже делают, они тоже своими алгоритмами уменьшают размерность и переносят классы ближе друг к другу. В чём отличие этих двух способов?

Почему если сближать точки в пространстве полуавтоматически, разными трюками, с последующим обучением модели, то это работает. А если доверить самой модели работать с оригинальным пространством, то она фейлит? Это ведь похожие операции в обоих случаях.

А зачем dataminig в принципе?

А зачем нам разные там фильтры в радиотехнике, да и в эконометрике тоже? Сглаживание и прочая, прочая....

 

Статистика очень подлая наука - запросто можно скатиться в игру в цифирь. Причем на любом шаге.

 

Если Вы определились с целевой переменной, то затем к этой целевой переменной необходимо подобрать предикторы, причем не любые, а только те которые СОДЕРЖАТЕЛЬНО относятся к данной целевой переменной. Всегда смотрим на предиктор и пытаемся ответить на вопрос: "а какое свойство, черту отражает этот мой предиктор именно в моей целевой переменной"? И вообще: какое отношение предиктор имеет к финансовым рынкам?

Например, RSI: вроде бы отражает перекупленность/перепроданность рынка. Явно относится к разворотам. И т.д. 

Или вспомним Бурнакова (как понимаю человека выжили флудом с сайта): приращения с довольно большими лагами - это звоночек от периодичности.

А если говорить в общем, то необходимо сформулировать общую, словесную модель финансового рынка.

Например, у Хиндимана (пакет forecast). По его мнению рынок состоит из:

  • трех разновидностей тренда 
  • трех разновидностей шума
  • цикличности, которая у него имеет постоянный период, что вполне соответствует производственным данным, типа с/х продукции. 
Скорее всего, это не единственный подход. Но это определенность, а не шумный шум

 

При таком подходе Вы отметете кофейную гущу, кольца Сатурна (см. список астрологов)...

 

И еще не забываем о бедствии финансовых данных, под названием "не стационарность".  

 

И еще не забываем, что модели для финансовых рынков практически всегда получаются переобученными.

 

Победили все? Курим бамбук... 

 
Dr.Trader:

Я как-то запутался.

1) может просто потому что фонды так не делают? 

2) нужно понимать что такое рынок, пускай и по своему... 

3) нужно четко знать у кого и почему вы должны забирать деньги, те иметь свою конкретную идею 

4) все МО и проч.. это всего лишь инструментарий для описания своей конкретной идеи, но никак не сама идея, а здесь в ветке именно от этого практически все и пляшут думая что МО сам все придумает

 

Как бы это пафосно не звучало но мне получилось более менее адекватно прогнозировать рынок, для этого у меня работает достаточно сложный алгоритм, чтобы посчитать одну свечу ему надо около 6 минут, но некоторые главные элементы  будут переписаны на с++

А вот результат посчитанный этим сложным алгоритмом пока что приходиться анализировать глазами, те получается не  автоматический режим а полуавтоматический, но в ближайшем будущем попробую заменить свой визуальный анализ на какое нибудь МО по распознаванию образов, кстати распознает МО очень хорошо в отличии от прогнозирования, я просто брал выходы от своего алгоритма (они в виде графиков)  и создавал целевую фактически в ручную, я глазами просматривал каждый выход и как бы говорил, вот это я считаю сигналом на покупку, а это не считаю сигналом, те я создавал целевую по своему зрению, это было в качестве эксперимента, пока, потому данных я с целевой я сделал не много, так на пробу...  100 обуч. выборки и 50 контрольной, обучил обычный форест и что вы думаете? форест распознал 90% новой выборки

 

Доброго времени, Задача:

- Существует массив значений X,Y,Z;

- Возьмем срез - по X от1-до1000 на n-ом Yке: 

-Существуют некие точки минимумов и максимумов, если срез по Х то важны любые значения >1

В какую сторону смотреть чтоб воссоздать расчет типо весов относительно осей.

ТО есть начать мерить объект.  

Если сигнал поступил на ячейку х-55 у-163, то задача заключается в том чтоб определить значение(вес) точки относительно оси Х и Y(возможно по диагонали), ощутить положение точки на объекте.

Думаю нужно смотреть в сторону Основ статистических характеристик, дисперсий, медиан, мода, асимметрии.

Вообще нужно каким то способом начать мерить объект, по каждой единице относительно друг друга, также и то чтоб в значения точки на объекте учитывали присутствие других объектов.  

 

Файлы:
eiova.jpg  382 kb
1.jpg  320 kb
 
Top2n:

Доброго времени, Задача:

А можно как то попроще, а то все равно не понятно что вы хотите
 
СанСаныч Фоменко:


Спасибо, я что-то понял. 

Модели по существу просто оптимально делят пространство предикторов на два подпространства - класс-купить и класс-продать. 
Если мы начнём рандомно и долго создавать новые предикторы, то можем немного помочь модели, сделать часть её работы самому. Но это не обязано давать лучшую стабильность и предсказательность, это может просто помочь модели сделать её работу за меньшее число итераций, и в этой операции действительно не так много полезности как хотелось бы.

А вот те операции что вы упомянули - очистка от шума, сглаживание, поиск трендов, итд - это уже не просто создание предикторов удобных для модели. Это создание предикторов, которые каким-то образом описывают внутренние процессы рынка.
Я посмотрел разные старые рабочие стратегии, в них всегда есть некие константы - если МА то 21, если RSI то 14, итд. Все эти константы, и индикаторы построенные с ними не просто помогают модели проще классифицировать данные, но и несут в себе некие свойства описывающие внутренние процессы рынка. Плюс, разные константы в формулах для предикторов это уже некие новые данные, получается мы всё-таки добавляем новую информацию к оригинальным данным.

Получается, что если начать бездумно генерировать новые предикторы, то они просто помогут модели добиться лучшей точности при обучении, но они не помогут описать процессы внутри рынка, и следовательно предсказания с ними ненадёжны. Поэтому надо генерировать их очень много думая, согласен :)

 

И, нашлось интересное новое для меня свойство предикторов - описание внутренних процессов оригинальных данных.
Т.е. если у меня есть например десяток предикторов по которым можно легко восстановить сотни бар цены - то они явно несут в себе нужные свойства рынка, и построенная на них модель должна быть лучше.

 
Top2n:


Возможно не так понял что вам нужно, но я бы взял некий радиус, допустим 4, и для каждой точки находил среднее значение в этом радиусе.
Т.е. если X=BC, Y=158, Z=1, то можно найти среднее значение всех точек в этом радиусе R=4. Это будет средний вес точки (BC,158,1) и её окрестностей. Проделать это для всех точек в массиве, и получится новый массив, где чем больше число - тем больше сигналов в той окрестности оригинального массива.
Дальше можно всё это спроектировать на какую-то одну ось (отбросить координату Z, сложить все соответствующие ячейки с X и Y у которых был разный Z ). Потом также само отбросить Y и ссумировать все ячейки по X.

Файлы:
w5rtduyghjbn.png  388 kb
 
Dr.Trader:


Получается, что если начать бездумно генерировать новые предикторы, то они просто помогут модели добиться лучшей точности при обучении, но они не помогут описать процессы внутри рынка, и следовательно предсказания с ними ненадёжны. Поэтому надо генерировать их очень много думая, согласен :)


Все-таки печка, от которой следует танцевать - это некоторое словесное, интуитивное описание рынкета.

Я давно ношусь с идеей, что на финансовых рынках это интуитивное описание дает ZZ. Если на него посмотреть, то:

  • видны тренды
  • веден шум, как отклонение от прямых
  • видна периодичность

 

Как мне кажется все наши неприятности находятся именно в этой  периодичности, которая хаотично меняется по обоим осям. Мы упираемся именно в это. Если научимся хотя бы как-то бороться с этой нестационарностью, то остальное уже проще.

 
СанСаныч Фоменко:

Все-таки печка, от которой следует танцевать - это некоторое словесное, интуитивное описание рынкета.

Я давно ношусь с идеей, что на финансовых рынках это интуитивное описание дает ZZ. Если на него посмотреть, то:

  • видны тренды
  • веден шум, как отклонение от прямых
  • видна периодичность

 

Как мне кажется все наши неприятности находятся именно в этой  периодичности, которая хаотично меняется по обоим осям. Мы упираемся именно в это. Если научимся хотя бы как-то бороться с этой нестационарностью, то остальное уже проще.

Строго не судите и не спрашивайте, о чем это я, но возможно в помощь Генератор_белого_шума. Случаем если кто может то поделитесь опытом по поводу Фурье_Лаплас_Zпреобразований. 
Причина обращения: