Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1736

 
Maxim Dmitrievsky:

Погнали кластеризацию.. выставил 3 кластера, т.е. разбиваем облако точек (фичей) и определяем, к какому кластеру каждая принадлежит

простой двумерный пример для трейн сабсета:

Для тест:

Берем эти кластеры на трейне и не тесте и строим кумулятивную сумму приращений по всем кластерам.

На трейне:

На тесте:

ЛюбопытнА.

Вопрос какую выбрать и как? Очередная злая шутка :-)
 
Maxim Dmitrievsky:

ламба или бентли ?  ))

 
Maxim Dmitrievsky:

не тупи

фичи, тьфу ты Макс, опять выругался. Стесьняусь спросить какой смысл несут? Это прибыля? Клосы? или что?, то что тупо оказалось ближе всего. Тоесть они тупо стояли рядом в этом облаке кординат которые были собраны для обучения. Ну и что что стоят рядом в сответствии с признаком, кстати какой он там, всё забываю спросить???
 
mytarmailS:

ламба или бентли ?  ))

пошел выбирать..

 
Maxim Dmitrievsky:

пошел выбирать..

А почему KNN ? 

мог и dbscan какой то впиндюрить

 
mytarmailS:

А почему KNN ? 

мог и dbscan какой то впиндюрить

расшифруй

 
Maxim Dmitrievsky:

расшифруй

ну на глаз видно что кластеризировал ближайшим соседом knn

верно?

 
mytarmailS:

на глаз видно что кластеризировал ближайшим соседом knn

верно?

k-means, самая простая

 
Maxim Dmitrievsky:

k-means, самая простая

ну это то же самое

попробуй dbscan , думаю лучше будет

 Видишь я даже на глаз вижу чем ты кластеризацию делал )) я фигею сам с себя )

 
Alexander_K2:

Я где-то (ибо забыл уже - где, т.к. больше месяца трейдингом не занимаюсь) показывал, что распределение вероятности рыночных приращений - это произведение СВ гауссовского и экспоненциального (или в общем случае - Эрланга) распределений.

Распределение Эрланга отвечает за интервалы времени между тиковыми котировками и генератор таких чисел выглядит так:


Здесь Lambda - интенсивность потока событий (котировок).

Если Lambda=const, то данный процесс - стационарный, но на рынке интенсивность потока разная в разные моменты времени, т.е. Lambda=f(t), что определяет нестационарность процесса в целом.

Т.о. чтобы выделить стационарный процесс, необходимо рассматривать отдельные участки ВР с одинаковой плотностью потока как единое целое.

Поэтому, попытки разбивать ВР на часы внутри суток, а потом эти часы "склеивать" между собой - однозначно имеют право на жизнь.

P.S.

По моим расчетам, одинаковая плотность потока наблюдается в следующих часах внутри суток:

0

1, 23

2, 5, 22

3, 4, 8, 21

6, 7

9, 12, 19

10, 11, 15, 18

13, 14

16

17

20

Ну, это - так, просто для информации...

Причина обращения: