Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2405

 

Решил сравнить метрики близости между собой, какие лучше всего подходят для распознавания рыночных данных...

Самая распространенная метрика "евклидова" она  применяется практически в 99% случаев и является что то типа стандарта в МО..

практически все кластеризаторы работают на ней..

Итак сравнивалось 24 метрики на адекватность распознавания новых рыночных данных..

список метрик и результат ошыбки

 [1,] "0.51"  "euclidean"  
 [2,] "0.525" "manhattan"  
 [3,] "0.51"  "minkowski"  
 [4,] "0.545" "infnorm"    
 [5,] "0.505" "ccor"       
 [6,] "0.565" "sts"        
 [7,] "0.51"  "dtw"        
 [8,] "0.52"  "edr"        
 [9,] "0.55"  "erp"        
[10,] "0.51"  "lcss"       
[11,] "0.535" "fourier"    
[12,] "0.46"  "tquest"     
[13,] "0.525" "acf"        
[14,] "0.52"  "pacf"       
[15,] "0.525" "cdm"        
[16,] "0.53"  "cid"        
[17,] "0.53"  "cor"        
[18,] "0.5"   "cort"       
[19,] "0.495" "ar.pic"     
[20,] "0.485" "int.per"    
[21,] "0.49"  "per"        
[22,] "0.52"  "mindist.sax"
[23,] "0.535" "ncd"        
[24,] "0.51"  "pdc"

Как видно евклид далеко не лучшее решение для цен ))

 
mytarmailS:

Решил сравнить метрики близости между собой, какие лучше всего подходят для распознавания рыночных данных...

Самая распространенная метрика "евклидова" она  применяется практически в 99% случаев и является что то типа стандарта в МО..

практически все кластеризаторы работают на ней..

Итак сравнивалось 24 метрики на адекватность распознавания новых рыночных данных..

список метрик и результат ошыбки

Как видно евклид далеко не лучшее решение для цен ))

Это если у вас только цены на входе. А если еще и время от 0 бара до того на котором вы смотрите цену, а если еще объемы (тик/реал) или еще что-то. Евклидово, да и вообще любое расстояние между фичами будет неадекватно. Как можно уравнять 5 пунктов цены, 5 минутных баров, 5 часовых баров, 5 лотов объема? Никак.
А кластеризатор их посчитает равными.
 
elibrarius:
Это если у вас только цены на входе. А если еще и время от 0 бара до того на котором вы смотрите цену, а если еще объемы (тик/реал) или еще что-то. Евклидово, да и вообще любое расстояние между фичами будет неадекватно. Как можно уравнять 5 пунктов цены, 5 минутных баров, 5 часовых баров, 5 лотов объема? Никак.
А кластеризатор их посчитает равными.

Можно использовать метрику Махаланобиса или какую-то нормализацию данных.

 
Aleksey Nikolayev:

Можно использовать метрику Махаланобиса или какую-то нормализацию данных.

Нормализация просто изменит масшьабы. Из шара сделает элипсоид - если мах величины не совпадают. Будете 5 пт уравнивать с 2 часами и 7 лотами.
В любом случае это уравнивание теплого с мягким. После нормализации получится теплое с пушистым))

 
elibrarius:

Нормализация просто изменит масшьабы. Из шара сделает элипсоид - если мах величины не совпадают. Будете 5 пт уравнивать с 2 часами и 7 лотами.
В любом случае это уравнивание теплого с мягким. После нормализации получится теплое с пушистым))

Иногда можно для нормализации признаков использовать их функцию распределения для СБ. Например, длины колен зигзага для СБ распределены по экспоненциальному закону и тд. Если распределение точно неизвестно, то можно его построить приближённо, посредством моделирования Монте Карло.

 
elibrarius:

Нормализация просто изменит масшьабы. Из шара сделает элипсоид - если мах величины не совпадают. Будете 5 пт уравнивать с 2 часами и 7 лотами.
В любом случае это уравнивание теплого с мягким. После нормализации получится теплое с пушистым))

Теплое с пушистым это хотеть сравнивать  - 

elibrarius:
 5 часовых баров и 5 лотов объема
 
Aleksey Nikolayev:

Можно использовать метрику Махаланобиса или какую-то нормализацию данных.

Почему у всех знаменитых математиков такие заковыристые фамилии?

 
secret:

Почему у всех знаменитых математиков такие заковыристые фамилии?

Индиец же) У них там есть и позаковыристее)

 
Энтропия давно используется везде в кач-че ф-ии потерь или кросс энтропия. Да и потом, все это не имеет никакого значения на рядах с плавающим законом, если и имеет, то второстепенную важность. Решение лежит на поверхности и уже предлагался один из вариантов в этой теме, шатко-валко работает. Подробности пока не скажу, но статью напишу когда-нибудь. З.Ы. наверное, погорячился про поверхность, но по крайней мере для меня 😀
 
Справочка по метрикам, сам не знаю некоторые https://russianblogs.com/article/7586220986/
Причина обращения: