Тики: распределения амплитуд и задержек

 
Скачал я данные с http://ratedata.gaincapital.com/ за несколько разных недель и попытался их проанализировать. Интересно девки пляшут, однако!

Вот вторая неделя апреля, с 9 по 13 апреля 2007. Всего 27516 тиков, т. е. чуть меньше 4 тиков в минуту в среднем. А вот и статистика (число означает разницу между текущим тиком и предыдущим):

-1: 13600 тиков
+1: 13742 тика
0: 12 тиков (ошибочные?)
-2: 71 тик
+2: 78 тиков

И еще совсем чуть-чуть остального:

+3: 3
+4: 1
+8: 1
-3: 5
-4: 2 тика

На все остальное остается 12 тиков, ну то бишь ничего. Если отбросить еще и нули, которых по идее не должно быть, получается, что на +-1 приходится 99,4% всех тиков, а на +-2 - еще примерно 0.55%. Всего остального просто нет!

Отметим, что это вполне трендовая неделя, за которую евро уверенно подрос на пару фигур. При этом рост евро был обеспечен на 142 пункта за счет единичных, на 14 пунктов за счет тиков на +-2, и на -2 пункта за счет всего остального.

Какие выводы?

Рост/падение обеспечивается мелкими шажками, а не крупными рывками. Крупные тиковые броски никак не влияют на общую картину движения курса (если он двигался трендом)!

ОК, картина за предыдущую неделю: евро почти не сдвинулся с места. Статистика:

-1: 11884 тика
+1: 11909 тиков
0: 18 тиков (ошибочные?)
-2: 96 тиков
+2: 100 тиков

Вклад - плюс 33 пункта.

И остальное (-31 пункт):

-3: 13
-4: 3
-5: 2
-7: 1
+3: 6
+4: 2
+5: 1
+6: 1

Картина другая. Но снова +-1 - подавляющее большинство, которое тоже по сути определило картину.

Так должно быть - или это сильно нормализованные и очищенные данные?
 
Mathemat:

Рост/падение обеспечивается мелкими шажками, а не крупными рывками. Крупные тиковые броски никак не влияют на общую картину движения курса (если он двигался трендом)!

Просто котировки нормальные, если взять котировки ДЦ злоупотребляющего фильтрами, а следовательно запаздывающих на резких движениях,  то там гэпов и 15-20 пипсов хватает и тиков в два раза меньше.
 
Mathemat:
Скачал я данные с http://ratedata.gaincapital.com/ за несколько разных недель и попытался их проанализировать. Интересно девки пляшут, однако!

Вот вторая неделя апреля, с 9 по 13 апреля 2007. Всего 27516 тиков, т. е. чуть меньше 4 тиков в минуту в среднем. А вот и статистика (число означает разницу между текущим тиком и предыдущим):

Делим 27516 (количество тиков за неделю) на 5 (количество дней в неделе) и получим 5503.2
Если глянуть котировки из History Center, то увидим следующее:



"Если нет никакой разницы, то зачем платить дороже?" (с) :)
 
Так должно быть - или это сильно нормализованные и очищенные данные?

Чистые данные, должны иметь единицу разницы всегда, чем точнее разница в цене тика, то есть единица, тем они чище.
Нулевая разница это выпадание тиков, а значит пропущено может быть любое число тиков в этих нулях именно в них и даже в единицах не говоря о большем.
К сожалению я выявил закономерность фильтров, которые допускают разницу в единицу, и отбрасывают все что больше, тем самым удлиняя интервал тиков.

Сложно даже представить сколько может быть выброшено данных, причем не последовательных, а именно нарушающих любую последовательность.
На сколько я знаю, фабрикацией данных никто не занимается, а только их фильтрованием, реквоты тут не причем или причем?
Поэтому у разных ДЦ могут быть абсолютно одинаковые в большинстве данные, за исключением объема этих данных.
 
И вообще я до сих пор непойму, что такое реквота на языке тиков, мне всегда казалось, что это выражается только в предложении другой цены брокером, а не в фабрикации данных брокером, некоторые люди доводят эту информацию так, что кажется, как буд-то от этого меняются тики, то есть штампы тика, время и цена. Так вот что здесь глупость, кто-нибудь уточнит? Такой же вопрос, кто нибудь занимается фабрикацией данных тиков, из брокеров, вообще, то есть возможно ли появление не существующих тиков? Насколько я пониманию нет, иначе это лишено всякого смысла... Это же моментально можно использовать против брокера.
 

Вопрос в другом, в чем суть работы с тиками, если не то что половины, ну скажем даже одной трети нет, ну или вообще одного процента не хватает за один только день, то есть нарушена реальная событейная картина, выброшены именно те данные ради которых мы и затеяли анализ тиков:) Фактически, эти данные как раз можно собрать путем привлечения клиентов к этому вопросу, клиентов совершенно разных ДЦ. Если говорить о том что есть фильтрация, есть неточности, есть большая разница в количестве тиков между ДЦ, то в этом есть смысл. Вы хотели бы видеть колебания которых, вы не увидите используя данные только одного ДЦ, вы хотели бы видеть реальное развитие событий. Если взять АЦП - Аналогово Цифровой Преобразователь, то разработчики в этой области обычно говорят, для того чтобы анализировать оцифрованные данные, оцифровывать их нужно с помощью Риал Тайм Оперейшн Систем, то есть РТОС, такие системы как DOS и QNX некоторые модификации Linux, иначе какая-то малейшая часть, доля картины теряется, а ведь именно благодаря этому нельзя увидеть всех влияний и тенденций. Нельзя увидеть всего на сверх точном уровне, тогда я задаю вопрос, о каком тех анализе вы говорите, если по всплеску нельзя определить куда волна хлынет, потому что всплеск вырезали:) Чем точнее картина рынка, тем более ясно мы видем развитие, а в нашем случае, мы видим лишь размытие картины. Да я понимаю, котировки зависят от множество факторов, а может тогда взглянем на картину реально, если котировки могут поменятся резко, то есть просто вдарило, тогда получается обратная ситуация, чистые данные напротив не слиты в разницу единица, что если фильтры, работают таким образом, что реальные котировки как раз разница больше чем в один пипс по цене и именно это и есть чистые данные. Значит мы не можем работать на дистанции меньше чем скажем неделя, потому что точность даже минутки очень расплывчата, так как тех скачков которые есть реально, для нас просто не существует.

З.Ы.: Мысли в слух:)

 
Да и ведь есть этому подтверждение, сравнивая двух ДЦ, я наблюдал именно вырезку данных, таких как тики с разницей больше пипса, что значит, мое утверждение о том что разница в пипс это точные данные, ошибочны на сто процентов. Пипс гарантирует что данные наверняка могут быть фильтрованными. А ноль это полюбому ошибка, так как тики изначально пропагандируют разность данных:)

P.S.: Вот так доходят до истины, путем проб и ошибок... Тьфу, сколько времени уходит на изыскания, в собственной ошибочности, было бы еще хуже, если бы на этих ошибках была бы основана целая система. Так что, спасибо за тему Mathemat. Лягу теперь спать спокойно, без мучительных мыслей:)
 

Ну нет, Боже упаси, на тиках я никогда не собирался строить стратегии. Мне кажется, что это то же самое, что вести автомобиль, отслеживая признаки поворота по мелкой структуре дороги под колесами. За дорогами-то ухаживают по-разному. Хорошая новость в том, что, несмотря на существенное отличие тиковых историй у разных поставщиков, результаты на не слишком мелких ТФ почти идентичны.

 
xnsnet:
Такой же вопрос, кто нибудь занимается фабрикацией данных тиков, из брокеров, вообще, то есть возможно ли появление не существующих тиков? Насколько я пониманию нет, иначе это лишено всякого смысла. .. Это же моментально можно использовать против брокера.

Из того, что я читал в Инете, и что говорили трейдеры - некоторые брокеры (ДЦ) этим занимаются или занимались.
И здесь речь не о тиках, а о серьезных движениях на +/- 100 пунктов.
Дело было перед праздинками, а после них море потерянных денег по стоп лоссам и маржин коллу.
После этого трейдеры, в большинстве своем, перестали использовать стоп лоссы в этом ДЦ .
В чем здесь смысл - деньги остаются на "кухне"!
Если пердположить то, что кто-то все-таки смог это использовать в свою пользу, все равно доходы ДЦ остаются значительными.
 
Mathemat:

...Мне кажется, что это то же самое, что вести автомобиль, отслеживая признаки поворота по мелкой структуре дороги под колесами.



Класс. Самое точное определение тиковых стратегиях.
 
Анализируем тики дальше. Берем снова ту же трендовую неделю, с 9 по 13 апреля 2007, и строим в MS Excel графики.

Первый график - гистограмма вероятностного распределения тиков по времени ожидания с предшествующего тика (в секундах). По горизонтали - само время, по вертикали - частота. Распределение довольно ровное, красивое, не считая слишком уж крутой области около нуля. Какое это распределение? На пуассоновское вроде не похоже.



Второй график - те же интервалы тиков (временные), но расположенные по порядку их поступления за неделю. ПО горизонтали - шкала времени, по вертикали - время ожидания в секундах. Здесь намного труднее. Видна какая-то периодичность, накладывающаяся на случайный процесс из-за затишья в азиатскую сессию. Как с ней общаться - ума не приложу.



И еще один график, очень интересный. Это теперь амплитуды тиков, но тоже по порядку поступления. По горизонтали - временная шкала, по вертикали - амплитуда. Здесь ситуация почти однозначна: никакой особенной неоднородности по времени, как в предыдущем графике, нет. 99.5% тиков - это +-1, почти все остальное - это +-2. Сплошная синня закраска между -1 и +1 как раз и говорит о подавляющей частоте поступления минимальных по амплитуде тиков. Можно считать, что процесс почти стационарен.
Причина обращения: