Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2066

 
elibrarius:
Что за предварительный анализ? Подал на вход модели и сравниваешь - с этой фичей и без.

Анализ данных посредством матстата, а в более узком смысле - поиск полезных отличий цены от СБ. Основное отличие от МО в том, что модели формулируются в явном виде и с малым набором параметров.

 
elibrarius:
Попробуйте XOR

Попробую разные, может, потом. А вообще я думаю, что надо делать кластеризацию и из похожих кластеров вытаскивать по строке, иначе качество обучения падает всё ж.

 
elibrarius:
Пункта 1 достаточно? Или 2 тоже надо? Что это? Поясните.

Возможно, проще объяснить посредством примера применения.

пункт 1) - проверка гипотезы о наличии суточных колебаний персистентность-антиперсистентность. Это проверка склонности цены продолжать или наоборот - менять направление своего движения в зависимости от времени суток. Для этого нужно знать корреляцию.

пункты 2) и 3) - проверка гипотезы, что развороты цены "происходят по часам" и лучше это делать в "правильном" времени

пункт 3) - поиск флетовых (трендовых) моментов времени суток посредством изучения эмпирического распределения длин зигзага.

 
Aleksey Nikolayev:

Возможно, проще объяснить посредством примера применения.

пункт 1) - проверка гипотезы о наличии суточных колебаний персистентность-антиперсистентность. Это проверка склонности цены продолжать или наоборот - менять направление своего движения в зависимости от времени суток. Для этого нужно знать корреляцию.

пункты 2) и 3) - проверка гипотезы, что развороты цены "происходят по часам" и лучше это делать в "правильном" времени

пункт 3) - поиск флетовых (трендовых) моментов времени суток посредством изучения эмпирического распределения длин зигзага.

В паре месяцев привязка только к дню месяца или к дню недели тоже есть. По коду только ко времени внутри исследуемого периода.

 
Aleksey Vyazmikin:

Попробую разные, может, потом. А вообще я думаю, что надо делать кластеризацию и из похожих кластеров вытаскивать по строке, иначе качество обучения падает всё ж.

Каждый лист в дереве это и есть кластер. Причем не просто по кучности фичей, а еще и по наилучшему разделению классов
 
elibrarius:
Каждый лист в дереве это и есть кластер. Причем не просто по кучности фичей, а еще и по наилучшему разделению классов

Так правильно, но если убрать те строки, которых уже и так много в листьях, то их будет чуть меньше (класс "0"), и качество не должно упасть, при этом относительные показатели для "1" станет больше, а значит модель сможет при поиске учитывать те варианты листьев, которые раньше статистически делать было не корректно.

Другой вариант - убрать напротив уникальные листья, они как раз могут мешать обучению.

 
Valeriy Yastremskiy:

В паре месяцев привязка только к дню месяца или к дню недели тоже есть. По коду только ко времени внутри исследуемого периода.

Для периодов больше суток появляется проблема отделения влияния новостного фона от периодичности. Не очень понимаю как её можно решить.

 
Aleksey Nikolayev:

Для периодов больше суток появляется проблема отделения влияния новостного фона от периодичности. Не очень понимаю как её можно решить.

Про сутки понял, согласен. Вопрос про день недели. Время внутри усредняемого периода, суток, не привязано ко дню недели изначально. Выявить внутринедельную повторяемость с учетом времени суток можно изначально сделав привязку к дню недели. У вас привязка только к времени суток дня месяца.

 
Aleksey Vyazmikin:

Так правильно, но если убрать те строки, которых уже и так много в листьях, то их будет чуть меньше (класс "0"), и качество не должно упасть, при этом относительные показатели для "1" станет больше, а значит модель сможет при поиске учитывать те варианты листьев, которые раньше статистически делать было не корректно.

Другой вариант - убрать напротив уникальные листья, они как раз могут мешать обучению.

Если каких то похожих строк много, значит ситуация часто повторяется. Если вы их выкинете, например 0 класс, и начнете в ральной торговле активировать лист классом 1, то если закономерности не изменятся, то вы опять будете получать много 0, вместо предсказанной 1. И терпеть убытки. Оно вам надо?

МО может прогнозировать только из предположения, что закономерность сохранится и действовать так, как было в прошлом. Удаляя закономерности из обучения, вы получите рандом

 
Aleksey Nikolayev:

Возможно, проще объяснить посредством примера применения.

пункт 1) - проверка гипотезы о наличии суточных колебаний персистентность-антиперсистентность. Это проверка склонности цены продолжать или наоборот - менять направление своего движения в зависимости от времени суток. Для этого нужно знать корреляцию.

пункты 2) и 3) - проверка гипотезы, что развороты цены "происходят по часам" и лучше это делать в "правильном" времени

пункт 3) - поиск флетовых (трендовых) моментов времени суток посредством изучения эмпирического распределения длин зигзага.

1) Корреляцию между чем и чем?

Причина обращения: