Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3144

 
Maxim Dmitrievsky #:
Я дико извиняюсь, но почему нельзя фичи просто через модель на новых данных проверять в таком случае?) стабильность она и в Африке стабильность.

У нее на оконце точно такой же православный лог лосс как и у взаимной информации или другой похожей метрики.

И по эффективности будет примерно то же самое, бесконечность помноженная на бесконечность, так как сравниваются 2 случайных ряда.

(с)

Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.

 
Aleksey Nikolayev #:

Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.

Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним
Подход Саныча не понимаю :) он же среднеквадратичную ошибку смотрит по сути. Или СКО в скользящем окне.
 
Aleksey Nikolayev #:

По поводу стабильности (с) СанСаныча. Если добавить время к набору признаков, то можно сравнивать его значимость с другими. Если признак более значим чем время, то он стабилен. Возможно, в этом есть какой-то смысл)

Например, если строится решающее дерево, то делать это только до первого сплита по времени. Если дерево окажется пустым, то все признаки плохие. Некоторым обоснованием этого подхода (для случая деревьев) может служить сходство алгоритмов поиска точки сплита с поиском точки разладки (change point detection) временного ряда. В обоих случаях обычно ищется разбиение одной выборки на две максимально отличающиеся друг от друга подвыборки.

Добавлял. Пустое, время - практически нулевой признак

 
Maxim Dmitrievsky #:
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним
Подход Саныча не понимаю :) он же среднеквадратичную ошибку смотрит по сути. Или СКО в скользящем окне.

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

 
СанСаныч Фоменко #:

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

Это не только ваша, но и любого МОшника :)
Кросс-валидация обычная
Вам почему-то просто кажется, что делаете что-то иное.

Будете оценивать через МО - получите сопоставимые оценки. Потому что оно хорошо работает, не хуже самодельных оценок.

Мой вывод на основе вашего описания построен.
 

В ходе похожего эксперимента по отбору информативных признаков, я перебрал все способы. Благо это несложно. Начиная от корреляции, взаимной информации и knn, через OLS и SVM к форесту, бустингу и нейросетям (глубокие не трогал). Получилось, что лучше всего через бустинг. На втором месте OLS.

Обоснование очень простое: если бустинг урезать до одного дерева с одним сплитом, то можно оценивать mutual information, sample или permutation entropy и отчасти OLS.
 
СанСаныч Фоменко #:

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения. 

 
Maxim Dmitrievsky #:
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним

Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)

Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.

 
Aleksey Nikolayev #:

Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)

Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.

Много умственных затрат требуется, когда имеешь дело с неизвестным :) в гугле такого нет, так же как и внятных общих пособий до недавнего времени не было 
 
Aleksey Nikolayev #:

Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения. 

В моем случае невозможно ответить на Ваш вопрос: переобучение модели ведется на каждом шаге, и, естественно набор признаков может быть разным на разных шагах.

Ошибка классификации колеблется от 20% до 10%. 25% не было ни разу. 

Причина обращения: