Попробуйте оценивать фичи через модель на новых данных. Начиная от корреляции, взаимной информации и knn - Общее обсуждение

Aleksey Nikolayev 2023.07.16 12:05 #31431

Maxim Dmitrievsky #:
Я дико извиняюсь, но почему нельзя фичи просто через модель на новых данных проверять в таком случае?) стабильность она и в Африке стабильность.

У нее на оконце точно такой же православный лог лосс как и у взаимной информации или другой похожей метрики.

И по эффективности будет примерно то же самое, бесконечность помноженная на бесконечность, так как сравниваются 2 случайных ряда.

(с)

Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.

Машинное обучение в трейдинге Automated Trading Championship 2008: От теории к практике

Maxim Dmitrievsky 2023.07.16 12:15 #31432

Aleksey Nikolayev #:

Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.

Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним

Подход Саныча не понимаю :) он же среднеквадратичную ошибку смотрит по сути. Или СКО в скользящем окне.

Маркет - рынок готовых FOREX - Тенденции, прогнозы FOREX - Тенденции, прогнозы

СанСаныч Фоменко 2023.07.16 14:46 #31433

Aleksey Nikolayev #:

По поводу стабильности (с) СанСаныча. Если добавить время к набору признаков, то можно сравнивать его значимость с другими. Если признак более значим чем время, то он стабилен. Возможно, в этом есть какой-то смысл)

Например, если строится решающее дерево, то делать это только до первого сплита по времени. Если дерево окажется пустым, то все признаки плохие. Некоторым обоснованием этого подхода (для случая деревьев) может служить сходство алгоритмов поиска точки сплита с поиском точки разладки (change point detection) временного ряда. В обоих случаях обычно ищется разбиение одной выборки на две максимально отличающиеся друг от друга подвыборки.

Добавлял. Пустое, время - практически нулевой признак

СанСаныч Фоменко 2023.07.16 14:49 #31434

Maxim Dmitrievsky #:
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним

Подход Саныча не понимаю :) он же среднеквадратичную ошибку смотрит по сути. Или СКО в скользящем окне.

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

Maxim Dmitrievsky 2023.07.16 15:01 #31435

СанСаныч Фоменко #:

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

Это не только ваша, но и любого МОшника :)

Кросс-валидация обычная

Вам почему-то просто кажется, что делаете что-то иное.

Будете оценивать через МО - получите сопоставимые оценки. Потому что оно хорошо работает, не хуже самодельных оценок.

Мой вывод на основе вашего описания построен.

Отображение индикатора старшего таймфрейма Гуру оптимизации, поделитесь опытом Будущее у Forex индустрии

Maxim Dmitrievsky 2023.07.16 15:20 #31436

В ходе похожего эксперимента по отбору информативных признаков, я перебрал все способы. Благо это несложно. Начиная от корреляции, взаимной информации и knn, через OLS и SVM к форесту, бустингу и нейросетям (глубокие не трогал). Получилось, что лучше всего через бустинг. На втором месте OLS.

Обоснование очень простое: если бустинг урезать до одного дерева с одним сплитом, то можно оценивать mutual information, sample или permutation entropy и отчасти OLS.

Тестер не оптимизирует советник Группировка листьев - требуются Библиотеки: RL GMDH

Aleksey Nikolayev 2023.07.17 05:30 #31437

СанСаныч Фоменко #:

Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет

Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения.

Ошибки, баги, вопросы Почему нормальное распределение не Проблема глобальных файлов терминала

Aleksey Nikolayev 2023.07.17 05:47 #31438

Maxim Dmitrievsky #:
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним

Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)

Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.

Пожелания к MQL5 Сколько стоит персональное обучение Возможно ли применение мартингейла

Maxim Dmitrievsky 2023.07.17 06:15 #31439

Aleksey Nikolayev #:

Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)

Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.

Много умственных затрат требуется, когда имеешь дело с неизвестным :) в гугле такого нет, так же как и внятных общих пособий до недавнего времени не было

СанСаныч Фоменко 2023.07.17 13:41 #31440

Aleksey Nikolayev #:

Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения.

В моем случае невозможно ответить на Ваш вопрос: переобучение модели ведется на каждом шаге, и, естественно набор признаков может быть разным на разных шагах.

Ошибка классификации колеблется от 20% до 10%. 25% не было ни разу.

Машинное обучение в трейдинге Обсуждение статьи "Секвента ДеМарка Алгоритм объединения диапазонов отрезка

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3144