Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1203
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Важное условие: пердикторы не должны коррелировать, иначе получится белиберда с ошибкам.. Для этого я трансформировал сначала через PCA, но можно составить корреляционную матрицу и убрать все сильно коррелирующие. Есть и другой механизм, но там сложноКакая корреляция допустима? Ведь предикторы хорошие должны коррелировать с целевой, а значит и между собой в той или иной мере они будут коррелировать...
Если просто шум, тогда мы сломаем вообще сплит, к примеру там разделение с правилом "больше 100", а мы запихаем рандом от 0 до 99, то дальнейшее разбиение будет уже не активно, а ведь наверное важно посмотреть, как будет дальнейшее разбиение работать при выпадении одного из правил листа...
значит ошибка сильно упадет и все будет пучком, импортанс низкий. Не лезьте вы вовнутрь моделей, откуда знаете как расспличены деревья, причем каждое по разному с разным кол-вом фичей. Смотрится всегда среднее по больнице
Какая корреляция допустима? Ведь предикторы хорошие должны коррелировать с целевой, а значит и между собой в той или иной мере они будут коррелировать...
это ересь для линейной регрессии с одним предиктором, в нелинейных моделях ничо не обязано коррелировать с целевой, тем более если это классификация
какая допустима не знаю, сложно.. или экспериментально. Проще через PCA в этом плане конечнозначит ошибка сильно упадет и все будет пучком, импортанс низкий. Не лезьте вы вовнутрь моделей, откуда знаете как расспличены деревья, причем каждое по разному с разным кол-вом фичей. Смотрится всегда среднее по больнице
Тогда можно обнулить просто значение или заменить на любое другое - тот же рандом, но мне вот кажется, что это не логично... в общем, если смогу это реализовать, то попробую два варианта.
это ересь для линейной регрессии, в нелинейных моделях ничо не должно коррелировать с целевой
Ну, какой может быть довод, что если есть корреляция с целевой, то предиктор плохой?
Тогда можно обнулить просто значение или заменить на любое другое - тот же рандом, но мне вот кажется, что это не логично... в общем, если смогу это реализовать, то попробую два варианта.
Ну, какой может быть довод, что если есть корреляция с целевой, то предиктор плохой?
как хотите так делайте, главное принцип перестановки фичи, мне кажется, это мелочи скорее всего
речь не про один а про то когда их много и импортанс примерно одинаковый, т.к. корреляция между ними сильная. Получится, что убрав одну сильную фичу при перестановке ошибка модели не упадет, т.к. будут похожие фичи с таким же импортансом, и ни одна сильная фича не будет распознана. Поэтому рандомизировать нужно либо все коррелированные фичи сразу (что сложнее реализовать), либо изначально позаботиться что бы ниче сильно не коррелировало
как хотите так делайте, главное принцип перестановки фичи, мне кажется, это мелочи скорее всего
речь не про один а про то когда их много и импортанс примерно одинаковый, т.к. корреляция сильная. Получится, что убрав одну сильную фичу при перестановке ошибка модели не упадет, т.к. будут похожие фичи с таким же импортансом, и ни одна сильная фича не будет распознана
Это ещё модель должна так предикторы набрать, что бы симетричные деревья построить - ведь без повторного обучения это мало вероятно, как мне кажется, так-как в этом нет смысла при создании модели.
Так какая корреляция допустима?Это ещё модель должна так предикторы набрать, что бы симетричные деревья построить - ведь без повторного обучения это мало вероятно, как мне кажется, так-как в этом нет смысла при создании модели.
это прекрасно работает в случае с лесом, в случае катбуста надо читать, не помню как он работает. Может у него сам по себе импортанс хорошо реализован, из-за структуры самой модели
не знаю какая допустима, поставить порог какой-нибудь да посмотреть. +- мало что изменится в модели. Притом что бустинг не так как RF работает, может там импортанс четкий изначально
или если уверены что фичи в принципе разнородные и не коррелируют то вообще забить на этот шаг попробовать
это все важные вещи, особенно если фичей много и надо выкинуть шлак что бы не зашумлять модель, но не настолько что бы за каждый % корреляции трястись, думаю. в диапазоне -0.5; 0.5 нормально наверное
сам позже сделаю себе такой вариант, посмотрю
это прекрасно работает в случае с лесом, в случае катбуста надо читать, не помню как он работает. Может у него сам по себе импортанс хорошо реализован, из-за структуры самой модели
не знаю какая допустима, поставить порог какой-нибудь да посмотреть. +- мало что изменится в модели. Притом что бустинг не так как RF работает, может там импортанс четкий изначально
или если уверены что фичи в принципе разнородные и не коррелируют то вообще забить на этот шаг попробовать
это все важные вещи, особенно если фичей много и надо выкинуть шлак что бы не зашумлять модель, но не настолько что бы за каждый % корреляции трястись, думаю. в диапазоне -0.5; 0.5 нормально наверное
сам позже сделаю себе такой вариант, посмотрю
Ясно, надо пробовать. Корреляции такой с целевой точно нет, а вот до матрицы всё руки не доходят - я как раз хочу посмотреть листья на предмет корреляции, и возможно модели кэтбуста - знаю точно, что спаривание моделей возможно - нехитрый перебор это показал, но надо все делать более обоснованно, да и выявленная корреляция позволит уменьшить число итераций при спаривании моделей.
решается подбором оптимальных весов.. например как варьировать постериор.. от равномерного до экспоненциального
Я не сторонник моделей - "чёрных ящиков". Лучше когда всё прозрачно, с простым "физическим" смыслом.
Например - считаем по большой истории априорную вероятность того, что коррекция станет разворотом, а потом пересчитываем её для каждой конкретной коррекции в апостериорную, в зависимости от времени суток или характеристик тренда.
Я не сторонник моделей - "чёрных ящиков". Лучше когда всё прозрачно, с простым "физическим" смыслом.
Например - считаем по большой истории априорную вероятность того, что коррекция станет разворотом, а потом пересчитываем её для каждой конкретной коррекции в апостериорную, в зависимости от времени суток или характеристик тренда.
простой физический смысл закономерностей форекса нам не известен, к сожалению