Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1203

 
Maxim Dmitrievsky:


Важное условие: пердикторы не должны коррелировать, иначе получится белиберда с ошибкам.. Для этого я трансформировал сначала через PCA, но можно составить корреляционную матрицу и убрать все сильно коррелирующие. Есть и другой механизм, но там сложно

Какая корреляция допустима? Ведь предикторы хорошие должны коррелировать с целевой, а значит и между собой в той или иной мере они будут коррелировать...

 
Aleksey Vyazmikin:

Если просто шум, тогда мы сломаем вообще сплит, к примеру там разделение с правилом "больше 100", а мы запихаем рандом от 0 до 99, то дальнейшее разбиение будет уже не активно, а ведь наверное важно посмотреть, как будет дальнейшее разбиение работать при выпадении одного из правил листа...

значит ошибка сильно упадет и все будет пучком, импортанс низкий. Не лезьте вы вовнутрь моделей, откуда знаете как расспличены деревья, причем каждое по разному с разным кол-вом фичей. Смотрится всегда среднее по больнице

 
Aleksey Vyazmikin:

Какая корреляция допустима? Ведь предикторы хорошие должны коррелировать с целевой, а значит и между собой в той или иной мере они будут коррелировать...

это ересь для линейной регрессии с одним предиктором, в нелинейных моделях ничо не обязано коррелировать с целевой, тем более если это классификация

какая допустима не знаю, сложно.. или экспериментально. Проще через PCA в этом плане конечно
 
Maxim Dmitrievsky:

значит ошибка сильно упадет и все будет пучком, импортанс низкий. Не лезьте вы вовнутрь моделей, откуда знаете как расспличены деревья, причем каждое по разному с разным кол-вом фичей. Смотрится всегда среднее по больнице

Тогда можно обнулить просто значение или заменить на любое другое - тот же рандом, но мне вот кажется, что это не логично... в общем, если смогу это реализовать, то попробую два варианта.

Maxim Dmitrievsky:

это ересь для линейной регрессии, в нелинейных моделях ничо не должно коррелировать с целевой

Ну, какой может быть довод, что если есть корреляция с целевой, то предиктор плохой?

 
Aleksey Vyazmikin:

Тогда можно обнулить просто значение или заменить на любое другое - тот же рандом, но мне вот кажется, что это не логично... в общем, если смогу это реализовать, то попробую два варианта.

Ну, какой может быть довод, что если есть корреляция с целевой, то предиктор плохой?

как хотите так делайте, главное принцип перестановки фичи, мне кажется, это мелочи скорее всего

речь не про один а про то когда их много и импортанс примерно одинаковый, т.к. корреляция между ними сильная. Получится, что убрав одну сильную фичу при перестановке ошибка модели не упадет, т.к. будут похожие фичи с таким же импортансом, и ни одна сильная фича не будет распознана. Поэтому рандомизировать нужно либо все коррелированные фичи сразу (что сложнее реализовать), либо изначально позаботиться что бы ниче сильно не коррелировало

 
Maxim Dmitrievsky:

как хотите так делайте, главное принцип перестановки фичи, мне кажется, это мелочи скорее всего

речь не про один а про то когда их много и импортанс примерно одинаковый, т.к. корреляция сильная. Получится, что убрав одну сильную фичу при перестановке ошибка модели не упадет, т.к. будут похожие фичи с таким же импортансом, и ни одна сильная фича не будет распознана

Это ещё модель должна так предикторы набрать, что бы симетричные деревья построить - ведь без повторного обучения это мало вероятно, как мне кажется, так-как в этом нет смысла при создании модели.

Так какая корреляция допустима?
 
Aleksey Vyazmikin:

Это ещё модель должна так предикторы набрать, что бы симетричные деревья построить - ведь без повторного обучения это мало вероятно, как мне кажется, так-как в этом нет смысла при создании модели.

это прекрасно работает в случае с лесом, в случае катбуста надо читать, не помню как он работает. Может у него сам по себе импортанс хорошо реализован, из-за структуры самой модели

не знаю какая допустима, поставить порог какой-нибудь да посмотреть. +- мало что изменится в модели. Притом что бустинг не так как RF работает, может там импортанс четкий изначально

или если уверены что фичи в принципе разнородные и не коррелируют то вообще забить на этот шаг попробовать

это все важные вещи, особенно если фичей много и надо выкинуть шлак что бы не зашумлять модель, но не настолько что бы за каждый % корреляции трястись, думаю. в диапазоне -0.5; 0.5 нормально наверное

сам позже сделаю себе такой вариант, посмотрю

 
Maxim Dmitrievsky:

это прекрасно работает в случае с лесом, в случае катбуста надо читать, не помню как он работает. Может у него сам по себе импортанс хорошо реализован, из-за структуры самой модели

не знаю какая допустима, поставить порог какой-нибудь да посмотреть. +- мало что изменится в модели. Притом что бустинг не так как RF работает, может там импортанс четкий изначально

или если уверены что фичи в принципе разнородные и не коррелируют то вообще забить на этот шаг попробовать

это все важные вещи, особенно если фичей много и надо выкинуть шлак что бы не зашумлять модель, но не настолько что бы за каждый % корреляции трястись, думаю. в диапазоне -0.5; 0.5 нормально наверное

сам позже сделаю себе такой вариант, посмотрю

Ясно, надо пробовать. Корреляции такой с целевой точно нет, а вот до матрицы всё руки не доходят - я как раз хочу посмотреть листья на предмет корреляции, и возможно модели кэтбуста - знаю точно, что спаривание моделей возможно - нехитрый перебор это показал, но надо все делать более обоснованно, да и выявленная корреляция позволит уменьшить число итераций при спаривании моделей.

 
Maxim Dmitrievsky:

решается подбором оптимальных весов.. например как варьировать постериор.. от равномерного до экспоненциального

Я не сторонник моделей - "чёрных ящиков". Лучше когда всё прозрачно, с простым "физическим" смыслом.

Например - считаем по большой истории априорную вероятность того, что коррекция станет разворотом, а потом пересчитываем её для каждой конкретной коррекции в апостериорную, в зависимости от времени суток или характеристик тренда.

 
Aleksey Nikolayev:

Я не сторонник моделей - "чёрных ящиков". Лучше когда всё прозрачно, с простым "физическим" смыслом.

Например - считаем по большой истории априорную вероятность того, что коррекция станет разворотом, а потом пересчитываем её для каждой конкретной коррекции в апостериорную, в зависимости от времени суток или характеристик тренда.

простой физический смысл закономерностей форекса нам не известен, к сожалению

Причина обращения: