Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1301

 
Aleksey Vyazmikin:

Кажется разговор шёл об автоматическом отборе модели, я пояснил, что интересные модели можно отбирать двумя способами, через известный критерий и формулу (как я это делаю сейчас - 3 последних колонки заполняются для каждой выборки и для каждой выборки формируется такая таблица, если 3 колонки-фильтра совпали то модель отбирается), а можно с помощью машинного обучения, когда понимаешь что хочешь от модели в работе на независемой выборке, но не знаешь, как этого добиться. Так вот для второго способа разные метрические показатели модели становятся предикторами и по ним происходит обучение модели, которая уже посредством МО отбирает из аналогичных данных подходящие модели. Подобный опыт с обучением я проводил в том году, он показал положительные результаты, в плане точность оценки хорошая, а полнота не очень, тогда я решил, что не хватает разнообразия в выборке и отложил работы до лучших времен. Сейчас выборок много генерируется разных и можно вернуться к этой работе. Главная идея не отбор лучшего из имеющегося пула, а отбор лучших по абсолютным критериям, будь то МО или фиксированный показатель.

Листья - это уже работа с отобранными моделями.

то есть вы берете потом n-моделей (как в файле), их метрики вбиваете как предикторы для НС, а на выход тогда что?

какие-то оценки из опыта? типа с такими показателями модель будет работать, с такими нет

и потом через эту хреньку фильтруете новые модели? Ну типа НС отбирает МО модели потом сама

 
Maxim Dmitrievsky:

то есть вы берете потом n-моделей (как в файле), их метрики вбиваете как предикторы для НС, а на выход тогда что?

какие-то оценки из опыта? типа с такими показателями модель будет работать, с такими нет

и потом через эту хреньку фильтруете новые модели? Ну типа НС отбирает МО модели потом сама

Когда я экспериментировал, то брал аналогичные метрики для тестовой выборки, а в целевую ставил результат на экзаменационной (независимой от обучение) выборке. Целевой там были прибыль, просадка (отдельно для сделок на покупку и продажу) и что-то ещё из показателей самой моделе, уже точно не помню. Сейчас к данным тестовой выборки точно нужно добавить ещё метрические показатели с учебной выборки (тогда не знал, что на ней может быть существенно другой результат для Катбуста), и с целевой нужно поэкспериментировать ещё.

Полученной модели подавались результаты от других выборок с моделями, главным результатом тогда оказалось хорошая фильтрация убыточных моделей.
 
Aleksey Vyazmikin:

Когда я экспериментировал, то брал аналогичные метрики для тестовой выборки, а в целевую ставил результат на экзаменационной (независимой от обучение) выборке. Целевой там были прибыль, просадка (отдельно для сделок на покупку и продажу) и что-то ещё из показателей самой моделе, уже точно не помню. Сейчас к данным тестовой выборки точно нужно добавить ещё метрические показатели с учебной выборки (тогда не знал, что на ней может быть существенно другой результат для Катбуста), и с целевой нужно поэкспериментировать ещё.

очень странное витиеватое решение, никогда такого не видел и затрудняюсь что-то сказать по этому поводу

но если работает то гуд
 
Maxim Dmitrievsky:

очень странное витиеватое решение, никогда такого не видел и затрудняюсь что-то сказать по этому поводу

но если работает то гуд

Идея в том, что по структуре модели, её поведению на тестовой и учебной выборке, можно закладывать определенные ожидания поведения в реальной работе.

Это направление весьма интересное, но требующее времени и ресурсов. С другой стороны тут можно коллективно развиваться, обмениваться открыто предикторами.

Если по модели ничего нельзя сказать о её работе в будущем, то всё МО это пустая трата времени - дело случая...

 
Aleksey Vyazmikin:

Идея в том, что по структуре модели, её поведению на тестовой и учебной выборке, можно закладывать определенные ожидания поведения в реальной работе.

Это направление весьма интересное, но требующее времени и ресурсов. С другой стороны тут можно коллективно развиваться, обмениваться открыто предикторами.

Если по модели ничего нельзя сказать о её работе в будущем, то всё МО это пустая трата времени - дело случая...

Со временем разброс результатов увеличивается, это надо учитывать. Если модель ломается сразу на новых сделках то только тогда подгонка, в остальном можно пытаться дожимать. Самый простой способ улучшения это регуляризация (в катбусте шаг градиента) или просто не дообучить.

посмотрите как торгуют люди - всякой фигней мартингейловой. МО уже дает преимущество какое-то

о сложных оценках моделей типа Байесовских сейчас не пишу, потому что сам до конца не понял как с этим работать, там еще много изучать и пилить
 
Maxim Dmitrievsky:

Со временем разброс результатов увеличивается, это надо учитывать. Если модель ломается сразу на новых сделках то только тогда подгонка, в остальном можно пытаться дожимать

в остальном посмотрите как торгуют люди - всякой фигней мартингейловой. МО уже дает преимущество какое-то

Вчера я показал, что Кэтбуст формирует шум в листьях(бинарных деревьях), который можно убрать и модель улучшиться. Я ещё немного поэкспериментировал в этом направлении, усиливая фильтрацию, и обнаружил, что после определенного порога происходит парадоксальная вещь - улучшения прекращаются на независимой выборке, но продолжаются на тестовой и учебной. Т.е. в реальности получается, что модель продолжает работать (на независимой от обучения выборке) по накатанной на связях с малым весом, фактически подгонках, и тут возникает вопрос, что либо веса не верно разданы, либо модель переобучилась и случайно работает на белом шуме (ну не совсем шуме, на менее значимых показателях бинарных деревьев). Думаю, что можно так же посмотреть откуда взялись эти связи и выявить их значимость на короткой экзаменационной выборке.

 
Aleksey Vyazmikin:

Вчера я показал, что Кэтбуст формирует шум в листьях(бинарных деревьях), который можно убрать и модель улучшиться. Я ещё немного поэкспериментировал в этом направлении, усиливая фильтрацию, и обнаружил, что после определенного порога происходит парадоксальная вещь - улучшения прекращаются на независимой выборке, но продолжаются на тестовой и учебной. Т.е. в реальности получается, что модель продолжает работать по накатанной на связях с малым весом, фактически подгонках, и тут возникает вопрос, что либо веса не верно разданы, либо модель переобучилась и случайно работает на белом шуме (ну не совсем шуме, на менее значимых показателях бинарных деревьев). Думаю, что можно так же посмотреть откуда взялись эти связи и выявить их значимость на короткой экзаменационной выборке.

в какую сторону не копайте - везде будут находиться какие-то иллюзорные "закономерности", их можно найти в любом явлении

больше всего меня радует большое кол-во "предикторов". Откуда оно бы вообще взялось в котировках? Там 90% мусор

 
Maxim Dmitrievsky:

это без понятия, в деревья и листья не лезу и не собираюсь.. все можно делать на уровне самой модели. 

в какую сторону не копайте - везде будут находиться какие-то иллюзорные "закономерности", их можно найти в любом явлении

поэтому просто работа известными способами

А меня как раз вдохновляет ручной тюнинг - я утратил веру в пассивное волшебство.

Не знаю вот точный алгоритм весов листьев, но думаю, что он зависит от последовательности найденных связей, а не только от самих связей, т.е. если новое дерево в бустинге подправляет ошибку, то вес дается на дельту исправления ошибки, в то время как новая связь может быть ценней, чем само исправление. В идеале нужно перепроверять связи, и их веса, проверять на число бинарных деревьев участвующих в принятии решения, если там десяток деревьев дающие в сумме вероятность 0,5, то возможно это слабая связь... с другой стороны нужно учитывать и размер самого дерева (сейчас я использую глубину 4, как раз для выявления коротких правил в листьях). Это так, мысли в слух, не нуждающиеся в ответе...

 
Maxim Dmitrievsky:

больше всего меня радует большое кол-во "предикторов". Откуда оно бы вообще взялось в котировках? Там 90% мусор

Каждый описывают свою иллюзию разными способами, а работает иллюзия того, у кого много денег в моменте времени. Поэтому действительно, предикторов может быть много, не вижу тут противоречий, это как кустарники состоящие из веток и листьев, но кому то приходит в голову их подстригать под разные замысловатые фигурки, вызывающие разную реакцию у созерцающих.

 
Aleksey Vyazmikin:

Каждый описывают свою иллюзию разными способами, а работает иллюзия того, у кого много денег в моменте времени. Поэтому действительно, предикторов может быть много, не вижу тут противоречий, это как кустарники состоящие из веток и листьев, но кому то приходит в голову их подстригать под разные замысловатые фигурки, вызывающие разную реакцию у созерцающих.

Ну каждому свое, меня парит такая скурпулезность, в любом случае подгонка что так что так, главное что бы работало какое-то время

там получается что если найти оптимальную комбинацию входов\выходов то и 4-х предикторов хватает

короче компромисс между эффективностью и времязатратами нужен какой-то

Причина обращения: