Есть ли закономерность в хаосе? Попробуем поискать! Машинное обучение на примере конкретной выборки. - страница 12

 
elibrarius #:

Вы эти модели отбираете по лучшей на тесте?

Или среди множества лучших на тесте - лучший и на экзамене?

Конкретно там была отборка просто по лучшим на экзамене.

 
Aleksey Vyazmikin #:

Конкретно там была отборка просто по лучшим на экзамене.

Я тоже показывал лучшую на экзамене. Перед запуском в реальную торговлю, экзамена не будет. Точнее он будет за реальные деньги...

Сейчас сделал отбор признаков валкинг форвардом (10000 через 5000 и один трейн как у вас и один тест), на экзамене оба сливают.

Надо как-то на тесте делать отбор, чтобы обучаемость сохранялась и на экзамене.

 
elibrarius #:

Я тоже показывал лучшую на экзамене. Перед запуском в реальную торговлю, экзамена не будет. Точнее он будет за реальные деньги...

Сейчас сделал отбор признаков валкинг форвардом (10000 через 5000 и один трейн как у вас и один тест), на экзамене оба сливают.

Надо как-то на тесте делать отбор, чтобы обучаемость сохранялась и на экзамене.

В настоящий момент можно только увеличить вероятность правильного отбора, к сожалению. Поэтому и рассматриваю пакетный вариант торговли, когда отбирается сразу много моделей в надежде, что средняя точность будет достаточная и удастся получить среднюю прибыль.

 
Надо из сотен тысяч ваших признаков найти рабочие, и обязательно потом понять почему они работают. И затем пилить разные ТС на них уже не брутфорся, а подбирая оптимальные гиперпараметры. 
Иначе получится все равно подгонка, когда из сотен моделей выбор по экзамену.
Самое главное - понять почему признаки работают, хотя бы приблизительно. Тогда их ещё и улучшить можно, либо метки к ним.

Стакать кучу непонятных моделей - это тоже нехорошая идея. Потому что придётся переобучать потом опять кучу не пойми чего.

Вам же брутфорс с отбором признаков нужен чтобы выбрать неплохие, а потом медитировать почему они работают. Тогда станет понятно куда двигать дальше. А сам по себе брутфорс для приготовления ТС неэффективен, он все-таки как разведочный должен рассматриваться.
 
Maxim Dmitrievsky #:
Надо из сотен тысяч ваших признаков найти рабочие, и обязательно потом понять почему они работают. И затем пилить разные ТС на них уже не брутфорся, а подбирая оптимальные гиперпараметры. 
Иначе получится все равно подгонка, когда из сотен моделей выбор по экзамену.
Самое главное - понять почему признаки работают, хотя бы приблизительно. Тогда их ещё и улучшить можно, либо метки к ним.

Стакать кучу непонятных моделей - это тоже нехорошая идея. Потому что придётся переобучать потом опять кучу не пойми чего.

Вам же брутфорс с отбором признаков нужен чтобы выбрать неплохие, а потом медитировать почему они работают. Тогда станет понятно куда двигать дальше. А сам по себе брутфорс для приготовления ТС неэффективен, он все-таки как разведочный должен рассматриваться.
Согласен. Понимание процесса можно достигать с разных сторон)
 
Maxim Dmitrievsky #:
Надо из сотен тысяч ваших признаков найти рабочие, и обязательно потом понять почему они работают. И затем пилить разные ТС на них уже не брутфорся, а подбирая оптимальные гиперпараметры. 
Иначе получится все равно подгонка, когда из сотен моделей выбор по экзамену.
Самое главное - понять почему признаки работают, хотя бы приблизительно. Тогда их ещё и улучшить можно, либо метки к ним.

Стакать кучу непонятных моделей - это тоже нехорошая идея. Потому что придётся переобучать потом опять кучу не пойми чего.

Вам же брутфорс с отбором признаков нужен чтобы выбрать неплохие, а потом медитировать почему они работают. Тогда станет понятно куда двигать дальше. А сам по себе брутфорс для приготовления ТС неэффективен, он все-таки как разведочный должен рассматриваться.

В том то и дело, что задача понимания причины эффективности предиктора крайне сложна, и лежит в области интерпретации поведения рынка, или у Вас есть более надёжный подход? К тому же, предикторы работают в группе, так как являются примитивами, а как вытащить вместе рабочие в группе предикторы - не простой вопрос, если это бустинг - пока очевидным является применение дерева решений. А для построения эффективных деревьев решений, нужно существенно уменьшать выборку, а лучше уже подавать только те предикторы, которые предположительно образуют эффективную связь. И тут как раз метод перебора моделей может быть весьма полезен, так как модель использует, как правило, только часть предикторов.

Подгонка или не подгонка - я думаю, что все действия с подстраиванием под вероятность - подгонка. Другое дело, что история распределения этих вероятностей по предикторам может повторятся, а может быть на длительный срок предана забвению. И тут важно иметь какой либо метод, позволяющий определять переход этих стадий.

 
Aleksey Vyazmikin #:

Обучение, что называется из коробки с помощью CatBoost, с настройками ниже - с перебором Seed дает такое распределение вероятности.

1. Выборка train

2. Выборка test

3. Выборка exam

Как видно, модель предпочитает все практически классифицировать нулём - так меньше шансов ошибиться.

Алексей, обучение - это же и есть по сути подгонка?

 
Renat Akhtyamov #:

Алексей, обучение - это же и есть по сути подгонка?

По сути - да.

Оптимизация в тестере - изменение показателей по которым работает алгоритм, а обучение в методах МО (деревья и их разновидности, НС) - изменение алгоритма за счет оценки и интерпретации истории показателей.

Симбиоз, был бы эпичен...

 
Renat Akhtyamov #:

Алексей, обучение - это же и есть по сути подгонка?

Обучение школьников тоже подгонка их знаний под существующие)

 
Aleksey Vyazmikin #:

В том то и дело, что задача понимания причины эффективности предиктора крайне сложна, и лежит в области интерпретации поведения рынка, или у Вас есть более надёжный подход? К тому же, предикторы работают в группе, так как являются примитивами, а как вытащить вместе рабочие в группе предикторы - не простой вопрос, если это бустинг - пока очевидным является применение дерева решений. А для построения эффективных деревьев решений, нужно существенно уменьшать выборку, а лучше уже подавать только те предикторы, которые предположительно образуют эффективную связь. И тут как раз метод перебора моделей может быть весьма полезен, так как модель использует, как правило, только часть предикторов.

Подгонка или не подгонка - я думаю, что все действия с подстраиванием под вероятность - подгонка. Другое дело, что история распределения этих вероятностей по предикторам может повторятся, а может быть на длительный срок предана забвению. И тут важно иметь какой либо метод, позволяющий определять переход этих стадий.

небольшими группами по 5-10 штук обучать

лучше по 1-3

если никакой из них не дает ничего, какой смысл говорить о мифической связи между ними? мусор + мусор..

Причина обращения: