Есть ли закономерность в хаосе? Попробуем поискать! Машинное обучение на примере конкретной выборки. - страница 22

 
Aleksey Vyazmikin #:
Зато получилась такая моделька

Не нужно надеяться, что самая лучшая по экзамену модель будет прибыльной в будущем. Среднее или большинство должно быть прибыльным.

Это как и в оптимизаторе тестера - самые лучшие модели в 99% случаев будут сливными на форварде.

 
elibrarius #:

Cплиты делаются только до кванта. Все что внутри кванта считается одинаковыми значениями и дальше уже не делятся.

Да Вы не поняли - речь о том, что при каждом сплите уменьшается выборка для следующего сплита, который происходит по квантовой таблице, но метрика каждый раз будет меняться.

Ну и есть алгоритмы, которые после каждого сплита делают новую квантовую таблицу при обучении модели.

elibrarius #:

Не понимаю зачем вы вообще что-то ищете в квантах, его основное назначение - ускорение расчетов (вторичное - загрубление/обобщение модели, чтобы не было дальнейшего деления, но можно и просто ограничить глубину float данных) я его не использую, а просто на float данных делаю модели. Делал квантование на 65000 частей - результат абсолютно совпадает с моделью без квантования.

Видимо я вижу эффективность, поэтому и использую. 65000 частей - это слишком много, я вижу суть квантования в обобщении данных для как бы создания категориального признака, поэтому желательно, что б квантовый отрезок попало 2%-5% всей выборки. Возможно, что это актуально не для всех предикторов - эксперименты не завершены.

elibrarius #:

Будет 1 сплит, который разделит данные на 2 сектора - в одном все 0, в другом все 1. Я не знаю что принято называть квантами, я считаю что кванты - это число секторов полученных после квантования. Возможно - это число сплитов, как имеете в виду вы.

Да понятно, Вы правы конечно про разделение, это я скорей улыбнулся. Вообще же есть понятие квантовая таблица у CatBoost, там именно сплиты, а я для себя использую отрезки - две координаты, и пожалуй их можно называть квантами или квантовыми отрезками. Реальной терминологии я не знаю, но для себя так называю.

 
elibrarius #:

Не нужно надеяться, что самая лучшая по экзамену модель будет прибыльной в будущем. Среднее или большинство должно быть прибыльным.

Это как и в оптимизаторе тестера - самые лучшие модели в 99% случаев будут сливными на форварде.

Сейчас цель - понять потенциал к которому можно стремится. Торговать не буду по этим моделям.

И я ожидаю, что число прошедших отбор моделей возрастет за счет снижения вариативности при выборе сплита - сегодня позже посмотрим.

 
Aleksey Vyazmikin #:

И я ожидаю, что число прошедших отбор моделей возрастет за счет снижения вариативности при выборе сплита - сегодня позже посмотрим.

Оказалось я ошибся - число моделей всего 79, среднее значение прибыли по exam -1379

 
elibrarius #:

Не нужно надеяться, что самая лучшая по экзамену модель будет прибыльной в будущем. Среднее или большинство должно быть прибыльным.

Это как и в оптимизаторе тестера - самые лучшие модели в 99% случаев будут сливными на форварде.

Кстати, вот решил посмотреть на выборке другой, что так же не была в обучении - та что была обрезана ранее.

И вот та же модель выглядит так на этих данных (2014-2018 года).

Баланс

Думаю, что вполне не плохо, во всяком случае не прям слив под 45 градусов. Т.е. можно всё же ожидать, что хорошая модель и дальше будет хорошей?

 
Aleksey Vyazmikin #:

Кстати, вот решил посмотреть на выборке другой, что так же не была в обучении - та что была обрезана ранее.

И вот та же модель выглядит так на этих данных (2014-2018 года).

Думаю, что вполне не плохо, во всяком случае не прям слив под 45 градусов. Т.е. можно всё же ожидать, что хорошая модель и дальше будет хорошей?

возможно)

 
elibrarius #:

возможно)

Увы, проверил по всем моделям - те что заработали более 3000 на выборке train и exam - 39 штук было, на ново-старой выборке только 18 (46%) показали прибыльный результат. Это конечно больше, чем 1/3, но всё равно недостаточно.

Вот такой разброс балансов отобранных моделей между обычной выборкой exam и отброшенной (2014-2018).

 
Aleksey Vyazmikin #:

Увы, проверил по всем моделям - те что заработали более 3000 на выборке train и exam - 39 штук было, на ново-старой выборке только 18 (46%) показали прибыльный результат. Это конечно больше, чем 1/3, но всё равно недостаточно.

Вот такой разброс балансов отобранных моделей между обычной выборкой exam и отброшенной (2014-2018).

В общем даже 50/50 пока не получается (по прибыли). Если новых фич относящихся к целевой уже сложно придумать, может целевую поменять?
 
elibrarius #:
В общем даже 50/50 пока не получается (по прибыли). Если новых фич относящихся к целевой уже сложно придумать, может целевую поменять?

Новые предикторы можно придумать, идеи ещё есть, но я не уверен, что обучение будет идти по ним с учетом принципа жадности... Возможно, нужно менять подход именно к обучению моделей, делать свои преобразование известных алгоритмов.

Целевую может и можно поменять, но на что, есть идеи?

 

Взял выборку из шестого шага, что описывал тут и поменял местами exam и test.

Фактически обучение происходило по тем же правилам, с теми же seed, но за остановку создания новых деревьев уже отвечала другая выборка - более поздняя по хронологии.

В результате имеем среднее значение прибыли на выборке test (бывшая exam) -730,5 - напомню, что при хронологическом обучении на выборке test среднее значение было 982,5, а на выборке exam (бывшая test) среднее значение баланса составило 922,49 пункта в то время как в изначальном варианте это было -1114,27 пункта.

Рисунок 1 Гистограмма распределения баланса изначальной выборки test при использовании её как выборку exam.

Рисунок 2 Гистограмма распределения баланса выборки test при использовании её как выборку test.

При хронологическом расположении выборок среднее значение деревьев в модели было 11,47, при изменении последовательности двух выборок среднее значение деревьев в модели 9,11, т.е. можно говорить о том, что закономерностей стало меньше выявляться после перемены местами выборок, поэтому для их описания потребовалось меньше деревьев.

В то же время за счет контроля остановки по фактически выборки exam модели на ней стали более качественные, и, как я указал выше, в среднем стали более прибыльными.

С одной стороны эксперимент подтверждает, что выборки содержат похожие закономерности, которые длятся годами, но в то же время некоторые из них становятся менее выраженными или даже смещают свою вероятность в отрицательную зону исхода события. Ранее уже было выявлено, что на результат обучения влияют не только сами предикторы, но и их использование в модели.

По итогу что имеем:

1. Не репрезентативную выборку.

2. Случайные закономерности, которые могут "затмевать" устойчивые при построении модели, или сам метод построения моделей не достаточно надёжен.

3. Зависимость результата работы модели от участка выборки (бывшая выборка train показала хороший результат и в роли exam).

Причина обращения: