Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1277

 

Не так давно смотрел лекцию по МО, и там была обозначена ситуация, когда модель работает в узком диапазоне вероятности, так вот для бустинговых моделей это считается чуть ли не нормой, так как модель выдает по сути не вероятность в чистом виде, и в связи с этим обстоятельством существует понятие калибровки такой модели для правильных интерпретаций предсказаний. А у меня как раз была такая ситуация в прошлом году, когда модели выдавали свой результат в диапазоне от 40 до 60, и меня уверяли, что это очень плохой вариант... а я сомневался,так-как модели были стабильны и давали хороший финансовый результат.

 
Aleksey Vyazmikin:

Не так давно смотрел лекцию по МО, и там была обозначена ситуция, когда модель работает в узком диапазоне вероятности, так вот для бустинговых моделей это считается чуть ли не нормой, так как модель выдает по сути не вероятность в чистом виде, и в связи с этим обстоятельством существует понятие калибровки такой модели для правильных предсказаний. А у меня как раз была такая ситуация в прошлом году, когда модели выдавали свой результат в диапазоне от 40 до 60, и меня уверяли, что это очень плохой вариант... а я сомневался,так-как модели были стабильны и давали хороший финансовый результат.

Алексей, допустим вероятность ошибки - 99% - это хорошо или плохо?

Я так понимаю, что оставшийся всего один процент - это вероятность успеха.

Мало, но круто, т.к. мы уже знаем где ошибка и как её не допустить.

При этом соотношение 99к1
 
Renat Akhtyamov:

Алексей, допустим вероятность ошибки - 99% - это хорошо или плохо?

Я так понимаю, что оставшийся всего один процент - это вероятность успеха.

Мало, но круто, т.к. мы уже знаем где ошибка и как её не допустить.

Такая высокая вероятность ошибки, говорит, что мы мало что знаем о происходящем.

Это достаточно точные данные и это хорошо, но до успеха тут далеко - 1% может быть лишь случайностью.

И это если речь идет именно о вероятности.

 
Aleksey Vyazmikin:

Понял, я так и думал, значит велика вероятность что корневой сплит у большей части деревьев будет одинаков, что само собо отбрасывает другие варианты.

Примерно у 50%. Но этот параметр можно менять, на любой нужный в другой ф-ии вызова построения леса.

Aleksey Vyazmikin:
Я хочу попробовать в качестве оценки некий показатель уникальности, т.е. когда есть уже готовые листья, и мы пытаемся каждый предиктор поменять поочередно на любой другой (с учетом сетки разбиение), собираем статистику, и сопоставляем лучший вариант замены с вариантом по умолчанию, учитываем точность или другой показатель (важна концепция), и таким образом собираем баллы для каждого предиктора по всей модели.

Что-то похожее на permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!
А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

Aleksey Vyazmikin:

Я вот не пойму, как там можно поменять энтропию на какой либо иной показатель(точность или полноту или ещё что свое) для создания нового поколения.

Некоторые пакеты R позволяют использовать свою ф-ю ошибки. Хgboost может, но там надо найти формулу производной от своей ф-ии и подать ее совместно ней. Для меня вывести производную - проблема. Посмотрите описание пакета rpart, может и там можно использовать свои функции, а может даже и без производной.

 
elibrarius:

Что-то похожее с permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!
А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

я написал, "допустим н. распр".  Среднее и дисперсию находите и фперед. Рандомизировать лучше ШУМОМ нежели просто перестановкой.

тут много дурочек просто, любящих коверкать слова и скриншотить их, пытаясь на этом самоутвердиться потом

 
Maxim Dmitrievsky:

я написал, "допустим н. распр". Естественно есть смысл при нормированных признаках.  Среднее и дисперсию находите и фперед.

тут много дурочек просто, любящих коверкать слова и скриншотить их, пытаясь на этом самоутвердиться потом
Нормировка поможет с диапазоном - это да.
А вот распределение вероятностей у нормального распределения будет в центре (около 0,5), а у реального предиктора может быть смещено в сторону, например около 0,8. Или седло какое нибудь около 0,2 и 0,8, или еще какое-то...
Перемешивание сохранит и распределение.
 
elibrarius:
Нормировка поможет с диапазоном - это да.
А вот распределение вероятностей у нормального распределения будет в центре (около 0,5), а у реального предиктора может быть смещено в сторону, например около 0,8. Или седло какое нибудь около 0,2 и 0,8, или еще какое-то...
Перемешивание сохранит и распределение.

бери среднее и дисперсию, лол и не парь мозг

 
Maxim Dmitrievsky:

бери среднее и дисперсию, лол и не парь мозг

перемешать проще)

А за ссылку на интересный метод (permutation) - спасибо!

 
elibrarius:

Что-то похожее на permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!

А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

Да, действительно чем то похоже, вероятно тогда и возникла эта идея. Не понял в чем проблема менять предиктор, ведь у каждого предиктора на строке свои показатели, к тому же надо как то сохранить сетку разбивки этих значений (это может равномерный шаг 0,1 0,2 0,3 или какой либо иной - имеются варианты у разных разработчиков моделестроителей) такой, какая она была при работе алгоритма по построению дерева, если это возможно.

И важно ещё то, что нужно делать проверку не по всей выборке, а именно по тем строкам, где активировался прежний лист, что бы данные по точности были сопоставимыми, т.е. надо сделать предфильтрацию выборки (для оценке на разных листьях соответственно разную фильтрацию).

 
Aleksey Vyazmikin:

Да, действительно чем то похоже, вероятно тогда и возникла эта идея. Не понял в чем проблема менять предиктор, ведь у каждого предиктора на строке свои показатели, к тому же надо как то сохранить сетку разбивки этих значений (это может равномерный шаг 0,1 0,2 0,3 или какой либо иной - имеются варианты у разных разработчиков моделестроителей) такой, какая она была при работе алгоритма по построению дерева, если это возможно.

Ну подставьте вместо предиктора, у которого макимум был 0,2 значение из др. предиктора со значением от 800 до 300000? И окажется он  всегда будет уходить в правые ветви. А нам надо проверить и правую и левую ветви.
Нормировка поможет уложиться в диапазон, но распределение вероятностей может быть другим, в результате правые ветки будут срабатывать чаще, чем левые или наоборот.
Или я не понял вашу идею и мы говорим о разном.

Aleksey Vyazmikin:

И важно ещё то, что нужно делать проверку не по всей выборке, а именно по тем строкам, где активировался прежний лист, что бы данные по точности были сопоставимыми, т.е. надо сделать предфильтрацию выборки (для оценке на разных листьях соответственно разную фильтрацию).

Убирая предиктор мы выкидываем узлы разделяющие данные по нему (при чем тут отдельный лист?). При отбросе каждого узла нужно проверять 2 ветки. Если отбросим 10 узлов, то мы получим 11 вариантов (поддеревьев) с 11 листами в качестве ответа. Это надо усреднять, прогон всей выборки с перемешанным столбцом примерно это и покажет в изменении итоговой ошибки дерева/леса.
Почитайте статью про pemutation  - там все подробно описывается.

Причина обращения: