Попробуйте перемешивать строки. Перемешайте, какая разница - 99к1. Используйте свою ф-ю ошибки в качестве оценки важности - Общее обсуждение

Aleksey Vyazmikin 2019.01.27 22:46 #12761

Не так давно смотрел лекцию по МО, и там была обозначена ситуация, когда модель работает в узком диапазоне вероятности, так вот для бустинговых моделей это считается чуть ли не нормой, так как модель выдает по сути не вероятность в чистом виде, и в связи с этим обстоятельством существует понятие калибровки такой модели для правильных интерпретаций предсказаний. А у меня как раз была такая ситуация в прошлом году, когда модели выдавали свой результат в диапазоне от 40 до 60, и меня уверяли, что это очень плохой вариант... а я сомневался,так-как модели были стабильны и давали хороший финансовый результат.

От теории к практике Соотношение вашего риска и Проект советника

Renat Akhtyamov 2019.01.27 22:49 #12762

Aleksey Vyazmikin:

Не так давно смотрел лекцию по МО, и там была обозначена ситуция, когда модель работает в узком диапазоне вероятности, так вот для бустинговых моделей это считается чуть ли не нормой, так как модель выдает по сути не вероятность в чистом виде, и в связи с этим обстоятельством существует понятие калибровки такой модели для правильных предсказаний. А у меня как раз была такая ситуация в прошлом году, когда модели выдавали свой результат в диапазоне от 40 до 60, и меня уверяли, что это очень плохой вариант... а я сомневался,так-как модели были стабильны и давали хороший финансовый результат.

Алексей, допустим вероятность ошибки - 99% - это хорошо или плохо?

Я так понимаю, что оставшийся всего один процент - это вероятность успеха.

Мало, но круто, т.к. мы уже знаем где ошибка и как её не допустить.

При этом соотношение 99к1

Ошибки, баги, вопросы торговая стратегия на базе Теория ускорения работы советника

Aleksey Vyazmikin 2019.01.27 22:55 #12763

Renat Akhtyamov:

Алексей, допустим вероятность ошибки - 99% - это хорошо или плохо?

Я так понимаю, что оставшийся всего один процент - это вероятность успеха.

Мало, но круто, т.к. мы уже знаем где ошибка и как её не допустить.

Такая высокая вероятность ошибки, говорит, что мы мало что знаем о происходящем.

Это достаточно точные данные и это хорошо, но до успеха тут далеко - 1% может быть лишь случайностью.

И это если речь идет именно о вероятности.

Создание графика спрэда в Неподгоночная система - основные подскажите где

Forester 2019.01.28 05:39 #12764

Aleksey Vyazmikin:

Понял, я так и думал, значит велика вероятность что корневой сплит у большей части деревьев будет одинаков, что само собо отбрасывает другие варианты.

Примерно у 50%. Но этот параметр можно менять, на любой нужный в другой ф-ии вызова построения леса.

Aleksey Vyazmikin:
Я хочу попробовать в качестве оценки некий показатель уникальности, т.е. когда есть уже готовые листья, и мы пытаемся каждый предиктор поменять поочередно на любой другой (с учетом сетки разбиение), собираем статистику, и сопоставляем лучший вариант замены с вариантом по умолчанию, учитываем точность или другой показатель (важна концепция), и таким образом собираем баллы для каждого предиктора по всей модели.

Что-то похожее на permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!
А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

Aleksey Vyazmikin:

Я вот не пойму, как там можно поменять энтропию на какой либо иной показатель(точность или полноту или ещё что свое) для создания нового поколения.

Некоторые пакеты R позволяют использовать свою ф-ю ошибки. Хgboost может, но там надо найти формулу производной от своей ф-ии и подать ее совместно ней. Для меня вывести производную - проблема. Посмотрите описание пакета rpart, может и там можно использовать свои функции, а может даже и без производной.

MetaTrader 5 Strategy Tester! Рыночные закономерности Рассчитать вероятность разворота

Maxim Dmitrievsky 2019.01.28 05:46 #12765

elibrarius:

Что-то похожее с permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!
А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

я написал, "допустим н. распр". Среднее и дисперсию находите и фперед. Рандомизировать лучше ШУМОМ нежели просто перестановкой.

тут много дурочек просто, любящих коверкать слова и скриншотить их, пытаясь на этом самоутвердиться потом

Forester 2019.01.28 06:00 #12766

Maxim Dmitrievsky:

я написал, "допустим н. распр". Естественно есть смысл при нормированных признаках. Среднее и дисперсию находите и фперед.

тут много дурочек просто, любящих коверкать слова и скриншотить их, пытаясь на этом самоутвердиться потом

Нормировка поможет с диапазоном - это да.
А вот распределение вероятностей у нормального распределения будет в центре (около 0,5), а у реального предиктора может быть смещено в сторону, например около 0,8. Или седло какое нибудь около 0,2 и 0,8, или еще какое-то...
Перемешивание сохранит и распределение.

Случайное блуждание : О методике конвертации мелкой Случайная теория вероятностей. Напалм

Maxim Dmitrievsky 2019.01.28 06:02 #12767

elibrarius:
Нормировка поможет с диапазоном - это да.
А вот распределение вероятностей у нормального распределения будет в центре (около 0,5), а у реального предиктора может быть смещено в сторону, например около 0,8. Или седло какое нибудь около 0,2 и 0,8, или еще какое-то...
Перемешивание сохранит и распределение.

бери среднее и дисперсию, лол и не парь мозг

Forester 2019.01.28 06:08 #12768

Maxim Dmitrievsky:

бери среднее и дисперсию, лол и не парь мозг

перемешать проще)

А за ссылку на интересный метод (permutation) - спасибо!

Aleksey Vyazmikin 2019.01.28 07:47 #12769

elibrarius:

Что-то похожее на permutation, которую Максим нашел. Но есть ли смысл вместо предиктора с измененем значений от 0,1 до 0,2 подставлять предиктор с изменением от 800 до 300000? Нет!

А вот перемешать его строки - имеет. Диапазон чисел и распределение вероятностей сохранятся, но значения в каждом примере станут случайными.

Да, действительно чем то похоже, вероятно тогда и возникла эта идея. Не понял в чем проблема менять предиктор, ведь у каждого предиктора на строке свои показатели, к тому же надо как то сохранить сетку разбивки этих значений (это может равномерный шаг 0,1 0,2 0,3 или какой либо иной - имеются варианты у разных разработчиков моделестроителей) такой, какая она была при работе алгоритма по построению дерева, если это возможно.

И важно ещё то, что нужно делать проверку не по всей выборке, а именно по тем строкам, где активировался прежний лист, что бы данные по точности были сопоставимыми, т.е. надо сделать предфильтрацию выборки (для оценке на разных листьях соответственно разную фильтрацию).

Есть ли закономерность в Собираю команду для развития Группировка листьев - требуются

Forester 2019.01.28 08:22 #12770

Aleksey Vyazmikin:

Да, действительно чем то похоже, вероятно тогда и возникла эта идея. Не понял в чем проблема менять предиктор, ведь у каждого предиктора на строке свои показатели, к тому же надо как то сохранить сетку разбивки этих значений (это может равномерный шаг 0,1 0,2 0,3 или какой либо иной - имеются варианты у разных разработчиков моделестроителей) такой, какая она была при работе алгоритма по построению дерева, если это возможно.

Ну подставьте вместо предиктора, у которого макимум был 0,2 значение из др. предиктора со значением от 800 до 300000? И окажется он всегда будет уходить в правые ветви. А нам надо проверить и правую и левую ветви.
Нормировка поможет уложиться в диапазон, но распределение вероятностей может быть другим, в результате правые ветки будут срабатывать чаще, чем левые или наоборот.
Или я не понял вашу идею и мы говорим о разном.

Aleksey Vyazmikin:

И важно ещё то, что нужно делать проверку не по всей выборке, а именно по тем строкам, где активировался прежний лист, что бы данные по точности были сопоставимыми, т.е. надо сделать предфильтрацию выборки (для оценке на разных листьях соответственно разную фильтрацию).

Убирая предиктор мы выкидываем узлы разделяющие данные по нему (при чем тут отдельный лист?). При отбросе каждого узла нужно проверять 2 ветки. Если отбросим 10 узлов, то мы получим 11 вариантов (поддеревьев) с 11 листами в качестве ответа. Это надо усреднять, прогон всей выборки с перемешанным столбцом примерно это и покажет в изменении итоговой ошибки дерева/леса.
Почитайте статью про pemutation - там все подробно описывается.

Собираю команду для развития Группировка листьев - требуются Есть ли закономерность в

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1277