Анализ методов классификации и их эффективности

Aleksey Vyazmikin 2023.08.13 22:54 #31661

Aleksey Nikolayev #:

Насколько понимаю, закомментированы команды для работы с R в интерактивной сессии. Сначала загружаете весь скрипт целиком, чтобы определить функции, а потом команды построчно, нажимая ввод после каждой. Это наверно что-то вроде стандарта в научных публикациях - опираться только на командную строку и избегать всяких сред типа Рстудио.

Для краткости обозвал шаблонами одновременно дерево CTree из коллекции данных и шаблоны классов, которые вроде тоже неизбежны.

Детекция аномалий там значится в целях - ищется же где аномально часты пожары.

PS. Когда-то писал уже вам про использование распределения Пуассона, а здесь это развито до рабочего кода.

Пока так и не попробовал всё это дело - завис над одной своей задачей.

Обязательно буду пробовать запустить на своих данных. Накапливаю разные решения на эту тему.

По поводу распределения Пауссона - как бы в теории интересно, но когда смотрю на данные, на последовательность, то допустим, может подряд идти 20 нулей, а потом миксы из нулей и единиц, и вот эти пропуски существенные, они как то кажутся не соответствуют распределению.

Задачка из математики 9-го От теории к практике Поток событий. Как контролировать

Aleksey Nikolayev 2023.08.14 07:12 #31662

Aleksey Vyazmikin #:

По поводу распределения Пауссона - как бы в теории интересно, но когда смотрю на данные, на последовательность, то допустим, может подряд идти 20 нулей, а потом миксы из нулей и единиц, и вот эти пропуски существенные, они как то кажутся не соответствуют распределению.

Вроде идея в том, чтобы посредством сплитов по признакам, раскидать примеры по группам, которые отличаются друг от друга и внутри которых есть однородность. Совсем не факт, что конкретные признаки позволяют это сделать. Да и вообще не факт, что хоть какие-нибудь позволяют - из-за нестационарности, например.

Конкретно эту статью вплотную изучать не планирую, поскольку она только краешком касается интересующей меня темы. CHAID немного ближе, но тоже не совсем то.

Индикатор DeMarker + Ishimoku форум открытие всех страниц За сколько времени и

mytarmailS 2023.08.14 20:25 #31663

Vladimir Perervenko #:

Владимир, какой максимальный "честный" акураси вы получали на новых данных?

И с каким алгоритмом МО?

Aleksey Vyazmikin 2023.08.15 02:08 #31664

Aleksey Nikolayev #:

Вроде идея в том, чтобы посредством сплитов по признакам, раскидать примеры по группам, которые отличаются друг от друга и внутри которых есть однородность. Совсем не факт, что конкретные признаки позволяют это сделать. Да и вообще не факт, что хоть какие-нибудь позволяют - из-за нестационарности, например.

Конкретно эту статью вплотную изучать не планирую, поскольку она только краешком касается интересующей меня темы. CHAID немного ближе, но тоже не совсем то.

То-то и оно, хочется находить именно в динамике изменения очередности последовательности какую то закономерность, или хотя бы оценку смещения с выявлением точки перелома. И это я говорю о банальных бинарных предикторах. К примеру выявить 5 последовательностей, которые встречались последние пять лет, посмотреть на их устойчивость предрасположенности к значению целевой, и дальше, если пойдут существенные изменения как последовательностей, так и предрасположенности, то либо исключать предиктор из обучения, либо из модели. За последние пол года много всяких методов прочитал/просмотрел - но всё это закодировать мне просто не реально будет для проверки - работы очень много. Самое печальное, когда работаешь над чем то, а потом понимаешь, что результата нет ожидаемого.

В чём видите преимущество CHAID?

Есть ли закономерность в Можно ли запрограммировать свою Как написать робастного эксперта

Aleksey Vyazmikin 2023.08.15 02:15 #31665

Такой метод обучения - детекция выгодных для исключения строк из выборки (обнуление) по квантовому отрезку.

Каждый шаг - добавление правила. Правила примерно так выглядит по смыслу if( arr_Q[n0][i]==1 || arr_Q[n1][i]==1 || arr_Q[nn][i]==1 ) Propusk=true;

Это гифка - нужно нажать для того, что бы работала.

Баланс - прибыль в пунктах - пятизнак.

Да, это только кусок выборки для обучения, пока дальше не делал - экспериментирую.

Добавлено: А вот другой критерий оценки выбора квантового отрезка, по которому будет исключён сигнал - кажется, что тут бодрей произошло удаление убыточных строк.

Расчёт идеального вхождения на Есть ли закономерность в Будет ли хорошая стратегия

Aleksey Nikolayev 2023.08.15 07:04 #31666

Aleksey Vyazmikin #:

То-то и оно, хочется находить именно в динамике изменения очередности последовательности какую то закономерность, или хотя бы оценку смещения с выявлением точки перелома. И это я говорю о банальных бинарных предикторах. К примеру выявить 5 последовательностей, которые встречались последние пять лет, посмотреть на их устойчивость предрасположенности к значению целевой, и дальше, если пойдут существенные изменения как последовательностей, так и предрасположенности, то либо исключать предиктор из обучения, либо из модели. За последние пол года много всяких методов прочитал/просмотрел - но всё это закодировать мне просто не реально будет для проверки - работы очень много. Самое печальное, когда работаешь над чем то, а потом понимаешь, что результата нет ожидаемого.

ИМХО, плохой подход в комбинаторном смысле. Слишком богатый набор последовательностей вполне может привести к переобученности - всегда будут случайно возникшие "хорошие" последовательности.

Aleksey Vyazmikin #:

В чём видите преимущество CHAID?

Продуманность с точки зрения матстата, прежде всего. Это и остановка построения дерева по достижению заданного уровня значимости, вместо какого-нибудь левого правила. И использование поправки Бонферони и тд. Просто эстетически приятно смотреть на столь продуманную модель) Хотя, конечно, использование только номинальных признаков совсем не устраивает, поэтому ищу (пытаюсь построить) другое.

Объемы, волатильность и показатель Защита сетки Машинное обучение и нейронные

Aleksei Kuznetsov 2023.08.15 08:12 #31667

Aleksey Vyazmikin #:

То-то и оно, хочется находить именно в динамике изменения очередности последовательности какую то закономерность, или хотя бы оценку смещения с выявлением точки перелома. И это я говорю о банальных бинарных предикторах. К примеру выявить 5 последовательностей, которые встречались последние пять лет, посмотреть на их устойчивость предрасположенности к значению целевой, и дальше, если пойдут существенные изменения как последовательностей, так и предрасположенности, то либо исключать предиктор из обучения, либо из модели. За последние пол года много всяких методов прочитал/просмотрел - но всё это закодировать мне просто не реально будет для проверки - работы очень много. Самое печальное, когда работаешь над чем то, а потом понимаешь, что результата нет ожидаемого.

В чём видите преимущество CHAID?

1) Если действовать следущим образом - получится ли такой же результат, как у вас (по смыслу)?
Берем лист (после 5 сплитов), сортируем все примеры в нем по времени, если вначале рост, а потом падение выше какого-то значения - удаляем лист из использования.

2) На графиках у вас ООС?

3) Отсев правил/листов происходит по данным из трейна или валида/теста.

Группировка листьев - требуются Есть ли закономерность в Ищу трейдера с торговой

Aleksey Vyazmikin 2023.08.15 17:58 #31668

Aleksey Nikolayev #:

ИМХО, плохой подход в комбинаторном смысле. Слишком богатый набор последовательностей вполне может привести к переобученности - всегда будут случайно возникшие "хорошие" последовательности.

Тут вопрос в выявлении стабильности, если она есть на истории, то есть хоть какой то повод ждать её при реальном использовании признаков в модели. А сам метод для выявления этого - может быть разный. Но, оценки распределения мало, это не позволяет оценить устойчивость. Либо нужна чистка. А ещё я столкнулся с тем, что если брать по интервалам, допустим месяц, то сигналов уже мало становится для каких либо статистических выводов. На этом пока и поставил многоточие... В любом случае важно оценивать распределение событий по времени.

Aleksey Nikolayev #:

Продуманность с точки зрения матстата, прежде всего. Это и остановка построения дерева по достижению заданного уровня значимости, вместо какого-нибудь левого правила. И использование поправки Бонферони и тд. Просто эстетически приятно смотреть на столь продуманную модель) Хотя, конечно, использование только номинальных признаков совсем не устраивает, поэтому ищу (пытаюсь построить) другое.

Надо будет попробовать. А Вы делали сравнения с другими вариантами построения деревьев, результат действительно лучше?

Есть ли закономерность в Опять TestGenerator: unmatched data Обсуждение статьи "Что такое

Aleksey Vyazmikin 2023.08.15 18:19 #31669

Forester #:

1) Если действовать следущим образом - получится ли такой же результат, как у вас (по смыслу)?
Берем лист (после 5 сплитов), сортируем все примеры в нем по времени, если вначале рост, а потом падение выше какого-то значения - удаляем лист из использования.

2) На графиках у вас ООС?

3) Отсев правил/листов происходит по данным из трейна или валида/теста.

1. Отклонение - нормальное явление, тут вопрос в цикличности, если это про лист разговор ( у меня квантовый отрезок - буквально лист два сплита F>=X1 && F<X2 ). Т.е. если это колебания даже возле нуля, то уже не плохо, но они не должны быть сильно задраны в одну сторону (для оценки я беру 10 интервалов выборки). Или буквально, как Вы пишите, в начале был рост, а потом в основном падение - это сразу в мусор. Но это всё про листья, а если квантовый отрезок, то там отбор по смещению вероятности от 5% от средней для класса, как один из критериев первоначального отбора.

2. Нет конечно, я же написал, что это выборка для обучения. Самого обучения какой либо модели нет - предполагаю что нужно ещё обучить.

3. На трейне в примере. Но не отсев, а как раз выбор тех, которые будут в качестве фильтра, т.е. загонять в ноль отклик модели. Ну и исключать строки/примеры из обучения, видимо.

А вообще, если сделать упор на выявления устойчивых этих квантовых отрезков (считайте - бинарных предикторов), то и дальше такая "модель" будет работать без обучения каким либо классификатором. А пока это сделать не удаётся, применять классификаторы и смысла нет особого. Конечно, рандом никто не отменял, и можно найти какие то успешные модели, но вот обоснованно так считать будет сложно.

Из минусов метода - падение Recall, но он не сильней чем у модели CatBoost - примерно до 0,5 в примере.

Есть ли закономерность в Торговля на статистике Собираю команду для развития

Aleksey Nikolayev 2023.08.15 19:49 #31670

Aleksey Vyazmikin #:

А Вы делали сравнения с другими вариантами построения деревьев, результат действительно лучше?

То что попадалось в готовом виде не очень подходит для рынка, а самопальное не готово. Но особых надежд не питаю, потому особо и не тороплюсь.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3167