Вероятности, которые отдает классификатор, бессмысленны - Общее обсуждение

Forester 2023.12.25 07:08 #33551

У катбуста код открытый - можно посмотреть, чтобы точно знать, что отдается.

Maxim Dmitrievsky 2023.12.25 07:23 #33552

https://education.yandex.ru/handbook/ml/article/veroyatnostnyj-podhod-v-ml

https://education.yandex.ru/handbook/ml/article/kak-ocenivat-veroyatnosti

Maxim Dmitrievsky 2023.12.25 07:41 #33553

Поясняю картинку простым языком: для классификатора первый и второй случай на гистограмме одноявственны, потому что используются метки классов. И там и там единица для самого вероятного класса. После обучения он отдаст не вероятность класса, а единицу минус ошибку предсказания, пропущенную через сигмоиду или софтмакс.

Это абсолютно не соответствует тому, что вы могли бы ожидать, устанавливая порог предсказания.

Ненавязчивый вопрос к Renat Предсказание рынка на основе Ошибки, баги, вопросы

Aleksey Nikolayev 2023.12.25 08:07 #33554

Вероятностный подход - это хорошо и правильно. У нас всегда будет сильный шум и суть в том, чтобы искать отличия от того, каким он был бы при СБ. Одной лишь дисперсии шума будет для этого недостаточно.

ИМХО, задача классификации не вполне подходит, поскольку существенно отбрасывает информацию. Нужно что-то вроде того чтобы смотреть на распределение величины движения цены в нужном направлении и моделировать как это распределение зависит от признаков, а потом уже строить ТС по виду этого распределения (если в нём есть отличия от того что было бы при СБ).

Лаборатория - статистический анализ Можно ли отличить график Обсуждение статьи "Исследование сезонных

СанСаныч Фоменко 2023.12.25 08:11 #33555

Maxim Dmitrievsky #:
Опять какие-то новые определения.

Последний раз: классификатор калибруется потому, что на выходе он отдает некорректные вероятности. Они бессмысленные в изначальном виде. Переспите с этим.

Не выдержал.

Не бывает абстрактной, читай эталонной, идеальной, вероятности, не привязанной к случайному процессу.

Не бывает.

Вероятность монеты, которую побрасывают и т.д.

Поэтому любой классификатор дает вероятность, которая характеризует именно этот конкретный классификатор, что дает нужную нам характеристику - ошибку предсказания. Другой классификатор даст другие вероятности с соответствующей ошибкой предсказания классов.

В зависимости от предикторов и связанных с ними меток, а также балансировки классов, возникает проблема установки порога деления вероятностей на классы. Инструменты для этой операции, называемой "калибровкой", даны выше. Можно это делать и по колхозному.

В любой случае можно существенно уменьшить ошибку предсказания именно для тех вероятностей, которые дал конкретный классификатор, потому как нет в природе других вероятностей при работе с конкретным классификатором. Не нравятся вероятности - работайте с классификатором или же занимайтесь калибровкой. В этом конкретном процессе нет места !идеальным" вероятностям, которых не бывает теоретически.

Ясно одно, что деление на классы по порогу 0.5 крайне сомнительно и работает в редких случаях.

Машинное обучение и нейронные Чудеса продолжаются! Ограничение функционала или глюк

Maxim Dmitrievsky 2023.12.25 08:35 #33556

СанСаныч Фоменко #:

Не выдержал.

Вероятности, которые отдает классификатор, бессмысленны. Это не вероятности. Если вам они нужны, то вы их не можете использовать. Не надо бежать впереди паровоза и наполнять этот факт новыми смыслами. Разберитесь хотя бы с этим.

Советник стабильно дающий 20% Вопрос специалистам по фондовому Как кодировать?

Aleksey Nikolayev 2023.12.25 08:38 #33557

СанСаныч Фоменко #:

Не выдержал.

Не бывает абстрактной, читай эталонной, идеальной, вероятности, не привязанной к случайному процессу.

Не бывает.

Вероятность монеты, которую побрасывают и т.д.

Поэтому любой классификатор дает вероятность, которая характеризует именно этот конкретный классификатор, что дает нужную нам характеристику - ошибку предсказания. Другой классификатор даст другие вероятности с соответствующей ошибкой предсказания классов.

В зависимости от предикторов и связанных с ними меток, а также балансировки классов, возникает проблема установки порога деления вероятностей на классы. Инструменты для этой операции, называемой "калибровкой", даны выше. Можно это делать и по колхозному.

В любой случае можно существенно уменьшить ошибку предсказания именно для тех вероятностей, которые дал конкретный классификатор, потому как нет в природе других вероятностей при работе с конкретным классификатором. Не нравятся вероятности - работайте с классификатором или же занимайтесь калибровкой. В этом конкретном процессе нет места !идеальным" вероятностям, которых не бывает теоретически.

Ясно одно, что деление на классы по порогу 0.5 крайне сомнительно и работает в редких случаях.

Там речь про обычные для матстата ошибки при использовании неправильной вероятностной модели. Например, если в регрессии шум на самом деле распределён по Лапласу, а мы считаем как для Гаусса, то очевидно будут ошибки.

PS. Собственно там вся суть в возврате к вероятностным истокам МО, которое, кстати, в девичестве называлось (по крайней мере в СССР) статистическим обучением)

Матстат Эконометрика Матан Алгоритм объединения диапазонов отрезка О случайном блуждании замолвите

Maxim Dmitrievsky 2023.12.25 09:20 #33558

Пример уже описал выше. Есть классификатор, который проходит оос, но доходности распределены 60/40. Вам это не нравится, вы поднимаете порог принятия решений, но ситуация не меняется, а иногда становится еще хуже. Вы чешете репу, почему так.

Дано объяснение, почему так: потому что в случае реальной оценки вероятностей ситуация должна меняться.

Дано решение.

MetaTrader 4 Client Terminal Скользящая средняя по Халлу Лига Торговых Систем. Продолжаем

Andrey Dik 2023.12.25 10:10 #33559

Maxim Dmitrievsky #:

Пример уже описал выше. Есть классификатор, который проходит оос, но доходности распределены 60/40. Вам это не нравится, вы поднимаете порог принятия решений, но ситуация не меняется, а иногда становится еще хуже. Вы чешете репу, почему так.

Дано объяснение, почему так: потому что в случае реальной оценки вероятностей ситуация должна меняться.

Дано решение

Разве это не было уже давно очевидно?

Andrey Dik 2023.12.25 10:11 #33560

Постоптимизация - так же ни кто не может сказать, зато говорят - коллибровка! О как.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3356