Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3522

 
Aleksey Vyazmikin #:

Ещё актуально. Мне действительно интересно, так как у меня совсем другие выводы - возможно, столь разная выборка.

Для каждого кластера отдельный файл
Файлы:
output_csvs.zip  5242 kb
 

Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.

Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего

{'learn': {'Accuracy': 0.8438783894823336, 'Logloss': 0.4787490774779375}, 'validation': {'Accuracy': 0.7420178799489144, 'Logloss': 0.5603823600397243}}

А с новой разметкой получается так

{'learn': {'Accuracy': 0.9840909090909091, 'Logloss': 0.12419709401710959}, 'validation': {'Accuracy': 0.9470899470899471, 'Logloss': 0.2028722652115128}}

Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

{'learn': {'Accuracy': 0.9907674552798615, 'Logloss': 0.09702284179278793}, 'validation': {'Accuracy': 0.955585464333782, 'Logloss': 0.15982284254600834}}

:)

 
Maxim Dmitrievsky #:

Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.

Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего

А с новой разметкой получается так

Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

:)

Конечно, такое можно получить и при случайном семплинге. Но, по грубым расчетам, нужно сделать минимум 10000 перезапусков разметки, с учетом длины выборки и диапазона параметров. Это минимум, на уровне вероятности выпадения такой же разметки, а так в районе миллиона.

Поэтому хотелось найти быстрый способ проверки, но напрямую через энтропию не получилось. Через модель это долго.
 
Maxim Dmitrievsky #:
Для каждого кластера отдельный файл

Спасибо.

Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.

Вот такой разброс по точности - не очень критичный, но значимый.

По откликам - тут уже значительно существенней.

И, я не менял какие либо ещё настройки - коих много в CatBoost.

В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.

 
Aleksey Vyazmikin #:

Спасибо.

Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.

Вот такой разброс по точности - не очень критичный, но значимый.

По откликам - тут уже значительно существенней.

И, я не менял какие либо ещё настройки - коих много в CatBoost.

В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.

ну так в среднем оценивается

а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.
 
Maxim Dmitrievsky #:

ну так в среднем оценивается

Я так понял, что берётся одна (путь две) модель для каждой разметки - я не так понял?

А вот по балансу ошибки - получились такие разнообразные итоги

Худший вариант - баланс и модель

Лучший вариант - баланс и модель

Всё по одной выборке - что там будет на будущих данных - не знаю. Главное, разнообразие имеется.

 
Maxim Dmitrievsky #:
а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.

Просто рандомно разбрасывались зёрна(единички)?

 
Aleksey Vyazmikin #:

Просто рандомно разбрасывались зёрна(единички)?

Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.

Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.

 
Maxim Dmitrievsky #:
Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

Ну, секреты изменения не спрашиваю, лишь отмечу, что в CatBoost с какой то там версии сделали автоматическую балансировку метрик по пропорции классов - если Вы постоянно меняете разметку, то для Вас это должно быть критично - рекомендую отключить балансировку (использование весов).

 
Maxim Dmitrievsky #:

Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.

Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.

Да, так он, скорее всего, ничего не найдет.
Но я удивляюсь упорству. Столько лет прошло со времени моего последнего посещения ветки, а все о том же. Уж, не буду приводить цитаты из классиков.) Человек, все таки, работает.
Причина обращения: