Для каждого кластера отдельный файл. Обучился 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03 - Общее обсуждение

Maxim Dmitrievsky 2024.05.20 14:58 #35211

Aleksey Vyazmikin #:

Ещё актуально. Мне действительно интересно, так как у меня совсем другие выводы - возможно, столь разная выборка.

Для каждого кластера отдельный файл

Файлы:

output_csvs.zip 5242 kb

Maxim Dmitrievsky 2024.05.21 07:18 #35212

Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.

Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего

{'learn': {'Accuracy': 0.8438783894823336, 'Logloss': 0.4787490774779375}, 'validation': {'Accuracy': 0.7420178799489144, 'Logloss': 0.5603823600397243}}

А с новой разметкой получается так

{'learn': {'Accuracy': 0.9840909090909091, 'Logloss': 0.12419709401710959}, 'validation': {'Accuracy': 0.9470899470899471, 'Logloss': 0.2028722652115128}}

Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

{'learn': {'Accuracy': 0.9907674552798615, 'Logloss': 0.09702284179278793}, 'validation': {'Accuracy': 0.955585464333782, 'Logloss': 0.15982284254600834}}

:)

Maxim Dmitrievsky 2024.05.21 08:03 #35213

Maxim Dmitrievsky #:

Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.

Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего

А с новой разметкой получается так

Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

:)

Конечно, такое можно получить и при случайном семплинге. Но, по грубым расчетам, нужно сделать минимум 10000 перезапусков разметки, с учетом длины выборки и диапазона параметров. Это минимум, на уровне вероятности выпадения такой же разметки, а так в районе миллиона.

Поэтому хотелось найти быстрый способ проверки, но напрямую через энтропию не получилось. Через модель это долго.

Aleksey Vyazmikin 2024.05.21 17:08 #35214

Maxim Dmitrievsky #:
Для каждого кластера отдельный файл

Спасибо.

Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.

Вот такой разброс по точности - не очень критичный, но значимый.

По откликам - тут уже значительно существенней.

И, я не менял какие либо ещё настройки - коих много в CatBoost.

В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.

Проверка торговых возможностей модели Архитектура GPT Постановка задачи

Maxim Dmitrievsky 2024.05.21 17:13 #35215

Aleksey Vyazmikin #:

Спасибо.

Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.

Вот такой разброс по точности - не очень критичный, но значимый.

По откликам - тут уже значительно существенней.

И, я не менял какие либо ещё настройки - коих много в CatBoost.

В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.

ну так в среднем оценивается

а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.

Aleksey Vyazmikin 2024.05.21 17:34 #35216

Maxim Dmitrievsky #:

ну так в среднем оценивается

Я так понял, что берётся одна (путь две) модель для каждой разметки - я не так понял?

А вот по балансу ошибки - получились такие разнообразные итоги

Худший вариант - баланс и модель

Лучший вариант - баланс и модель

Всё по одной выборке - что там будет на будущих данных - не знаю. Главное, разнообразие имеется.

Тестирование модели на новых Построение первой модели нейронной Искусственный интеллект в трейдинге

Aleksey Vyazmikin 2024.05.21 17:40 #35217

Maxim Dmitrievsky #:
а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.

Просто рандомно разбрасывались зёрна(единички)?

Maxim Dmitrievsky 2024.05.21 17:46 #35218

Aleksey Vyazmikin #:

Просто рандомно разбрасывались зёрна(единички)?

Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.

Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.

Aleksey Vyazmikin 2024.05.21 18:58 #35219

Maxim Dmitrievsky #:
Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.

Ну, секреты изменения не спрашиваю, лишь отмечу, что в CatBoost с какой то там версии сделали автоматическую балансировку метрик по пропорции классов - если Вы постоянно меняете разметку, то для Вас это должно быть критично - рекомендую отключить балансировку (использование весов).

MQL5 Cloud Network Fractals - Индикаторы Билла Сравнительное тестирование моделей с

Yuriy Asaulenko 2024.05.21 19:01 #35220

Maxim Dmitrievsky #:

Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.

Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.

Да, так он, скорее всего, ничего не найдет.

Но я удивляюсь упорству. Столько лет прошло со времени моего последнего посещения ветки, а все о том же. Уж, не буду приводить цитаты из классиков.) Человек, все таки, работает.

Рекуррентные нейронные сети Искусственный интеллект в трейдинге Отладка и профилирование

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3522