Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3554

[Удален]  
Aleksey Vyazmikin #:

В какой статье? Что выше ссылка, так там нет анализа по сути, а лишь перебор квантовых таблиц. Вообще в CatBoost встроены разные методы квантования (которых нет в библиотеке KBinsDiscretizer) - поэкспериментируйте с настройками. Есть возможность сохранять квантовые таблицы и по ним потом преобразовывать выборку для иных методов обучения.

Можно выбрать количество бинов и отдельные бины, которые аутперформят остальные. Аналог кластеризации. Поэтому писал до этого, почему не использовать просто кластеризацию.

В любом случае, безотносительно перебора или грамотного сэмлинга целевых - это пальцем в небо. Потому что искусственное ограничение вариантов.

Основной упор в классификации тайм серий (финансовых), когда есть выбор когда торговать, а когда нет (то есть уже дискретное представление ВР), стоит делать именно на разметку, а не на признаки.

Уже писал, то мой подход позволяет подобрать такие бины(кластеры) и метки, что можно ограничиться даже всего 2-5 признаками. И это делается за минуты.

 
Maxim Dmitrievsky #:
Можно выбрать количество бинов и отдельные бины, которые аутперформят остальные. Аналог кластеризации. Поэтому писал до этого, почему не использовать просто кластеризацию.

И по какому критерию выбор? Чего то не вижу такой возможности в библиотеке... но опять же - это бинаризация, только под капотом.

[Удален]  
Aleksey Vyazmikin #:

И по какому критерию выбор? Чего то не вижу такой возможности в библиотеке... но опять же - это бинаризация, только под капотом.

По критерию на новых данных, после обучения.

 
Maxim Dmitrievsky #:

По критерию на новых данных, после обучения.

Так где выбор нескольких бинов из набора, или я неправильно понял Вас?

[Удален]  
Aleksey Vyazmikin #:

Так где выбор нескольких бинов из набора, или я неправильно понял Вас?

Сделать выбор )) просто выбрать бин и торговать только на нем, в чем проблема?

[Удален]  

Задача поиска ТС/закономерности сводится к простой двухмерной задаче оптимизации. Это продиктовано самой природой ВР (двухмерность).

Когда минимизируются 2 ошибки:

  1. ошибка классификации внутри бина (бай/селл)
  2. ошибка определения текущего бина
Итоговый результат = субоптимальная ТС.

Как конкретно вы это решаете, вопрос чисто технический.

И здесь абсолютно критичную роль играет, опять же, не способ дискретизации (хотя он тоже может быть важен), а способ разметки сделок внутри бинов.

 
Maxim Dmitrievsky #:

Сделать выбор )) просто выбрать бин и торговать только на нем, в чем проблема?

Сделать всегда можно, просто подумал, что есть готовый функционал - интересны были критерии отбора.

А так - по сути - если нужна именно кластеризация, то можно использовать любую, по которой можно потом применять новые данные, просто вытащить пороги по кластерам и записать в квантовую таблицу, которую уже можно подать в CatBoost. Это ускорит процесс, так как не нужно будет повторно считать кластера при эксперименте.

[Удален]  
Aleksey Vyazmikin #:

Сделать всегда можно, просто подумал, что есть готовый функционал - интересны были критерии отбора.

А так - по сути - если нужна именно кластеризация, то можно использовать любую, по которой можно потом применять новые данные, просто вытащить пороги по кластерам и записать в квантовую таблицу, которую уже можно подать в CatBoost. Это ускорит процесс, так как не нужно будет повторно считать кластера при эксперименте.

Основная проблема в разметке сделок. Если разметка мусорная, то дискретизация что-то даст, но мало.

Под каждый бин может понадобиться своя разметка.

Можно взять несколько шаблонов разметки и натянуть на каждый бин, если нет никаких представлений, как это должно выглядеть. Программно это все легко делается, здесь уже объяснять не надо. Важна сама концепция.
 
Maxim Dmitrievsky #:

Основная проблема в разметке сделок. Если разметка мусорная, то дискретизация что-то даст, но мало.

Под каждый бин может понадобиться своя разметка.

Если выборка формируется на каждом баре, то можно и в этом направлении думать. Типа разные состояния - разные ТС...

Но, главное, работать с устойчивыми (эффективными) квантовыми отрезками (бинами), иначе всё посыпеться на новых данных, как карточный домик.

[Удален]  
Aleksey Vyazmikin #:

Если выборка формируется на каждом баре, то можно и в этом направлении думать. Типа разные состояния - разные ТС...

Но, главное, работать с устойчивыми (эффективными) квантовыми отрезками (бинами), иначе всё посыпеться на новых данных, как карточный домик.

Часто достаточно посмотреть на распределения внутри бинов, они должны быть стандартными. Потому что теория МО работает только с такими.
И среди 10 бинов/кластеров 2-3 такими будут. Останется правильно из разметить.