Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1487

 
Aleksey Vyazmikin:

Оценка должна быть на двух выборках, участвующих в обучении.

вторая - валидационная?
 

Тогда будет подгонка под валидационный участок. Хотя может и получтся, если валидация будет больше обучения. В НС Ивана Бутко, обучение на маленьком участке, а валидация на участке в несколько раз больше. Тут обычно рассматривались варианты с валидацией 15-25% от всех данных, а в его видео около 80%

 
elibrarius:
вторая - валидационная?

Да, если применяется.

Вообще, я думаю, что чем тут больше выборка тем лучше - это вопрос устойчивости предикторов, а не просто обучения.

Возможно, можно на предподготовке обработать данные, сгрупировать просто диапазоны значений предикторов, которые не редки, но сильно скучковались по выборке.

Заменить их условно на -1 и запретить делать по ним первоначальные сплиты, как минимум, на глубину 2-3.

 
elibrarius:

Тогда будет подгонка под валидационный участок. Хотя может и получтся, если валидация будет больше обучения. В НС Ивана Бутко, обучение на маленьком участке, а валидация на участке в несколько раз больше. Тут обычно рассматривались варианты с валидацией 15-25% от всех данных, а в его видео около 80%

Подгонки особой не будет, так-как обучение на валидации мы не производим по сути, а просто берем и с неё дополнительную информацию о структуре рынка.

 
Aleksey Vyazmikin:

Да, если применяется.

Вообще, я думаю, что чем тут больше выборка тем лучше - это вопрос устойчивости предикторов, а не просто обучения.

Возможно, можно на предподготовке обработать данные, сгрупировать просто диапазоны значений предикторов, которые не редки, но сильно скучковались по выборке.

Заменить их условно на -1 и запретить делать по ним первоначальные сплиты, как минимум, на глубину 2-3.

Слишком мудрёно... стандартный алгоритм построения дерева прост и быстр.
Aleksey Vyazmikin:

Подгонки особой не будет, так-как обучение на валидации мы не производим по сути, а просто берем и с неё дополнительную информацию о структуре рынка.

Если оценка будет по валидации - то и подгонка под нее будет.Единственный приемлемый вариант, если валидация будет соизмерима или больше обучения.
И приходим к тому, что надо просто валидацию включить в участок обучения.
 
Грааль:

да не, какой же это svm это "парзеновское окно", ядерное сглаживание, а "квазиоптимальный" в смысле что почти идеальный(у Митчела где то было), но только очень медленный, каждая иттерация - сортировка всего датасета к новой точке и свёртка с ядром

не уверен, что даст эффект для нестационарности.. а если медленный то даже монтекарлить сложно

имхо основная проблема это масштабироание\преобразование данных, выделение циклов т.к. даже нелинейная регрессия или SVM дают хорошие результаты, если паттерны повторяются (на искусственных ВР)

т.е. проблемы с выбором моделей надуманные
 
Maxim Dmitrievsky:

основная проблема это масштабироание\преобразование данных, выделение циклов

Да, именно так.

 
elibrarius:
Слишком мудрёно... стандартный алгоритм построения дерева прост и быстр.Если оценка будет по валидации - то и подгонка под нее будет.Единственный приемлемый вариант, если валидация будет соизмерима или больше обучения.
И приходим к тому, что надо просто валидацию включить в участок обучения.

Стандартные алгоритмы предназначены для работы со стационарными явлениями, замкнутыми системами, поэтому там любая информация априори считается полезной и не происходит её оценки с точки зрения случайности, а лишь возможности использования для поставленной задачи (классификации по целевой), у нас же много шума и я предложил логичный способ борьбы с ним.

И да, я при сборе гербария ушел от валидации как таковой, оставив критерии оценки листьев, в том числе эффективность на временных участках. Сейчас у меня более 50 тысяч листов от всех вариантов деревьев, из них отобрано всего порядка 200 в качестве сигнальных и фильтров, существенно улучшающих результат (на большинстве периодах) - 600 (по 3 на сигнальный лист).

Надо исходить из того, что всё, что мы можем - это разработать алгоритм наиболее удачной подгонки данных, ибо будущее нам не известно и его вариаций очень много, даже исходя из имеющихся значений предикторов. И, если повезет, то удастся выявить закономерность, которая продолжит своё существование какое то время, поэтому и важно искать такую закономерность с определенными критериями, и логика подсказывает, что как минимум это должна быть закономерность встречающаяся на протяжении всей выборки. Поэтому и стоит задача в создании алгоритма, создающего много таких закономерностей и строящих из них деревья.

Простым примером перобучения, от которого удастся защитится, это выявление на выборке участка с определенным диапазоном цен, на котором установился длительный флэт - при обучении сейчас мы получим два диапазона цены(или ретурнов с верхних ТФ) по которым надо осуществлять торговые операции, но в будущем флэт на этом же участки вряд ли установится. А при предлагаемом мной подходе, с теме же фичами, вероятней будут найдены уровни страйков, как значимые для генерации событий.

 
Aleksey Vyazmikin:

Надо исходить из того, что всё, что мы можем - это разработать алгоритм наиболее удачной подгонки данных, ибо будущее нам не известно и его вариаций очень много, даже исходя из имеющихся значений предикторов. И, если повезет, то удастся выявить закономерность, которая продолжит своё существование какое то время, поэтому и важно искать такую закономерность с определенными критериями, и логика подсказывает, что как минимум это должна быть закономерность встречающаяся на протяжении всей выборки.

На рынке одна закономерность и она будет всегда - временные циклы, периоды: торговая сессия, день, неделя, ..., а также их полупериоды. Эти циклы неразрушимы в принципе, образуют сложную временную структуру и определяют объем выборки, с которым следует работать. Выявив поведение цены внутри этой иерархичной структуры, торговая система будет работать всегда.

 
Рынок фрактален не сам по себе. Он обладает свойствами самоподобия только внутри временных периодов, образуя в них определенные структуры. Нельзя выбирать объем тиковой или любой другой выборки на шару - она должна быть некой определенной величиной, удовлетворяющей вложенным временным циклам.
Причина обращения: