Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1537

 
Maxim Dmitrievsky:

потому и говорю что данные вывозят. Лес переобучался на них (может быть получится пофиксить эту особенность леса, путем категорризации фичей). Сейчас поставил 6 - переобуч по трейну идет существенный, акураси под 0.9. 

6 для моей многовато, 2-4 норм идет

Аналогия с лесом получается прямая, там глубина деревьев не ограничена

Не понял, вы же ранее говорили, что предикторы у Вас в виде приращений, тогда как Вы из них хотите сделать категориальные предикторы?

От представления дерева по сути многое не меняется - я препарировал деревья, там многие отдельные листья дерева просто объединяются в один длинный лист по сути, и очень большая часть из этих листьев дублируется или имеет бессмысленные промежуточные значения/связи, которые можно обрезать. Вообще на своей выборке я видел, что глубина дерева влияет на число деревьев, а результат можно получить такой же и на дереве из 4 сплитов.

 
Aleksey Vyazmikin:

Не понял, вы же ранее говорили, что предикторы у Вас в виде приращений, тогда как Вы из них хотите сделать категориальные предикторы?

От представления дерева по сути многое не меняется - я препарировал деревья, там многие отдельные листья дерева просто объединяются в один длинный лист по сути, и очень большая часть из этих листьев дублируется или имеет бессмысленные промежуточные значения/связи, которые можно обрезать. Вообще на своей выборке я видел, что глубина дерева влияет на число деревьев, а результат можно получить такой же и на дереве из 4 сплитов.

Сначала разбить на категории, например на 20 рэнжей-категорий. Потом ванхот энкодинг (через фиктивные признаки) или еще как-то, пока не опредилился. В итоге каждая фича будет бинарной или что-то такое.

чем больше разных значений для леса тем больше переобуча. При увеличении тренировочной выборки переобуч растет. У катбуста - нет. Поэтому для леса попробовать уменьшить кол-во вариантов для непрерывных признаков путем их категоризации. Я не уверен что это спасет, посмотрим.

bias-variance trade off или как там. 

 
Maxim Dmitrievsky:

Сначала разбить на категории, например на 20 рэнжей. Потом ванхот энкодинг (через фиктивные признаки) или еще как-то, пока не опредилился. В итоге каждая фича будет бинарной или что-то такое.

Ну не знаю, там скорей смысл в том, что б ускорить обработку данных, не дробить такие предикторы, не сравнивать между собой в одной цепочке листьев, я не увидил эффекта стоящего, к сожалению. А логика же в том, что это не сравнимые значения, это и есть ванхот энкодинг, объединенный в группу с целью уравнивания рандомного выбора.

Maxim Dmitrievsky:
чем больше разных значений для леса тем больше переобуча. При увеличении тренировочной выборки переобуч растет. У катбуста - нет. 

Зависимость выборки на обучение там так же не однозначно - я же делал пол года или раньше подобные исследования. Скорей там зависимость от данных, которые должны быть сопоставимы.

 
Maxim Dmitrievsky:

Простой и интересный подход как описать паттерны для МО

https://www.quanttrader.com/index.php/a-simple-algorithm-to-detect-complex-chart-patterns/KahlerPhilipp2019

мега-примитивно, есть способы намного точнее описать паттерн

 
mytarmailS:

мега-примитивно, есть способы намного точнее описать паттерн

например?

 
Alexander_K:
Присоединяюсь к мольбам страждущих. Прошу, склонив голову, дать ссылку на Грааль.
Alexander_K:

Я готов заплатить вразумительную сумму за Грааль, подтвержденный на реале (тестовые отчеты меня не интересуют) не менее 3 месяцев работы.

Считаю, что реальная стоимость Грааля = сумме текущего эквити трейдера. Т.е. на счету 1000$ эквити, значит и ТС стоит столько же. У кого есть Грааль, основанный на нейросетевых технологиях и/или на физико-математических моделях, реальные стэйты и готовность продать, - пишите в личку, обсудим.

Кто реально зарабатывает на рыке не продаст свои технологии и за лимоны зелени, может за сотни лимонов... кроме того даже если бы ради прикола кто то "как есть" подарил софтовый "черный ящик" выдающий годные прогнозы или готовые сигналы, в него что бы он работал как надо нужно данные пихать по 10-30к$ в месяц и качество исполнения иметь ещё более дорогое чем данные, да и много ещё всего нужно, это как сравнивать ребёнка в песочнице и золотодобывающую компанию, ребенок хочет совком нарыть на золотую жилу но чо то не выходит... может совок взять другой? Спросить у других детей в саду у кого есть такой совок? Скорей всего у кого то "будет", дети часто фантазёры:)

 
Aleksey Vyazmikin:

Ну не знаю, там скорей смысл в том, что б ускорить обработку данных, не дробить такие предикторы, не сравнивать между собой в одной цепочке листьев, я не увидил эффекта стоящего, к сожалению. А логика же в том, что это не сравнимые значения, это и есть ванхот энкодинг, объединенный в группу с целью уравнивания рандомного выбора.

Зависимость выборки на обучение там так же не однозначно - я же делал пол года или раньше подобные исследования. Скорей там зависимость от данных, которые должны быть сопоставимы.

в той статье на англ как раз об этом, да, что бы не сравнивать значения одной переменной между собой,  когда их много - это приводит только к переобучу

может не от длины а какая-то другая, говорю то что вижу. Увеличиваю выборку - на Трейне становится красивее, на тесте хуже. Хотя генерализация должна возрастать с увеличением размера трейна, а получается с точностью до наоборот у лесов

 
Maxim Dmitrievsky:

например?

dtw, спектральный анализ.. связка..

мне получилось создать алгоритм который умеет видеть одни и те же паттерны независимо от их масштабности, те алгоритм смотря на один график  увидит паттерн как на минутках так и на недельном графике, смотря всего на один график, и он реально может прогнозировать, но работы еще много

 
mytarmailS:

dtw, спектральный анализ.. связка..

мне получилось создать алгоритм который умеет видеть одни и те же паттерны независимо от их масштабности, те алгоритм смотря на один график  увидит паттерн как на минутках так и на недельном графике, смотря всего на один график, и он реально может прогнозировать, но работы еще много

что-то начинал читать про dtw, но не понял как применить к фин рядам и зачем оно мне ) но тема интересная, наверное

 
Maxim Dmitrievsky:

что-то начинал читать про dtw, но не понял как применить к фин рядам и зачем оно мне ) но тема интересная, наверное

голосовые и музыкальные файлы сжимают с помощью  dtw, а они в свою очередь являются тоже ВР

;)

Причина обращения: