Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1322

 
Maxim Dmitrievsky:

если бы ушлепок не флудил, 2 стр. назад вы бы увидели пример с ф-ей

мысль про инициализацию весов и проч. не понял, тогда нужна дообучающаяся сетка, и какой смысл обучать на том, что вообще не соответствует тому что надо предсказать

догадываюсь, вы пытаетесь изобразить азы обучения с подкреплением

Не, не нужна дообучающая.

1. Предварительное обучение на близких и явно прогнозируемых данных. Можно приготовить из реальных - сплайны, полиномы, Фурье или что-то еще.

2. Дообучение этой сети по п.1 (уже с неслучайной инициализацией) уже на реал данных.

Для прогнозирования я это вижу как сделать, и думаю, это может улучшить результаты. Для классификации - ума не приложу.

Пример с функцией - эт не о том. Таких примеров как грязи.

 
Maxim Dmitrievsky:

Алексей выбрал далеко не самый плохой катбуст, один из лучших для исследований, на сегодняшний день. Он испольцуется в CERN, например, для анализа результатов коллайдера.. уж кто имеет дело с квантовой случайностью )

Оч интересная инфа.) ЦЕРН XGBoost Случайно набрел.

Неудивительно, что CERN признал это лучшим подходом для классификации сигналов Большого адронного коллайдера. Эта особая проблема, поставленная CERN, требовала решения, которое было бы масштабируемым для обработки данных, генерируемых со скоростью 3 петабайта в год, и эффективно отличало чрезвычайно редкий сигнал от фоновых шумов в сложном физическом процессе. XGBoost стал самым полезным, простым и надежным решением. (6 СЕНТЯБРЯ 2018 Г.)

__________________________________

CatBoost был внедрён Европейским центром ядерных исследований (ЦЕРН) при исследованиях на Большом адронном коллайдере (БАК) для объединения информации с различных частей детектора LHCb в максимально точное, агрегированное знание о частице. Используя для комбинирования данных CatBoost, учёным удалось добиться улучшения качественных характеристик финального решения, где результаты CatBoost оказались лучше результатов, получаемых с использованием других методов[6][7].

_______________________________________

Все почти один в один. Так кто-же из них Кэтбуст или XGBoost ? ) Интересно, кто у кого списывал? ))

 
Aleksey Vyazmikin:

Будущее не определено, закономерности как появляются так и исчезают, это нормально, а вот то, что они обязательно должны быть кратковременными - это сомнительно. У меня выборка не очень большая получается из-за применения трендовой стратегии, поэтому я считаю не обоснованно её ещё сильней сокращать.

Однако, решил провести эксперимент по эффективности обучения на разных пропорциях учебной и проверочной выборки, участвующей в обучении. Шаг будет 10%, т.е. учебная в начале 90%, а тестовая 10%, потом тестовая постепенно увеличивается на 10%, в каждом варианте будет 200 моделей - посмотрим, что выйдет. Другой вопрос, как лучше сравнивать, эти комбинации, по среднему или абсолютному критерию - идеи принимаются.

По кратковременным закономерностям - от 10-15 мин до макс 1 часа вероятность каких либо существенных событий что-то меняющих оч. невелика, тем более, что мы уже зашли в сделку по значимому событию. За более часа - что там будет, мне, по крайней мере, вообще неизвестно. Это не в противовес вам, а в обоснование своего мнения.)

Решил последовать вашим путем, со своими модификациями и видением предмета. Тем более, что все нужные предикторы уже есть. Пока решил попробовать на XGBoost, что-то он мне глянулся - то-ли доки CatBoost не впечатлили (XGBoost, имхо, понятней), то-ли еще что. Пока не понял, что там с нормированием. C НС, там обалдеешь все нормировать.

 
Yuriy Asaulenko:
 

Все почти один в один. Так кто-же из них Кэтбуст или XGBoost ? ) Интересно, кто у кого списывал? ))

И это хорошо бы понимать прежде, чем создавать на их базе модели и выпускать в рыночный хаос.

Помнится с полгода назад тут пытались тестить CatBoost, тогда в отличие от XGBoost он не мог обучиться даже на таблице умножения.

Не знаю, м.б. сейчас решили что если он не тянет простое то нужно попробовать его сразу на сложном, а может он и вправду крут.

А что бы определить это наверное можно было бы использовать, предлагаемые выше, синтетические ВР.

 
Ivan Negreshniy:

И это хорошо бы понимать прежде, чем создавать на их базе модели и выпускать в рыночный хаос.

Помнится с полгода назад тут пытались тестить CatBoost, тогда в отличие от XGBoost он не мог обучиться даже на таблице умножения.

Не знаю, м.б. сейчас решили что если он не тянет простое то нужно попробовать его сразу на сложном, а может он и вправду крут.

А что бы определить это наверное можно было бы использовать, предлагаемые выше, синтетические ВР.

По крайней мере, с документацией у XGBoost много лучше, и больше. У CatBoost, кроме материалов самого Яндекса, других оч мало, на вскидку.   

 
Yuriy Asaulenko:

По кратковременным закономерностям - от 10-15 мин до макс 1 часа вероятность каких либо существенных событий что-то меняющих оч. невелика, тем более, что мы уже зашли в сделку по значимому событию. За более часа - что там будет, мне, по крайней мере, вообще неизвестно. Это не в противовес вам, а в обоснование своего мнения.)

Я так не рассматриваю изменчивость вероятности в рамках своей стратегии. Если модель дала сигнал на вход, то входим, так-как именно сейчас (проще говоря по статистике полученной на обучении) сложились для этого благоприятные условия, а вот выход у меня в разных версиях ТС отличается - либо по TP/SL, либо только по SL. В итоге прогноз не отменяется до закрытия позиции и может действовать и три часа. Т.е. я прогнозирую не совсем время, а в большей степени вероятность возврата к цене, которая была x баров назад, иными словами окончание локального флэта.

Но писал я совсем об ином, а именно о периодичности повторения выявленной закономерности во времени, что если закономерность\примета встречалась на протяжении трех лет и приводила к предсказуемым событиям, то есть шанс в большей, мере, что и на четвертый год она продолжит свою работу, в то время как закономерность, выявленная на малом участки времени обучения может быть лишь описанием ситуации на верхнем ТФ (тренд на недельном графике).

Во всяком случае, это мои теоретические измышления, сейчас обработаю результаты эксперимента и будет ситуация более прозрачной, надеюсь.

Yuriy Asaulenko:

Решил последовать вашим путем, со своими модификациями и видением предмета. Тем более, что все нужные предикторы уже есть. Пока решил попробовать на XGBoost, что-то он мне глянулся - то-ли доки CatBoost не впечатлили (XGBoost, имхо, понятней), то-ли еще что. Пока не понял, что там с нормированием. C НС, там обалдеешь все нормировать.

У Кэтбуста больше настроек, он является продолжением развития идеи XGBoost, главный плюс и одновременно минус - это деревья фиксированной размерности, которые препятствуют переобучению, если их число не велико.

Нормализовать ничего не надо для классификации в чистом виде. Однако, я в предикторах делаю предобработку, сокращая диапазон значений, да и сам диапазон раскладываю на группы эмпирическим путем. Возможно, без этих преобразований результат был бы лучше - не проверял. С одной стороны разработчики говорят о том, что не надо самому преобразовывать что либо, с другой стороны имеются разные настройки преобразования алгоритмом цифр, а кроме того можно использовать свою разбивку из отдельного файла. Это касается кэтбуста, но думаю логика одинакова везде.

 
Ivan Negreshniy:

И это хорошо бы понимать прежде, чем создавать на их базе модели и выпускать в рыночный хаос.

Помнится с полгода назад тут пытались тестить CatBoost, тогда в отличие от XGBoost он не мог обучиться даже на таблице умножения.

Не знаю, м.б. сейчас решили что если он не тянет простое то нужно попробовать его сразу на сложном, а может он и вправду крут.

А что бы определить это наверное можно было бы использовать, предлагаемые выше, синтетические ВР.

У CatBoost и XGBoost разная глубина деревьев, помнится, что при добавления числа деревьев CatBoost успешно справлялся с задачей.

А что касается поиска разных функция с помощью деревьев, то их лучше искать с помощью НС, а результаты подавать в виде предикторов для классификации. Во всяком случае, я не сторонник подачи цены в голом виде, но Максим вот добился в этом успеха, правда требуется более частое переобучение.

 

Для тех, кто сомневается в способности НС описывать функции


 

Про бустинг лекция - была поновей (на питоне с кэтбустом в том числе, как вариантом) с этим же лектором - что т найти не могу


 
Aleksey Vyazmikin:

У Кэтбуста больше настроек, он является продолжением развития идеи XGBoost, главный плюс и одновременно минус - это деревья фиксированной размерности, которые препятствуют переобучению, если их число не велико.

....

Чисто технический вопрос. Допустим, имеем 3 предиктора - х1, х2, х3. Мы знаем также, что х1-х2, х1-х3, х2-х3 тоже являются предикторами и порождают условия. Насколько я знаком с деревьями, эти дополнительные предикторы тоже надо подавать в модель. 

Но дело обстоит несколько хуже, предикторами являются некие а11*х1-b2*x2, a12*x1-a3*x2, и т.д., порождающие что-то типа систем уравнений. Коэффициенты я, разумеется не знаю. Возможны и более сложные комбинации предикторов, эти приведены только для примера.

НС с такими вещами (линейными комбинациями предикторов, и даже нелинейными) справляется и мне изощряться не надо, и подаем на входы только х1, х2 и х3, не заморачиваясь.

С деревьями в таких случаях что делать? Что-то внятное по этому поводу не нашел. Или деревья сами справятся?

Причина обращения: