Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2130
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Вообще получается, что деревянным моделям надо подавать много входов, которые предварительно максимально поделены, т.е. имеют минимальное количество возможных собственных делений.
Баланс - T1 с минутами и T2 без минут - средний результат: 3384/3126/3890
Recall - средний результат: 0,0459/0,0424/0,0458
Precision - средний результат: 0,5216/0,5318/0,5389
По средним показателям в совокупности T2 худший вариант получился.
Открыл таблицу по значимости предикторов и тут удивился
Как то не понравились методу обучения последние изменения, может я не правильно что сделал?
Открыл выборку
И увидел, что в столбце TimeHG - стоят часы - ошибка моя - надо переделывать все тесты.
Баланс - T1 с минутами и T2 без минут - средний результат: 3384/3126/3890
Recall - средний результат: 0,0459/0,0424/0,0458
Precision - средний результат: 0,5216/0,5318/0,5389
По средним показателям в совокупности T2 худший вариант получился.
Открыл таблицу по значимости предикторов и тут удивился
Как то не понравились методу обучения последние изменения, может я не правильно что сделал?
Открыл выборку
И увидел, что в столбце TimeHG - стоят часы - ошибка моя - надо переделывать все тесты.
И часы остались с минутами
Надо так
TimeHG - видимо на себя все взял, потому остальные часы и не использовались.И часы остались с минутами
Надо так
Хорошо.
Обучение 3 месяца - чисто ради прикола попробовал - обучение в самом начале. Весь график 2014-2020.
Если брать период большой, то получается посредственная модель. При этом можно брать разные периоды размером 3 месяца на всем периоде.
Вот к примеру, виден период обучения - до и после динамика положительная.
Текущий фьючерс
Мат ожидание показывает 6,15 на реальных тиках.
Взял модельку поновей
Интересно, что они отличаются, а это дает потенциал для объединения их в комитет. Тут мат ожидание 12,64.
Ниже гистограмма с расчетным показателем баланса, в том числе и обучающая выборка, в зависимости от номера окна обучение - чем больше номер, тем ближе к нашему времени, напомню, что выборка с 2014 по октябрь 2020 года.
Интересно, что в некоторых местах прибыль падает почти в два раза от максимального значения. Что это может значить - более шумные участки на обучении?
И часы остались с минутами
Надо так
TimeHG - видимо на себя все взял, потому остальные часы и не использовались.Баланс - T1 с минутами и T2 без минут - средний результат: 4209,70/2882,50/3889,90
Recall - средний результат: 0,0479/0,0391/0,0458
Precision - средний результат: 0,5318/0,5168/0,5389
Важность предикторов
По средним показателям вариант без минут (T2) сливается.
Баланс - T1 с минутами и T2 без минут - средний результат: 4209,70/2882,50/3889,90
Recall - средний результат: 0,0479/0,0391/0,0458
Precision - средний результат: 0,5318/0,5168/0,5389
Важность предикторов
По средним показателям вариант без минут (T2) сливается.
Минуты дают прирост.
Насчет того что лучше, не понял - время в виде синуса и косинуса или просто в виде номеров дня, часа, минут?
Вывод какой?
Минуты дают прирост.
Насчет того что лучше - время в виде синуса и косинуса или просто в виде номеров дня, часа, минут?
Пока можно сделать вывод о том, что T2 - вариант явно хуже, и что добавление синуса и косинуса не тождественно линейному времени. Думаю, что результаты разные из за представления чисел, а именно из-за расстояния между ними. Разное расстояние влияет на формирование сетки кластеризации - отсюда и расхождения.
Пока можно сделать вывод о том, что T2 - вариант явно хуже, и что добавление синуса и косинуса не тождественно линейному времени. Думаю, что результаты разные из за представления чисел, а именно из-за расстояния между ними. Разное расстояние влияет на формирование сетки кластеризации - отсюда и расхождения.
Теоретически - должно быть одинаково для дерева.
Количество разных вариантов в днях, часах и минутах равно количеству вариантов в синусах и косинусах. И там и там в 7-и днях 10080 разных значений, со сменой раз в минуту.
Если какая то рандомизация при обучении есть, то возможно из за этого отличия.
Чем обучали, катбустом?
Для НС синус и косинус конечно лучше, т.к. 59 и 1 минута будут рядом, при номерном представлении они максимально далеко. Дереву, чтобы это понять надо пару лишних сплитов сделать, возможно этого ему и не хватает при ограничениях по глубине.
Я вот думаю провести "полный поиск" закономерностей, те без целевой в привычном виде типа - "что будет на следующей свече" и им подобных ...
Поиск заключается в том что буду искать просто закономерности, те целевая это найти закономерность , а не "что будет на следующей свече", также закономерности могут быть растянуты во времени , например если сегодня было "событие 1" а потом "событие 2" , а потом "событие 3" то завтра в 14:05 будет растущая свеча , что то типа такого))
Я уже более менее представляю как это должно выглядеть, и какой алгоритм применить , но потребуются вычислительные мощностя наверное, которых нету(
Кстати такой вопрос, сколько надо повторений какого то события чтобы считать его закономерностью ?
Теоретически - должно быть одинаково.
Чем обучали, катбустом?Количество разных вариантов в днях, часах и минутах равно количеству вариантов в синусах и косинусах. И там и там в 7-и днях 10080 разных значений, со сменой раз в минуту.
Если какая то рандомизация при обучении есть, то возможно из за этого отличия.
Эксперименты всегда важней.
Вот смотрите на первый предиктор T1 (Den_Nedeli_S), а точней на его сетку
T2
И дни недели без преобразования времени
Видите, сетки разные, между цифрами разные дельты, хотя настройки разбивки и одинаковы:
А это значит, что можно точней подобрать сплит, что может привести или к подгонке или к улучшению результата...