Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1488

 
Aleksey Vyazmikin:

Стандартные алгоритмы предназначены для работы со стационарными явлениями, замкнутыми системами, поэтому там любая информация априори считается полезной и не происходит её оценки с точки зрения случайности, а лишь возможности использования для поставленной задачи (классификации по целевой), у нас же много шума и я предложил логичный способ борьбы с ним.

Т.е. равномерность успешных сделок на участке обучения?
Там и так все хорошо, ибо подгонка именно под обучение, вплоть до 0% ошибки.

Полагаю это должно быть при регуляризации/загрублении модели уменьшением глубины или др. методами. И остановиться например при 20% ошибки на обучающем участке.

Думаю есть только один способ - после каждого добавленной версии узла прогонять все данные через получившуюся часть дерева и анализировать линию баланса.

Число версий узла = (число фич * число узлов в дереве * 3(если деление по квартилям)) * число деревьев

Это очень долго будет считаться, боюсь что даже дольше НС.

 
Alexander_K:

На рынке одна закономерность и она будет всегда - временные циклы, периоды: торговая сессия, день, неделя, ..., а также их полупериоды. Эти циклы неразрушимы в принципе, образуют сложную временную структуру и определяют объем выборки, с которым следует работать. Выявив поведение цены внутри этой иерархичной структуры, торговая система будет работать всегда.

Я не отрицаю важность времени, но этого недостаточно, для создания модели - нужны и другие влияющие на цену величины.

 
Aleksey Vyazmikin:

Я не отрицаю важность времени, но этого недостаточно, для создания модели - нужны и другие влияющие на цену величины.

Достаточно.

Именно внутри временных циклов и сидит Грааль. Структура в одном временном цикле является частью структуры в другом.

Если работать с одинаковыми объемами выборки, которые соответствуют разным строго определенным временным периодам, то эти вложенные структуры как на ладони.

Неужели НС не может с этим справиться? Я в своей ТС это и без нейросети сделал.

 
elibrarius:

Т.е. равномерность успешных сделок на участке обучения?

Лично я оцениваю финансовый результат за каждый год(сейчас - 5 лет), с учетом просадки и фактора восстановления, ну и других критериев оценки. В настоящий момент даже не смотрю на классификацию, так как там трендовая стратегия, и даже с 35% правильной классификацией может быть прибыль по итогу года (иного периода).

elibrarius:


Там и так все хорошо, ибо подгонка именно под обучение, вплоть до 0% ошибки.

Вопрос в том, сколько используется для этого деревьев, а по сути какая память у модели. Одним деревом, с глубиной в 6 сплитов, такую подгонку не сделать...


elibrarius:

Полагаю это должно быть при регуляризации/загрублении модели уменьшением глубины или др. методами. И остановиться например при 20% ошибки на обучающем участке.

Ограничение по сплитам и полноте я уже использую, и да, это нужно использовать при обучении.


elibrarius:

Думаю есть только один способ - после каждого добавленной версии узла прогонять все данные через получившуюся часть дерева и анализировать линию баланса.

Число версий узла = (число фич * число узлов в дереве * 3(если деление по квартилям)) * число деревьев

Это очень долго будет считаться, боюсь что даже дольше НС.

Это будет более эффективно, что важней, а в итоге будут модели более пригодные для рынка.

В настоящий момент для расчета я трачу порядка 15 дней - получаю примерно 800 уникальных листьев и из них в среднем 8, из которых половина похожи, которые показывают стабильный результат на временных интервалах (а проверка ещё занимает не мало машинного времени). Т.е. замедление расчета 800/8 в 100 раз даже будет давать соизмеримый результат.

 
Alexander_K:

Достаточно.

Именно внутри временных циклов и сидит Грааль. Структура в одном временном цикле является частью структуры в другом.

Если работать с одинаковыми объемами выборки, которые соответствуют разным строго определенным временным периодам, то эти вложенные структуры как на ладони.

Неужели НС не может с этим справиться? Я в своей ТС это и без нейросети сделал.

У меня из этого грааль не выходит, хотя я и работаю как раз со структурами и подобием фракталов, т.е. вложенность времени в разные ТФ. Этого мало, может я не все ещё осознал.

НС - это инструмент, мозг человека может найти решение быстрей и точней, а может и не найти...

 
Aleksey Vyazmikin:

Лично я оцениваю финансовый результат за каждый год(сейчас - 5 лет), с учетом просадки и фактора восстановления, ну и других критериев оценки. В настоящий момент даже не смотрю на классификацию, так как там трендовая стратегия, и даже с 35% правильной классификацией может быть прибыль по итогу года (иного периода).

Вопрос в том, сколько используется для этого деревьев, а по сути какая память у модели. Одним деревом, с глубиной в 6 сплитов, такую подгонку не сделать...


Ограничение по сплитам и полноте я уже использую, и да, это нужно использовать при обучении.


Это будет более эффективно, что важней, а в итоге будут модели более пригодные для рынка.

В настоящий момент для расчета я трачу порядка 15 дней - получаю примерно 800 уникальных листьев и из них в среднем 8, из которых половина похожи, которые показывают стабильный результат на временных интервалах (а проверка ещё занимает не мало машинного времени). Т.е. замедление расчета 800/8 в 100 раз даже будет давать соизмеримый результат.

Похоже что вы делаете валкинг форвард тестирование.
Я тоже, но вручную. Думаю это самый лучший способ оценки моделей.

Пока не нашел стабильной во времени модели. Переместившись на полгода/год вперед/назад модели уже начинают плохо работать или сливать. Даже вновь обученные на тех же фичах и с теми же параметрами модели. Т.е. и важность фичей меняется.

 
elibrarius:

Похоже что вы делаете валкинг форвард тестирование.
Я тоже, но вручную. Думаю это самый лучший способ оценки моделей.

Пока не нашел стабильной во времени модели. Переместившись на полгода/год вперед/назад модели уже начинают плохо работать или сливать. Даже вновь обученные на тех же фичах и с теми же параметрами модели. Т.е. и важность фичей меняется.

Поэтому и надо при обучении это всё уже учитывать, и делать сплиты с учетом если не баланса, то с оценкой вероятности точности классификации. Та часть, что сомнительная, просто должна идти или в запрет торговли или в загнанную вероятность - 99%, тогда это можно при применении модели отфильтровать.

 
Aleksey Vyazmikin:

Поэтому и надо при обучении это всё уже учитывать, и делать сплиты с учетом если не баланса, то с оценкой вероятности точности классификации. Та часть, что сомнительная, просто должна идти или в запрет торговли или в загнанную вероятность - 99%, тогда это можно при применении модели отфильтровать.

По вероятности классификации и делаются сплиты. Точнее не по вероятности, а по ошибке классифиции. Т.к. на обучающем уч-ке все известно, и мы имеем не вероятность, а точную оценку.
Хотя там есть разные ф-ии разделения, т.е. меры нечистоты (выборки слева или справа).
 

ну состояние то марковское, а модель какая? табличный метод ил что

значит нужно больше точек для ск. окна, как минимум

а если рандомный ряд подается, то о каком предсказании кроме 50\50 может идти речь?
Причина обращения: