Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3189
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Утомляет ваша готовность требовать от людей вникать в ваши умопостроения, что сопровождается полным вашим нежеланием вникать в простые и широко известные идеи вроде Монте Карло.
Пожалуй, с меня хватит.
Вы ищете последовательности, которые отличаются от последовательностей на сб. Не найдете.
Про строгую последовательность я писал просто как пример для наглядности. И, я писал, что решение этой задача может улучшить устойчивость модели. А вот решение может быть разным.
Даже без решения выше обозначенной задачи - подбор правильной квантовой таблицы улучшает обучение, что было мной проверено на десятках выборок.
Потом я показал, как можно быстро делать предобработку для обучения, очищая выборку от противоречивых данных. На гифках видно, что таким методом можно даже получить прибыльную модель на новых данных.
В итоге, подход рабочий, его развитие - моя цель.
Поэтому, говорить, что это не так - отрицать реальность.
Я не считаю, что цена это в чистом виде СБ, разобрать природу которого нельзя хотя бы частично. Если это в чистом виде СБ, то вся ветка - ошибка.
Привяжите это хоть как-то к прибыли, хотя бы приблизительно и сравнивайте реальную прибыль с выборкой из рандомных прибылей. Проверкой что нет ошибок будет равенство средней прибыли по выборке нулю. Проверьте значимость положительности реальной прибыли относительно выборки - правило три сигмы.
Совсем не готов вникать в подробности вашей задачи, поскольку своими задачами голова забита.
При чём тут прибыль вообще, когда речь о предобработке данных для последующей классификации идёт?
Ваши кванты предназначены для извлечения прибыли? Для этого есть какая-то схема? Сделайте её предельное упрощение, чтобы посчитать хоть и приблизительно но быстро выборку и проверьте попадание реального результата в хвост этой выборки.
Утомляет ваша готовность требовать от людей вникать в ваши умопостроения, что сопровождается полным вашим нежеланием вникать в простые и широко известные идеи вроде Монте Карло.
Пожалуй, с меня хватит.
Каждый сам вправе распоряжаться своим временем.
Но, судя по всему, Вы не поняли вопроса по которому давали совет.
Спасибо за попытку помочь.
Понимаю.
У меня к Вам другое предложение, что если сделать более управляемым процесс построения леса, и взять в качестве корня для каждого дерева конкретную подвыборку отобранного квантового отрезка?
Глубину сделать в районе 2-3 сплитов, что бы примеров классифицируемого класса листом было не менее 1%.
Думаю, модель будет более устойчивой.
Т.е. если выбрали 10 квантов/отрезков, то обучить 10 деревьев на примерах из этих отрезков? Вроде просто сделать.
Насчет устойчивости на ООС - покажет эксперимент. У меня устойчивость нарушается и при изменении размера окна данных (2 месяца и 4) и при смещении его даже на 2% (обучение не в субботу, а во вторник). Деревья получаются разные.
Провёл эксперимент с выборкой, по которой публиковал гифки, тут уже единиц 47% в выборке, данные свёл в таблицу.
...оказалось, что качество (полезность) у этих квантовых отрезков хуже (меньше) чем у оригинальных в 10 раз.
Примерно такое ухудшение (в разы) я и предполагал, когда общался с fxsaber-ом, по поводу перемешивания его алгоритмом. У него на его данных нет такого сильного отличия. Видимо из за того, что у него не все подряд бары в разметке (или рябом стоящие), а с большими пропусками. Если у вас бары близки, то у них очень похожее прошлое и будущее, т.е. могут идти подряд 20 примеров 1 класса. Рандомизацией вы их делаете в среднем 0101010...., а надо бы всю серию из 20 "1" поменять на 20 "0". Т.к. они близки и их можно считать одним примером. Если у вас не так, то у меня так (все подряд бары оцениваю, потому эта идея и пришла).
В общем думаю, что при таком сильном отличии в 10 раз, можно не делать 10000 тестов. Слишком явное отличие первых 10 тестов (все хуже), чтобы предположить что еще 10000 поднимут результат к равенству с оригиналом. Вот если бы было 3 хуже, 3 лучше, 4 примерно равны, то да - продолжать накапливать статистику.
Если данные серийны, то проблема в том, что серии из 20 1 где то в истории найдется серия из 20 0 с похожим прошлым. Рандом рынка тут. А не в том чтобы из 111111111 сделать 010101010.
UPD. Поэтому думаю, что Монте-Карло в виде 01010101 для рыночных данных не подойдет (если они идут сериями). Это как прямоугольник и квадрат поделить на равные квадратики и потом попытаться определить, к какой первичной фигуре квадратик принадлежал))
Про строгую последовательность я писал просто как пример для наглядности. И, я писал, что решение этой задача может улучшить устойчивость модели. А вот решение может быть разным.
Даже без решения выше обозначенной задачи - подбор правильной квантовой таблицы улучшает обучение, что было мной проверено на десятках выборок.
Потом я показал, как можно быстро делать предобработку для обучения, очищая выборку от противоречивых данных. На гифках видно, что таким методом можно даже получить прибыльную модель на новых данных.
В итоге, подход рабочий, его развитие - моя цель.
Поэтому, говорить, что это не так - отрицать реальность.
Я не считаю, что цена это в чистом виде СБ, разобрать природу которого нельзя хотя бы частично. Если это в чистом виде СБ, то вся ветка - ошибка.
При чём тут прибыль вообще, когда речь о предобработке данных для последующей классификации идёт?
К чему тогда были ваши многочисленные гифки с неуклонно крутеющими балансами? Может быть вы просто не поняли ответ на ваш вопрос?
Я считаю, что надо делать конференцию машинлернеров. Обязательно с фуршетом и где-нибудь в ОАЭ. И там уже в формальной, а потом неформальной обстановке, все обсуждать. Иначе через форум это делать неудобно.
Идея за деньги Сабера ознакомиться с его стратегиями кажется отличной и хорошо продуманной. Даже не знаю что может пойти не так 🤔
Идея за деньги Сабера ознакомиться с его стратегиями кажется отличной и хорошо продуманной. Даже не знаю что может пойти не так 🤔
Т.е. если выбрали 10 квантов/отрезков, то обучить 10 деревьев на примерах из этих отрезков? Вроде просто сделать.
Насчет устойчивости на ООС - покажет эксперимент. У меня устойчивость нарушается и при изменении размера окна данных (2 месяца и 4) и при смещении его даже на 2% (обучение не в субботу, а во вторник). Деревья получаются разные.
Да, всё так - подход можно конечно усложнить, но потом, если будет желание.
Сейчас, если я правильно помню, предиктор в дереве бьётся просто на половину диапазона, без поиска лучшего места разделения?
Что касается успеха затеи - тут абсолютно согласен, но и под лежащий камень вода не течёт.
Примерно такое ухудшение (в разы) я и предполагал, когда общался с fxsaber-ом, по поводу перемешивания его алгоритмом. У него на его данных нет такого сильного отличия. Видимо из за того, что у него не все подряд бары в разметке (или рябом стоящие), а с большими пропусками. Если у вас бары близки, то у них очень похожее прошлое и будущее, т.е. могут идти подряд 20 примеров 1 класса. Рандомизацией вы их делаете в среднем 0101010...., а надо бы всю серию из 20 "1" поменять на 20 "0". Т.к. они близки и их можно считать одним примером. Если у вас не так, то у меня так (все подряд бары оцениваю, потому эта идея и пришла).
В общем думаю, что при таком сильном отличии в 10 раз, можно не делать 10000 тестов. Слишком явное отличие первых 10 тестов (все хуже), чтобы предположить что еще 10000 поднимут результат к равенству с оригиналом. Вот если бы было 3 хуже, 3 лучше, 4 примерно равны, то да - продолжать накапливать статистику.
Если данные серийны, то проблема в том, что серии из 20 1 где то в истории найдется серия из 20 0 с похожим прошлым. Рандом рынка тут. А не в том чтобы из 111111111 сделать 010101010.
UPD. Поэтому думаю, что Монте-Карло в виде 01010101 для рыночных данных не подойдет (если они идут сериями). Это как прямоугольник и квадрат поделить на равные квадратики и потом попытаться определить, к какой первичной фигуре квадратик принадлежал))
К сожалению при обработке данных я ошибся (переделывал под эти тесты скрипт по быстрому и один нюанс не учёл), таблица такая в итоге
Вывод такой - данные случайным образом могут попасть в диапазоны квантовых таблиц и пройти имеющуюся проверку на устойчивость. Настройки/критерии использовались по умолчанию - сейчас попробую их ужесточить и посмотреть на результат.
Однако, я уже ранее писал, что примерно только 30% квантовых отрезков показывают свою эффективность на двух других выборках, поэтому результат в целом можно было ожидать. Как раз его странность заставила всё перепроверить. Как улучшить результат отбора - в этом то и задача.
Впрочем, цель квантования - выделение группы, со смещением вероятности. Не исключено, что внутри неё через сплит можно найти устойчивый лист, не смотря на то, что сама группа будет смещаться к другой целевой на новых данных.
В выборке, на которой я провёл эксперимент - в день в среднем 1 сигнал, думаю, будет, поэтому бары на удалённом расстоянии друг от друга.
Думаю, более интересным будет посмотреть на результаты эксперимента, который я предложил выше - он должен показать, как часто попадают в отобранные квантовые отрезки случайно сгенерированные отклики целевой. Как раз это и будут фиксированные расставленные уже "сундуки", как предлагал Aleksey Nikolayev в своей абстракции.
Можете прислать свою выборку, я отберу квантовые отрезки, и уже на этих данных можно экспериментировать с созданием модифицированного леса, ну или могу дать свою выборку.
Я считаю, что надо делать конференцию машинлернеров. Обязательно с фуршетом и где-нибудь в ОАЭ. И там уже в формальной, а потом неформальной обстановке, все обсуждать. Иначе через форум это делать неудобно.
Фуршет - звучит не плохо, а вот потребность в насилии - ну не замечал за собой. Меня огорчает, что меня не понимают, но это не вызывает само по себе такой сильной агрессии.