Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3189

 
Aleksey Nikolayev #:

Утомляет ваша готовность требовать от людей вникать в ваши умопостроения, что сопровождается полным вашим нежеланием вникать в простые и широко известные идеи вроде Монте Карло.

Пожалуй, с меня хватит.

Лучше и не скажешь...
Я уже давно понял что там фляга свистит.. 
Игнор лучшее решение, здоровее будете.. 
 
Maxim Dmitrievsky #:
Вы ищете последовательности, которые отличаются от последовательностей на сб. Не найдете.

А потому что никто не нашел. Достаточно посчитать энтропию по знакам приращений и не страдать фигней.

Про строгую последовательность я писал просто как пример для наглядности. И, я писал, что решение этой задача может улучшить устойчивость модели. А вот решение может быть разным.

Даже без решения выше обозначенной задачи - подбор правильной квантовой таблицы улучшает обучение, что было мной проверено на десятках выборок.

Потом я показал, как можно быстро делать предобработку для обучения, очищая выборку от противоречивых данных. На гифках видно, что таким методом можно даже получить прибыльную модель на новых данных.

В итоге, подход рабочий, его развитие - моя цель.

Поэтому, говорить, что это не так - отрицать реальность.

Я не считаю, что цена это в чистом виде СБ, разобрать природу которого нельзя хотя бы частично. Если это в чистом виде СБ, то вся ветка - ошибка.

 
Aleksey Nikolayev #:

Привяжите это хоть как-то к прибыли, хотя бы приблизительно и сравнивайте реальную прибыль с выборкой из рандомных прибылей. Проверкой что нет ошибок будет равенство средней прибыли по выборке нулю. Проверьте значимость положительности реальной прибыли относительно выборки - правило три сигмы.

Совсем не готов вникать в подробности вашей задачи, поскольку своими задачами голова забита.

При чём тут прибыль вообще, когда речь о предобработке данных для последующей классификации идёт?

Aleksey Nikolayev #:

Ваши кванты предназначены для извлечения прибыли? Для этого есть какая-то схема? Сделайте её предельное упрощение, чтобы посчитать хоть и приблизительно но быстро выборку и проверьте попадание реального результата в хвост этой выборки.

Утомляет ваша готовность требовать от людей вникать в ваши умопостроения, что сопровождается полным вашим нежеланием вникать в простые и широко известные идеи вроде Монте Карло.

Пожалуй, с меня хватит.

Каждый сам вправе распоряжаться своим временем.

Но, судя по всему, Вы не поняли вопроса по которому давали совет.

Спасибо за попытку помочь.

 
Aleksey Vyazmikin #:

Понимаю.

У меня к Вам другое предложение, что если сделать более управляемым процесс построения леса, и взять в качестве корня для каждого дерева конкретную подвыборку отобранного квантового отрезка?

Глубину сделать в районе 2-3 сплитов, что бы примеров классифицируемого класса листом было не менее 1%.

Думаю, модель будет более устойчивой.

Т.е. если выбрали 10 квантов/отрезков, то обучить 10 деревьев на примерах из этих отрезков? Вроде просто сделать.
Насчет устойчивости на ООС - покажет эксперимент. У меня устойчивость нарушается и при изменении размера окна данных (2 месяца и 4) и при смещении его даже на 2% (обучение не в субботу, а во вторник). Деревья получаются разные.

Aleksey Vyazmikin #:

Провёл эксперимент с выборкой, по которой публиковал гифки, тут уже единиц 47% в выборке, данные свёл в таблицу.

...
оказалось, что качество (полезность) у этих квантовых отрезков хуже (меньше) чем у оригинальных в 10 раз. 

Примерно такое ухудшение (в разы) я и предполагал, когда общался с fxsaber-ом, по поводу перемешивания его алгоритмом. У него на его данных нет такого сильного отличия. Видимо из за того, что у него не все подряд бары в разметке (или рябом стоящие), а с большими пропусками. Если у вас бары близки, то у них очень похожее прошлое и будущее, т.е. могут идти подряд 20 примеров 1 класса. Рандомизацией вы их делаете в среднем 0101010...., а надо бы всю серию из 20 "1" поменять на 20 "0". Т.к. они близки и их можно считать одним примером. Если у вас не так, то у меня так (все подряд бары оцениваю, потому эта идея и пришла).

В общем думаю, что при таком сильном отличии в 10 раз, можно не делать 10000 тестов. Слишком явное отличие первых 10 тестов (все хуже), чтобы предположить что еще 10000 поднимут результат к равенству с оригиналом. Вот если бы было 3 хуже, 3 лучше, 4 примерно равны, то да - продолжать накапливать статистику.

Если данные серийны, то проблема в том, что серии из 20 1 где то в истории найдется серия из 20 0 с похожим прошлым. Рандом рынка тут. А не в том чтобы из  111111111 сделать 010101010.

UPD. Поэтому думаю, что Монте-Карло в виде 01010101 для рыночных данных не подойдет (если они идут сериями). Это как прямоугольник и квадрат поделить на равные квадратики и потом попытаться определить, к какой первичной фигуре квадратик принадлежал))

 
Aleksey Vyazmikin #:

Про строгую последовательность я писал просто как пример для наглядности. И, я писал, что решение этой задача может улучшить устойчивость модели. А вот решение может быть разным.

Даже без решения выше обозначенной задачи - подбор правильной квантовой таблицы улучшает обучение, что было мной проверено на десятках выборок.

Потом я показал, как можно быстро делать предобработку для обучения, очищая выборку от противоречивых данных. На гифках видно, что таким методом можно даже получить прибыльную модель на новых данных.

В итоге, подход рабочий, его развитие - моя цель.

Поэтому, говорить, что это не так - отрицать реальность.

Я не считаю, что цена это в чистом виде СБ, разобрать природу которого нельзя хотя бы частично. Если это в чистом виде СБ, то вся ветка - ошибка.

Я считаю, что надо делать конференцию машинлернеров. Обязательно с фуршетом и где-нибудь в ОАЭ. И там уже в формальной, а потом неформальной обстановке, все обсуждать. Иначе через форум это делать неудобно.

Программа выглядела бы примерно так: день конференция, день все пьют, следующий все дерутся, таскают друг друга за грудки, потом опять конференция и так по кругу. На вылет :)

Спонсором и главным докладчиком будет Сабер, потом Алексей Николаев, потом все остальные :)
 
Aleksey Vyazmikin #:

При чём тут прибыль вообще, когда речь о предобработке данных для последующей классификации идёт?

К чему тогда были ваши многочисленные гифки с неуклонно крутеющими балансами? Может быть вы просто не поняли ответ на ваш вопрос?

 
Maxim Dmitrievsky #:
Я считаю, что надо делать конференцию машинлернеров. Обязательно с фуршетом и где-нибудь в ОАЭ. И там уже в формальной, а потом неформальной обстановке, все обсуждать. Иначе через форум это делать неудобно.

Программа выглядела бы примерно так: день конференция, день все пьют, следующий все дерутся, таскают друг друга за грудки, потом опять конференция и так по кругу. На вылет :)

Спонсором и главным докладчиком будет Сабер, потом Алексей Николаев, потом все остальные :)

Идея за деньги Сабера ознакомиться с его стратегиями кажется отличной и хорошо продуманной. Даже не знаю что может пойти не так 🤔

 
Aleksey Nikolayev #:

Идея за деньги Сабера ознакомиться с его стратегиями кажется отличной и хорошо продуманной. Даже не знаю что может пойти не так 🤔

😀😀 забыл добавить - главный спонсор, как самый успешный. Но вкинуться надо всем.
Думаю, что можно найти людей, которые бы спонсировали его выступление.

Суть конференции, наверное, не обсуждение конкретных стратегий, но общих подходов, философии, иснструментов и так далее.
 
Forester #:

Т.е. если выбрали 10 квантов/отрезков, то обучить 10 деревьев на примерах из этих отрезков? Вроде просто сделать.
Насчет устойчивости на ООС - покажет эксперимент. У меня устойчивость нарушается и при изменении размера окна данных (2 месяца и 4) и при смещении его даже на 2% (обучение не в субботу, а во вторник). Деревья получаются разные.

Да, всё так - подход можно конечно усложнить, но потом, если будет желание.

Сейчас, если я правильно помню, предиктор в дереве бьётся просто на половину диапазона, без поиска лучшего места разделения?

Что касается успеха затеи - тут абсолютно согласен, но и под лежащий камень вода не течёт.

Forester #:

Примерно такое ухудшение (в разы) я и предполагал, когда общался с fxsaber-ом, по поводу перемешивания его алгоритмом. У него на его данных нет такого сильного отличия. Видимо из за того, что у него не все подряд бары в разметке (или рябом стоящие), а с большими пропусками. Если у вас бары близки, то у них очень похожее прошлое и будущее, т.е. могут идти подряд 20 примеров 1 класса. Рандомизацией вы их делаете в среднем 0101010...., а надо бы всю серию из 20 "1" поменять на 20 "0". Т.к. они близки и их можно считать одним примером. Если у вас не так, то у меня так (все подряд бары оцениваю, потому эта идея и пришла).


В общем думаю, что при таком сильном отличии в 10 раз, можно не делать 10000 тестов. Слишком явное отличие первых 10 тестов (все хуже), чтобы предположить что еще 10000 поднимут результат к равенству с оригиналом. Вот если бы было 3 хуже, 3 лучше, 4 примерно равны, то да - продолжать накапливать статистику.

Если данные серийны, то проблема в том, что серии из 20 1 где то в истории найдется серия из 20 0 с похожим прошлым. Рандом рынка тут. А не в том чтобы из  111111111 сделать 010101010.

UPD. Поэтому думаю, что Монте-Карло в виде 01010101 для рыночных данных не подойдет (если они идут сериями). Это как прямоугольник и квадрат поделить на равные квадратики и потом попытаться определить, к какой первичной фигуре квадратик принадлежал))

К сожалению при обработке данных я ошибся (переделывал под эти тесты скрипт по быстрому и один нюанс не учёл), таблица такая в итоге

Вывод такой - данные случайным образом могут попасть в диапазоны квантовых таблиц и пройти имеющуюся проверку на устойчивость. Настройки/критерии использовались по умолчанию - сейчас попробую их ужесточить и посмотреть на результат.

Однако, я уже ранее писал, что примерно только 30% квантовых отрезков показывают свою эффективность на двух других выборках, поэтому результат в целом можно было ожидать. Как раз его странность заставила всё перепроверить. Как улучшить результат отбора - в этом то и задача.

Впрочем, цель квантования - выделение группы, со смещением вероятности. Не исключено, что внутри неё через сплит можно найти устойчивый лист, не смотря на то, что сама группа будет смещаться к другой целевой на новых данных.

В выборке, на которой я провёл эксперимент - в день в среднем 1 сигнал, думаю, будет, поэтому бары на удалённом расстоянии друг от друга.

Думаю, более интересным будет посмотреть на результаты эксперимента, который я предложил выше - он должен показать, как часто попадают в отобранные квантовые отрезки случайно сгенерированные отклики целевой. Как раз это и будут фиксированные расставленные уже "сундуки", как предлагал Aleksey Nikolayev в своей абстракции.

Можете прислать свою выборку, я отберу квантовые отрезки, и уже на этих данных можно экспериментировать с созданием модифицированного леса, ну или могу дать свою выборку.

 
Maxim Dmitrievsky #:
Я считаю, что надо делать конференцию машинлернеров. Обязательно с фуршетом и где-нибудь в ОАЭ. И там уже в формальной, а потом неформальной обстановке, все обсуждать. Иначе через форум это делать неудобно.

Программа выглядела бы примерно так: день конференция, день все пьют, следующий все дерутся, таскают друг друга за грудки, потом опять конференция и так по кругу. На вылет :)

Спонсором и главным докладчиком будет Сабер, потом Алексей Николаев, потом все остальные :)

Фуршет - звучит не плохо, а вот потребность в насилии - ну не замечал за собой. Меня огорчает, что меня не понимают, но это не вызывает само по себе такой сильной агрессии.

Причина обращения: