Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2037

 
dr.mr.mom:

С чего вдруг такой глобальный пессимизм? ))) "Зырил" как они обучаются я ещё до всех современных пакетов в NeuroShell Day Pro. И уже тогда получал робастый результат который неизвестно как работает внутри и сложно, практически нереально тогда было прикрутить к МТ4.

GPU согласен желательно прикрутить.

НС работают на форекс) Вопрос в какие это НС и в какой парадигме собраны/обучены, мои эволюционируют.

Да, первый робастый вариант может обучаться пусть даже сутки(хотя на практике на домашнем ноуте древнем за 8 часов). Но вернуться к необходимости дальнейшей эволюции первого варианта за счет его робастности придется через месяц. Т.е. даже при десяти рабочих в реале инструментов заранее будет новый вариант.

Теперь по поводу архитектуры, за основу принят алгоритм NEAT, дополнен своими примочками. На выходе эволюционирует в том числе и архитектура.

Как-то так.

И при этом рекомендую к прочтению книги/лекции по микробиологи и т.п.

А в спорах к сожалению один дурак(спорит без знаний), другой сволочь(спорит со знаниями), предпочитаю обмен мнениями с аргументацией/обоснованием.

Ведь главное чтобы толк был, хрен с ними с шашечками - поехали)))

спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода

самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей

эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв

Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу?

 
Aleksey Vyazmikin:

В общем порезал выборку на 3 части 60% - обучение и по 20 контроль обучения и выборка не участвовавшая в обучении.

Памяти жрет много - 18 гигабайт - удивлен. У Вас сколько памяти?

Процесс обучения запустил с настройками почти по умолчанию, но вижу, что на учебной выборке быстро идет улучшение результата, а на контрольной улучшений нет после первого дерева.

Поэтому вопрос - Вы уверены, что закономерность там есть?

Есть предположение, что классы совсем плохо сбалансированы, кажется процент единиц в районе 10%?

Древовидным системам балансировка по классам при большой выборке не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Aleksey Nikolayev:

Ну да, только осознавая невозможность чёткой и однозначной формализации того что эти слова означают) и понимая, что по этой причине результаты анализа одной и той же информации могут весьма различаться у разных людей и что только будущее может показать кто был прав)

с анализом рыночной информации, в целом нет проблем... за исключением жадности исследователя, который считает, что рынок дает информацию только ему и нужно обрабатывать все данные, т.е. тут задача формализуется как ищем повторяющуюся закономерность, остальные данные должны быть отброшены (не используются)

с принятием решения все грустно - сгенерировать ТС которые пройдут тестирование и форвард можно, но вот найти связи между статистикой тестера стратегий и временем живучести ТС или возможности определения соответствия ТС контексту рынка - тут проблема

, т.е как Вы пишете проблема то в будущем


считаю, что в целом немного продвинулись в формализации задачи,

в принципе не сложно сделать выгрузку статистики тестирования и попробовать в Python обучить НС,

определение  контекста рынка, имхо это как Вы писали - только решение трейдера, т.е. сомневаюсь, что можно формализовать или алгоритмизировать или исследовать

 
elibrarius:
Древовидным системам балансировка по классам вроде не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.

CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям. 

 
Aleksey Vyazmikin:

CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям. 

Или как всегда в данных почти нет закономерностей.

Aleksey Vyazmikin:

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям. 

Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.

Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).

 
Aleksey Vyazmikin:

Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазан, а вот если до 100 довести разделение, то думаю уже будет четче.

Алглибовский лес до 1 примера  в листе доводит, разделение 100%-ное. В листьях только 0 или 1 останется.
 
elibrarius:
Aleksey Vyazmikin:

Или как всегда в данных почти нет закономерностей.

Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.

Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).

Так у него предикторов мало - маленькая размерность получается, поэтому вариантов для комбинаций деревьев так же мало.

Я брал 1% выборки - там на тесте 100% обучение - просто думаю, что нет выраженной закономерности.

И, CatBoost несколько рандомно берет предикторы для построения - так уменьшается подгонка, по их пониманию.

elibrarius:

Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазал, а вот если до 100 довести разделение, то думаю уже будет четче.

Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.

Сетку сделал 256.

 
Aleksey Vyazmikin:

Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.

Сетку сделал 256.

Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.

Попробуйте глубину 15 (это вроде максимум, в листе останется 1/32768 часть строк)

 
Maxim Dmitrievsky:

спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода

самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей

эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв

Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу

кроме улыбки ни чего не вызывает) а почему Вы не допускаете что у меня такая модель до которой тензорфлоу/торчу ещё пару лет, и при этом я утрою отрыв, почему не допускаете?)

из какой-то книги Эдгара Петерса, конечно не дословно - "Клерк/брокер пройдет мимо пятифунтовой купюры лежащей на какойто там улице, потому-что в его теори вероятностей её там быть не должно"...)

Успехов.



 
elibrarius:

Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.

Так CB строит ансамбли, т.е. резанье происходит и так, и мельчашение зависит от числа деревьев вообще они максимум рекомендуют глубину 10.

Причина обращения: