Попробуйте найти связи между статистикой тестера стратегий и временем живучести ТС. Используйте корень индекса Джини, который сильнее всего делает - Общее обсуждение

Maxim Dmitrievsky 2020.10.24 18:59 #20361

dr.mr.mom:

С чего вдруг такой глобальный пессимизм? ))) "Зырил" как они обучаются я ещё до всех современных пакетов в NeuroShell Day Pro. И уже тогда получал робастый результат который неизвестно как работает внутри и сложно, практически нереально тогда было прикрутить к МТ4.

GPU согласен желательно прикрутить.

НС работают на форекс) Вопрос в какие это НС и в какой парадигме собраны/обучены, мои эволюционируют.

Да, первый робастый вариант может обучаться пусть даже сутки(хотя на практике на домашнем ноуте древнем за 8 часов). Но вернуться к необходимости дальнейшей эволюции первого варианта за счет его робастности придется через месяц. Т.е. даже при десяти рабочих в реале инструментов заранее будет новый вариант.

Теперь по поводу архитектуры, за основу принят алгоритм NEAT, дополнен своими примочками. На выходе эволюционирует в том числе и архитектура.

Как-то так.

И при этом рекомендую к прочтению книги/лекции по микробиологи и т.п.

А в спорах к сожалению один дурак(спорит без знаний), другой сволочь(спорит со знаниями), предпочитаю обмен мнениями с аргументацией/обоснованием.

Ведь главное чтобы толк был, хрен с ними с шашечками - поехали)))

спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода

самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей

эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв

Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу?

Обсуждение статьи "Оптимальный подход Рынок -- управляемая динамическая Палата #6

Forester 2020.10.24 19:21 #20362

Aleksey Vyazmikin:

В общем порезал выборку на 3 части 60% - обучение и по 20 контроль обучения и выборка не участвовавшая в обучении.

Памяти жрет много - 18 гигабайт - удивлен. У Вас сколько памяти?

Процесс обучения запустил с настройками почти по умолчанию, но вижу, что на учебной выборке быстро идет улучшение результата, а на контрольной улучшений нет после первого дерева.

Поэтому вопрос - Вы уверены, что закономерность там есть?

Есть предположение, что классы совсем плохо сбалансированы, кажется процент единиц в районе 10%?

Древовидным системам балансировка по классам при большой выборке не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Igor Makanu 2020.10.24 19:21 #20363

Aleksey Nikolayev:

Ну да, только осознавая невозможность чёткой и однозначной формализации того что эти слова означают) и понимая, что по этой причине результаты анализа одной и той же информации могут весьма различаться у разных людей и что только будущее может показать кто был прав)

с анализом рыночной информации, в целом нет проблем... за исключением жадности исследователя, который считает, что рынок дает информацию только ему и нужно обрабатывать все данные, т.е. тут задача формализуется как ищем повторяющуюся закономерность, остальные данные должны быть отброшены (не используются)

с принятием решения все грустно - сгенерировать ТС которые пройдут тестирование и форвард можно, но вот найти связи между статистикой тестера стратегий и временем живучести ТС или возможности определения соответствия ТС контексту рынка - тут проблема

, т.е как Вы пишете проблема то в будущем

считаю, что в целом немного продвинулись в формализации задачи,

в принципе не сложно сделать выгрузку статистики тестирования и попробовать в Python обучить НС,

определение контекста рынка, имхо это как Вы писали - только решение трейдера, т.е. сомневаюсь, что можно формализовать или алгоритмизировать или исследовать

Разговор с искусственным интеллектом время в терминале на Вопросы от начинающих MQL5

Aleksey Vyazmikin 2020.10.24 19:31 #20364

elibrarius:
Древовидным системам балансировка по классам вроде не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.

CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.

Нужно ли делать расширенный [АРХИВ]Любой вопрос новичка, чтоб Любые вопросы новичков по

Forester 2020.10.24 19:38 #20365

Aleksey Vyazmikin:

CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.

Или как всегда в данных почти нет закономерностей.

Aleksey Vyazmikin:

Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.

Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.

Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).

Новый бар в мултивалютном Любое прогнозирование обречено? Есть ли закономерность в

Forester 2020.10.24 19:41 #20366

Aleksey Vyazmikin:

Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазан, а вот если до 100 довести разделение, то думаю уже будет четче.

Алглибовский лес до 1 примера в листе доводит, разделение 100%-ное. В листьях только 0 или 1 останется.

Что подать на вход Собираю команду для развития 10 пунктов 3.mq4

Aleksey Vyazmikin 2020.10.24 19:47 #20367

elibrarius:
Aleksey Vyazmikin:

Или как всегда в данных почти нет закономерностей.

Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.

Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).

Так у него предикторов мало - маленькая размерность получается, поэтому вариантов для комбинаций деревьев так же мало.

Я брал 1% выборки - там на тесте 100% обучение - просто думаю, что нет выраженной закономерности.

И, CatBoost несколько рандомно берет предикторы для построения - так уменьшается подгонка, по их пониманию.

elibrarius:

Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазал, а вот если до 100 довести разделение, то думаю уже будет четче.

Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.

Сетку сделал 256.

Есть ли закономерность в Группировка листьев - требуются Алгоритм объединения диапазонов отрезка

Forester 2020.10.24 19:52 #20368

Aleksey Vyazmikin:

Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.

Сетку сделал 256.

Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.

Попробуйте глубину 15 (это вроде максимум, в листе останется 1/32768 часть строк)

вопрос по тестеру Группировка листьев - требуются Ещё раз про скобки

Mikhail Mishanin 2020.10.24 19:52 #20369

Maxim Dmitrievsky:

спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода

самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей

эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв

Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу

кроме улыбки ни чего не вызывает) а почему Вы не допускаете что у меня такая модель до которой тензорфлоу/торчу ещё пару лет, и при этом я утрою отрыв, почему не допускаете?)

из какой-то книги Эдгара Петерса, конечно не дословно - "Клерк/брокер пройдет мимо пятифунтовой купюры лежащей на какойто там улице, потому-что в его теори вероятностей её там быть не должно"...)

Успехов.

[ВНИМАНИЕ, ТЕМА ЗАКРЫТА!] Любой Обсуждение статьи "Как подписаться Спред между двумя фьючерсами

Aleksey Vyazmikin 2020.10.24 19:56 #20370

elibrarius:

Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.

Так CB строит ансамбли, т.е. резанье происходит и так, и мельчашение зависит от числа деревьев вообще они максимум рекомендуют глубину 10.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2037