Поигрался с тюнингом без апроксимации, но никак не соберусь с силами и архитектурой кода - Общее обсуждение

mytarmailS 2022.11.07 07:20 #28181

Roman #:

Для интереса потрогал )
Использовал Random forest.

Не используемые переменные:
X_OI
X_PER
X_TICKER

Как и просил, трейн и тест пополам

Ну абсолютные цены OHLC тоже наверное надо выкинуть ) как я и писал

Roman #:

MSE на трейне для 500 выращенных деревьев

MSE на тесте для 500 выращенных деревьев

Полученная метрика на трейне(OOB) и на тесте.
Тут я не знаю, как привести твое accuracy 0,77 Random forest к этой метрике.
Наверно надо MSE вычесть из единицы,

Так ты же регресию делаешь, а надо классификацию! там вообще все не то у тебя

Roman 2022.11.07 14:53 #28182

mytarmailS #:

Ну абсолютные цены OHLC тоже наверное надо выкинуть ) как я и писал

Так ты же регресию делаешь, а надо классификацию! там вообще все не то у тебя

Вот классификация, без OHLC.

Accuracy получился 0.79

ROC тест

Матрица путаницы

Влияющие переменные

Roman 2022.11.07 15:15 #28183

Gradient Boosting

на трейне аccuracy повышается до 0,85
но на тесте падает до 0,75

Как вариант для поднятия аccuracy, можно попробовать аппроксимировать влияние значимых переменных, для каждого класса -1, 0, 1
Для использования этих сплайнов в качестве новых переменных.

Например для класса 1, влияние RSI было таким

Аппроксимировали, получили новый сплайн.

И так далее, для каждой переменной и каждого класса.
В итоге, наберётся новый набор сплайнов, который подаём на вход вместо исходных переменных.

MT4 iMAOnArray и iBandsOnArray Пересчёт баров в истории Как правильно в MQL4

mytarmailS 2022.11.07 17:54 #28184

Roman #:

Gradient Boosting

на трейне аccuracy повышается до 0,85
но на тесте падает до 0,75

Как вариант для поднятия аccuracy, можно попробовать аппроксимировать влияние значимых переменных, для каждого класса -1, 0, 1
Для использования этих сплайнов в качестве новых переменных.

Например для класса 1, влияние RSI было таким

Аппроксимировали, получили новый сплайн.

И так далее, для каждой переменной и каждого класса.
В итоге, наберётся новый набор сплайнов, который подаём на вход вместо исходных переменных.

Ну че, похвально!!

Ну я на тесте получал 0.83 на xgboost, но уже с других переменных, брал ohlc и дончиан канал и строил все возможные отношение между переременными, каждый с каждым.. Получалось больше 10к признаков...

Но важных признаков там получалось около 300 переменных

Интересная идея с апроксимацией, хоть мне и не понятная, пробуй.. Интересно...

Если выжать 0.9 думаю будет круто

=======

Хочу создать автоматический конструктор признаков, но никак не соберусь с силами и архитектурой кода...

По сути должна быть бомба, но это в теории

=======

А в чем ты модельки тренируешь?

приключения новичка Обсуждение конфликтов между программистами ООП vs процедурное программирование

Roman 2022.11.07 19:42 #28185

mytarmailS #:

Ну че, похвально!!

Ну я на тесте получал 0.83 на xgboost, но уже с других переменных, брал ohlc и дончиан канал и строил все возможные отношение между переременными, каждый с каждым.. Получалось больше 10к признаков...

Но важных признаков там получалось около 300 переменных

Интересная идея с апроксимацией, хоть мне и не понятная, пробуй.. Интересно...

Если выжать 0.9 думаю будет круто

=======

Хочу создать автоматический конструктор признаков, но никак не соберусь с силами и архитектурой кода...

По сути должна быть бомба, но это в теории

=======

А в чем ты модельки тренируешь?

В данных примерах все возможные отношения между переменными, автоматом были установлены.
Хотя можно их отключить, или задать конкретные переменные для связи.

Поигрался с тюнингом без апроксимации, увеличил количество узлов на дерево до количества переменных.
Моделька усложнилась, обучалась 12 минут.
на трейне аccuracy поднялось до 0,97
но тест всё портит на 0,74

В общем наверно есть над чем поработать и подумать. Может что и выжмется.
В проге много разных настроек, просто не до конца их понимаю как с ними работать.
Сам только изучаю функционал со вчерашнего дня ))
А твой дата сет как раз кстати подвернулся, для изучения функционала, ну может что и выжмется из твоих данных.

Не совсем понял,что ты представляешь под автоматическим конструктором признаков?
Авто поиск самих признаков, или авто поиск отношений между имеющимися признаками?

Советники: Stop loss Take Критерий автоматического отбора результатов Советник + ZigZag с

mytarmailS 2022.11.07 19:56 #28186

Roman #:

В данных примерах все возможные отношения между переменными, автоматом были установлены.
Хотя можно их отключить, или задать конкретные переменные для связи.

Не, я о совсем другом ..

Я имел в виду что обучал xgboost на других признаках чтобы получить акураси 0,83 на новых данных.

Конструировались признаки из OHLC и еще индикатор

по принципу

O[i] - H[i-1]

L[i-5]-indic[i-10]

........

....

..

и так все возможные комбинации (все со всеми)

получилось около 10к признаков

из них 300 полезных..

модель дала 0,83 на новых данных

===========

Roman #:

Не совсем понял,что ты представляешь под автоматическим конструктором признаков?

А вот описаное выше я хочу автоматизировать чтобы комп сам констуировал признаки, и тогда уже там будет не 10к признаков на выбор а миллиард например..

Roman #:

Авто поиск самих признаков, или авто поиск зависимостей между имеющимися признаками?

автоматическое создание/конструирование признаков ---> опробование на пригодность ---> селекция лучших ---> возможно мутация лучшых в поисках еще лучшых ...

И все на автомате.

По мотивам МГУА , если читал.. но только по мотивам..

Обсуждение статьи "Метамодели в Задача: реализация ежедневной аналитики Идея Хейкен Аши

Aleksey Vyazmikin 2022.11.07 21:21 #28187

Roman #:

В проге много разных настроек, просто не до конца их понимаю как с ними работать.

Сам только изучаю функционал со вчерашнего дня ))
А твой дата сет как раз кстати подвернулся, для изучения функционала, ну может что и выжмется из твоих данных.

Что это за программа?

Maxim Dmitrievsky 2022.11.07 21:43 #28188

Там по ходу выводы по целевым и признакам такие же как по HMM. Не понятно из какого места вытащены 😀

mytarmailS 2022.11.08 10:31 #28189

НЕптушникам которые считают близость и вероятность одним и тем же не понять...

Maxim Dmitrievsky 2022.11.08 10:52 #28190

В ПТУ не учат, что математически любая матрица это одно и то же 😀😀😀 и операции над ними одни и те же. Отличаются только алгоритмы определения кластеров и названия.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2819