Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 556

 
Aleksey Terentev:
Переобучение - Возникает при наличии больших весов (~10^18), следствие мультиколлинеарности, что приводит к неустойчивости модели A(x, w).


Переобучение лечится: ранним остановом обучения модели, ограничением роста весов (регуляризация L1(Lasso) и L2), ограничением связей в сети (Dropout), также возможно применение штрафных функций (ElacticNet, Lasso).

Причем регуляризация L1 ведет к отбору признаков, так как зануляет их весовые коэффициенты.

Избавление от "шумовых" признаков - это и есть отбор признаков. Для этого существуют свои методы. Это не всегда идет на пользу модели, поэтому иногда применяют регуляризацию L2 (помогает решать проблему мультиколлинеарности).


СанСаныч Фоменко, Ваше высказывание об отношении признаков и таргетов несколько самоуверенно. Поскольку, как Вы можете утверждать то, что еще не доказано; то для чего и строится модель МО. Построенная и работающая модель дает некоторую оценку того, что взаимосвязь имеется с "такой-то" точностью.

А пример со штанами и юбками, отображает скудность знаний исследователя об исследуемой области, ибо в такой модели Вы выкидываете ценные признаки о месте проживания, времени года, широтам и долготе региона проживания, и так далее.


Мой пример - вырожденный случай, чистота мысли, классификация без ошибок. Таких признаков в экономике не бывает, а вот в генетике, если не 100%, чуть меньше запросто.

А теперь о регуляризации.

Несомненно.

Но важна последовательность.

Сначала, всегда, отбор признаков на основе "отношения" к целевой. Если на фондовых рынках, то на основе экономических связей.

Это всегда сначала, а потом все остальное.


У меня имеется работающая ТС с  rf. Из нескольких сотен признаков с помощью "отношения" отобрал 27 предикторов. Затем из 27 отбираю стандартным алгоритмом на каждом баре (Н1), остается от 5 до 15, всегда разные получаются. Ограничиваю число деревьев, 100 это много,  50 - мало, ошибка при 50 не стабилизируется.

Это конкретный опыт. Ошибка классификации ZZ чуть менее 30%. Уменьшить не удается - нужны другие предикторы, а нет идей в предикторах.

 
СанСаныч Фоменко:

Раз у Вас сразу на вход столько параметров, тогда ясно о чем Вы.

В таком случае переобучение здесь несколько вторично, что мне скорее всего и бросилось в глаза. Это ближе к "облегчению" расчетов.

 
Aleksey Terentev:

Раз у Вас сразу на вход столько параметров, тогда ясно о чем Вы.

В таком случае переобучение здесь несколько вторично, что мне скорее всего и бросилось в глаза. Это ближе к "облегчению" расчетов.


Почему вторично?

А что первично?

Что может быть страшнее переобучения (сверх подгонки)?

 
СанСаныч Фоменко:

Почему вторично?

А что первично?

Что может быть страшнее переобучения (сверх подгонки)?

В поднятом вопросе о выборке параметров для классификации с некими корреляциями между таргет-данными, Вы упомянули переобучение. Я постарался поправить Вас и обобщил этот вопрос к задаче отбора признаков. Заодно привел соображения по переобучению, где вопрос об отборе возникает как следствие.
Поэтому и говорю, что в поднятом вопросе переобучение вторично.
Хотя Вы верно заметили, следовало сказать так: "Отбор параметров вторичен относительно переобучения, и стоит подробнее рассматривать вопрос именно с него".
 
Добавил индикатор сигналов, кому интересно. https://www.mql5.com/ru/blogs/post/712023
 
Почитать на досуге.
https://habrahabr.ru/post/345950/
Добро пожаловать в эру глубокой нейроэволюции
Добро пожаловать в эру глубокой нейроэволюции
  • habrahabr.ru
От имени команды Uber AI Labs, которая также включает Joel Lehman, Jay Chen, Edoardo Conti, Vashisht Madhavan, Felipe Petroski Such и Xingwen Zhang. В области обучения глубоких нейронных сетей (DNN) с большим количеством слоев и миллионами соединений, для тренировки, как правило, применяется стохастический градиентный спуск (SGD). Многие...
 

тут оказалось что и простая НС за границами обучающей выборки работает весьма так себе (выходит на константу гиперб. тангенс).. в случае с регрессией, т.е. не намного лучше чем RF

оч наглядная статья

https://habrahabr.ru/post/322438/


Нейронные сети в картинках: от одного нейрона до глубоких архитектур
Нейронные сети в картинках: от одного нейрона до глубоких архитектур
  • 2022.02.17
  • habrahabr.ru
Многие материалы по нейронным сетям сразу начинаются с демонстрации довольно сложных архитектур. При этом самые базовые вещи, касающиеся функций активаций, инициализации весов, выбора количества слоёв в сети и т.д. если и рассматриваются, то вскользь. Получается начинающему практику нейронных сетей приходится брать типовые конфигурации и...
 
Maxim Dmitrievsky:

тут оказалось что и простая НС за границами обучающей выборки работает весьма так себе (выходит на константу гиперб. тангенс).. в случае с регрессией, т.е. не намного лучше чем RF

оч наглядная статья

https://habrahabr.ru/post/322438/


ИМХО полезная, развивающая статья, без претензии на новизну, но с хорошим практическим смыслом.


Aleksey Terentev:
Почитать на досуге.
https://habrahabr.ru/post/345950/

ИМХО бесполезная статья, плохой перевод, или я плохой читатель, но для меня, это похоже на банальное нагромождение устаревших идей и, что печально, на еще одно подтверждение кризиса глубокого обуучения, как топовой технологии, об этом в последнее время заговорил даже фактический родоначальник этого направления - Джеффри Хинтон в своих статьях о капсульных нейросетях.

Хотя Uber такси - респект..))

 
Ivan Negreshniy:
ИМХО полезная, развивающая статья, без претензии на новизну, но с хорошим практическим смыслом.

Поэтому легко запутаться, допустим мы юзали линейную или ридж регрессию и все было ок, и тут решили перейти на МЛП для тех же задач.. а нифига :)

для млп надо как-то преобразовывать выходы а потом трансформровать их обратно. поэтому все предпочитают юзать классификацию, хотя для задач прогнозирования подходит именно регрессия :)

Я бы даже сказал что для трендов больше как раз подходит линейная или ридж регрессия, а для флэтов MLP

 

В ходе упражнений с гарч получил удивительный рисунок.

Вот котир EURCAD


 А вот автокорреляция абсолютных приращений


Поразительная регулярность!

1. Чтоб это означало?

2. Как эту регулярность можно использовать?


ПС.

Такой вид имеют не все валютные пары.

Вот USDJPY


Причина обращения: