Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 386

 

Хорошо, значит эти 0.8% честно получены. Видимо там в модели есть встроенный алгоритм защиты от переобучения.


Maxim Dmitrievsky:

Ну во первых тут сет очень большой, во вторых вообще не известна природа фичей ну и линейные модели типа векторов и фореста тут явно не подходят, нужно делать сложную неросеть, может быть в этом причина.


Классификационные модели на самом деле не подходят, да. Нужна регрессия. Потому что результат оценивается не точностью модели, а через функцию Logloss, которая результатам регрессии обычно даёт более высокую оценку

MultiLogLoss <- function(act, pred) {
  eps <- 1e-15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log(pred) + (1 - act) * log(1 - pred)) * -1 / length(act)
}

act (actual) - ожидаемый результат, вектор
pred (predicted) - предсказанный результат, вектор

Чем оценка этой функцией меньше, тем лучше. Если результат функции больше или равен 0.6931472 то модель плохая, такой результат означает случайное угадывание.

Ну и судя по результатам 54 тура, победитель конкурса получил 0.690467 при оценке на новых, скрытых для участников данных, к такому результату нужно стремиться.

 
Dr. Trader:

Хорошо, значит эти 0.8% честно получены. Видимо там в модели есть встроенный алгоритм защиты от переобучения.



Классификационные модели на самом деле не подходят, да. Нужна регрессия. Потому что результат оценивается не точностью модели, а через функцию Logloss, которая результатам регрессии обычно даёт более высокую оценку

act (actual) - ожидаемый результат, вектор
pred (predicted) - предсказанный результат, вектор

Чем оценка этой функцией меньше, тем лучше. Если результат функции больше или равен 0.6931472 то модель плохая, такой результат означает случайное угадывание.

Ну и судя по результатам 54 тура, победитель конкурса получил 0.690467 при оценке на новых, скрытых для участников данных, к такому результату нужно стремиться.


Регрессионная НС выдает вот это на обучающей выборке, она же тестовая, не уверен как правильно интерпретировать, но по моему все тоже плохо ) Т.е. стандартная простая нейросеть не дает преимуществ при регрессии над классификацией, и также не дает преимуществ перед другими методами классификации. И тут же нормированные входы и выходы, регрессию по моему бессмыслено применять в этом случае..


 

Подбор литературы по конкурирующему направлению


5087 documents matched the search for GARCH, GJR-GARCH, EGARCH, in titles and keywords. 


По идее в GARCH-моделях все по уму, все прозрачно моделируется:

1. Исходный ряд как безнадежный преобразуется в приращения как log(Xi/ Xi-1)

2. Моделируется средняя моделью ARIMA

3. Моделируется нюансы в дисперсии в смысле скоса и куртосиза (толстые хвосты) и др.

4. Моделируется само распределение. Обычно берут либо t-распределение со скосом, либо GED-распределение со скосом.


При рассмотрении торговли на биржах вводятся модели с переключением режимов, то ли учитывают изменение параметров модели, то ли спред.


В статьях частенько встречается готовый код на R.

 
СанСаныч Фоменко:

Подбор литературы по конкурирующему направлению


5087 documents matched the search for GARCH, GJR-GARCH, EGARCH, in titles and keywords. 


По идее в GARCH-моделях все по уму, все прозрачно моделируется:

1. Исходный ряд как безнадежный преобразуется в приращения как log(Xi/ Xi-1)

2. Моделируется средняя моделью ARIMA

3. Моделируется нюансы в дисперсии в смысле скоса и куртосиза (толстые хвосты) и др.

4. Моделируется само распределение. Обычно берут либо t-распределение со скосом, либо GED-распределение со скосом.


При рассмотрении торговли на биржах вводятся модели с переключением режимов, то ли учитывают изменение параметров модели, то ли спред.


В статьях частенько встречается готовый код на R.


А как быть с тем, что приращения никак не обозначают тенденции? У меня в модели тоже используются приращения для краткосрочной точности, но я так же смотрю соотношения тенденций хитрым образом

А, ну можно смотреть приращения на разный временных выборках. А не пробовали нс обучать return-сам с разных ТФ?

 
Maxim Dmitrievsky:



А как быть с тем, что приращения никак не обозначают тенденции?

Да, никак.

Либо модель предсказывает приращение, либо направление - для этого классификационные модели.

Мне не известны классификационные модели, которые бы распознавали движуху на новостях. А для GARCH это смысл модели - отработать возникшее движение. Толстые хвосты - ведь это и есть движение на новостях, когда ломаются тренды, происходят резкие развороты. 


А, ну можно смотреть приращения на разный временных выборках.

Есть любопытные GARCH-модели, работающие на нескольких ТФ. Смысл такой.

Предположим предсказываем приращение на Н1. Для модели необходимы входные данные, характеризующие распределение. В качестве таких входных данных (обычно волантильность) берем не предыдущий час, а минуты внутри текущего часа.

 
Dr. Trader:

У numerai правила изменялись пару раз в этом году.

Раньше было просто и хорошо - обучить модель на train таблице, проверить ошибку на test таблице, послать им прогнозы, они их экстраполируют на свою скрытую проверочную таблицу, считают на нём ошибку. У кого ошибка меньше на скрытой таблице, тот и победил. Было очень хорошо и правильно что ошибка на test датасете реально совпадала с той что получается на их скрытом датасете, можно было проверять свою модель.

Потом они что-то поменяли, и ошибка на test таблице перестала коррелировать с ошибкой на их скрытой проверочной таблице. Все лидеры из топа пропали; побеждать стали просто рандомные люди, кому подфортило попасть своей моделью в их скрытую проверочную таблицу. Имхо фэйл со стороны numerai, какая-то рандомная муть а не конкурс.

Потом они увидели что все адекваты свалили подальше от их рандомного конкурса, поняли свою ошибку, и опять что-то поменяли. Теперь прогнозы оцениваются по нескольким критериям. Больше всего меня бесит критерий "уникальность", если кто-то раньше посылал похожие результаты то твои отвергнут как плагиат. Т.е. если несколько людей пользуются одним фрейворком для создания модели, то деньги заберёт тот кто пораньше проснулся и отправил прогноз.
Точность модели теперь вообще бесполезна при расчёте прибыли. Можно получить ошибку 0, быть в 1 месте в топе, и ничего не заработать потому что топ показывает результат на тестовых данных которые они сами дают скачать, топ больше не показывает результат их скрытой проверочной таблицы.
Текущая итерация их конкурса - имхо ерунда, никакой прозрачности, всё запутано. Жду когда они опять что-нибудь поменяют в конкурсе, надеюсь будет снова адекватно.

Сколько Вы реальных денег заработали с этого сайта до того как они поменяли правила?
 

 
Dr. Trader:

Больше похоже на какой-то ребейт сервис )) А не оплату работы data scientist'a

 

Каждую неделю победителям в топ-100 выплачивают в сумме 3600$, но призы очень резко убывают по объёму. Первое место 1000$, потом 435$, потом 257$, итд. Даже если попадёшь в десятое место (участников обычно более 500), то получишь жалкие 63$. Издеваются.

Я в этом конкурсе вижу скорее способ сравнить свою модель с лидерами и поизучать разные подходы датамайнинга, чем способ заработка.

 

Хотел узнать как связана оценка из лидерборды (val logloss, по вертикали), с оценкой которую модель получила на новых данных (live logloss, по горизонтали). (55 тур)

Молодцы только те кто в нижнем левом прямоугольнике. Остальные хоть и попали в лидерборду, но слились на новых данных. Лучшие по логлоссу в лидерборде (две самые нижние точки справа) вообще показали самый худший результат на новых данных.

Победил тот у кого точка левее всех на графике, и это похоже на случайный выброс а не на целенаправленное машинное обучение.

Интересно что при логлоссе 0.690 - 0.691 на валидационных данных почти все показали хороший результат и на новых данных, даже не представляю с чем это связано.

 


Причина обращения: