Лучшие по логлоссу в лидерборде показали самый худший результат на новых данных - Общее обсуждение

Dr. Trader 2017.06.06 04:03 #3851

Хорошо, значит эти 0.8% честно получены. Видимо там в модели есть встроенный алгоритм защиты от переобучения.

Maxim Dmitrievsky:

Ну во первых тут сет очень большой, во вторых вообще не известна природа фичей ну и линейные модели типа векторов и фореста тут явно не подходят, нужно делать сложную неросеть, может быть в этом причина.

Классификационные модели на самом деле не подходят, да. Нужна регрессия. Потому что результат оценивается не точностью модели, а через функцию Logloss, которая результатам регрессии обычно даёт более высокую оценку

MultiLogLoss <- function(act, pred) {
  eps <- 1e-15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log(pred) + (1 - act) * log(1 - pred)) * -1 / length(act)
}

act (actual) - ожидаемый результат, вектор
pred (predicted) - предсказанный результат, вектор

Чем оценка этой функцией меньше, тем лучше. Если результат функции больше или равен 0.6931472 то модель плохая, такой результат означает случайное угадывание.

Ну и судя по результатам 54 тура, победитель конкурса получил 0.690467 при оценке на новых, скрытых для участников данных, к такому результату нужно стремиться.

Разговор с искусственным интеллектом Машинное обучение и нейронные Что подать на вход

Maxim Dmitrievsky 2017.06.06 04:39 #3852

Dr. Trader:

Хорошо, значит эти 0.8% честно получены. Видимо там в модели есть встроенный алгоритм защиты от переобучения.

Классификационные модели на самом деле не подходят, да. Нужна регрессия. Потому что результат оценивается не точностью модели, а через функцию Logloss, которая результатам регрессии обычно даёт более высокую оценку

act (actual) - ожидаемый результат, вектор
pred (predicted) - предсказанный результат, вектор

Чем оценка этой функцией меньше, тем лучше. Если результат функции больше или равен 0.6931472 то модель плохая, такой результат означает случайное угадывание.

Ну и судя по результатам 54 тура, победитель конкурса получил 0.690467 при оценке на новых, скрытых для участников данных, к такому результату нужно стремиться.

Регрессионная НС выдает вот это на обучающей выборке, она же тестовая, не уверен как правильно интерпретировать, но по моему все тоже плохо ) Т.е. стандартная простая нейросеть не дает преимуществ при регрессии над классификацией, и также не дает преимуществ перед другими методами классификации. И тут же нормированные входы и выходы, регрессию по моему бессмыслено применять в этом случае..

Прогнозирование курса валюты при что меняется на рынке Предсказание рынка на основе

СанСаныч Фоменко 2017.06.06 06:45 #3853

Подбор литературы по конкурирующему направлению

5087 documents matched the search for GARCH, GJR-GARCH, EGARCH, in titles and keywords.

По идее в GARCH-моделях все по уму, все прозрачно моделируется:

1. Исходный ряд как безнадежный преобразуется в приращения как log(Xi/ Xi-1)

2. Моделируется средняя моделью ARIMA

3. Моделируется нюансы в дисперсии в смысле скоса и куртосиза (толстые хвосты) и др.

4. Моделируется само распределение. Обычно берут либо t-распределение со скосом, либо GED-распределение со скосом.

При рассмотрении торговли на биржах вводятся модели с переключением режимов, то ли учитывают изменение параметров модели, то ли спред.

В статьях частенько встречается готовый код на R.

торговая стратегия на базе Bayesian regression - Делал Теория случайных потоков и

Maxim Dmitrievsky 2017.06.06 08:33 #3854

СанСаныч Фоменко:

Подбор литературы по конкурирующему направлению

5087 documents matched the search for GARCH, GJR-GARCH, EGARCH, in titles and keywords.

По идее в GARCH-моделях все по уму, все прозрачно моделируется:

1. Исходный ряд как безнадежный преобразуется в приращения как log(Xi/ Xi-1)

2. Моделируется средняя моделью ARIMA

3. Моделируется нюансы в дисперсии в смысле скоса и куртосиза (толстые хвосты) и др.

4. Моделируется само распределение. Обычно берут либо t-распределение со скосом, либо GED-распределение со скосом.

При рассмотрении торговли на биржах вводятся модели с переключением режимов, то ли учитывают изменение параметров модели, то ли спред.

В статьях частенько встречается готовый код на R.

А как быть с тем, что приращения никак не обозначают тенденции? У меня в модели тоже используются приращения для краткосрочной точности, но я так же смотрю соотношения тенденций хитрым образом

А, ну можно смотреть приращения на разный временных выборках. А не пробовали нс обучать return-сам с разных ТФ?

Среднесуточный путь в пунктах От теории к практике Статистика, как способ заглянуть

СанСаныч Фоменко 2017.06.07 07:07 #3855

Maxim Dmitrievsky:

А как быть с тем, что приращения никак не обозначают тенденции?

Да, никак.

Либо модель предсказывает приращение, либо направление - для этого классификационные модели.

Мне не известны классификационные модели, которые бы распознавали движуху на новостях. А для GARCH это смысл модели - отработать возникшее движение. Толстые хвосты - ведь это и есть движение на новостях, когда ломаются тренды, происходят резкие развороты.

А, ну можно смотреть приращения на разный временных выборках.

Есть любопытные GARCH-модели, работающие на нескольких ТФ. Смысл такой.

Предположим предсказываем приращение на Н1. Для модели необходимы входные данные, характеризующие распределение. В качестве таких входных данных (обычно волантильность) берем не предыдущий час, а минуты внутри текущего часа.

Распределение ценовых приращений Предсказание рынка на основе От теории к практике

pantural 2017.06.08 15:35 #3856

Dr. Trader:

У numerai правила изменялись пару раз в этом году.

Раньше было просто и хорошо - обучить модель на train таблице, проверить ошибку на test таблице, послать им прогнозы, они их экстраполируют на свою скрытую проверочную таблицу, считают на нём ошибку. У кого ошибка меньше на скрытой таблице, тот и победил. Было очень хорошо и правильно что ошибка на test датасете реально совпадала с той что получается на их скрытом датасете, можно было проверять свою модель.

Потом они что-то поменяли, и ошибка на test таблице перестала коррелировать с ошибкой на их скрытой проверочной таблице. Все лидеры из топа пропали; побеждать стали просто рандомные люди, кому подфортило попасть своей моделью в их скрытую проверочную таблицу. Имхо фэйл со стороны numerai, какая-то рандомная муть а не конкурс.

Потом они увидели что все адекваты свалили подальше от их рандомного конкурса, поняли свою ошибку, и опять что-то поменяли. Теперь прогнозы оцениваются по нескольким критериям. Больше всего меня бесит критерий "уникальность", если кто-то раньше посылал похожие результаты то твои отвергнут как плагиат. Т.е. если несколько людей пользуются одним фрейворком для создания модели, то деньги заберёт тот кто пораньше проснулся и отправил прогноз.
Точность модели теперь вообще бесполезна при расчёте прибыли. Можно получить ошибку 0, быть в 1 месте в топе, и ничего не заработать потому что топ показывает результат на тестовых данных которые они сами дают скачать, топ больше не показывает результат их скрытой проверочной таблицы.
Текущая итерация их конкурса - имхо ерунда, никакой прозрачности, всё запутано. Жду когда они опять что-нибудь поменяют в конкурсе, надеюсь будет снова адекватно.

Сколько Вы реальных денег заработали с этого сайта до того как они поменяли правила?

Dr. Trader 2017.06.08 17:19 #3857

Maxim Dmitrievsky 2017.06.08 17:51 #3858

Dr. Trader:

Больше похоже на какой-то ребейт сервис )) А не оплату работы data scientist'a

Dr. Trader 2017.06.08 19:19 #3859

Каждую неделю победителям в топ-100 выплачивают в сумме 3600$, но призы очень резко убывают по объёму. Первое место 1000$, потом 435$, потом 257$, итд. Даже если попадёшь в десятое место (участников обычно более 500), то получишь жалкие 63$. Издеваются.

Я в этом конкурсе вижу скорее способ сравнить свою модель с лидерами и поизучать разные подходы датамайнинга, чем способ заработка.

************Форум EA Contest .... Обсуждение Предложение организаторам Чемпионата

Dr. Trader 2017.06.08 19:36 #3860

Хотел узнать как связана оценка из лидерборды (val logloss, по вертикали), с оценкой которую модель получила на новых данных (live logloss, по горизонтали). (55 тур)

Молодцы только те кто в нижнем левом прямоугольнике. Остальные хоть и попали в лидерборду, но слились на новых данных. Лучшие по логлоссу в лидерборде (две самые нижние точки справа) вообще показали самый худший результат на новых данных.

Победил тот у кого точка левее всех на графике, и это похоже на случайный выброс а не на целенаправленное машинное обучение.

Интересно что при логлоссе 0.690 - 0.691 на валидационных данных почти все показали хороший результат и на новых данных, даже не представляю с чем это связано.

Любые вопросы новичков по Обсуждение статьи "Глубокие нейросети Обсуждение статьи "Метамодели в

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 386