Модели на длинных данных требуют тщательной оптимизации

Aleksei Kuznetsov 2018.01.25 21:10 #6121

Vladimir Perervenko:

Удивили. Что это за модель, что считается больше часа??

Максимум 1-2 минуты должно быть.

88-50-20-2 сеть, 86400 строк обучающих данных по 88 предикторов. + по 28800 на валидацонные данные и на тестовый участок (впрочем они быстро считаются).

Mihail Marchukajtes 2018.01.25 21:10 #6122

Vizard_:

Учитель, стесняюсь спросить. А скока моделька стоить то должна?
Ну чтоб точно не копейки приносила? Мож и формула(цена-качество) какая есть?)))

Ну явно не две копейки, Фокусник.....Ты то должен это понимать, не маленький небось.....

Поиск обобщающей модели в области многомерного прастранства данных дело не быстрое с точки зрения оптимизации, потому как увеличение требований и введение всё более строгих правил при построении модели с целью снижения эффекта переобучения влёчёт за собой рост времени на поиск такой модели. Тоесть данные нужно перетряхивать тщательно....

Почему один и тот же файл на AWS и у Решетого тернируется разное количество времени??? AWS 2-5 минут, Решетов 3 часа и его модель в два раза лучше моделей AWS/ Почему???

От теории к практике Обсуждение статьи "Секвента ДеМарка Automated Trading Championship 2008:

Mihail Marchukajtes 2018.01.25 21:21 #6123

elibrarius:

88-50-20-2 сеть, 86 400 строк обучающих данных по 88 предикторов. + по 28 800 на валидацонные данные и на тестовый участок (впрочем они быстро считаются)

С таким набором Решетов считал бы вечно :-)

Открою Вам секрет Форекса. Альфа в данных может быть только на очень коротком участке. Мне с моими данными пока не удаётся увеличить этот параметр более 50 строк. Тоесть у меня 100 столбцов и 50 строк. Это охватывает порядка двух недель рынка. Тоесть если я начинаю увеличивать интервал обучения, качество модели опускается ниже 75% и качество на ООС становится таким что работать по нему нельзя, на свой страх и риск. Поэтому не понимаю что вы хотите сделать с этими тысячами записями??? Построить модель по всему рынку с примлемым уровнем качества обучения у Вас не получится, чем больше участок обучения тем хуже модель. А если она показывает хорошый результат на таком участке, то это не имеет ничего общего с понятием обобщения..... Ну Вы понимаете о чём я......

АП знаете почему нельзя строить модели на длинном участке с хорошими показателями??? Потому что таких данных... входных.... которые смогли бы построить такую модель НЕСУЩЕСТВУЕТ в природе в принципе..... Нет таких данных иначе они бы давно уже использовались повсеместно. Я имею общедоступные данные....... а не инсайд или ещё какие нибудь.... Так что... не понимаю зачем столько строк????

Обсуждение статьи "Секвента ДеМарка Нейронная сеть - вход Есть ли закономерность в

[Удален] 2018.01.25 21:32 #6124

Mihail Marchukajtes:

С таким набором Решетов считал бы вечно :-)

Открою Вам секрет Форекса. Альфа в данных может быть только на очень коротком участке. Мне с моими данными пока не удаётся увеличить этот параметр более 50 строк. Тоесть у меня 100 столбцов и 50 строк.

нельзя строить такие модели, длина выборки должна быть минимум раз в 5 больше кол-ва фичей, а увас кол-во фичей больше выборки и проклятие рамерности

Вы не открываете секрет форекса а показываете невежество

Aleksei Kuznetsov 2018.01.25 22:05 #6125

Mihail Marchukajtes:
Поэтому не понимаю что вы хотите сделать с этими тысячами записями??? Построить модель по всему рынку с примлемым уровнем качества обучения у Вас не получится, чем больше участок обучения тем хуже модель. А если она показывает хорошый результат на таком участке, то это не имеет ничего общего с понятием обобщения..... Ну Вы понимаете о чём я......

Это М1, всего то 60 дней. Так что совсем не по всему рынку, а за последние 3 месяца.

При удвоении длительности модель уже не строилась.... Оптимизировать конечно надо длительность, но до этого еще не дошел. Тут бы с количеством слоев разобраться для начала.

Если хотя бы 10 моделей строить, то их расчет часов 8-10 будет идти(((

Есть 3 формулы по расчету, найти мин и мах, посчитать их, потом 2-3 между ними, и по 2-3 снаружи. И потом из всего этого выбирать лучшие модели, ну и если они уже посчитаны - в ансамбль их.

ПС Хм. Это с 2-мя скрытыми слоями, и еще столько же с 1-м слоем.

В общем сутки будет определять модель.

Подсчёт баров с учётом Баг MQL5 при работе Нуждаюсь в совете старших

[Удален] 2018.01.25 22:42 #6126

elibrarius:

В общем сутки будет определять модель.

видеокарту хорошую ннада для такого дата сатанизма, это уже не хухры-мухры :)

майнеры уродцы ценник задрали в 3 раза на все нормальные карточки

Aleksey Terentev 2018.01.26 05:33 #6127

elibrarius:

Это М1, всего то 60 дней. Так что совсем не по всему рынку, а за последние 3 месяца.

При удвоении длительности модель уже не строилась.... Оптимизировать конечно надо длительность, но до этого еще не дошел. Тут бы с количеством слоев разобраться для начала.

Если хотя бы 10 моделей строить, то их расчет часов 8-10 будет идти(((

Есть 3 формулы по расчету, найти мин и мах, посчитать их, потом 2-3 между ними, и по 2-3 снаружи. И потом из всего этого выбирать лучшие модели, ну и если они уже посчитаны - в ансамбль их.

ПС Хм. Это с 2-мя скрытыми слоями, и еще столько же с 1-м слоем.

В общем сутки будет определять модель.

По хорешему, Вам с такими данными стоит опробовать построить модель на принципе фрактального анализа. Когда несколько таймфреймов на вход идут. Тут Максим выкладывал хорошее видео по фрактальности мира.
А вообще могу в ЛС подсказать выделенный сервер на i7 3-4Ghz и ssd, всего за $7-8 в месяц. Считают нормально, и комп не будет занят столько.

Что за чудеса с Сакральные знания. Получение тиковых данных в

[Удален] 2018.01.26 07:16 #6128

А меня сейчас не покидает мысль, что на вход (и, возможно, выход) можно подавать распределения котировок на опр. глубину, или моменты распределений

получится некое сглаживание и вероятностная картина и, возможно, ограниченное кол-во определенных вариантов, что важно. Но пока не делал - для этого надо дисперсионный анализ подкачать.

Если брать во внимание фракталы, то мб. отношения распределений между разными тф. Но тему нужно серьезно прорабатывать, рисовать схемку

Обсуждение статьи "Применение метода Может ли в МТ4 Лайт-версия советника. Возможен бан?

Dr. Trader 2018.01.26 07:27 #6129

Mihail Marchukajtes:

Поиск обобщающей модели в области многомерного прастранства данных дело не быстрое с точки зрения оптимизации, потому как увеличение требований и введение всё более строгих правил при построении модели с целью снижения эффекта переобучения влёчёт за собой рост времени на поиск такой модели. Тоесть данные нужно перетряхивать тщательно....

Почему один и тот же файл на AWS и у Решетого тернируется разное количество времени??? AWS 2-5 минут, Решетов 3 часа и его модель в два раза лучше моделей AWS/ Почему???

Модель Решетова не эталон. Например поиск набора предикторов в ней происходит перебором различных вариантов - модель берёт случайный набор предикторов, обучается, и запоминает результат. Это повторяется в цикле огромное число раз, в итоге самый лучший результат используется как финальная модель. Этот процесс можно заметно ускорить если сначала сделать отбор предикторов специальным алгоримом, а потом обучить модель Решетова всего один раз на этом конкретном наборе. И вы получите качество модели Решетова при скорости сравнимой с AWS. "Стоимость" такой модели заметно упадёт, но качество останется на прежнем уровне.

Bayesian regression - Делал Результаты оптимизации отличаются от Используете ли вы CExpert

Aleksei Kuznetsov 2018.01.26 07:47 #6130

Aleksey Terentev:
По хорешему, Вам с такими данными стоит опробовать построить модель на принципе фрактального анализа. Когда несколько таймфреймов на вход идут. Тут Максим выкладывал хорошее видео по фрактальности мира.
А вообще могу в ЛС подсказать выделенный сервер на i7 3-4Ghz и ssd, всего за $7-8 в месяц. Считают нормально, и комп не будет занят столько.

Несколько ТФ и использую) Просто анализ каждую минуту. Сервер не нужен, спасибо!

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 613