Обсуждение статьи "Секвента ДеМарка (TD SEQUENTIAL) с использованием искусственного интеллекта" - страница 6

 
Mihail Marchukajtes:

Я построил модель в течении 50 записей, интересен был результат работы модели в течении последующих 50 или 100% обучающего интервала. Когда увеличиваешь количетсво записей для постройки модели, при том не увеличивая количество в ходов. Обобщающая способность будет снижатся. Тем самым можно снизить уровень обобщения до приемлемых 65%,регулирую длинной выборки, если говорим что на рынке этого достаточно чтобы заработать, то размер обучающей выборки будет значительно выше и работать такая модель будет значительно дольше, но гораздо хуже, чем модель при уровне обобщения 90%. Применив к таким моделям (65%) должный ММ и управление капиталом, можно не хило вырулить.

Я уже говорил, по 50 сэмплам нельзя обучиться, очень шумные данные за предыдущую минуту не содержится информации обо всех нюансах поведения рынка, научитесь обучаться по всему сету.

Я не знаю как Вы считаете “обобщение” но вычисление accuracy пока у Вас под вопросом. Алгоритмы выше, прочитать сможет его даже не программист. Считаем сколько раз модель угадала и делим на количество сэмплов.

 
toxic:

Рыба то есть, но не с такими данными, на низкочастотных данных цена учитывает всё, по чистым маркет-данным (цена объём, дельта и тп.) уже ничего не получить, цена приспосабливается к новостям и новой информации почти полностью, в течении нескольких минут,  а диффузия информации – основная рыночная неэффективность. Остальное если по простому, то только инсайд. Вы же не знаете когда и почему кукл будет очень много покупать\продавать создавая тренды и когда прекратит.

Представьте что Вы деретесь, Ваш успех в драке зависит от того как Вы предсказываете удары противника, по их началу, видя позу и начало движения Вы предпринимаете соответствующие маневры уклонения, а когда видите не эффективность защиты противника атакуете, всё точно также и в торговле(спекуляциях), Вы не можете например решить реагировать в двое медленней, Вы не станете от этого в двое менее эффективным, Вы полностью потеряете эффективность.

Сейчас вся спекуляции автоматизирована, всё что базируется на диффузии информации(статический, событийный арбитраж итп ) всё HFT, это обязательно ультра HFT как у некоторых ММ, это скорее “алго-скальпинг”(среднее время удержания позиции в районе минуты, а то и 10 мин), но речь не идёт о часах и днях, там точно нет информации в ценах, всё древность.

Но вообще, теоретически, можно предсказывать и часы и даже дни, но не только по маркет данным, нужно мониторить тысячи параметров человеческой деятельность по всему миру, особенно в отношении крупных компаний, нужна погода, количество транспорта везде, социальная активность людей в интернете, особенно вбросы тн. “публичных людей”, спутниковая сьёмка и тп. например слышал что тупо смотрят из космоса за заводами сколько там продукции, что привезли что увезли))) Это на границе с инсайдом, но не пойманный не вор))). И всё это нужно обрабатывать командой хороших аналитиков в признаковый вид, а также нужна команда крутых прогнозистов фундаментальщиков и сбор данных открытых прогнозов и их анализ. В общем чтобы всё это реализовать и отработать, до продакш качества, не хватит ресурсов даже среднему банку. А по только цене с объёмом дни не предсказать статистически достоверно будущую цену, это сказки для “ставь на красное и удваивайся”)))


Всё верно, согласен полностью, однако рынок парой формирует предпосылки, ну как пример возьмём сигнал "Секвенты" предположим сформировался сигнал к покупке и НС говорит что сигнал "Истина", однако через некоторое время происходит изменение ситуации на рынке и сигнал теряет свою атуальность и рынок начинает идти против него, в итоге это списывается на ошибку сети. Вернее это была не ошибка. В момент сигнала рынок действительно собирался наверх, а уж только потом передумал. Тогда да получаем ошибку и будь здоров. Задача сделать ошибок как можно меньше :-) Ну а в итоге как на счёт того чтобы пооптимизировать мои данные?
 
Mihail Marchukajtes:

Ну а в итоге как на счёт того чтобы пооптимизировать мои данные?

150 сэмплов... охохо...

Ну ок, вечерком погоняю

 
toxic:

Я уже говорил, по 50 сэмплам нельзя обучиться, очень шумные данные за предыдущую минуту не содержится информации обо всех нюансах поведения рынка, научитесь обучаться по всему сету.

Я не знаю как Вы считаете “обобщение” но вычисление accuracy пока у Вас под вопросом. Алгоритмы выше, прочитать сможет его даже не программист. Считаем сколько раз модель угадала и делим на количество сэмплов.


Кстати да, ещё в начале когда организовывал коды индикаторов и всё такео, подсчитывал на истории каких сигналов и сколько ведь у нас есть 4 параметра (и у меня всё сходилось). НО подсчитать сигналы можно в том случае когда количество нулей и единичек равно, ведь иначе при делении какие то строки копируются. То есть если не хватает двух единичек, то он их добавляет (Separator я имею ввиду). Сейчас попробую получить модель и продемонстрирую как она работает на обучающей выборке, но для этого нужно взять одинаковое количество данных с нулём и единичкой. Чуть позже, машина считает. Ну а по поводу файла обучения могу переделать в 11 столбцов и 750 строк. Такой файл будет удобней????
 
Mihail Marchukajtes:

Кстати да, ещё в начале когда организовывал коды индикаторов и всё такео, подсчитывал на истории каких сигналов и сколько ведь у нас есть 4 параметра (и у меня всё сходилось). НО подсчитать сигналы можно в том случае когда количество нулей и единичек равно, ведь иначе при делении какие то строки копируются. То есть если не хватает двух единичек, то он их добавляет (Separator я имею ввиду). Сейчас попробую получить модель и продемонстрирую как она работает на обучающей выборке, но для этого нужно взять одинаковое количество данных с нулём и единичкой. Чуть позже, машина считает. Ну а по поводу файла обучения могу переделать в 11 столбцов и 750 строк. Такой файл будет удобней????


11 столбцов и 750 строк конечно лучше, может на кросвалидации к чему то сойдется...

Вообще, выкладывайте разные сеты, с низкочастотной датой и своими фичами и таргетами, можно в личку если что не для публики, признаюсь я что глубоко не ковырял низкочастотку так как меня "искушенные" сразу убедили на предмет отсутствия в ней Информации, так что если переубедите, буду признателен,  это перевернёт моё понимание рынков, я к этому готов, хотя и считаю это маловероятным.

 

Да действительно, вот сразу и подготовил файл, это те же самые данные, только по другому собраны.

Ну есть ещё у меня одна теория, так сказать предположение, хочу его озвучить и услышать мнение не только от тебя, toxiс. (кстати как тебя зовут? а то как то не привычно по нику обращатся) Но и от визарда. Так то он старый в этом деле и помнится мы ещё общались по НШ.

Файлы:
 

Хочу тогда порассуждать ещё вот на какую тему. Дело в том что в процессе оптимизации мы получаем модель и проведя несколько оптимизаций мы получим набор скажем из 5 моделей (как пример) Вопрос как выбрать ту, которая будет лучше всего работать в будущем. Сейчас выложу ссылку на лекцию посмотрите её пожалуйста с 33 минуте, где он говорит про степень полинома и эффект переобучения полинома. График минимизации ошибки. Вот и поговорим именно об этом.

Тоесть задача оптимизатора построить такую модель чтобы степень приближения была максимальной при минимальной размерности полинома, как то так, если я правильно его понял. Тоесть задача построить такой полином который бы максимально прилизился к выходу, но при этом не имел большого количества степеней. А теперь давайте представим что Наш оптимизатор умеет строить такой полином и в случае неоднократной оптимизации данных, мы постоянно поподаем в некую область которая находится на границе между сближением и переобучением. Представим что это небольшой участок, однако сколько раз бы мы туда не попадали мы всё время будем получать модели входящие в область достаточности и не переобученности (схематично нарисовал как мог) НО эти модели будут разные по результатм работы в будущем. Так вот исскуствоя вялется именно выбор той самой модели, которая по мнению эксперта и будет работать. Так вот может быть существуют методы отбора моделей на предмет работоспособности в будущем?????

На рисунке отмечена область где обучение полное и достаточное, главное не переобученное.


001. Вводная лекция - К.В. Воронцов
001. Вводная лекция - К.В. Воронцов
  • 2014.12.22
  • www.youtube.com
Курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД. Лектор: Константин Вячеславович Во...
 
Что удивительно такое количество прсомотров, а поддержать разговор некому. АУУУУ Люди.... Вы где? неужели только toxic и Wizard в теме... не верится....
 
Mihail Marchukajtes:

Да действительно, вот сразу и подготовил файл, это те же самые данные, только по другому собраны.

Ну есть ещё у меня одна теория, так сказать предположение, хочу его озвучить и услышать мнение не только от тебя, toxiс. (кстати как тебя зовут? а то как то не привычно по нику обращатся) Но и от визарда. Так то он старый в этом деле и помнится мы ещё общались по НШ.

Ну в общем на удивление первый датасет - содержит чуток альфы, где то 3-4% сверху над рандомными 50%-ю, если не сильно заморачиваться, то есть теоретически, при большем количестве сэмплов может быть до 5-6% можно будет выжать, что как для часов и дней в принципе ОЧЕНЬ НЕ ПЛОХО, учитывая понтовые транзакционные издержки. Хм... интересно, интересно... Не плохо было бы если кто то ещё проверил, сколько там информации.

Это всё конечно если таргет правильный, если в таргете не присутствует прошлый ретурн или цена. В таргете должен быть только будущий ретурн, так например если у Вас индюки строятся например по цене pt-n,...,pt-1,pt, то таргет не должен "видеть" цену на которых признаки строятся, например таргетом может быть знак следующего ретурна ((pt+2-pt+1)/pt+1).Sign(), но если таргет будет ((pt+1-pt)/pt).Sign() то картина "смажется" получится нереальный перфоманс модели, фэйковый "грааль", это важно учесть.


Второй датасе(тот который длиннее) совсем плохой, как то странно Вы растянули его, по смещали одни признаки в другие))))

 
toxic:

Ну в общем на удивление первый датасет - содержит чуток альфы, где то 3-4% сверху над рандомными 50%-ю, если не сильно заморачиваться, то есть теоретически, при большем количестве сэмплов может быть до 5-6% можно будет выжать, что как для часов и дней в принципе ОЧЕНЬ НЕ ПЛОХО, учитывая понтовые транзакционные издержки. Хм... интересно, интересно... Не плохо было бы если кто то ещё проверил, сколько там информации.

Это всё конечно если таргет правильный, если в таргете не присутствует прошлый ретурн или цена. В таргете должен быть только будущий ретурн, так например если у Вас индюки строятся например по цене pt-n,...,pt-1,pt, то таргет не должен "видеть" цену на которых признаки строятся, например таргетом может быть знак следующего ретурна ((pt+2-pt+1)/pt+1).Sign(), но если таргет будет ((pt+1-pt)/pt).Sign() то картина "смажется" получится нереальный перфоманс модели, фэйковый "грааль", это важно учесть.


Второй датасе(тот который длиннее) совсем плохой, как то странно Вы растянули его, по смещали одни признаки в другие))))


Да  выход у меня заглядывает вперёд, по поводу чистоты сбора данных не волнуйтесь, я очень трепетно к этому отношусь.

Это были представленны данные 15 минуток.

Второй я просто столбцы превратил в строки, по 11 штук и замножыл выход, получается когда получили сигнал, мы подаём по 11 столбцов 5 раз для одного сигнала, тут можно даже комитет на этом уровне организовать. Такой вот финт выдумал. я для себя тоже сделал такой файл, как машина освободится попробую покрутить.

Причина обращения: