Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1780

 
Farkhat Guzairov:

Стратегия...  Т.е. после МО , еще нужна целая стратегия? Мне казалось, что задача МО в итоге дать вам на выходе совет торговать(long/short) или нет.

Ну, целевая не моя, и просто интересна мне, как возможность посмотреть на эффективность предикторов на другой целевой.

Farkhat Guzairov:

Согласен, для себя принял решение не ниже 95%.

Тут многое зависит от целевой, для моей основной целевой это был бы очень хороший результат, так как она работает по трендам.

 
mytarmailS:

скидывайте , посмотрим .... но смотреть точно не сегодня буду, уж простите, сейчас с головой в другой теме

Хорошо, скину, попозже.

 
Aleksey Vyazmikin:

Хорошо, скину, попозже.

да вы скидывайте, я просто сказал что сразу посмотреть не получиться

 
mytarmailS:

высокая точность это не 70%

Ну вы даете. 70%  это очень высокая точность входа. Если сделки без пересиживания убытков, то намного выше результат вряд ли достижимый. А 95% из области фантастики. Я сейчас ради интнреса посчитал  свои сделки при разгонах депозитов. Так вот в первой попытке совершено 42 сделки из них 6 убыточных. Во второй попытке совершено 67 их них 10 убыточных. Так вот даже при такой, на ваш взгляд скромной точности входа, счета увеличены в десятки раз. Да забыл сказать, что ситуации при  которых вы берете +1 пункт, а теряете -200 пунктов,я не рассматривал. Так конечно можно добиться точности входа 95%.

 
MrBobr1:

при  которых вы берете +1 пункт, а теряете -200 пунктов,я не рассматривал. Так конечно можно добиться точности входа 95%.

Для начала, брать 1 и отдавать 200 пунктов изначально для меня не приемлемо, по большому счету из-за того, что ни один брокер не позволить в таком режиме долго себя обувать, да и соотношение непрерывных выигрышей должно быть как у вас "67 их них 10", лично я таких результатов никогда не добивался. Ниже скрин на котором конечно же вы не увидите стопов и тейков, но уверяю они есть, по убыточной и профитной сделке можете рассчитать их соотношение. Все сделки совершены когда система прогнозировала точность более 95%.

Хотел бы сразу сказать, ваша МО может прогнозировать 100% вероятности входа в рынок, но что на самом деле будет и как это будет, думаю это уже не задача МО, а ИИ которая по мимо математической статистики будет учитывать  и факторы вербальной среды.



 
mytarmailS:

да вы скидывайте, я просто сказал что сразу посмотреть не получиться

Хорошо. В архиве два файла - выборка для обучения и выборка для проверки обученной модели, по обеим нужны предикторы.

Такая особенность, что каждая новая строка - новый бар - показания снимаются в момент открытия бара, сами показания за прошлый бар, поэтому если предиктор использует данные открытия с нулевого бара, то возьмите этот показатель со следующего бара.

Файлы:
CB_ZZ_M1.zip  2957 kb
 
Aleksey Vyazmikin:

Хорошо. В архиве два файла - выборка для обучения и выборка для проверки обученной модели, по обеим нужны предикторы.

Такая особенность, что каждая новая строка - новый бар - показания снимаются в момент открытия бара, сами показания за прошлый бар, поэтому если предиктор использует данные открытия с нулевого бара, то возьмите этот показатель со следующего бара.

Ну целевую тоже могли прикрепить свою, иначе как сравнить то??

И дату зачем удалили? 

 400 000 тыс. строк в трейне? вы серйезно? вы обучали модель на 400 000 тыс. строк ?



UPD=====

Извините, но мой старенький ноут просто шлет меня..  когда я только пытаюсь как то  манипулировать данными,  если сделать всего 100 признаков это получаеться матрица 100*400 000 и держа такую матрицу в озу надо еще и модель тренировать одновременно, ноут просто умирает только при попытке...


сделайте  датасет на  50 000  где то, и не надо совать туда минутку чтобы творить эти огромные датасеты, хватит и 5 минутки или даже часовика, так же не искажайте данные, кидайте их в таком формате как они должны быть  date time OHLCV , так же добавьте свою целевую, на которой вы тренировали свою модель чтобы можно было сравнить ошибки потом

 
mytarmailS:

Ну целевую тоже могли прикрепить свою, иначе как сравнить то??

И дату зачем удалили? 

 400 000 тыс. строк в трейне? вы серйезно? вы обучали модель на 400 000 тыс. строк ?

Дату не удалял - просто не сохранял, что б меньше места занимал файл - зачем она Вам?

Да, обучал на минутках за 2 года.


mytarmailS:


UPD=====

Извините, но мой старенький ноут просто шлет меня..  когда я только пытаюсь как то  манипулировать данными,  если сделать всего 100 признаков это получаеться матрица 100*400 000 и держа такую матрицу в озу надо еще и модель тренировать одновременно, ноут просто умирает только при попытке...

А нельзя сохранить последовательно в начале предикторы в файл, а потом просто загрузить их для обучения?

У меня выборка для обучения сейчас под гигабайт - CatBoost легко справляется, а вот генетическое дерево в R я бы сейчас не рискнул строить...

mytarmailS:

сделайте  датасет на  50 000  где то, и не надо совать туда минутку чтобы творить эти огромные датасеты, хватит и 5 минутки или даже часовика, так же не искажайте данные, кидайте их в таком формате как они должны быть  date time OHLCV , так же добавьте свою целевую, на которой вы тренировали свою модель чтобы можно было сравнить ошибки потом

50 000 - слишком мало наблюдений для сплошных таких наблюдений, это всего порядка 300 отрезков ZZ будет. У меня основные предикторы заточены на минутки, с верхних ТФ есть предикторы, но их может оказаться мало.

Вы используете объем, или просто так удобней с объемом?

Вам не нужны параметры ZZ для настройки предикторов?

Не понял про искажение данных - Вам нужно сместить данные, что бы на нулевом баре знать все данные бара? Если да, то нет ли у Вас подглядывания на нулевом баре?

 
Aleksey Vyazmikin:

Дату не удалял - просто не сохранял, что б меньше места занимал файл - зачем она Вам?

Ну время это косвенный признак волатильности, которая сезонна по времени, есть активные часы торговли есть пассивные  

Aleksey Vyazmikin:

А нельзя сохранить последовательно в начале предикторы в файл, а потом просто загрузить их для обучения?

Сохранить то можно, но потом чтобы обучить модель надо то в среде эту матрицу загрузить на этом все и закончиться )) вернее еще раньше, на этапе формирования самой матрицы с предикатами

Aleksey Vyazmikin:

У меня выборка для обучения сейчас под гигабайт - CatBoost легко справляется, а вот генетическое дерево в R я бы сейчас не рискнул строить...

Ого гиг это не мало, интересно сколько у вас признаков?

Что за генетическое дерево?


Aleksey Vyazmikin:

1)Вы используете объем, или просто так удобней с объемом?

2)Вам не нужны параметры ZZ для настройки предикторов?

3)Не понял про искажение данных - Вам нужно сместить данные, что бы на нулевом баре знать все данные бара? Если да, то нет ли у Вас подглядывания на нулевом баре?

1) просто )

2) как это? А как вы настраиваете предикторы под ЗЗ ?

3) Ну у вас свечи как то открытию пишуться или что типа, это уже искажение, ведь должны по клоузу, и тут сразу куча непоняток, признаки строить как, как целевую делать итп(не нужная гол. боль), если что то изменяете под себя то нужно оставлять всегда еще и оригинал для других )

 

Сейчас доделываю МОшку на кластеризации. Чисто на кластерах обучается плохо, буду добавлять приращения в фичи

еще пример


Причина обращения: