Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 391

 
Dr. Trader:

Это в RNN Решетова, вероятностная модель.

А есть ещё jPredictor которую Михаил использует. Нейронка Решетова, там и входов много, и обучение какое-то своё вместо градиентного спуска.


Попробовал решить задачу из первого поста на НС из Alglib. Сеть 20-5-1. Успешно. Но очень долго, у вас около 2 сек решение. У меня расчеты в среднем 10-20 мин., есть варианты за 2 минуты от 1 цикла, но видимо случайно натыкается, для надежности приходится 20 циклов обучения задавать... или 100000 итераций, как в варианте ниже

Alert: Средняя ошибка на обучающем     (60.0%) участке =0.000 (0.0%) nLearns=2 NGrad=68213 NHess=0 NCholesky=0 codResp=2
Alert: Средняя ошибка на валидационном (20.0%) участке =0.000 (0.0%) nLearns=2 NGrad=68213 NHess=0 NCholesky=0 codResp=2
Alert: Средняя ошибка на тестовом      (20.0%) участке =0.000 (0.0%) nLearns=2 NGrad=68213 NHess=0 NCholesky=0 codResp=2

Время расчета=22.30 min
0 сум. вес=3.2260
1 сум. вес=0.0000
2 сум. вес=3.2258
3 сум. вес=0.0000
4 сум. вес=8.7035
5 сум. вес=0.0000
6 сум. вес=3.2253
7 сум. вес=0.0000
8 сум. вес=3.2258
9 сум. вес=0.0000
10 сум. вес=3.2251
11 сум. вес=0.0000
12 сум. вес=0.0000
13 сум. вес=0.0000
14 сум. вес=0.0000
15 сум. вес=0.0000
16 сум. вес=0.0000
17 сум. вес=0.0000
18 сум. вес=0.0000
19 сум. вес=0.0000

Хочется побыстрее...
Если задачка будет не с 20 входами, а с 200, то это будет десятки часов.
Отсев низкокореллированных к выходам или высококореллированных к др. входам - удаляет важные входы, попробовал даже LDA Фишера - тоже удаляет важные входы. Т.е. отсев этими методами не помогает, а наоборот мешает.

Видимо остается долгое решение по всем входам один раз, отсев входов по сумме весов и получение модели для будущего использования. Потом дообучение раз в неделю например, по усеченному числу входов.

Я вот подумал, может для скорости отдаватль эту задачу в MS Azure получать суммарные веса входов, и далее использовать их в своей модели. Немного поэксперементировал, но что-то не вижу откуда веса там брать...

 
Всё верно, братци!!! Та и есть, использую оптимизатор Решитого. Так вот запустить бы вычисления на GPU. Ктони будь делал такое??? Так как JPrediction расспаралеллен, то дело за малым, запустить программу на GPU. Никто не знает как запустить программу JAVA на GPU? Думаю полезное знание было бы....
 
Mihail Marchukajtes:
Всё верно, братци!!! Та и есть, использую оптимизатор Решитого. Так вот запустить бы вычисления на GPU. Ктони будь делал такое??? Так как JPrediction расспаралеллен, то дело за малым, запустить программу на GPU. Никто не знает как запустить программу JAVA на GPU? Думаю полезное знание было бы....

А дайте ссыль на рабочую версию и описание
 
Mihail Marchukajtes:
Всем привет!!!! Рад что ветка не угасла и продолжает место быть, а посему у меня вопрос к публике. У меня есть датасет для обучения, но к сожалению он стал таким большим что обучение проходит слишком долго. Кто нибудь может построить модель с помощью своих наработок, а мы потом вместе посмотрим как она отработает!!!!!.
Ваш сет наоборот, ОЧЕНЬ маленький 111 фичей, 452 точки. Но если данные собраны толково(таргет не спутан с фичами), то имеется 3-4% преимущество(accuracy - 53.5%), если для крупного инвестиционного фонда или банка, при торговле в среднесрок этого достаточно, для интрадея с гиганскими плечами и парой к$ депо разумеется нет.
 
Алёша:
имеется 3-4% преимущество(accuracy - 53.5%)
Что за модель использовали и в какой конфигурации? Почему решили что это не случайный результат, меня вообще ничего не сходится с этим датасетом, то 47% то 50 то 53
 
Алёша:
Ваш сет наоборот, ОЧЕНЬ маленький 111 фичей, 452 точки. Но если данные собраны толково(таргет не спутан с фичами), то имеется 3-4% преимущество(accuracy - 53.5%), если для крупного инвестиционного фонда или банка, при торговле в среднесрок этого достаточно, для интрадея с гиганскими плечами и парой к$ депо разумеется нет.

Думаю что и для интрадея это будет достаточно, если заходить на 50 пипсов лучше чем сигнал. Отложками. Получится что будетшь зарабатывать лучше спреда.
 
Maxim Dmitrievsky:

А дайте ссыль на рабочую версию и описание

Всмысле? Ссылку на JPrediction?
 
Алёша:
Ваш сет наоборот, ОЧЕНЬ маленький 111 фичей, 452 точки. Но если данные собраны толково(таргет не спутан с фичами), то имеется 3-4% преимущество(accuracy - 53.5%), если для крупного инвестиционного фонда или банка, при торговле в среднесрок этого достаточно, для интрадея с гиганскими плечами и парой к$ депо разумеется нет.

Ну не знаю на счёт маленькости. Это считай весь фьючерсный контракт за 3 месяца. Вопрос в другом. У меня есть ещё 2 недели, которыйх в сете нету. Вот и подумалось, построить модель и проиграть её на этой выборке. Но с помощью JPrediction обучение затянется на недели что не есть гуд. Поэтому и хотелось получить модель с помощью других алгоритмов и посмотреть как отработает модель.
 
Опять же этот сет предназначен для классификации. Тоесть выходная переменная уже несёт в себе прогноз. Если использовать рересионные модель то не нужно делать проноз выходной переменной, достаточно просто апроксимировать модель к ней, так как выход уже забегает в будущее. Как то так, если вы меня правильно поняли.
 

Другое дело запустить програму на GPU  и увеличить скорость расчётов хотябы в 10-20 раз. Тут думаю был бы прогресс.... Только вот инфа что есть в инете очень старая да и с ней разобраться как это сделать у меня не получается. Программист то я так себе. Курица лапой :-)

А идея всей этой суеты заключается в следующем. Не важно какой используется алгоритм (хотя вру, конечно важно. Важно счтобы переобучение в нём былос ведено к минимуму) ВАЖНО какого характера данные, как они собраны и подготовленны для обучения. Вот это я и хотел проверить. Действительно ли есть рыба в тех данных которые я собираю. Приведу пример.

Причина обращения: