Используйте M1-бары бидов с асками. Сделайте тестовый набор данных по логике tail, чтобы выровнить количество наблюдений в ячейках матрицы.

[Удален] 2016.02.16 21:37 #71

Alexey Volchanskiy:
Попутный вопрос всем, кто в дискуссии. Вы работаете с тиковыми данными? Я давно отошел от анализа баров, работаю исключительно на методах DSP

Использую M1-бары бидов с асками, а также Level2.

Alexey Volchanskiy 2016.02.16 21:40 #72

zaskok3:
Использую M1-бары бидов с асками, а также Level2.

L2 - это на МТ5?

Alexey Burnakov 2016.02.16 21:42 #73

Vladimir Perervenko:

В статье на которую Вы ссылаетесь речь идет о регрессии. Мы занимаемся классификацией. Это две значительные разницы..

И все равно я не понял Ваш вопрос.

Удачи

Вот, не важно, какая регрессия или классификация. Все равно. Это просто статья именно про регрессию.

Уточнить хотел: у вас примеры для обучения с каким шагом берутся, один бар (то есть, входы каждой строки массива данных) или n баров, так чтобы был временной промежуток между строк?

Я не просто занудствую и уж тем более не хочу дискредетировать вашу работу (мне ваши статьи помогают).

Поясню свою мысль на практическом примере, не выхватывая цитаты из статисческих исследований:

в дереве решений у вас будет, кажем, m терминальных нодов. В каждый нод попадут кейсы, похожие по входным векторам - субпространство значений входов. Так вот, если у вас подряд идущие примеры со сдвигом в бар используют входы, которые заглядывают в прошлое на несколько баров (в худшем случае, на сотни баров), то будет яркая автокорреляция между рядом стоящими точками, но при этом так как мы предсказываем будущее на несколько баров вперед (в худшем случае, также на сотни баров), то и рядом стоящие выходы будут одинаковыми. Например, столбец выходов будет формироваться последовательностями 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1. Так вот, в наши терминальные ноды будут падать десятки одинаковых выходов, относящихся к рядом стоящим - похожим - входам. Можно сказать, что будет избыточность одинаковых примеров, скученных по временным точкам, которые самым категоричным образом перекосят распределение ответов. Именно поэтому "в народе" гуляет рекомендация не держать более одной позиции в рынке, так как при обучении советника в терминале эффект зависимости соседних входов и выходов также имеет место.

В этом случае будет жесткое переобучение, а точнее, формирование статистики не зависимых наблюдениях. То есть, самое неприятное, что можно получить, анализируя временные ряды, это зависимость соседних векторов данных. Если же вектора данных по времени находятся далеко, то все ок. В этом случае обучение машины сведется к нахождению инвариантных относительно времени паттернов.

И далее, обращаясь к матрице ошибок, которую вы приводите в пример в статье:

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958

Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

я могу лишь сказать, что это фантастика. ) Эксперимент проведен с ошибкой. Никогда не получится достичь такой крутой матрицы ошибок на выборке с независимыми примерами, и при этом строго разделяя тестовый набор данных от обучающего по времени (look-ahead bias).

А тот факт, что матрица ошибок на тестовом наборе также фантастична, говорит о том, что была взята выборка, смешанная с тренировочной по времени, в которой также происходит "скучивание" похожих примеров. То есть, именно этот результат ничего не говорит о возможностях построенной модели прогнозировать рынок.

Можете сами попробовать взять немного побольше данных, и сделать тестовый набор по логике tail(all_data, 1/3) и увидеть как выровняется количество наблюдений в ячейках матрицы. Можно даже применить критерий хи-квадрат, чтобы убедиться, что гадание стало почти случайным.

Все, что я хотел вам донести, я постарался сделать. Заметьте, с благими намерениями )

Успехов! Алексей

Разговор с искусственным интеллектом Машинное обучение в трейдинге: Использование искусственного интеллекта в

[Удален] 2016.02.17 00:10 #74

Alexey Volchanskiy:
L2 - это на МТ5?

MT4. Исходники проскакивали на форуме...

Alexey Volchanskiy 2016.02.17 02:30 #75

zaskok3:
MT4. Исходники проскакивали на форуме...

Друзья и коллеги, у меня вопрос.

Как можно формулизировать алгоритм, исходя из опубликованных данных по трейдингу?

Alexey Volchanskiy 2016.02.17 02:32 #76

Alexey Volchanskiy:

Друзья и коллеги, у меня вопрос.

Как можно формулизировать алгоритм, исходя из опубликованных данных по трейдингу?

Я знаю,что написал с ошибкой - именно формулизировать, от слова формула)

[Удален] 2016.02.17 08:56 #77

Alexey Volchanskiy:

Как можно формулизировать алгоритм, исходя из опубликованных данных по трейдингу?

Если нужно реинженирить ТС по стейту исключительно автоматически, то через машинное обучение:

берете кучу значений индикаторов на входе, на выходе стейт. Подгоняете мат. моделями.

Таким бредом не занимался.

СанСаныч Фоменко 2016.02.17 08:59 #78

Alexey Volchanskiy:
Попутный вопрос всем, кто в дискуссии. Вы работаете с тиковыми данными? Я давно отошел от анализа баров, работаю исключительно на методах DSP

Применение DSP крайне сомнительно.

Для тиковых данных более подойдут идеи коинтеграции.

СанСаныч Фоменко 2016.02.17 09:21 #79

Alexey Burnakov:
Вот, не важно, какая регрессия или классификация. Все равно. Это просто статья именно про регрессию.