Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 86

 
Mihail Marchukajtes:

Ну допустим он перемешал и разделил пополам, получится что и в обучающей и тестовой выборке будет одинаковое количество обоих классов, разве нет?

Если количество примеров обоих классов в выборке не было одинаковым, то никак одинаковым их не будет в тестовой части. Пополам поделятся примеры  только для малопредставительного класса: половина их попадёт в обучающую часть, вторая половина в тестовую. В обучающей части примеров наиболее представительного класса будет ровно столько же, сколько и малопредставительного. А остальные примеры наиболее представительного класса, которые не попали в обучающую часть выборки, попадут в тестовую часть.

Суть в том, что в ранних версиях вообще не было никакой балансировки. Там выборка перемешивалась ПГСЧ и банально делилась на две части: половина примеров в обучающую, половина в тестовую. Потом мне попалась выборка, в которой примеры обоих классов были сильно разбалансированы. Вполне очевидно, что наиболее представительный класс имел отличные результаты по обобщающей способности, а малопредставительный ниже плинтуса. Пришлось добавить балансировку в алгоритм сепаратора, чтобы избавиться от подобных безобразий.

 
А не... всё нормально.... ложная тревога :-)
 
СанСаныч Фоменко:
Модель переобучена, так как перечень предикторов не чистился от шумовых предикторов. Это учебный пример и таковым сделан преднамеренно. Поэтому я так уверенно говорю

Я подумал над этим.
Лес запоминает данные, это факт, и при увеличении деревьев у него будет больший "объём памяти" для запоминания. Но если даже с достаточно большим количеством деревьев он всё равно не может добиться точности 100%, то значит в обучающих данных есть противоречивые примеры. Некие наборы обучающих примеров, где значения предикторов полностью совпадают, но имеют разные классы. Такие данные никогда не получится предсказать 100%, даже на обучающих данных. Получается что модель даже не сможет полностью обучиться, ей просто не хватает данных, и от этого снижается вероятность переобучиться.
Противоречивость обучающих примеров вызвана даже не ошибкой, а тем что специально убран какой-то предиктор который мог-бы позволить добиться 100% точности. Но без него предсказания на новых данных будут лучше.
Очень интересное правило, на его основе можно сделать какой-нибудь простой метод предварительной оценки набора предикторов, чтоб отбрасывать часть наборов ещё до обучения и кроссвалидаций моделей.

 

Здравствуйте!

 1)  Кто нибудь пробовал что то из того что рассказал?  есть какие то результаты?

 

 2)  Кто то пробовал тестировать стратегии прямо в  R? мне нужно с имитировать торговлю в Р-ке довольно примитивную но есть стопы и еще мелочи, есть какой то инструмент который позволит ето делать максимально просто, и быстро? 

 
Yury Reshetov:

Где брать реальные объёмы в виде исторических данных? MetaTrader предоставляет только счётчик тиков, который обзывается "объёмами". Причём, на разных кухнях значения таких счётчиков могут различаться на порядки.

...

Тиковые объёмы отличаются не только в разных кухнях но даже в одной. Иногда прям видно ступеньку, вот тут плотный поток был, потом бац пошёл разреженный.

Обусловлено это сменой тикового фильтра внутри диллинга.

Вот интересный вопрос: между реальными объёмами и тиковыми есть корреляция, так же есть корреляция между тиковыми объёмами и размером бара, означает ли это что есть корреляция между реальными объёмами и размером бара? 

 
Nikolay Demko:

 означает ли это что есть корреляция между реальными объёмами и размером бара? 

конечно 
 
mytarmailS:
конечно 
Что значит коллеряция между объёмом и баром. Объём может быть высокий, и тело свечи отсутствовать, так же и на обород. Объём маленький а свеча выросла.... всё зависит от коньюктуры рынка в данный момент рынка....
 
Mihail Marchukajtes:
Что значит коллеряция между объёмом и баром. Объём может быть высокий, и тело свечи отсутствовать, так же и на обород. Объём маленький а свеча выросла.... всё зависит от коньюктуры рынка в данный момент рынка....

:)

 отвечая я предполагал что мы говорим о высоколиквидных рынках, коим является фьючерсный - валютный рынки  , пени стоки тут никто думаю не торгует 

http://prntscr.com/c10p51 

на Рис. корреляция в скользящем окне размером 100, волатильность против объема  , на сколько я помню уже значимой положительной корреляцией  считают значение больше 0,6

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

Может кому то будет интересно,  нашел пакет в котором можно симулировать торговлю, и строить торговые системы называется quantstrat 

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf 

репостну, может пролетело мимо

 и еще полезная ссылка http://www.r-programming.org/papers

 

или эти пакеты никому не интересны? если не интересны то почему? мне любопытно кто как и где тестирует свои модели

 
mytarmailS:

репостну, может пролетело мимо

 и еще полезная ссылка http://www.r-programming.org/papers

 

или эти пакеты никому не интересны? если не интересны то почему? мне любопытно кто как и где тестирует свои модели

Все пакеты (модели) можно поделить на две категории:

  • в принципе годятся
  • в принципе не годятся 

Результативность тех пакетов, которые в "принципе годятся" примерно одинакова, различия не существенны.

Все проблемы не в модели, а  в наборе предикторов и их предварительной подготовке. Если взять некий набор предикторов, то возможность построить НЕ переобученную модель, а также величина ошибки мало зависит от изменения модели. Поэтому надо брать наиболее простую и быструю модель из тех, которые "в принципе годятся". 

 

ПС.

Из собственного опыта. У меня свыше 75% трудоемкости в построении ТС - это подбор предикторов, если вообще удается подобрать такой набор для конкретной целевой переменной. 

Причина обращения: