Балансировка данных помогает улучшить качество модели

Yury Reshetov 2016.08.02 20:59 #851

Mihail Marchukajtes:

Ну допустим он перемешал и разделил пополам, получится что и в обучающей и тестовой выборке будет одинаковое количество обоих классов, разве нет?

Если количество примеров обоих классов в выборке не было одинаковым, то никак одинаковым их не будет в тестовой части. Пополам поделятся примеры только для малопредставительного класса: половина их попадёт в обучающую часть, вторая половина в тестовую. В обучающей части примеров наиболее представительного класса будет ровно столько же, сколько и малопредставительного. А остальные примеры наиболее представительного класса, которые не попали в обучающую часть выборки, попадут в тестовую часть.

Суть в том, что в ранних версиях вообще не было никакой балансировки. Там выборка перемешивалась ПГСЧ и банально делилась на две части: половина примеров в обучающую, половина в тестовую. Потом мне попалась выборка, в которой примеры обоих классов были сильно разбалансированы. Вполне очевидно, что наиболее представительный класс имел отличные результаты по обобщающей способности, а малопредставительный ниже плинтуса. Пришлось добавить балансировку в алгоритм сепаратора, чтобы избавиться от подобных безобразий.

Случайность или закономерность? Как Советник для статьи. Тестирование Обсуждение статьи "Секвента ДеМарка

Mihail Marchukajtes 2016.08.02 21:04 #852

А не... всё нормально.... ложная тревога :-)

Dr. Trader 2016.08.03 06:39 #853

СанСаныч Фоменко:
Модель переобучена, так как перечень предикторов не чистился от шумовых предикторов. Это учебный пример и таковым сделан преднамеренно. Поэтому я так уверенно говорю

Я подумал над этим.
Лес запоминает данные, это факт, и при увеличении деревьев у него будет больший "объём памяти" для запоминания. Но если даже с достаточно большим количеством деревьев он всё равно не может добиться точности 100%, то значит в обучающих данных есть противоречивые примеры. Некие наборы обучающих примеров, где значения предикторов полностью совпадают, но имеют разные классы. Такие данные никогда не получится предсказать 100%, даже на обучающих данных. Получается что модель даже не сможет полностью обучиться, ей просто не хватает данных, и от этого снижается вероятность переобучиться.
Противоречивость обучающих примеров вызвана даже не ошибкой, а тем что специально убран какой-то предиктор который мог-бы позволить добиться 100% точности. Но без него предсказания на новых данных будут лучше.
Очень интересное правило, на его основе можно сделать какой-нибудь простой метод предварительной оценки набора предикторов, чтоб отбрасывать часть наборов ещё до обучения и кроссвалидаций моделей.

Есть ли закономерность в Обсуждение статьи "Проблема разногласий: Что подать на вход

mytarmailS 2016.08.03 08:29 #854

Здравствуйте!

1) Кто нибудь пробовал что то из того что рассказал? есть какие то результаты?

2) Кто то пробовал тестировать стратегии прямо в R? мне нужно с имитировать торговлю в Р-ке довольно примитивную но есть стопы и еще мелочи, есть какой то инструмент который позволит ето делать максимально просто, и быстро?

Spectrometr доработка Интересную идейку подкинули .... Использование советников в реальной

Mykola Demko 2016.08.03 09:59 #855

Yury Reshetov:

Где брать реальные объёмы в виде исторических данных? MetaTrader предоставляет только счётчик тиков, который обзывается "объёмами". Причём, на разных кухнях значения таких счётчиков могут различаться на порядки.

...

Тиковые объёмы отличаются не только в разных кухнях но даже в одной. Иногда прям видно ступеньку, вот тут плотный поток был, потом бац пошёл разреженный.

Обусловлено это сменой тикового фильтра внутри диллинга.

Вот интересный вопрос: между реальными объёмами и тиковыми есть корреляция, так же есть корреляция между тиковыми объёмами и размером бара, означает ли это что есть корреляция между реальными объёмами и размером бара?

Можно ли торговать по Билл Вильямс и его Тиковый график (предложения)

mytarmailS 2016.08.03 10:06 #856

Nikolay Demko:

означает ли это что есть корреляция между реальными объёмами и размером бара?

конечно

Mihail Marchukajtes 2016.08.03 10:34 #857

mytarmailS:
конечно

Что значит коллеряция между объёмом и баром. Объём может быть высокий, и тело свечи отсутствовать, так же и на обород. Объём маленький а свеча выросла.... всё зависит от коньюктуры рынка в данный момент рынка....

mytarmailS 2016.08.03 10:40 #858

Mihail Marchukajtes:
Что значит коллеряция между объёмом и баром. Объём может быть высокий, и тело свечи отсутствовать, так же и на обород. Объём маленький а свеча выросла.... всё зависит от коньюктуры рынка в данный момент рынка....

:)

отвечая я предполагал что мы говорим о высоколиквидных рынках, коим является фьючерсный - валютный рынки , пени стоки тут никто думаю не торгует

http://prntscr.com/c10p51

на Рис. корреляция в скользящем окне размером 100, волатильность против объема , на сколько я помню уже значимой положительной корреляцией считают значение больше 0,6

Скриншот

prnt.sc

Снято с помощью Lightshot

создание магического числа Нулевая корреляция выборки вовсе Проблема ввода нескольких ордеров

mytarmailS 2016.08.03 16:02 #859

mytarmailS:

Может кому то будет интересно, нашел пакет в котором можно симулировать торговлю, и строить торговые системы называется quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

репостну, может пролетело мимо

и еще полезная ссылка http://www.r-programming.org/papers

или эти пакеты никому не интересны? если не интересны то почему? мне любопытно кто как и где тестирует свои модели

СанСаныч Фоменко 2016.08.03 16:29 #860

mytarmailS:

репостну, может пролетело мимо

и еще полезная ссылка http://www.r-programming.org/papers

или эти пакеты никому не интересны? если не интересны то почему? мне любопытно кто как и где тестирует свои модели

Все пакеты (модели) можно поделить на две категории:

в принципе годятся
в принципе не годятся

Результативность тех пакетов, которые в "принципе годятся" примерно одинакова, различия не существенны.

Все проблемы не в модели, а в наборе предикторов и их предварительной подготовке. Если взять некий набор предикторов, то возможность построить НЕ переобученную модель, а также величина ошибки мало зависит от изменения модели. Поэтому надо брать наиболее простую и быструю модель из тех, которые "в принципе годятся".

ПС.

Из собственного опыта. У меня свыше 75% трудоемкости в построении ТС - это подбор предикторов, если вообще удается подобрать такой набор для конкретной целевой переменной.

Исследования в мат. пакетах Обсуждение статьи "Случайные леса Bayesian regression - Делал

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 86