Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 496

 
Dr. Trader:

Умеет ли лес экстраполировать? Да.
Хорошо ли он это делает? Нет.


А что такое хорошо и что такое плохо?

У Вас имеется сравнительный анализ разных моделей? Причем с самого начала: с пригодности конкретных предикторов к конкретной целевой, с пригодности конкретного набора предикторов к конкретной модели, а затем оценка с обязательным прогоном на файле вне файлов обучения? С обоснованием, что модели не переобучены.


Имея все это можно будет судить что такое хорошо и что такое плохо для конкретного набора предикторов и целевой. При этом надо понимать, что скорее всего существует ИНОЙ набор предикторов и целевая, которые дадут ДРУГОЙ результат.


Для своего конкретного случая я такую работу делал. Результат выкладывал несколько раз на этой ветке. Порядок моделей по мере ухудшения: ada, rf, SVM. Хуже всех НС, но ее какой-то древний вариант, современные не пользовал. Это все при соблюдении выше перечисленных условий.

 
Dr. Trader:

Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"

Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.

Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.


экстраполяция это прогноз на неизвестных точках, если точки выходят за макс и мин обучающей выборки, то RF всегда на выходе будет выдавать макс и мин из обученной выборки

а вы как раз путаете с аппроксимацией мб?

 
Dr. Trader:

Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"

Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.

Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.


Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.

Вот классификация. 

Применимо ли к ней само понятие "экстраполяция"? По мне  - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.


Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.


А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.


По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.

 
СанСаныч Фоменко:

Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.

Вот классификация. 

Применимо ли к ней само понятие "экстраполяция"? По мне  - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.


Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.


А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.


По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.


Экстраполяция в МО это способность модели работать на новых данных, и это особый тип аппроксимации. На обучающей выборке ваша модель АППРОКСИМИРУЕТ, на новых данных, не в ходящих в обучающую выборку она ЭКСТРАПОЛИРУЕТ

поэтому и приведен пример с линейной регрессией в сравнении с XGboost, который вы невнимательно прочли, линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ по причине устройства деревьев решений

 

Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов. 

Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.

Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.

 
СанСаныч Фоменко:

Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов. 

Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.

Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.


ппц, причем тут линейная регрессия! вопрос был в том как правильно пользоваться ЛЕСАМИ что бы не допускать ГЛУПЫХ ошибок, например, ДУМАЯ, что они умеют ЭКСТРАПОЛИРОВАТь 

подайте в леса временной рядок в виде котировок, и на новых данных, выходящих за максимальное и минимальное значение котировок модель будет прогнозировать только максимальное и минимальное значение изученного ряда, если выйдет за диапазон

 
Алёша:

Как всё запущенно господа...

немного сведения от КО:


На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.


Если она "применима и востребована", то почему же ты за все эти годы так и сваял успешную ТС?

П.С. Слышу - кошка заорала... Точно, думаю, Алёшка опять написал что нибудь!

 
Алёша:

Как всё запущенно господа...

немного сведения от КО:

Экстраполяция и интерполяция в контексте МО – ОДНО И ТОЖЕ! В обоих случаях нужно получить значение(int,float[]) точки НЕ СОВПАДАЮЩЕЙ, с точкой из обучающего датасета. Оговорки по поводу, местоположения этой точки в гиперпространстве, по отношению к обучающему облаку точек, НЕ УМЕСТНЫ, так как всё зависит от фичей, от структуры признакового пространства, в одной проекции будет точка “вне” обучающего облака, в другой “внутри” , это не важно, имеет смысл только то, ЧТО ЕЁ НЕТ В ОБУЧЕНИИ, точка.

Резюмирую для закрепления: Если точка отсутствует в обучающем датасете, то результат её классификации или регрессии, будет как экстраполяцией так и интерполяцией, в зависимости от конечной интерпретации результата предметной областью, но для алгоритма МО - ЭТО ОДНО И ТОЖЕ.

Лес экстраполирует – великолепно! В умелых руках лучше и на порядки быстрее НС.

На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.


Отдельный совет Максиму: умный человек ошибается ещё чаше дурака, так как делает намного больше тестов, однако только дурак эмоционально привязан к своей точке зрения и ему тяжело расстаться с ней. Вам выбирать кто вы)))


ок, приведите пример хотя бы 1 статьи с примером где показано, как хорошо экстраполируют леса. Я не нашел ни одного

это на мой взгляд не есть великолепно.

и как вы собираетесь понять когда точка окажется внутри, а когда снаружи облака, когда у вас куча фичей разных, и причем здесь это когда важнее диапазон целевых значений при обучении, когда все деревья построены то целевая не может выйти из этого диапазона НИКОГДА


 
Maxim Dmitrievsky:

линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ

Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.

Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)


И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.

Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию. 
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.

 
Dr. Trader:

Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.

Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)


И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.

Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию. 
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.


нужно просто провести исследование дерева


Причина обращения: