Сравнительный анализ разных моделей. Приведите пример с линейной регрессией в сравнении с XGboost, который вы невнимательно прочли - Общее обсуждение

СанСаныч Фоменко 2017.10.03 09:47 #4951

Dr. Trader:

Умеет ли лес экстраполировать? Да.
Хорошо ли он это делает? Нет.

А что такое хорошо и что такое плохо?

У Вас имеется сравнительный анализ разных моделей? Причем с самого начала: с пригодности конкретных предикторов к конкретной целевой, с пригодности конкретного набора предикторов к конкретной модели, а затем оценка с обязательным прогоном на файле вне файлов обучения? С обоснованием, что модели не переобучены.

Имея все это можно будет судить что такое хорошо и что такое плохо для конкретного набора предикторов и целевой. При этом надо понимать, что скорее всего существует ИНОЙ набор предикторов и целевая, которые дадут ДРУГОЙ результат.

Для своего конкретного случая я такую работу делал. Результат выкладывал несколько раз на этой ветке. Порядок моделей по мере ухудшения: ada, rf, SVM. Хуже всех НС, но ее какой-то древний вариант, современные не пользовал. Это все при соблюдении выше перечисленных условий.

Bayesian regression - Делал Есть ли закономерность в Обсуждение статьи "Случайные леса

Maxim Dmitrievsky 2017.10.03 09:52 #4952

Dr. Trader:

Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"

Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.

Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.

экстраполяция это прогноз на неизвестных точках, если точки выходят за макс и мин обучающей выборки, то RF всегда на выходе будет выдавать макс и мин из обученной выборки

а вы как раз путаете с аппроксимацией мб?

СанСаныч Фоменко 2017.10.03 09:55 #4953

Dr. Trader:

Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"

Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.

Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.

Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.

Вот классификация.

Применимо ли к ней само понятие "экстраполяция"? По мне - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.

Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.

А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.

По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.

Как правильно сформировать входные Эконометрика: прогноз на один Bayesian regression - Делал

Maxim Dmitrievsky 2017.10.03 10:02 #4954

СанСаныч Фоменко:

Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.

Вот классификация.

Применимо ли к ней само понятие "экстраполяция"? По мне - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.

Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.

А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.

По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.

Экстраполяция в МО это способность модели работать на новых данных, и это особый тип аппроксимации. На обучающей выборке ваша модель АППРОКСИМИРУЕТ, на новых данных, не в ходящих в обучающую выборку она ЭКСТРАПОЛИРУЕТ

поэтому и приведен пример с линейной регрессией в сравнении с XGboost, который вы невнимательно прочли, линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ по причине устройства деревьев решений

нейронная сеть и входы Обсуждение статьи "Грокаем "память" Bayesian regression - Делал

СанСаныч Фоменко 2017.10.03 10:43 #4955

Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов.

Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.

Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.

Предсказание рынка на основе Bayesian regression - Делал От теории к практике

Maxim Dmitrievsky 2017.10.03 10:59 #4956

СанСаныч Фоменко:

Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов.

Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.

Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.

ппц, причем тут линейная регрессия! вопрос был в том как правильно пользоваться ЛЕСАМИ что бы не допускать ГЛУПЫХ ошибок, например, ДУМАЯ, что они умеют ЭКСТРАПОЛИРОВАТь

подайте в леса временной рядок в виде котировок, и на новых данных, выходящих за максимальное и минимальное значение котировок модель будет прогнозировать только максимальное и минимальное значение изученного ряда, если выйдет за диапазон

Используете ли вы CExpert Разговор с искусственным интеллектом Альтернативные реализации стандартных функций/подходов

Дмитрий 2017.10.03 11:30 #4957

Алёша:

Как всё запущенно господа...

немного сведения от КО:

На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.

Если она "применима и востребована", то почему же ты за все эти годы так и сваял успешную ТС?

П.С. Слышу - кошка заорала... Точно, думаю, Алёшка опять написал что нибудь!

Maxim Dmitrievsky 2017.10.03 11:34 #4958

Алёша:

Как всё запущенно господа...

немного сведения от КО:

Экстраполяция и интерполяция в контексте МО – ОДНО И ТОЖЕ! В обоих случаях нужно получить значение(int,float[]) точки НЕ СОВПАДАЮЩЕЙ, с точкой из обучающего датасета. Оговорки по поводу, местоположения этой точки в гиперпространстве, по отношению к обучающему облаку точек, НЕ УМЕСТНЫ, так как всё зависит от фичей, от структуры признакового пространства, в одной проекции будет точка “вне” обучающего облака, в другой “внутри” , это не важно, имеет смысл только то, ЧТО ЕЁ НЕТ В ОБУЧЕНИИ, точка.

Резюмирую для закрепления: Если точка отсутствует в обучающем датасете, то результат её классификации или регрессии, будет как экстраполяцией так и интерполяцией, в зависимости от конечной интерпретации результата предметной областью, но для алгоритма МО - ЭТО ОДНО И ТОЖЕ.

Лес экстраполирует – великолепно! В умелых руках лучше и на порядки быстрее НС.

На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.

Отдельный совет Максиму: умный человек ошибается ещё чаше дурака, так как делает намного больше тестов, однако только дурак эмоционально привязан к своей точке зрения и ему тяжело расстаться с ней. Вам выбирать кто вы)))

ок, приведите пример хотя бы 1 статьи с примером где показано, как хорошо экстраполируют леса. Я не нашел ни одного

это на мой взгляд не есть великолепно.

и как вы собираетесь понять когда точка окажется внутри, а когда снаружи облака, когда у вас куча фичей разных, и причем здесь это когда важнее диапазон целевых значений при обучении, когда все деревья построены то целевая не может выйти из этого диапазона НИКОГДА

Поворотные индикаторы Пиши и зарабатывай на Обсуждение статьи "Графические интерфейсы

Dr. Trader 2017.10.03 11:39 #4959

Maxim Dmitrievsky:

линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ

Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.

Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)

И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.

Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию.
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.

Предсказание рынка на основе Используете ли вы CExpert Обсуждение статьи "Случайные леса

Maxim Dmitrievsky 2017.10.03 11:45 #4960

Dr. Trader:

Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.

Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)

И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.

Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию.
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.

нужно просто провести исследование дерева

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 496