Неопределённость как модель (Часть 5): Основы регрессии
Оглавление
- Предисловие
- Введение
- Регрессия
- Регрессия на константу
- Парная регрессия
- Заключение
- Приложения
- Приложенные файлы
Предисловие
Эконометрика, как следует из её названия, занимается количественным анализом экономических данных. После того как данные собраны, их нужно упорядочить, находя для них реально существующие связи, законы. Для этого и существует эконометрика. Связи и законы в экономике практически никогда не имеют вид жёстко детерминированных зависимостей. Поэтому эконометрика уходит корнями в такие теоретические науки, как теория вероятностей, теория случайных процессов и математическая статистика. При этом она, по своей сути, является инженерной областью, где практический результат важнее соответствия теории. Это не означает отказ от теоретических моделей. Это означает отношение к ним как к рабочему инструменту: он должен быть под рукой, в достаточном количестве и соответствовать конкретной практической задаче.
Введение
При переходе от созерцания графиков к построению торговых алгоритмов неизбежно встаёт вопрос: как формализовать связь между событиями? Попытки найти "золотое сечение" или нарисовать линию тренда "на глаз" часто приводят к тому, что мы видим закономерность там, где её нет. Эконометрика дает нам язык и инструменты, позволяющие превратить интуитивные догадки в строгие математические модели.
Эта статья — практическое введение в регрессионный анализ. Сначала мы научимся отделять рыночный сигнал от шума, проверять адекватность моделей и интерпретировать остатки. Вместо того чтобы слепо доверять коэффициентам доходности, мы научимся видеть "разладки" в волатильности и понимать, когда математическая модель перестает соответствовать реальности. В качестве примеров используются котировки акций и индексов. Мы перейдём от базового статистического аудита к моделированию межрыночных связей и получим проверяемую основу для торговых решений.
Регрессия
Регрессия является основным инструментом анализа данных в эконометрике. Поэтому начнём с определения того, что мы будем называть данными в нашей статье. В отличие от классических учебников, мы сразу условимся: все наши данные — это временные ряды. То есть конкретные реализации случайных процессов с дискретным временем. Мы детально разбирали их в прошлой статье, поэтому здесь лишь напомним о паре моментов, которые часто вносят путаницу:
- Терминология: часто "временным рядом" называют и сам теоретический процесс (например, мартингал), и его фактическую реализацию (например, котировки). Обычно из контекста сразу понятно, о чём именно идёт речь.
- Смешение понятий: как следствие, иногда путают теоретические характеристики процесса с их статистическими оценками, полученными по конкретной реализации. Здесь контекст также является определяющим.
Поясним, почему в рамках статьи все данные рассматриваются как временные ряды. Дело в том, что специфика трейдинга позволяет значительно сузить область исследования. Для решения наших задач нет необходимости привлекать весь массив эконометрического инструментария — например, методы анализа пространственных или панельных данных в рамках данного цикла статей не потребуются. Сосредоточение исключительно на временных рядах позволяет нам глубже проработать методы, которые имеют прямое отношение к динамике рыночных котировок.
Регрессия выражает зависимость одного ряда (зависимой переменной) от набора других рядов: независимых переменных и стохастической составляющей (шума). Главное отличие шума от остальных данных — принципиальная ненаблюдаемость его реализации. На практике мы работаем с остатками — разницей между реальными значениями зависимой переменной и предсказанными моделью. Их значения напрямую зависят от выбранной модели. Трейдеры часто совершают ошибку, полностью игнорируя ряд остатков. Это неверно по следующим причинам:
- Проверка адекватности: именно анализ остатков показывает, насколько модель соответствует реальным данным и можно ли доверять её сигналам.
- Определение характеристик процесса: через остатки вычисляются статистические свойства зависимой переменной (например, волатильность и математическое ожидание). В трейдинге это имеет сугубо прикладное значение: без знания этих характеристик невозможно построить корректный вероятностный прогноз, на основе которого принимаются решения о входе в рынок или выходе из него.
- Детектирование "разладки": изменение поведения остатков — первый сигнал того, что модель перестала работать. Это означает, что рыночные условия изменились и текущие параметры больше не актуальны. В такой ситуации нужно либо пересчитать параметры модели, либо вовсе отказаться от неё.
В эконометрике под термином "регрессия", как правило, подразумевается линейная регрессия (слово "линейная" часто опускают для краткости). Не будем углубляться в громоздкие общие определения и сразу перейдем к конкретным примерам моделей.
Регрессия на константу
Модель задается формулой вида: Yt = A + C * Et, где:
- Yt — зависимая переменная (случайный процесс), где t пробегает значения от 1 до n включительно
- A и C — параметры модели (константы), требующие оценки по конкретной реализации Yt
- Et — стандартный гауссовский шум с нулевым средним и единичной дисперсией в момент t
Из формулы следует, что Yt представляет собой нормально распределенную величину с математическим ожиданием, равным A, и среднеквадратичным отклонением (СКО), равным C. Для нахождения точечных оценок A и C используется метод максимума правдоподобия. При оценке параметра A это закономерно приводит нас к минимизации суммы квадратов: (Y1 - a)^2 + (Y2 - a)^2 + ... + (Yn - a)^2. Отсюда a (оценка A) принимает вид простого среднего арифметического: a = (Y1 + Y2 + ... + Yn) / n. Оценка дисперсии методом максимума правдоподобия равна среднему квадратов отклонений Yt от a. Однако такая оценка является смещённой. Несмещённой же оценкой для квадрата параметра C (дисперсии) будет: c^2 = ((Y1 - a)^2 + (Y2 - a)^2 + ... + (Yn - a)^2) / (n - 1).
Несмотря на предельную простоту, эта модель крайне полезна:
- Позволяет моделировать приращения цены актива (чаще, логарифмы доходности) или ряд доходностей торговых сделок в первом приближении. Это даёт базу для оценки стабильности торговой системы.
- Служит "нулевым уровнем" при сравнении с более сложными моделями.
- Позволяет нам ввести необходимый минимум проверок остатков на их соответствие модели.
- На ней проще всего показать построение доверительного интервала для параметра и принцип проверки статистических гипотез. Это критически важно, чтобы понять, является ли результат (например, средний профит) статистически значимым или это просто случайность.
Перейдём к проверке адекватности модели на основе статистических исследований. Как мы помним из статьи про математическую статистику, методы анализа делятся на EDA (разведочный) и CDA (подтверждающий). В данном контексте к первой группе относятся:
- График остатков по времени: позволяет визуально выявить грубые нарушения предпосылок модели, такие как наличие тренда.
- Гистограмма остатков в сравнении с плотностью нормального распределения: помогает оценить симметрию и эксцесс, выявляя отклонения формы распределения (преимущественно в его центральной части).
- QQ-plot (график квантиль-квантиль): инструмент для сопоставления эмпирического распределения с теоретическим нормальным. В отличие от гистограммы, он более информативен для анализа поведения "хвостов" распределения.
- Коррелограмма (график АКФ): гистограмма автокорреляционной функции для различных лагов. Используется для проверки независимости остатков. На графике обычно наносятся две горизонтальные линии, обозначающие критические уровни: выход за их пределы сигнализирует о наличии статистически значимых зависимостей в остатках.
Ко второй группе (CDA) относятся строгие статистические тесты. Универсального критерия "на все случаи жизни" не существует: временной ряд может отклоняться от модели белого шума по разным причинам, каждая из которых требует своего метода проверки. Кроме того, выбор теста варьируется в зависимости от объёма выборки. На данном этапе мы остановимся на следующих инструментах:
- Тест Льюнга–Бокса (Ljung-Box test): проверка на наличие "памяти" (автокорреляции) на заданном интервале лагов.
- H0: автокорреляция отсутствует (белый шум).
- H1: на исследуемом участке присутствует статистически значимая автокорреляция.
- Тест Ярке–Бера (Jarque-Bera test): проверка формы распределения (анализ эксцесса и асимметрии).
- H0: распределение остатков соответствует нормальному.
- H1: выявлены значимые отклонения от нормальности.
- Тест Петтитта (Pettitt test) на остатках: проверка стабильности математического ожидания.
- H0: среднее значение ряда остается постоянным.
- H1: в ряду присутствует точка изменения среднего уровня.
- Тест Петтитта на модулях остатков: проверка стабильности дисперсии.
- H0: волатильность ряда остается постоянной на всем промежутке.
- H1: выявлен момент резкого изменения волатильности (гетероскедастичность).
После подтверждения адекватности модели можно переходить к её практическому применению. Основными направлениями здесь являются уточнение истинных значений параметров (поскольку ранее мы получили лишь их статистические оценки) и построение вероятностных прогнозов развития процесса. Несмотря на то, что для данной базовой модели аналитический инструментарий ограничен, мы можем решить ряд важных задач:
- Построение интервальной оценки истинного значения параметра A. Это позволяет определить диапазон, в котором с заданным уровнем доверия находится математическое ожидание доходности.
- Проверка гипотезы о равенстве параметра A нулю. Это критически важно для трейдера, так как позволяет статистически подтвердить наличие (или отсутствие) положительного математического ожидания у торговой стратегии или актива.
- Вероятностный прогноз для Yt (при t = n + 1). Формирование интервала предсказания (prediction interval), в который следующее значение ряда попадёт с заданной вероятностью. Границы интервала определяются квантилем распределения Стьюдента, а не нормального распределения. Причина в том, что на практике мы оперируем лишь оценками параметров, а не их истинными значениями. Это ещё раз подтверждает необходимость строгого разграничения теоретических характеристик и их выборочных оценок: они тождественны лишь на бесконечной выборке, которая в реальности недостижима.
В приложении к статье представлен MQL5-скрипт, который шаг за шагом проводит все описанные проверки и выводит итоговый результат для выборки из логарифмических доходностей выбранного актива.
Парная регрессия
Модель задается формулой вида: Yt = A + B * Xt + C * Et, где:
- Yt — зависимая переменная (случайный процесс) в моменты времени t = 1, ..., n
- Xt — независимая переменная (регрессор), природа которой определяет методологию дальнейшего анализа
- A, B, C — параметры модели (константы), подлежащие оценке по реализациям Yt и Xt
- Et — стандартный гауссовский шум (белый шум) с параметрами N(0, 1)
Выбор метода расчёта критически зависит от типа независимой переменной. Разница в сложности подходов здесь фундаментальна. Важно понимать: это разделение обусловлено внутренней природой данных, а не выбором исследователя. Попытка необоснованного упрощения (игнорирование типа переменной) приведёт к получению несостоятельных оценок, которые будут бесполезны или даже вредны при принятии торговых решений. Мы выделяем три сценария:
- Детерминированный Xt: переменная не является случайной (например, фактор времени или заранее известные параметры).
- Стохастический Xt (экзогенность): переменная случайна, но не коррелирует с шумом Et. Это подразумевает внешнюю природу воздействия Xt на систему, описываемую Yt.
- Стохастический Xt (эндогенность): переменная случайна и коррелирует с шумом Et. Это указывает на внутреннюю природу Xt для исследуемой системы.
Детерминированный регрессор
Исследование начнем с наиболее простого сценария. Напомним положение из статьи по теории вероятностей: детерминированность не является противоположностью стохастичности, а представляет собой её частный случай. Это состояние вырожденности, при котором дисперсия равна нулю, а вся плотность вероятности сосредоточена в одной точке — математическом ожидании. Тем не менее в эконометрике этот вариант выделяется в отдельную категорию. С практической точки зрения работа с детерминированными переменными фундаментально отличается от анализа невырожденных стохастических процессов, так как упрощает требования к оценке параметров и проверке статистических гипотез.
Прежде всего, необходимо убедиться, что ряд Xt не является константой (состоит из различных чисел). В противном случае переход к более сложной модели не состоится, и мы фактически останемся в рамках регрессии на константу.
Параметры A и B по-прежнему эффективно оцениваются методом наименьших квадратов (МНК). Оценка дисперсии шума (C^2) рассчитывается как средний квадрат остатков, но теперь в знаменателе используется n − 2.
Здесь уместно упомянуть принцип степеней свободы. Исходная выборка размером n предоставляет нам n степеней свободы. Две из них мы "тратим" на оценку коэффициентов A и B, поэтому для оценки дисперсии их остается n - 2. Это правило имеет строгое математическое обоснование, но для практических целей его достаточно просто запомнить. Количество оставшихся степеней свободы критически важно при расчёте p-value в различных статистических тестах, так как оно является параметром соответствующих распределений (Стьюдента, Хи-квадрат, Фишера).
Точечные оценки a, b и c для параметров модели A, B и C принимают следующий вид:
- b = ((X1 - Mx) * (Y1 - My) + ... + (Xn - Mx) * (Yn - My)) / ((X1 - Mx)^2 + ... + (Xn - Mx)^2), где Mx и My — средние значения рядов Xt и Yt.
- a = My - b * Mx
- c^2 = (e₁^2 + e₂^2 + ... + eₙ^2) / (n - 2), где eₜ = Yt - (a + b * Xt) — остатки модели.
Переходим к проверке адекватности модели исходным данным методами EDA. Все инструменты исследования остатков, описанные для регрессии на константу, остаются в силе, но к ним добавляются новые специфические графики:
- График рассеяния между Xt и Yt совместно с линией регрессии y = a + b * x. Мы должны увидеть, как "облако" точек концентрируется вдоль прямой. Если точки распределены хаотично, полезность выбранного регрессора сомнительна. Если же облако имеет выраженную изогнутую форму (парабола, логарифм и т.д.), это указывает на нелинейную связь. В таком случае, чтобы остаться в рамках аппарата линейной регрессии, может потребоваться нелинейное преобразование исходного регрессора или переход к множественной регрессии, где независимыми переменными станет набор различных трансформаций Xt.
- График рассеяния для регрессора Xt и остатков eₜ. В идеальной модели между ними должна отсутствовать любая связь (визуально — однородное облако). Наличие тренда или закономерного изменения формы облака при движении вдоль оси Xt сигнализирует о проблемах. Расширение (или сужение) облака точек указывает на гетероскедастичность — нарушение условия постоянства СКО шума (C = const). Гетероскедастичность приводит к снижению точности оценки параметров методом МНК, хотя они и остаются несмещёнными. Для исправления ситуации может потребоваться замена регрессора, его трансформация или введение дополнительных независимых переменных в модель.
Все статистические тесты, описанные для модели регрессии на константу, сохраняют свою актуальность. Однако для парной регрессии аналитический арсенал CDA расширяется методами проверки взаимосвязи остатков с регрессором и правильности выбора модели:
- Тест Бройша–Пагана (Breusch–Pagan test): основной инструмент проверки на гетероскедастичность. Он математически подтверждает (или опровергает) визуальные подозрения, возникшие при анализе графиков рассеяния.
- H0: дисперсия ошибки постоянна и не зависит от регрессора (гомоскедастичность).
- H1: дисперсия ошибки является функцией от регрессора (гетероскедастичность).
- Тест Рамсея (RESET): проверка корректности функциональной формы модели (линейности). Помогает определить, не упустили ли мы значимые нелинейные составляющие.
- H0: зависимость Yt от Xt носит линейный характер.
- H1: зависимость имеет нелинейный вид (модель специфицирована неверно).
Тесты Бройша–Пагана и Рамсея по своей сути требуют перехода к множественной регрессии, поэтому их рассмотрение будет отложено до соответствующего раздела.
После подтверждения адекватности модели можно переходить к практическим выводам. В случае парной регрессии в наш инструментарий входят:
- Проверка статистической значимости зависимости. Мы должны убедиться, что влияние Xt на Yt достаточно значимо для наших практических применений, а не является следствием случайного совпадения. Для этого проверяется гипотеза о равенстве коэффициента наклона B нулю с помощью t-критерия Стьюдента. Если гипотеза H0: (B = 0) отклоняется, значит, связь между переменными статистически подтверждена.
- Построение интервала предсказания (prediction interval). Для нового значения регрессора мы рассчитываем диапазон, в который попадает цена с заданной вероятностью. Здесь, помимо неопределённости оценки среднего (как в регрессии на константу), добавляется неопределённость оценки коэффициента B. Это порождает характерный эффект "песочных часов": интервал прогноза минимален вблизи среднего значения Xt и расширяется по мере удаления от него (в область новых, ранее не наблюдавшихся значений регрессора).
В приложении к статье представлен MQL5-скрипт, реализующий анализ данных для регрессии цены актива на номер бара.
Следует классифицировать тип случайного процесса Yt. Очевидно, что он нестационарен из-за непостоянства математического ожидания: M(t) = A + B * Xt. Однако, если исключить из процесса эту детерминированную составляющую (тренд), мы должны получить стационарный ряд — шум с нулевым математическим ожиданием и постоянным СКО: C.
Процессы с подобным поведением называют тренд-стационарными (Trend Stationary, TS). Это наиболее предсказуемый вид нестационарности: любые отклонения от линии тренда здесь носят временный характер (эффект возврата к среднему). В разделе об авторегрессионных моделях мы научимся отличать их от другого, гораздо более "коварного" типа — разностно-стационарных рядов (Difference Stationary, DS), где шоки имеют кумулятивный эффект.
Сейчас лишь отметим, что класс TS-рядов существенно шире рассмотренного нами примера: стационарные остатки не обязательно должны быть "белым шумом". Они могут обладать собственной внутренней структурой (автокорреляцией или "памятью"), которую мы детально изучим в главе про модели авторегрессии.
Экзогенный регрессор
Перейдём к случаю, когда Xt является случайным процессом. Хотя на практике мы всегда оперируем конкретными числовыми рядами, для получения обоснованных прогнозов необходимо учитывать природу их происхождения. В отличие от детерминированного ряда, значения которого в будущем нам точно известны, стохастический регрессор ограничивает наши знания о будущем системы.
Построение регрессии математически бессмысленно, если один из рядов (Xt или Yt) стационарен, а другой — нет. В противном случае мы попытались бы выразить нестационарный ряд через стационарный.
Регрессия нестационарного ряда на нестационарный, как правило, приводит к ложной регрессии (spurious regression). Существует масса примеров бездумного применения МНК, когда статистически связанными кажутся процессы, абсолютно не соотносимые по своей природе. Единственным редким исключением является коинтеграция, которую мы разберём после изучения авторегрессионных моделей.
Таким образом, перед расчётом регрессии мы обязаны подтвердить стационарность обоих рядов. Для этого применяются специализированные тесты (например, ADF или KPSS), а при необходимости — процедуры приведения к стационарному виду (детрендирование или взятие разностей). Эти вопросы тоже будут рассмотрены в разделе про авторегрессию.
Необходимость откладывать детали процедур показывает проблему курса временных рядов. Авторегрессию нельзя изучать без регрессии, а регрессию — полноценно излагать без элементов авторегрессии. Темы в этой области завязаны в единый узел, который мы будем последовательно распутывать шаг за шагом.
Итак, условимся, что у нас есть два стационарных ряда. Мы рассматриваем экзогенный случай, подразумевающий внешнюю природу воздействия Xt на систему. С математической точки зрения это означает отсутствие корреляции между регрессором Xt и ошибками модели Et. При соблюдении этого условия оценки параметров, полученные методом наименьших квадратов, остаются состоятельными и несмещёнными.
При проведении EDA и CDA для экзогенной регрессии сохраняют свою значимость все ранее рассмотренные графики и статистические тесты остатков. К ним добавляются специфические инструменты проверки на стационарность и коинтеграцию, которые мы детально изучим позже. Свойство экзогенности модели также подлежит строгой статистической проверке, однако её описание мы отложим до раздела о множественной эндогенной регрессии, где будет введен необходимый аппарат инструментальных переменных. Оставив теоретические нюансы для последующих глав, перейдём к прикладному анализу.
В качестве практического примера мы рассмотрим упрощённую версию CAPM (Capital Asset Pricing Model). В классическом варианте теории расчёты производятся на основе избыточных доходностей за вычетом безрисковой ставки. Однако для целей нашей статьи мы воспользуемся упрощением, которое не искажает суть эконометрического аппарата: построим регрессию напрямую между логарифмическими доходностями акции и индекса. Мы используем логарифмические доходности, потому что они обычно стационарнее цен и простых приращений. Напомним практический смысл параметров в данной модели:
- Бета (β) отражает чувствительность актива к движениям широкого рынка. Если β > 1, актив считается агрессивным (растет и падает сильнее индекса), если 0 < β < 1 — консервативным. Отрицательная бета (β < 0) означает, что актив движется в противофазе с рынком.
- Альфа (α) интерпретируется как средняя доходность актива, которая не объясняется динамикой индекса. В трейдинге это часто рассматривается как показатель "мастерства" управления при выборе актива или уникальности самого актива.
Анализ остатков этой модели позволит нам определить, насколько связь между активом и индексом стабильна и не содержит ли она скрытых закономерностей, требующих перехода к более сложным моделям.
В приложении к статье приводится MQL5-скрипт, который проводит все доступные на данный момент вычисления и выводит графики для этого примера.
Эндогенный регрессор
Если тесты подтверждают существенную эндогенность, это критично для наших МНК-оценок: они становятся смещёнными и несостоятельными. Проблема решается введением инструментальных переменных, которые коррелируют с исходным регрессором, но не имеют связи с остатками.
Реализация этого метода (например, двухэтапный МНК) требует иного математического аппарата и, как правило, подразумевает переход к множественной регрессии с использованием матричной формы записи. Чтобы не нарушать последовательность изложения, мы вернёмся к этой теме в разделе, посвящённом множественной эндогенной регрессии.
Заключение
Построение регрессии — это не финал анализа, а лишь начало глубокого исследования данных. Мы увидели, что даже статистически значимый тренд может скрывать в себе ловушку автокорреляции, а внешне хаотичный шум — содержать точки разладки волатильности. Главный вывод этой части: модель ценна ровно настолько, насколько чисты её остатки.
Мы научились фиксировать "альфу" и "бету" актива, проверять гипотезы о значимости параметров и строить интервалы предсказания, учитывая неопределённость. Однако парная регрессия — лишь первый шаг. Столкнувшись с тем, что один фактор часто не способен объяснить всю сложность рыночной динамики, мы логически подходим к необходимости расширения инструментария. В следующей части мы перейдем к множественной регрессии и матричному аппарату, чтобы научиться объединять несколько сигналов в единую систему, сохраняя при этом контроль над качеством и избегая переобучения.
Приложения
В качестве эмпирической базы для всех трёх приложений использованы котировки акций Alphabet Inc. (Google) за период последних двух лет. Для анализа выбраны акции класса A (символ GOOGL), обладающие более высокой ликвидностью. В третьем приложении в качестве независимого регрессора выступает индекс S&P 500 (символ US500M в демонстрационном терминале MetaTrader 5 от MetaQuotes). Ниже приведены скриншоты торговой платформы с графиками данных инструментов. На обоих графиках красными вертикальными линиями отмечены границы исследуемого интервала. В этом интервале выполнена выборка данных для расчёта моделей.


Приложение 1: Регрессия логарифмических доходностей на константу (скрипт reg_const.mq5)
Для анализа мы используем логарифмические доходности (log-returns), а не простые приращения цен. На это есть две веские причины:
- Стационарность волатильности: в обычных приращениях дисперсия часто растёт вместе с ценой (акция при цене $200 колеблется сильнее в пунктах, чем при $100). Логарифмирование нивелирует этот эффект, делая волатильность более однородной на всей истории.
- Аддитивность: логарифмические доходности удобно суммировать. Сумма дневных логарифмов доходностей в точности равна логарифму доходностей за весь период, чего нельзя сказать о простых процентных изменениях.
Логарифмирование приближает данные к стационарному процессу. Это необходимо для корректного применения регрессии.
Скрипт сформировал следующие результаты анализа:
Количество скачанных котировок для символа GOOGL: 494
Точечные оценки параметров регрессии A: a = 0.0013 и C: c = 0.0194
График остатков: визуально поведение ряда соответствует белому шуму. Основные сомнения вызывает лишь наличие экстремальных выбросов, ставящих под вопрос гауссовость распределения.

Эмпирическая плотность: в сравнении с нормальным распределением наблюдается выраженный избыточный эксцесс (более острый "колокол" и высокая концентрация данных в центре).

QQ-plot: подтверждает гипотезу о "тяжёлых хвостах" распределения (leptokurtosis).

Коррелограмма и тест Льюнга–Бокса: демонстрируют отсутствие значимой серийной зависимости в остатках.

Ljung-Box test result:
Q = 9.319, p-value = 0.502
Тест Ярке–Бера: количественно подтверждает статистически значимое нарушение нормальности распределения.
Jarque-Bera test result:
JB = 273.992, p-value = 0.000
Анализ стабильности: ввиду отклонения от нормальности применён непараметрический ранговый подход (тест Петтитта). На остатках: значимых точек разладки (скачков среднего) не обнаружено.
Pettitt test result:
K = 4256.000, p-value = 0.809, change-point = 264
На модулях остатков: выявлено статистически значимое изменение дисперсии. Точка разладки приходится на конец октября 2024 года. Это изменение волатильности может быть обусловлено совокупностью факторов: квартальной отчетностью Alphabet, резким ростом интереса к ИИ-технологиям или неопределённостью в преддверии выборов в США.
Pettitt test result:
K = 9514.000, p-value = 0.022, change-point = 144
Практическое применение модели. Помимо анализа структуры остатков, была проведена оценка прогностического потенциала параметра A (математического ожидания доходности). Тестирование гипотезы H0: A = 0 против гипотезы H1: A > 0 дало значение p-value ≈ 0.066. Это пограничный результат: формально мы не можем отклонить нулевую гипотезу на стандартном уровне значимости 5%, однако показатель близок к критическому. Это даёт повод для осторожного оптимизма, но требует подтверждения на более сложных моделях.
test H0: A = 0 vs H1: A > 0 (for regression on constant) result:
t = 1.508, p-value = 0.066
Интервальное оценивание: Построенный доверительный интервал для A всё же включает в себя отрицательные значения (левая граница ниже нуля). Это подтверждает, что при текущем уровне рыночного шума мы не можем гарантировать положительный дрейф.
A between -0.0004 and 0.0030 with confidence level 0.950
Интервальный прогноз: построенный prediction interval для доходности на следующий бар оказался практически симметричным относительно нуля. Высокая неопределённость прогноза является достаточным аргументом для отказа от открытия позиций длительностью в один день на основе этой простейшей модели.
Y between -0.0368 and 0.0394 with confidence level 0.950
Вывод: Несмотря на выявленную гетероскедастичность и "тяжёлые хвосты", модель регрессии на константу подтверждает свою применимость в качестве отправной точки. Проведённый анализ чётко обозначает вектор дальнейшего развития: новые регрессоры должны не просто описывать динамику цены, но и решать конкретные выявленные проблемы — объяснять моменты разладки волатильности, нивелировать влияние экстремальных выбросов и, как следствие, целенаправленно снижать общую дисперсию ошибок модели.
Приложение 2: Парная регрессия с детерминированным регрессором (скрипт reg_pair_determ.mq5)
В данной модели в качестве независимой переменной выступает номер бара (время), а в качестве зависимой — логарифм цены закрытия. Переход к логарифмам является общепринятым стандартом, так как рыночные тренды чаще имеют экспоненциальный характер, и логарифмирование позволяет привести их к линейному виду.
Скрипт сформировал следующие результаты анализа:
Количество скачанных котировок для символа GOOGL: 494
Точечные оценки параметров регрессии A: a = 4.9491, B: b = 0.0014 и C: c = 0.1476
График остатков: визуальный анализ остатков показывает их полную неадекватность модели белого шума. Вместо случайных колебаний мы наблюдаем затяжные направленные волны.

Автокорреляция: коррелограмма имеет вид "расчёски" с экстремально высокими значениями (близкими к единице) на всех лагах.

Тест Льюнга–Бокса: значение p-value = 0.000 окончательно подтверждает несостоятельность модели.
Ljung-Box test result:
Q = 4579.754, p-value = 0.000
Несмотря на то, что формально коэффициенты регрессии могут иметь высокую t-статистику, такая модель является классическим примером ложной регрессии. Весь "сигнал", который мы видим, обусловлен инерцией цен, а не функциональной связью с временем. Дальнейшее тестирование и попытки прогнозирования по данной модели не имеют практического смысла.
Вывод: Простая прямая линия не способна отразить динамику цен, даже если визуально тренд кажется очевидным. Рыночный тренд имеет более сложную стохастическую природу. Решением могло бы стать использование кусочно-линейных моделей или адаптивных алгоритмов, однако это выходит за рамки нашего вводного курса. Данный пример служит важным предостережением: высокий визуальный наклон тренда не гарантирует качества статистической модели.
Приложение 3: Регрессия со стохастическим экзогенным регрессором (скрипт reg_pair_stohast.mq5)
Скрипт выполняет синхронизацию данных по акции и индексу, рассчитывает параметры модели и проводит комплексный аудит остатков. Расчёты проведены в предположении экзогенности регрессора (отсутствии корреляции между индексом и ошибками модели). Хотя это допущение требует отдельной проверки, мы, как и условились, отложим процедуру тестирования экзогенности до раздела о множественной регрессии.
В данном приложении структура представления результатов была намеренно изменена. Вместо строгого разделения по этапам (сначала весь визуальный анализ EDA, затем статистические тесты CDA), мы сгруппировали данные по тематическим блокам: общая информация, форма распределения остатков, их автокорреляция и стабильность поведения. Такой подход позволяет комплексно оценить каждое свойство модели, сопоставляя графические данные с результатами соответствующих расчётов. Результаты анализа:
Количество скачанных котировок для акции GOOGL: 494
Количество скачанных котировок для индекса US500M: 514
Количество пар для регрессии: 470
Точечные оценки параметров регрессии A: a = 0.0004, B: b = 0.6360 и C: c = 0.0143
Диаграммы рассеяния (scatter plots):
График (x, y) показывает концентрацию облака точек вдоль линии регрессии. Визуальная структура несколько сглажена из-за масштаба, необходимого для отображения редких выбросов.

График (x, остатки) не выявляет значимых закономерностей, что косвенно подтверждает адекватность линейной формы модели.

График остатков: визуально поведение ряда соответствует белому шуму, однако, как и в первом приложении, наблюдаются экстремальные выбросы.

Распределение (EPDF и QQ-plot): подтверждают наличие высокой концентрации данных в центре ("острая вершина") и тяжёлых хвостов, характерных для негауссовых процессов.


Тест Ярке–Бера: Ожидаемо подтверждает отклонение распределения остатков от нормального.
Jarque-Bera test result:
JB = 342.387, p-value = 0.000
Автокорреляция (коррелограмма и тест Льюнга–Бокса): демонстрируют отсутствие серийной зависимости. Это критически важный результат: он означает, что индекс успешно "впитал" в себя всю системную динамику акции.

Ljung-Box test result:
Q = 5.331, p-value = 0.868
Анализ стабильности (Тест Петтитта):
Для среднего значения остатков разладки не обнаружено.
Pettitt test result:
K = 3831.000, p-value = 0.858, change-point = 67
Для модулей остатков (для дисперсии) — и это ключевое отличие от первого приложения — значимая разладка также отсутствует.
Pettitt test result:
K = 7062.000, p-value = 0.113, change-point = 220
Практические выводы:
Модель демонстрирует высокую статистическую значимость коэффициента B (бета). Это подтверждает фундаментальную зависимость динамики акции от поведения широкого рынка.
test H0: B = 0 vs H1: B != 0 (for pair regression) result:
t = 15.034, p-value = 0.000
Тот факт, что после включения индекса в модель "исчезла" разладка дисперсии, обнаруженная в первом приложении, является крайне важным сигналом. Это указывает на то, что нестабильность волатильности акции была вызвана внешними рыночными факторами, которые индекс успешно детерминировал.
Вывод: Хотя модель CAPM редко используется для прямого прогнозирования цен (поскольку будущее значение индекса нам также неизвестно), она незаменима при формировании портфелей с заданными свойствами (например, рыночно-нейтральных). Для нас же этот пример сузил направление поиска: для построения качественного прогноза необходимо использовать регрессоры, отражающие состояние макроэкономической и политической среды.
Приложенные файлы
| # | Имя | Описание |
|---|---|---|
| 1 | EconometricsA.mqh | Заголовочный файл со всеми необходимыми при анализе функциями для расчёта параметров регрессии, построения графиков и проведения статистических тестов. |
| 2 | reg_const.mq5 | Скрипт для построения регрессии логарифмических доходностей актива на константу и анализа результатов. |
| 3 | reg_pair_determ.mq5 | Скрипт для построения парной регрессии логарифмов цен актива на время (номера баров) и анализа результатов. |
| 4 | reg_pair_stohast.mq5 | Скрипт для построения парной регрессии логарифмических доходностей актива на логарифмические доходности рыночного индекса и анализа результатов. |
| 5 | reg1.zip | Все файлы в одном архиве |
Предупреждение: все права на данные материалы принадлежат MetaQuotes Ltd. Полная или частичная перепечатка запрещена.
Данная статья написана пользователем сайта и отражает его личную точку зрения. Компания MetaQuotes Ltd не несет ответственности за достоверность представленной информации, а также за возможные последствия использования описанных решений, стратегий или рекомендаций.
Как организовать ИИ-хедж-фонд в MetaTrader 5
Тестовые чемпионы против реальных задач оптимизации
Нейросети в трейдинге: Поиск устойчивых закономерностей в разнородных рыночных данных (INFNet)
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Вы принимаете политику сайта и условия использования