English Русский 中文 Español Deutsch 日本語 Português Français Italiano Türkçe
인디케이터 및 통계적 매개 변수 분석하기

인디케이터 및 통계적 매개 변수 분석하기

MetaTrader 5통계 및 분석 | 5 8월 2021, 09:34
153 0
СанСаныч Фоменко
СанСаныч Фоменко

개요

투자자들은 기본 시세 정보를 '보다 명확하게' 나타내는 인디케이터를 이용해 시장 분석을 하고 가격 움직임을 예측합니다. 많은 경우 시세 변동 값의 유효성이나 획득 결과의 신뢰도에 대한 검사는 건너뛰고 인디케이터를 기반으로 매매 시스템 자체에 대한 테스트만을 진행하죠.

하지만 초기 시세 변동 및 획득 결과의 신뢰도와 관련된 문제가 있다면 인디케이터를 사용할 필요가 없지 않을까요? 매매 시스템에 적용할 필요는 당연히 없고요. 잘 모르시겠다면 제가 차근차근 알려 드릴게요. 직선 추세선, 지수이동평균 및 호드릭-프레스콧 필터(Hodrick-Prescott filter)의 세 가지 인디케이터를 이용해 어떤 문제들이 발생할 수 있는지 알아보겠습니다.


1. 약간의 이론

독자 여러분의 이해를 돕기 위해 우선 확률과 통계에 대해 몇 가지 설명을 할게요. 일반 교과서에 나오는 용어와 동일하므로 별도의 링크를 걸지는 않겠습니다.

1.1. 경제 관측에 대한 확률론적 설명

우리가 관찰하는 시세는 기본적 확률 과정에서 일어나는 모집단이 알려지지 않은 다음의 간접 선발에 해당합니다.

  • 정확하게 측정된 확률요인(예: 통화 매매)
  • 오류가 있는 확률요인(예: 지정된 기간 내 통화 매도량)
  • 측정 불가능한 확률요인(예: 투자자의 기분) 대부분의 경우 이러한 요인의 특징은 움직임이 무작위성을 띤다는 점입니다.

위 요인 간의 상호작용은 다음의 확률 과정을 발생시킵니다.

  • 결정형 또는 확률적 추세
  • 고정된 통계적 기간을 갖는 주기
  • 임의적 이동

비정상성은 확률 과정에서 흔히 나타나는 특징으로 통화 시세에 반영되는데요. 비정상 과정을 통한 분석은 매우 어려우므로 이를 여러 개의 작은 단계로 나누어 분석할 수 있도록 개념을 알고 있는 것이 중요합니다. 투자자들이 인디케이터를 이용하면서 특정 통화쌍에 대한 적용성을 따로 생각하지는 않죠. 하지만 몇몇의 계량경제적 도구를 이용하면 인디케이터 적용 가능성과 그 결과를 평가해 볼 수 있습니다.


1.2. 확률 사건 확률

확률 사건(우리의 경우 통화쌍 매매)이란 일어나거나 일어나지 않을 수 있는 사건을 의미합니다. 거래 체결량은 시간별, 일자별로 다르게 나타나는 확률 변수이며 우리는 보통 특정 시간대(일자, 시간, 분 등)의 체결량만을 다루게 되죠.

확률 사건의 상대도수란 전체 관측 사건 N에 대한 사건 M의 발생 비율입니다. 관측 사건의 수가 증가(이론상 무한대로 증가 가능)함에 따라 특정 사건이 일어날 확률도 커지게 되죠. 수학적 정의에 따르면 확률은 0과 1 사이의 숫자입니다. 지금부터 '상대도수'라는 표현 대신 '확률'이라는 용어를 사용하겠습니다.

확률 변수란 일정한 확률을 갖고 일어나는 사건에 부여되는 수치입니다.

전체 집합은 특정한 사건이 가질 수 있는 값의 모임이죠. 시장에서는 특정 기간 동안의 시세가 표본 집합이 됩니다. 확률 사건과 확률 사건의 상대도수가 다르듯 전체 집합을 기준으로 한 통계와 표본 집합을 기준으로 한 통계에도 차이가 있습니다. 두 통계 결과의 차이를 비교하려면 추가적인 계산이 필요하죠. 인디케이터의 경우에는 이 같은 접근법을 사용할 수 없습니다. 가격, 예로 들어 종가라든지 하는 각각의 가격이 결정론적 특성을 갖기 때문입니다.

또 한 가지 흥미로운 점이 있는데요. 값으로서의 시세는 변경하기 쉽지만 그 고유의 통계적 속성은 바꿀 수 없으므로 딜링 센터별 시세 차이를 고려하지 않아도 된다는 것이죠.


1.3. 확률 변수 특징

1.3.1. 기술 통계학

확률 변수의 집합(우리의 경우 통화쌍 시세)은 여러 개의 매개 변수로 이용될 수 있습니다. 이 중 몇몇은 나중에도 사용될 겁니다.

히스토그램은 확률 변수의 주기를 나타냅니다. 확률 밀도를 나타내는 차트이기도 하죠.

산술 평균(평균)은 주어진 값의 합을 값의 개수(우리의 경우 기간의 개수)로 나눈 값입니다. 모든 분포에 적용되는 것은 아니며 중앙값과 일치할 시 정규 분포에서 가장 많이 사용됩니다. 엄밀히 말해 이동 평균 인디케이터는 시세가 평균값을 갖는 분포를 이룰 때 사용 가능하다는 의미죠.

중앙값은 두 가지 경우로 분리할 수 있는데요. 첫 번째는 모든 관측값이 중앙값 미만인 경우, 두 번째는 하나의 관측값이 중앙값을 초과하는 경우입니다. 중앙값은 모든 분포에 존재하며 극단값의 영향을 받지 않습니다. 정규 분포를 이루는 경우 산술 평균이 중앙값과 동일(혹은 밀접)하게 나타납니다.

편차는 참 흥미로운 개념인데요. 우선 분산이란 차이값의 제곱의 평균입니다. 분산의 제곱근은 표준 편차가 되죠.

표준 편차와 분산은 극단값의 영향을 받습니다.

값이 정의되지 않는 비대칭도(왜도)는 확률 밀도 곡선의 비대칭 정도를 나타냅니다. 왜도가 '관측값 개수를 6으로 나눈 숫자'보다 작을 경우 정규 분포에 해당합니다.

또 하나 알아야 할 것은 첨도인데요. 첨도값이 3인 경우 정규 분포에 해당합니다. 첨도값이 3보다 큰 경우 정규 분포보다 꼬리가 두꺼운 분포로 나타납니다.

이렇듯, 정규 분포를 갖는 확률 변수는 여러 방법으로 해석 가능합니다. 관측값의 개수가 많을 수록 분포가 정규 분포에 가까워지므로 나쁜 일은 아니죠.

1.3.2. 정규 분포

정규 분포(가우스 분포)는 중심 극한 정리에 따릅니다.

서로 독립적이고 각각 유한한 분산을 갖는 각 확률 변수는 그 개수가 커질수록 표준 정규 분포에 수렴합니다. 실제 생활에서 확률론을 이용할 때 많이 쓰이기도 하죠.

정규 분포는 좌우 대칭을 이루며 양극단으로 퍼지는 종 모양 곡선을 이룹니다. 두 개의 매개 변수 평균 μ과 표준 편차 σ에 따라 모양이 결정되죠.

기대값과 중앙값을 μ로, 분산을 σ2로 나타냅니다. 기대값을 기준으로 정규 분포 곡선이 대칭을 이룹니다. 비대칭도 γ=0, 오차 ε=3을 갖습니다.

표준값 z=(x−μ)/σ입니다.

μ=0이고 σ=1인 분포는 표준 정규 분포(i.i.i)라고 불립니다.

그림 1. 정규 분포

그림 1. 정규 분포

1.3.3. 스튜던트 t 분포(t-분포)

스튜던트 t 분포의 매개 변수는 자유도(표본 내 독립 변수의 개수)입니다. 자유도가 커질수록 스튜던트 t 분포는 표준 정규 분포에 가까워집니다. 또한, n>30인 경우 정규 분포로 대체할 수 있습니다. n<30인 경우 분포 곡선의 꼬리가 길어집니다.

그림 2. 스튜던트 t 분포

그림 2. 스튜던트 t 분포

t-분포는 통계적 가설 검증에 널리 쓰입니다.

1.3.4. 카이제곱분포(피어슨 분포)

서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포를 χ2 분포라고 합니다. 매개 변수는 자유도 v이며 이는 독립 변수의 개수와 일치합니다. 자유도를 무한대로 증가시키면 χ2 분포는 기대값 v와 분산 2v를 갖는 정규 분포에 가까워집니다. 분포 곡선은 비대칭적이며 단봉형이며 자유도가 커질수록 점점 납작해지며 대칭을 이루게 됩니다.

그림 3. 카이제곱분포

그림 3. 카이제곱분포

1.3.5. F 분포(피셔 분포)

F 분포는 각 집단의 분산을 비교해 얻어진 분포 비율입니다.

두 확률 변수가 각각 자유도가 V1, V2이고 서로 독립인 카이제곱분포를 따른다고 할 때 자유도가 (V1, V2)인 F 분포를 따른다고 합니다.

그림 4. F 분포

그림 4. F 분포


1.3.6. 결정 계수

결정 계수는 독립 변수로부터 예측되는 종속 변수의 분산의 비율을 의미합니다. 변수가 두 개인 경우 피어슨 상관 계수를 구할 수 있는데요. 피어슨 상관 계수는 두 계수 간의 선형 상관 관계를 계량화한 수치입니다.

상관 계수는 관측값 개수 또는 F-검정 값에 따라 그 크기가 달라집니다. 가격의 캔들 개수가 100 이상인 경우 아주 작은 편차를 통해서도 인디케이터의 중요성을 확인할 수 있죠.

1.4. 가설 설정하기

어떤 매개 변수의 선택적 값을 알고 있을 때 전체 매개 변수에 대해서도 알 수 있을까요? 전체 변수의 크기를 알고 있느냐 없느냐에 따라 답이 달라집니다.

매개 변수의 크기에 대한 사전 정보가 없는 경우 신뢰 구간을 설정해 선택적 값으로도 추정이 가능합니다.

실제로는 여러 사항을 확인해야 하지만 대부분의 경우 간단한 가설 하나를 설정하면 됩니다. 이를 귀무 가설이라고 합니다. 해당 가설 검증에는 몇 가지 기준이 적용됩니다. T 점수, F-분포 그리고 카이제곱 검정이 가장 널리 이용되죠. 특정 통계 소프트웨어(예: 스타티스티카) 또는 계량경제적 도구(예: EViews)를 이용하는 경우, 연산 기준은 유의 확률 p-값을 갖습니다. 예를 들어, p-값이 0.02(2%)인 경우 해당 귀무 가설은 유의 확률이 1%일 때 무의미하며 5%일 때는 유의미함을 의미합니다. 따라서, 확률이 '1-p-값'인 경우 해당 귀무 가설은 무의미하다고 할 수 있겠죠.

p-값은 특정 검증 방법의 평가 오류의 심각성에 따라 결정됩니다.


1.5.시세의 통계적 특성

1.5.1. 기술 통계학

기술 통계학은 다음을 포함합니다.

  • 캔들 개수 증가 시 분포 법칙을 따르는 히스토그램
  • 주요 추세 측정: 평균, 중앙값
  • 분산 측정: 표준 편차
  • 형태 측정: 왜도, 첨도
  • 쟈크베라의 정규성 검정

쟈크 베라 검정 귀무 가설 'BUT': 정규 분포 예를 들어 기준값이 발생할 확률이 0.04라고 합시다. 그러면 귀무 가설이 합당하다고 판단될 확률이 4%라고 할 수 있겠죠. 하지만 완전히 옳다고 할 수는 없습니다. 해당 값이 p-값이므로 귀무 가설이 유의미할 확률은 96%가 되는 거니까요.


1.5.2. 자기 상관과 Q 통계량

상관 관계는 두 변수 간의 관계를 계량화하는 척도입니다. 상관 계수는 -1과 +1 사이의 값을 가집니다. -1은 완벽한 음의 상관 관계를, +1은 완벽한 양의 상관 관계를 의미합니다. 0은 상관 관계가 없음을 의미하죠.

하나의 시세의 여러 엘리먼트 간의 상관 관계를 자기 상관이라고 합니다. 추세 판단에 굉장히 유용하게 쓰이는데요. 자기 상관의 존재는 시세가 확률 변수가 아닐 수도 있음을 의미합니다. 임의의 값을 결정하는 가장 중요한 요소가 서로 다른 기간에 대한 여러 가격 사이의 독립성이 되기 때문이죠.

통계 분석 소프트웨어에서 자기 상관은 p-값을 갖는 융-박스(Ljung-Box) Q 테스트를 동반합니다. 이때 귀무 가설은 '자기 상관이 없는 경우, 예를 들어 p-값이 0인 경우 특정 캔들 이전의 상관 관계가 성립하지 않는다'입니다.

시세에서 자기 상관(추세)를 제외하는 것이 수학적 통계를 적용하는 데에 있어 가장 첫 단계가 됩니다.


1.5.3. 시세 정상성

시세의 기대값과 분산이 시간의 영향을 받지 않을 때 시세가 정상성을 띤다고 합니다. 하지만 실제로 적용하기에는 기준이 너무 엄격하죠. 기대값 및/또는 분산의 편차가 일정 시간 내에 수%(보통 5% 미만)로 나타나는 경우 시세가 정상성을 띤다고 하긴 합니다.

하지만 외환 시장의 실제 시세는 정상성을 띠지 않습니다. 다음과 같은 편차가 발생하죠.

  • 시간별 관측치 간 의존성에서 발생된 추세 의존성은 통화 시세와 경제 관측의 공통점입니다.
  • 주기성
  • 상이한 분포(이분산성)

정상성을 띠는 시세를 벗어나는 시세는 비정상성을 띤다고 합니다. 이는 순차적 분해를 통해 분석되죠. 분해 과정은 일정한 기대값 및/또는 분산을 갖는 정상성을 띠는 잔고 값 획득 시 종료됩니다.

시세 정상성 테스트에는 여러 방법이 있습니다. 가장 기본이 되는 건 단위근 검정인데요. 그 중에서도 가장 잘 알려진 방법은 디키-풀러 검정법(Dickey-Fuller test)입니다. 귀무 가설에서 시세는 단위근을 가지므로 정상성을 띠지 않습니다. 예를 들어, 평균과 분산이 시간에 좌우되는 것이죠. 시세의 경우 거의 항상 시간의 영향(추세)을 받으므로, 테스트 실행 시 추세의 존재 여부를 반드시 알려야 합니다. 육안으로도 판별 가능한 정도일 겁니다.


1.6. 인디케이터 설정(회귀 분석)

MQL5 등의 언어로 작성된 인디케이터 텍스트를 훑어보면 두 가지 형식이 눈에 들어옵니다. 가장 일반적인 분석형과 Kravchuk 인디케이터처럼 필터라고도 불리는 도표형이죠.

하지만 우리는 수학적 통계와 계량경제에서 사용되는 '회귀 분석'이란 걸 이용하겠습니다.

시세에서 얻고자 하는 정보를 정했으면 회귀 분석에 사용될 다음의 매개 변수를 정해야 합니다.

  • 인디케이터 연산에 사용되는 독립 변수 목록
  • 독립 변수 비율
  • 종속 변수 연산에 사용될 인디케이터 연산 수식

다중 통화 인디케이터를 만들기는 좀 어렵겠지만 회귀 분석에는 어려울 것이 없습니다.

위의 세 가지 매개 변수를 정했다면 회귀 분석을 시세에 맞춥니다. 계량경제학에서 'fit' 혹은 'fitting'이라는 것은 하나의 평가 방법을 이용해 시세에 대한 회귀의 적합성이 판단되는 표준 절차입니다. 최소자승법(OLS)이 가장 잘 알려진 평가 방법입니다.

다음의 두 가지가 중점이 되는데요.

  • 인디케이터와 시세 값의 일치 여부-남은 오류 값
  • 미래에 대한 회귀 분석 변수의 안정성

인디케이터 다이어그노스틱을 통해 이에 대한 해답을 구할 수 있습니다.


1.7. 인디케이터 다이어그노스틱

인디케이터 (회귀 분석) 다이어그노스틱은 다음의 세 가지로 나뉩니다.

  • 비율 진단
  • 잔차 진단
  • 안정성 진단

각각의 진단 절차에는 귀무 가설이 진단 가설로 이용됩니다. 진단 결과로는 하나 이상의 통계치와 해당 p-값을 선택됩니다. p-값은 귀무 가설의 타당성을 검증하는 확률이며 이는 유효성 검사의 기반이 됩니다.

즉, p-값이 낮은 경우 귀무 가설은 기각되는 것이죠. 예를 들어, p-값이 0.05와 0.01 사이에 위치하는 경우 귀무 가설은 1%가 아닌 5%의 편차를 갖게 됩니다.

각 진단별로 결과가 상이함에 주의하세요. 예를 들어, 어떤 경우에는 통계 결과가 아주 정확한 유한 분포를 가질 수 있습니다. 주로 t-분포 또는 F 분포이죠. 반면 다른 경우 점근적 카이제곱 분포를 보일 수도 있죠.


1.7.1. 비율 진단

비율 진단은 놓쳤거나 반복되는 변수에 대한 진단을 포함한 측정 비율 값에 대한 정보를 제공하며 한계를 설정합니다. 다음의 회귀 분석 방정식 비율에 대한 진단이 이루어집니다.

  • 신뢰 타원을 이용한 방정식 비율 간 상관 관계 진단
  • 손실 변수 테스트를 이용한 회귀 분석 방정식 내 추가 변수 필요성 진단
  • 반복 변수 테스트를 이용한 초과 변수 진단
  • 브레이크 테스트를 이용한 추세 변동 시 회귀 분석 방정식 반응 진단 각 세그먼트 내 시세 등락 여부와 관계 없이 잘 작동하는 회귀 분석 방정식을 만드는 것이 중요합니다.


1.7.2. 잔차 진단

비정상성을 띠는 시세를 정상성을 띠는 시세로 바꾸려면 잔차를 진단하는 것이 아주 중요하다고 이야기한 바 있죠.

단위근 검정을 통해 기본 시세에 비해 잔차가 정규 분포에 더 가까운 분포를 띤다는 것을 알 수 있습니다. '가깝다'는 말은 잔차의 평균과 분산이 시간에 좌우되므로 회귀 분석 방정식이 불안정해진다는 의미이기도 합니다.

투자자들이 자주 말하는 것처럼 매매 시스템을 '과도하게 최적화'하면 안되겠죠. 기대값과 분산이 시간에 따라 변화하므로 미래 시세에는 적용할 수 없습니다.

잔차 진단에는 다음의 테스트가 수행됩니다.

상관 관계 통계 차트-Q 통계량은 잔차 자기 상관을 확인하며 p-값이 포함된 융-박스 Q 테스트를 진행합니다.

히스토그램-정규성 검정은 쟈크-베라 검정과 같은 잔차에 대한 기술 통계를 히스토그램으로 나타냅니다. 잔차가 정규 분포를 갖는 경우, 히스토그램은 종모양으로 나타나며 쟈크-베라 검정은 무의미합니다.

이분산성 검정은 잔차의 이분산성을 확인합니다. 이분산성이 확인될 경우, 회귀 분석의 모형 설정을 변경(인디케이터 변경)하거나 이분산성을 모델화합니다.

알려지지 않은 형태의 이분산성 검정에 대한 이분산성 부재라는 귀무 가설을 갖는 화이트 테스트를 진행합니다.

화이트는 자신의 방법을 회귀 모델의 오차 분산이 일정한지 여부를 확인하는 테스트로 설명합니다. 귀무 가설이 오류가 등분산적인 동시에 독립 변수로부터 독립적이며 선형 모형이 옳다는 것을 기반으로 하기 때문이죠. 이런 매개 변수 중 하나라도 제외될 경우 유의미한 통계 결과가 나올 수 있습니다. 즉, 모든 매개 변수를 고려하여도 무의미한 통계 결과가 나올 수 있다는 뜻이죠.


1.7.3. 안정성 진단

안정성 진단은 가장 흥미로우면서도 가장 중요한 단계입니다. 진단 결과가 인디케이터의 예측 능력과 직결되니까요. MT4와 MT5의 안정성은 전략 테스터로 진단할 수 있습니다. 다만 전략 테스터는 인디케이터를 기반으로 하는 매매 시스템의 미래에 대한 안정성을 진단하지는 못합니다. 이에 대해서는 후술하겠습니다. 과거 기록을 기반으로 매매 시스템에 대한 어느 정도의 평가만 할 수 있죠.

매매 시스템 검증 방법과 동일하게 안정성 진단의 경우에도 Т개의 시세 바가 관측값 Т1으로 나뉘어지며 Т2는 테스트와 평가에 이용되는 Т Т1개의 바를 갖습니다.

매매 시스템이 두 개의 세그먼트를 대상으로 테스트될 경우 두 개의 세그먼트가 알려지지 않은 통계적 매개 변수로 인해 비슷한 값을 가진다는 결과가 나오므로 미래에 대한 안정성 문제를 해결할 수 없습니다. 또한, 매매 시스템 개발 과정에서 해결된 통계적 문제도 알 수 없게 되죠.

물론 매매 시스템 테스트 과정에서 서로 다른 시세 구간이 선택되기는 하지만 육안으로는 구별할 수 없습니다. 예를 들어, 회귀 분석 결과를 불안정하게 만들 수 있는 구간이나 이분산성을 띠는 구간을 알 수는 없다는 거죠.

다음은 다양한 테스트 방법에 대한 소개입니다. 아래에 나열된 테스트를 이용하면 테스트 조건이 미래 시세에 반영될 경우 매매 시스템은 미래에도 안정적인 결과를 산출할 것입니다.

예를 들어 추세 방향을 전환시키는 건 브레이크포인트 테스트에 해당되겠죠. 해당 테스트에서 브레이크포인트가 발견되지 않으면 인디케이터는 추세 변화와 관계 없이 안정적인 결과를 산출하게 됩니다.

Quandt-Andrews 검정

두 개의 관측값 사이에 위치하는 데이터 구간의 15% 내에 브레이크포인트가 없다는 것이 귀무 가설입니다.

Quandt-Andrews 검정은 주어진 수식을 이용해 데이터 구간 내 하나 이상의 형태가 알려지지 않은 브레이크포인트의 존재 여부를 확인합니다. 두 개의 날짜 혹은 관측값 t1t2 사이의 모든 관측값에 대해 별도의 Chow 검정을 진행하는 것이 포인트죠. 그런 다음 Chow 검정의 k 값이 t1t2 사이에브레이크포인트가 존재하지 않는다는 귀무 가설에 대한 검정 테스트 데이터로 통합됩니다.

램지(Ramsey)의 RESET 테스트

귀무 가설은 회귀 분석이 평균값 0을 갖는 정규 분포라는 것입니다.

자기 상관, 이분산성 또는 비정규 분포는 잡음이 정규 분포를 따른다는 가정에 반하죠.

RESET은 다음과 같은 모형 설정 오류를 테스트합니다.

  • 결측 변수, 즉 X가 모든 변수를 포함하지 않는 경우
  • 잘못된 함수 형태, 즉 X와 y의 변수 중 일부가 로그, 제곱 등으로 변형되어야 하는 경우
  • X 측정 오류 또는 시차가 있는 변수 및 잡음 상관 관계 등의 요인으로 X와 e 사이의 상관 관계가 성립될 수 있습니다.

이러한 모형 설정 오류가 발생하는 경우, 테스트에 시프트가 발생(시스템 오류가 0이 아닌 경우)하며 테스트 결과는 무효화(측정값 개수 증가 시 확률 변화)됩니다. 다시 말해 아웃풋 프로시저가 타당성을 잃습니다.

재귀 잔차

재귀 잔차 테스트는 바의 개수가 점진적으로 증가하는 다수의 회귀 분석을 기반으로 합니다.

1단계 예측 테스트

재귀 잔차의 의미를 잘 살펴보면, 각각의 재귀 잔차가 1단계 예측 오류 값임을 알 수 있습니다. 주어진 시간 t까지에 대한 종속 변수 값의 통과 가능성을 확인하려면 모든 오류값이 전체 데이터의 표준 편차와 대조되어야 합니다.

재귀 비율 예측

샘플 내 예측 데이터 수 증가 시 모든 비율에 대한 예측값 변화를 측정합니다. 전체 재귀 예측 방정식에 대한 선택된 비율을 나타냅니다. 예측 비율에 대한 두 개의 표준 구간입니다.

데이터 수의 증가에 따른 비율의 변화는 불안정성을 나타냅니다. 구조적 중단이 발생하는 경우 모형 중간에 큰 변화가 나타나기도 합니다.

기술적 분석은 다양한 '적응형' 인디케이터를 제공하기는 하지만 해당 인디케이터들이 실제로 필요한지는 설명해 주지 않죠. 재귀 비율 예측이 이를 대신합니다.


2. 초기 데이터 준비하기

2010년 11월 11일부터 2011년 3월 23일까지의 EURUSD 종가를 이용해 분석하도록 하겠습니다. 시세는 MT4 터미널에서 엑셀로 내보내기 되었습니다.

다음과 같은 선형 차트가 나타납니다.

그림 5. EURUSD 차트

그림 5. EURUSD 차트

해당 예시는 인디케이터 내 손실 변수의 중요성을 보여주고 있습니다. 이를 그저 어쩌다 걸린 질이 낮은 데이터로 치부하고 넘겨서는 안됩니다. 데이터 손실에는 여러 이유가 있습니다. 또한 미국의 공휴일 동안 손실된 데이터도 고려해야 합니다. 환율과 주가 지수의 상관 관계 등 여러 경제적 요인을 기반으로 하는 매매 시스템 구축 시 데이터 손실이 특히 큰 문제가 되는데요.

해당 예시처럼 간단한 경우에는 선형 보간법을 이용해 데이터 손실의 영향을 어느 정도는 낮출 수 있습니다.

하지만 극단값도 고려해야 하죠. 극단값은 데이터 손실보다 좀 더 복잡한 문제인데요. 우선 극단값이 무엇인지를 알아야 합니다. 저는 극단값을 강한 가격 움직임을 수반하지 않는 3 표준 편차를 초과하는 가격 움직임으로 규정합니다.

극단값은 시세가 아니라 시세의 잔차로 결정됩니다. 다음 시세에서 이전 시세를 뺀 값, 즉 eurusd(i)–eurusd(i+1)이 됩니다. 영어에서는 여러 방법으로 해당 값을 표현합니다. 차트의 경우 'differenced'라는 표현이 사용되죠. 가장 많이 사용되는 건 'returns'라는 표현이고요. 저는 '잔차'라는 표현을 계속해서 사용하도록 하겠습니다. 시세에서 추세를 제거한 값이죠. EURUSD 잔차 차트는 다음과 같이 나타납니다.


그림 6. EURUSD 잔차

그림 6. EURUSD 잔차

EURUSD 통화쌍의 표준 편차 값은 0.033209입니다. 따라서 우리가 만든 극단값 기준에 따르면 해당 시세에는 극단값이 존재하지 않습니다.

극단값이 존재하는 경우, 손실된 데이터 등으로 대체한 후 선형 보간법을 이용하면 됩니다.

이 밖에도 다양한 극단값 제거 방법이 있습니다. 무엇보다 제가 제시한 방법은 딱히 맞는 방법이 아닙니다. 잔차에 추세 제거 후 시세 잔차가 포함되는 경우, 극단값의 크기가 추세 결정 방법의 영향을 받기 때문입니다. 다시 말해 극단값 해결에 앞서 추세 결정 문제가 해결되어야 합니다.

이 정도면 추가 분석을 위한 기초 데이터 준비가 완료되었다고 보아도 좋습니다.


3. 통계적 매개 변수 분석

외환 시장 시세의 통계적 매개 변수 분석과 EURUSD 시세 분석은 인디케이터의 분석 및 매매 시스템에 대한 적용 가능성을 확인하기 위해 시행됩니다.

매매 시스템을 구성하는 알고리즘은 일반적으로 다음과 같죠.

  1. 인디케이터(예: 이동 평균)가 선택되고 해당 인디케이터를 기반으로 하는 매매 시스템이 생성됩니다.
  2. 단일 인디케이터를 기반으로 매매 시스템을 구축하는 것은 거의 불가능하므로 잘못된 시장 진입을 방지하기 위해 추가 인디케이터가 구현됩니다.

다만 너무 많은 인디케이터를 추가하려고는 하지 마세요. 꼭 기억하세요!


3.1. 기술 통계학

시세가 임의 값처럼 정규 분포를 따르는 경우 기간의 수에 따라 연산 오류 평균값에 차이가 생기겠죠. 정규 분포에서는 정수인 기대값이은 무한대로 수렴할 거고요. 시세는 수평선으로, SL과 TP은 표준 편차 값으로 설정하면 될 거예요. 하지만 그럴 수는 없죠. 왜 그럴까요?

정규 분포를 따르는 시세의 컴플라이언스를 확인해 보겠습니다.

다음과 같은 EURUSD 시세 히스토그램을 생성합니다.

그림 7. EURUSD 히스토그램

그림 7. EURUSD 히스토그램

해당 히스토그램은 우리가 선택한 구간에 특정 가격이 몇 번이나 나타났는지를 보여줍니다.

얼핏 보기에도 정규 분포를 따르고 있지 않음을 알 수 있죠. 꼭지점이 두 개나 있네요. 정규 분포를 따른다는 H0 귀무 가설에 대한 쟈크-베라 검정을 시행하겠습니다. 다음과 같은 결과가 나타납니다.

 매개 변수 실제값 이론값
평균
1.3549
평균값이 중앙값과 같아야 함
중앙값
1.3580
중앙값이 평균값과 같아야 함
표준 편차
0.0332
-
비대칭성(경사)
0.0909
0.0
첨도
2.1052
3.0
쟈크-베라 검정
3.5773
0.0
확률
0.1671
1.0


표 1. 정규성 검정 결과

쟈크-베라 기준에 따르면 다음과 같은 이유로 정규성에 대한 컴플라이언스가 성립되지 않습니다.

  • 거의 동일한 평균값과 중앙값
  • 0에 가까운 비대칭성
  • 3에 가까운 첨도
  • 16.7186%의 확률로 정규 분포를 따르는 기존 값의 불일치 확인

어쩌면 저랑 생각이 다르실 수도 있습니다. 95%의 유의 수준을 갖는 귀무 가설을 기각할 수는 없습니다. 하지만 16%의 확률로 정규 분포를 따르기는 불가능하죠.

평균값과 중앙값이 거의 일치하므로(정규 분포 특성) 평균값이 신뢰할 만한지 확인해 보겠습니다. 시세를 섹션화해 평균 평균값을 계산해 봅시다.

다음과 같은 결과가 나타납니다.

EURUSD
 개수평균
표준 편차
 평균 오류 값
[1.25, 1.3)
4
1.2951
0.0034
0.0017
[1.3, 1.35)
42
1.3262
0.0125
0.0019
[1.35, 1.4)
48
1.3740
0.0133
0.0019
[1.4, 1.45)
9
1.4131
0.0083
0.0027
전체
103
1.3549
0.0332
0.0032


표 2. 세그먼트별 평균 값 비교

산출된 평균에 대한 오류 값은 19핍에서 32핍까지 달합니다.

평균값에 대한 신뢰도가 상당히 떨어지죠.

표준 편차가 0.033209라니 아주 의심스럽네요. 332핍이 말이 되나요! 사실 EURUSD 통화쌍의 경우 통계적 특성을 왜곡하는 확정적 요소인 추세를 갖고 있으므로 이런 엄청난 표준 편차는 말이 됩니다.


3.2. 시세 자기 상관 테스트

'임의성'은 임의 수량을 갖는 값들의 서로에 대한 독립성에 기반합니다. 시세의 경우 움직임의 방향, 즉 추세로 섹션을 구분할 수 있죠.

통계학적 결정론(추세)는 서로 인접한 EURUSD 값 사이의 종속성이 자기 상관 계산, 즉 두 값의 상관 관계를 통해 확인됨을 의미합니다.

그 결과는 다음과 같습니다.

그림 8. EURUSD 자기 상관 함수

그림 8. EURUSD 자기 상관 함수

Q 통계량에 대한 확률은 구간과 관계 없이 0으로 동일합니다.

연산 결과는 다음과 같습니다.

  • 자기 상관 함수 값이 천천히 감소하며 아마 지속적으로 감소할 것입니다.

산출된 확률값은 귀무 가설과 연결되나 16번째 래깅까지 상관 관계까 성립되지 않습니다. 아마 확률값이 0으로 수렴할 것으로 보이므로 시세의 자기 상관(추세) 부재에 대한 귀무 가설을 기각합니다.


3.3. 시세 정상성 분석

딕키-풀러 검정법을 이용해 EURUSD 통화쌍에 대한 정상성 분석을 실행하겠습니다.

분석 결과는 두 가지로 나타납니다. EURUSD에 대한 결과 및 미분된 EURUSD에 대한 결과입니다. 후자는 D(EURUSD)로 표기합니다.

귀무 가설은 EURUSD가 정상성을 띠지 않으며 단위근을 갖는다는 것입니다. 단위근에 대한 계산뿐 아니라 EURUSD 미분 결과에 대한 통계적 특성 또한 알아보겠습니다. 다음은 미분이 반영된 차트입니다.

그림 9. EURUSD 통화쌍 잔차

그림 9. EURUSD 통화쌍 잔차

미분된 EURUSD 시세는 0값 부근에 분포하는 진동값인 것 같군요.

이번에는 세 가지 방법으로 EURUSD 시세에 대한 정상성 테스트를 진행해 보겠습니다.

1. 시프트(정수)와 추세가 없는 시세의 경우 회귀 분석이 다음과 같이 나타납니다.

D(EURUSD)=С(1)*EURUSD(1)+С(2)*D(EURUSD(1))

귀무 가설이 지지될 확률(시세가 정상성을 띠지 않을 확률): 0.6961

 변수비율
T 점수값이 0일 확률
 EURUSD(1)
3.09E-05
0.0488
0.9611
 D(EURUSD(1))
0.2747
2.8759
0.0049

표 3. 시프트와 추세가 고려되지 않은 정상성 테스트 결과

결정 계수로 D(EURUSD)에 피팅된 회귀 모델: 0.07702

다음의 결론이 도출됩니다.

  1. EURUSD 통화쌍은 높은 확률(69%)로 정상성을 띠지 않습니다. 다만 귀무 가설을 완전히 기각하지는 않겠습니다.
  2. D(EURUSD) 증분은 95%의 확률로 이전 EURUSD 값에 종속되지 않습니다.
  3. D(EURUSD)는 이전 D(EURUSD(1)) 증분에 완전히 종속됩니다.
  4. 결정 계수 비율 0.077028은 D(EURUSD)에 대한 회귀 분석의 컴플라이언스가 성립되지 않음을 나타냅니다.

2. 시프트(정수)가 있는 EURUSD 통화쌍의 경우 회귀 분석이 다음과 같이 나타납니다.

D(EURUSD)=С(1)*EURUSD(1)+С(2)*D(EURUSD(1))+]С(3)
 변수비율
T 점수값이 0일 확률 
 EURUSD(1)
-0.0445
-1.6787
0.0964
 D(EURUSD(1))
0.3049
 3.1647
0.0021
 С 0.0603 1.68030.0961


표 4. 시프트가 고려된 정상성 테스트 결과

귀무 가설이 지지될 확률(시세가 정상성을 띠지 않을 확률): 0.4389

결정 계수로 D(EURUSD)에 피팅된 회귀 모델: 0.1028

다음의 결론이 도출됩니다.

  1. EURUSD 통화쌍은 꽤 높은 확률(43%)로 정상성을 띠지 않습니다. 다만 귀무 가설을 완전히 기각하지는 않겠습니다.
  2. 이전 EURUSD 값과 정수(시프트)는 5% 유의 수준으로 0값인 것으로 판단되므로 D(EURUSD) 증분 회귀 분석식에 포함하지 않습니다.
  3. D(EURUSD)는 이전 D(EURUSD(1)) 증분에 완전히 종속됩니다.
  4. 결정 계수 비율 0.102876은 D(EURUSD)에 대한 회귀 분석의 컴플라이언스가 성립하지 않음을 나타냅니다.

3. 시프트(정수)와 추세가 있는 EURUSD 시세의 경우 회귀 분석이 다음과 같이 나타납니다.

D(EURUSD)=С(1)*EURUSD(1)+С(2)*D(EURUSD(1))+С(3)+С(4)*TREND

귀무 가설이 지지될 확률(시세가 정상성을 띠지 않을 확률): 0.2541

 변수비율
T 점수
값이 0일 확률 
EURUSD(-1)
-0.0743
-2.6631
0.0091
D(EURUSD(-1))
0.2717
2.8867
0.0048
C
0.0963
2.5891
0.0111
TREND(11/01/2010)
8.52E-05
2.7266
0.0076

표 5. 시프트와 추세가 반영된 정상성 테스트 결과

결정 계수로 D(EURUSD)에 피팅된 회귀 모델: 0.1667

다음의 결론이 도출됩니다.

  1. EURUSD 통화쌍은 꽤 높은 확률(25%)로 정상성을 띠지 않습니다. 다만 귀무 가설을 완전히 기각하지는 않겠습니다.
  2. 추세 기간 동안의 비율이 0으로 수렴될 확률이 1% 미만이기 하지만 해당 값은 매우 작습니다. 추세가 수평선으로 나타날 정도라고 보면 됩니다.
  3. 결정 계수 비율 0.166742는 D(EURUSD)에 대한 회귀 분석의 컴플라이언스가 성립하지 않음을 나타냅니다.

위의 연산 결과를 바탕으로 EURUSD 통화쌍이 정상성을 띠지 않는 경우 다음 값에서 이전 값을 뺀 값의 차이는 아마 정상성을 띨 것이라는 결론을 도출할 수 있습니다.

이 경우 추세와 시프트는 배제되는데요. 다음의 방정식으로 나타냅니다.

eurusd=c(1)*trend+c(2)

이때 c(1)과 c(2)는 최소제곱법으로 산출되는 정수입니다.

해당 방정식은 MT4 터미널의 '회귀 분석' 도구의 방정식과 완전히 일치하는 흔한 회귀 분석식입니다. 기본 통화쌍을 직선으로 대체할 수 있죠. 기술적 분석에서 널리 쓰이는 방법입니다. 채널, 지지선 및 저항선, 피보나치 수열, 갠 이론 등에서도 확인 가능하죠.

직선은 모든 투자자가 사용할 수 있는 가장 쉬운 도구입니다. 우리는 왜 이 도구를 신뢰하는 걸까요? 왜 그렇게 직선을 믿는 거죠? 이에 대해서는 본문 하단에서 후술하겠습니다.

직선 외에도 곡선 또한 기술적 분석에서 사용됩니다. 아주 잘 알려진 두 가지 인디케이터, 지수 이동 평균과 호드릭-프레스콧 필터를 이용하면 같은 결과가 나오죠.


4. 통화쌍 추세 제거

계량경제학과의 연관성을 좀 더 강조하기 위해 '추세 제거'라는 표현을 사용했습니다. 보다 정확하게, 그리고 기존 금융 시장 모델에 맞추어 시세의 기본 요소의 제거(추세 제거)에 대해 이야기해 보죠.

선형 추세, 지수 이동 평균 및 호드릭-프레스콧 필터를 세 가지 기본 요소로 보겠습니다.

모든 기본 요소는 시간열로 설정됩니다.


4.1. 선형 추세

기존 값에 하나를 추가해 선형 추세를 설정해 봅시다.

다음의 선형 회귀 비율을 계산합니다.

eurusd=c(1)*trend+c(2)

EURUSD 기본 시세와 수직으로 이동한 회귀 직선, 그리고 시세에서 회귀 직선을 뺀 잔차 값이 모두 결합된 차트가 나타납니다.

그림 10. EURUSD 차트의 선형 회귀 분석 및 잔차

그림 10. EURUSD 차트의 선형 회귀 분석 및 잔차

최소제곱법을 이용해 다음의 방정식을 계산합니다.

EURUSD=С(1)*TREND+С(2)

해당 회귀 분석식은 다음의 결과를 산출하는데요.

변수
비율
 T 점수 값이 0일 확률
추세
0.0004
4.4758
0.0000
C
1.3318
223.3028
0.0000

표 6. 선형 추세 정상성 테스트 결과

결정 계수에 피팅된 회귀 모델: 0.1655

이를 기반으로 다음의 결론을 도출할 수 있습니다.

  1. 결정 계수 비율에 따르면 직선으로는 전체 시세 변화 중 16%에 대해서만 설명이 가능합니다.
  2. 시세에서 선형 추세를 제외한 잔차와 시세 자체 사이에 거의 차이가 없죠. 시세와 동일한 통계적 결함이 발생하네요.


4.2. 지수 평활법

계절성이 제외된 홀트-윈터스 기법에 시세(레벨)에 대한 평활화 매개 변수와 추세가 추가된 알고리즘을 이용해 지수 평활화를 시행합니다.

다음과 같이 진행되죠.

  • 추세에서 시세를 분리해 시계열에서 추세 제거
  • 레벨(a 매개 변수) 평활화
  • 시세 예측(b 매개 변수) 평활화

다음은 도출된 결과입니다.

그림 11. 지수 이동 평균

그림 11. 지수 이동 평균

래깅은 조금 있지만 시세가 잘 반영된 표준 지수 이동 평균이 나왔네요. 평활화 매개 변수는 그림 상단에 표시되어 있고, 매개 변수는 아직 선택되지 않았습니다.

최소제곱법을 이용해 다음의 방정식을 계산합니다.

EURUSD=С(1)*EURUSD_EX+С(2)

해당 회귀 분석식은 다음의 결과를 산출하는데요.

변수
비율
 T 점수값이 0일 확률
EURUSD_EX
0.9168
24.3688
 0.0000
C
0.1145
2.2504
 0.0266


표 7. 선형 회귀 분석 결과

결정 계수 시세로 피팅된 회귀 모델: 0.8546

이를 기반으로 다음의 결론을 도출할 수 있습니다.

  1. 결정 계수 비율에 따르면 지수 이동 평균은 전체 시세 변화 중 84%에 대해 설명할 수 있습니다.
  2. 시세에서 지수 이동 평균을 제외한 잔차는정규 분포의 확률 과정과 유사하죠. 잔차를 계속해서 분석해 보겠습니다.


4.3. 호드릭-프레스콧 필터

호드릭-프레스콧 필터는 람다 표현식을 갖습니다.

매개 변수에 대해서는 따로 설명하지 않고 그냥 8162로 설정할게요.

다음과 같은 결과가 나타납니다.

그림 12. 호드릭-프레스콧 필터

그림 12. 호드릭-프레스콧 필터

최소제곱법을 이용해 다음의 방정식을 계산합니다.

EURUSD=С(1)*EURUSD_HP+С(2)

해당 회귀 분석식은 다음의 결과를 산출하는데요.

변수
비율
T 점수
 값이 0일 확률
EURUSD_HP
1.0577
23.9443
0.0000
C
-0.0782
-1.3070
0.1942


표 8. 시세에 피팅된 회귀 분석 결과

결정 계수 시세로 피팅된 회귀 모델: 0.8502

이를 기반으로 다음의 결론을 도출할 수 있습니다.

  1. 두 번째 비율(정수)가 0일 확률은 19%입니다. 회귀 분석식에 왜 정수가 사용되는지 의문이 생기죠.
  2. 결정 계수 비율에 따르면 호드릭-프레스콧 필터는 전체 시세 변화 중 85%에 대해 설명할 수 있습니다.
  3. 시세에서 호드릭-프레스콧 필터를 제외한 잔차가 정규 분포의 확률 과정과 유사하므로 더 분석해 볼 가치가 있겠네요.


5. 비율 진단

비율 진단은 다음의 테스트를 포함합니다.

  1. 신뢰 타원을 이용한 비율 간 상관 관계를 진단합니다. 타원이 원형에 가까울수록 상관 관계가 약화됩니다.
  2. 신뢰 구간이 방정식의 변동 비율에 대한 제한을 설정합니다. 기술적 분석에서 비율은 '기간' 변수를 이용해 변경할 수 있는 정수입니다. 이때 비율은 어떤 경우에도 임의의 값이 되지는 않습니다. 맞는지 확인해 보죠.
  3. 추가 독립 변수가 무의미하다는 귀무 가설로 결측 변수를 테스트합니다.
  4. 추가 변수 비율이 0에 수렴한다는 귀무 가설로 반복 변수를 테스트합니다.
  5. 브레이크포인트 테스트를 통해 시세의 통계적 특성에 대한 변경 지점을 확인합니다. 기술적 분석을 이용해 해당 변경 지점의 추세 변경 지점을 확인합니다. 분석된 EURUSD 통화쌍에서 최소 두 가지 추세가 보입니다. 상승세와 하락세이죠. 플랫형은 무시합니다.

5.1. 신뢰 영역

각각의 회귀 분석식에 신뢰 영역을 생성합니다.

그림 13. 회귀 분석식 1 신뢰 영역

그림 13. 회귀 분석식 1 신뢰 영역

그림 14. 회귀 분석식 2 신뢰 영역

그림 14. 회귀 분석식 2 신뢰 영역

그림 15. 회귀 분석식 3 신뢰 영역

그림 15. 회귀 분석식 3 신뢰 영역


위의 그림을 기반으로 다음의 결론을 도출할 수 있습니다.

  1. 선형 추세 회귀 분석 비율 간의 상관 관계가 성립되며 이는 약 0.5의 값을 갖습니다.
  2. 지수 이동 평균과 호드릭-프레스콧 필터가 적용된 회귀 분석식의 상관 관계는 1의 값을 갖습니다. 회귀 분석식에 정수가 필요 없다는 뜻이죠. 정수가 0일 확률이 높으므로 호드릭-프레스콧 필터가 적용된 회귀 분석에서는 충분히 정수를 제외할 수 있습니다.


5.2. 신뢰 구간

회귀 분석식의 정수가 임의의 값이라는 가정을 확인해 봅시다.

우선 신뢰 구간을 설정해야 합니다.

 변수  비율 90% 신뢰 구간 95% 신뢰 구간
하한
상한
거리(%)
하한 상한 거리(%)
추세
0.0004
0.0002
0.0006
74.3362
0.0002
0.0006
88.7168
C
1.3318
1.3219
1.3417
1.4868
1.3200
1.3436
1.7767
        
EURUSD_EX
0.9168
0.8543
0.9793
13.6247
0.8422
0.9914
16.2810
C
0.1145
0.0300
0.1991
147.5336
0.0135
0.2155
176.2960
        
EURUSD_HP
1.0577
0.9844
1.1310
13.8661
0.9701
1.1453
16.5694
C
-0.0782
-0.1776
0.0211
254.0276
-0.1970
0.0405
303.5529


표 9. 회귀 분석 신뢰 구간

신뢰 구간을 잘 관찰해 보면 비율이 상태에 따라 변화하는 임의의 값임을 알 수 있습니다. 신뢰도가 높아지거나(채널 넓이 감소) 구간의 넓이가 확장됨에 따라 달라지죠.

'거리(%)'는 비율 값에 대한 비율 값 구간 너비를 백분율로 나타냅니다. 굉장히 흥미롭죠. 지수 이동 평균과 호드릭-프레스콧 필터가 적용된 회귀 분석에서 정수에 대한 해당 값은 100%를 초과하니까요! 해당 분석식에서 두 비율 간의 상관 관계는 1에 가까운 값을 갖는다는 걸 기억하세요.

회귀 분석식에서 정수를 제외하고 다시 비율을 계산해 봅니다.

다음의 결과가 얻어집니다.

 변수  비율 90% 신뢰 구간 95% 신뢰 구간
하한 상한 거리(%) 하한 상한 거리(%)
EURUSD_EX1.0014
0.9999
1.0030
0.3131
0.9996
1.0033
0.3742
EURUSD_HP
1.0000
0.9984
1.0015
0.3127
0.9981
1.0018
0.3737

표 10. 재계산된 회귀 분석 비율 신뢰 구간

지수 이동 평균과 호드릭-프레스콧 필터가 적용된 회귀 분석에 대한 새로운 연산 결과는 따로 설명하지 않겠습니다. 복잡하니까요.

다음의 회귀 분석 방정식이 계속 사용될 겁니다.

EURUSD=1.00149684612*EURUSD_EX

EURUSD=1.00002609628*EURUSD_HP


5.3. 손실 및 초과 변수(인디케이터)

일반적인 매매 시스템 생성 알고리즘은 다음과 같습니다. 하나의 인디케이터를 선택해 매매 시스템을 테스트합니다. 다른 인디케이터를 추가해 거짓 신호 등을 제거합니다.

이렇게 되면 매매 시스템이 사용할 수 없게 되어 버리죠. 추가 인디케이터가 필요하거나 기존 시스템의 인디케이터를 제거해야 하는 경우 매매 시스템은 기능을 수행할 수 없게 됩니다. 기존의 이론으로는 설명이 불가능하지만 손실 및 초과 변수에 대한 테스트로 이에 대한 설명이 가능합니다.

추가 독립 변수가 무의미하다는 귀무 가설로 결측 변수를 테스트합니다.

우리가 만든 세 가지 인디케이터를 합쳐서 하나의 복잡한 인디케이터를 만들었습니다.

EURUSD=C(1)*TREND+C(2)+C(3)*EURUSD_EX+C(4)*EURUSD_HP

이 인디케이터에 대한 회귀 분석을 실행하면 다음의 결과가 나옵니다.

EURUSD=1.41879198369e-05*TREND-0.00319950161771+0.50111527265*EURUSD_EX+0.501486719095*EURUSD_HP

다음 표는 각 비율이 0에 수렴할 확률을 나타냅니다.

 변수 비율값이 0일 확률
추세
 1.42E-05
 0.7577
C
 -0.0032
 0.9608
EURUSD_EX
 0.5011
 0.0000
EURUSD_HP 0.5014 0.0004


표 11. 인디케이터 비율이 0으로 수렴할 확률

표의 결과를 보니 추세가 반영된 인디케이터와 정수는 포함시키지 말 걸 그랬네요. 비율 값이 확실히 0이니까요.

기존의 인디케이터에 다른 인디케이터(지수 이동 평균의 제곱 eurusd_ex^2)를 추가해 손실 변수(eurusd_ex^2)에 대한 테스트를 실행합니다. 이때 귀무 가설은 추가 변수 eurusd_ex^2가 유의미하지 않다는 것입니다.

산출된 T 점수와 F-분포에 따르면 추가 변수(eurusd_ex^2)가 유의미하지 않을 확률은 44.87%입니다. 따라서 추가 인디케이터는 필요 없다고 볼 수 있죠.

하지만 추가 변수 eurusd_ex^2가 적용된 인디케이터 연산 결과는 꽤 흥미롭습니다.

변수
 비율값이 0일 확률
추세
1.69E-05
0.7154
C
1.9682
0.4496
EURUSD_EX
-2.3705
0.5317
EURUSD_HP
0.4641
0.0020
EURUSD_EX^2
1.0724
0.4487

표 12. eurusd_ex^2가 적용된 인디케이터 비율이 0으로 수렴할 확률

표를 보면 호드릭-프레스콧 필터를 기반으로 한 인디케이터만이 좀 도움이 되는 것 같습니다.

추가 변수 비율이 0에 수렴한다는 귀무 가설로 반복 변수를 테스트합니다.

반대로도 한번 확인해 보죠. 추가 변수 비율이 0에 수렴한다는 귀무 가설로 추가 변수를 테스트하는 겁니다. 우리 인디케이터에서는 trend 변수와 c 변수를 반복 변수로 나타냅니다.

산출된 T 점수와 F-분포에 따르면 trend 반복 변수와 c 반복 변수가 0으로 수렴할 확률은 92.95%입니다. 따라서 trend 변수와 c 변수가 반복된다고 할 수 있죠. 기존의 결과와도 잘 맞습니다.

지수 이동 평균과 호드릭-프레스콧 필터가 적용된 인디케이터의 연산 결과는 다음과 같습니다.

변수
비율
값이 0일 확률
EURUSD_EX
0.4992
0.00
EURUSD_HP
0.5015
0.00


표 13.
지수 이동 평균과 호드릭-프레스콧 필터가 적용된 인디케이터 비율이 0에 수렴할 확률

이제 매매 시스템에 대한 해당 인디케이터의 유용성에 의문이 들지 않는군요.


6. 잔차 진단

6.1. 자기 상관-Q 통계량

그림 16. 선형 추세가 제거된 자기 상관 함수

그림 16. 선형 추세가 제거된 자기 상관 함수

상관 관계 통계 차트는 기본 시세에서 선형 추세를 제거한 값이 추세의 존재를 반박하지 않음을 보여줍니다. 상관 관계가 부재할 확률은 0입니다. 모든 유의 수준에서 귀무 가설을 완전히 기각합니다.

그림 17. 지수 평활이 제거된 자기 상관 함수

그림 17. 지수 평활이 제거된 자기 상관 함수

상관 관계 통계 차트는 기본 시세에서 지수 평활 곡선을 제거하면 두 번째 캔들보다 높은 모든 캔들에서 추세가 제외됨을 보여줍니다.

연산 결과에 따르면 상관 관계가 부재할 확률은 0입니다. 따라서 모든 유의 수준에서 귀무 가설을 완전히 기각합니다.

하지만 처음 두 개 캔들의 상관 관계를 배제하면 상관 관계가 없는 잔차를 얻게 됩니다.

그림 18. 호드릭-프레스콧 필터가 제거된 자기 상관 함수

그림 18. 호드릭-프레스콧 필터가 제거된 자기 상관 함수

상관 관계 통계 차트는 기본 시세에서 호드릭-프레스콧 필터를 제거하면 세 번째 캔들보다 높은 모든 캔들에서 추세가 제외됨을 보여줍니다. 상관 관계가 부재할 확률은 0입니다. 모든 유의 수준에서 귀무 가설을 완전히 기각합니다. 하지만 처음 두 개 캔들의 상관 관계를 배제하면 상관 관계가 없는 잔차를 얻게 됩니다.

결론 EURUSD 기본 시세에서 인디케이터를 제외해 확률 요인을 제거하려는 시도는 선형 추세의 경우 완전히 실패했고 지수 이동 평균과 호드릭-프레스콧 필터의 경우 일부 성공했네요.

자기 상관(확률 요인) 때문에 추가 분석은 무의미합니다. 잔차에서 자기 상관을 배제시키는 인디케이터를 찾아야 겠네요. 지금부터 찾아봅시다.


7. 분석 결과가 적용된 인디케이터 작성 및 검토

현재로서는 어떤 인디케이터 세트 생성에 적용할 정식 이론이 없네요. 분석 결과에 따라 세트를 이리저리 선택해 볼 수 밖에 없습니다.

지난 자기 상관 분석 결과 첫 번째 시세 캔들의 자기 상관은 추세 제거 후에도 남는다는 것이 증명되었죠.

이 점을 고려해서 다음 방정식을 계산해 봅시다.

EURUSD=C(1)*EURUSD_HP(1)+C(2)*D(EURUSD_HP(1))+C(3)*D(EURUSD_HP(2))

D(EURUSD_HP(1))는 시세와 호드릭-프레스콧 필터 평활화 간의 잔차, 즉 첫 번째 래깅(두 번째 바)을 나타냅니다.

최소제곱법을 이용해 해당 방정식을 계산하면 다음의 결과가 나옵니다.

 변수비율
값이 0일 확률
EURUSD_HP(1)
1.0001
0.0000
D(EURUSD(1))
0.8262
0.0000
D(EURUSD(-2))
-0.48810.0000


표 14. 최소제곱법을 이용한 회귀 분석식 계산 결과

반복 변수 테스트와 산출된 T 점수, 그리고 F-분포에 따르면 eurusd(1) 및 eurusd(2) 변수가 존재하는 경우 비율 값이 0이 되는 경우는 없습니다. 즉 이 두 변수는 반복 변수가 아닌 것이죠.

자기 상관을 통해 16번째 래깅까지 종속성이 부재할 확률은 70% 이상임을 알 수 있습니다.


그림 19. 잔차 자기 상관

그림 19. 잔차 자기 상관

F-분포에 대한 화이트 테스트 결과는 이분산성이 80%의 확률로 부재함을 증명해 줍니다.

브레이크포인트의 부재를 귀무 가설로 하는 Quandt-Andrews 검정은 71%의 확률로 해당 가설이 지지됨을 증명하죠.

표준 기술적 분석에 따르면 분석 대상이 되는 시세에는 최소 한 개 이상의 브레이크포인트(추세 전환)가 나타난다는 점을 다시 생각해 볼 필요가 있습니다. 하지만 우리 인디케이터의 경우 추세 방향과 관계 없이 유사한 통계적 매개 변수를 가지므로 시장 상태의 영향을 받지 않죠.

T 점수와 F-분포에 따르면 램지 테스트 결과는 48%의 확률로 지지됩니다. 따라서 잔차 자기 상관과 이분산성을 무시할 수 있죠.

이는 최소제곱법에 시프트가 발생하지 않으며(해당 값의 기대값이 실제 값과 일치) 재귀 잔차 테스트를 시행할 수 있다는 의미이기도 합니다.

1단계 재귀 잔차 예측 테스트를 해보죠. 그림의 상단에는 두 개의 표준 편차를 갖는 재귀 잔차와 한계선이 나타나 있습니다. 참고로, 수직축은 시세 캔들에서 인디케이터 비율에 대한 유지 가설이 각각 5%, 10% 및 15% 유의 수준으로 벗어날 확률을 보여줍니다. 점은 몇 개 보이지 않지만 이는 곧 SL 및 TP에 대한 거짓 신호의 존재를 의미하죠.

그림 20. 재귀 잔차 예측 테스트

그림 20. 재귀 잔차 예측 테스트

회귀 분석식 비율의 재귀 값에 이름을 붙여 보죠. 차트는 다음의 순서로 형성됩니다. 우선 가장 왼쪽에 위치한 바에 대한 비율 값이 계산됩니다. 이후 바가 하나씩 추가되며 마지막 바가 생성될 때까지 비율 값이 계산됩니다. 물론 왼쪽에 위치한 바의 개수가 적을 경우 비율 값의 신뢰도가 떨어지겠죠. 하지만 바의 개수가 증가하면 신뢰도(불변성)도 상승합니다.

그림 21. С(1) 재귀 비율 예측

그림 21. С(1) 재귀 비율 예측

그림 22. С(2) 재귀 비율 예측

그림 22. С(2) 재귀 비율 예측

그림 23. С(3)재귀 비율 예측

그림 23. С(3) 재귀 비율 예측

그림을 보면 시세 구간 초반에 약간의 불안정성이 관찰되었다가 비율 값이 점점 안정화되는 것처럼 보입니다. 하지만 엄밀히 말하면 해당 회귀 분석식의 비율은 정수가 아닙니다.


결론


금융 데이터는 정상성을 띠지 않는다는 사실에 대한 또 한 가지 증거를 제시했습니다. 비정상성을 띠는 데이터의 디비전을 통해 정상성을 띠는 잔차를 산출했습니다.

기본 시세에 대한 정상성을 띠는 잔차를 이용하면 인디케이터의 안정성에 대한 문제에 답할 수 있죠.

본문에 포함된 정보는 매매 시스템 생성 초기 정보이므로 시세 예측을 기반으로 할 수 있고 또 그래야만 합니다.


참고 자료

EViews 7 사용자 가이드 II


MetaQuotes 소프트웨어 사를 통해 러시아어가 번역됨.
원본 기고글: https://www.mql5.com/ru/articles/320

판별 분석을 이용한 매매 시스템 구축 판별 분석을 이용한 매매 시스템 구축
자동 매매 시스템을 만들다 보면 어떤 인디케이터와 어떤 신호가 가장 잘 맞을지 선택하기 어려울 때가 있습니다. 판별 분석은 인디케이터와 신호 간의 조합을 찾는 데에 도움이 되는 방법 중 하나인데요. 이 글은 시장 데이터 수집용 엑스퍼트 어드바이저 개발과 스타티스티카(Statistica)를 이용한 외환 시장(FOREX)용 예측 모델에 대한 판별 분석 적용법을 다룹니다.
지수 평활을 이용한 시계열 예측 지수 평활을 이용한 시계열 예측
이 문서를 통해 시계열의 단기 예측에 사용되는 지수 평활 모형을 독자분들이 익숙해지실 수 있도록 설명해드릴 것입니다. 또한 예측 결과의 최적화 및 추정과 관련된 주제를 다루고, 스크립트와 인디케이터를 예시삼아 몇 가지 제공해드릴 것입니다. 이 문서는 지수 평활 모형에 기초한 예측 원칙을 처음 숙지하는 데 유용할 것입니다.
지수 평활법을 이용한 시계열 예측(계속) 지수 평활법을 이용한 시계열 예측(계속)
이번 글에서는 이전 글에서 만든 인디케이터를 한층 업그레이드해 보고, 부트스트랩과 분위수를 이용한 예측 신뢰 구간 측정 방법에 대해서도 간단하게 알아보겠습니다. 예측 인디케이터 개발과 예측 정확도 측정에 사용될 스크립트 작성이 목표입니다.
시계열 주요 특성의 분석 시계열 주요 특성의 분석
이 문서를 통해 다양한 시계열의 특성에 대한 빠른 예비 추정치를 제공하기 위해 고안된 클래스를 소개해드릴 것입니다. 이 경우 통계적 모수와 자기 상관 함수가 추정되고 시계열의 스펙트럼 추정이 수행되며 히스토그램이 작성됩니다.