트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 184

 
안드레이 딕 :

이전에 3가지 클래스(판매, 울타리, 구매)로 나누는 접근 방식을 설명했습니다. "울타리" 등급에는 서로 모순되거나 매수 및 매도 등급으로 나눌 수 없는 모든 경우가 포함됩니다. 매매 시 3~10% 하락하는 것으로 나타났습니다. 이 접근 방식의 장점은 시간이 지남에 따라 익숙하지 않은 데이터(실제)에 대해 작업할 때 네트워크가 시장 상황을 인식하지 못하고 점점 더 "울타리"에 대해 언급하기 시작한다는 것입니다. 즉, 점차적으로 거래를 중단합니다. 이것은 시간이 지남에 따라 입력에 대해 점점 더 많은 실수를 시작하는 것보다 백 배 낫습니다.

하지만 아무 소용이 없고, 아무도 필요로 하지 않으며, 아무도 듣지 않습니다.

울타리 란 무엇입니까? 구매의 그리드에 구매가 표시되고 sat의 그리드가 sat라고 표시되면?

이것은 같은 가시 Reshetov입니다

 
안드레이 딕 :

이전에 3가지 클래스(판매, 울타리, 구매)로 나누는 접근 방식을 설명했습니다.

이것은 이미 jPrediction에 구현되어 있습니다. 따라서 이진(2-클래스) 분류기가 아니라 삼항(3-클래스) 분류기라고 합니다.

아주 간단하게 구현:

  1. 훈련: 샘플의 겹치지 않는 두 부분에 대해 두 개의 이진 분류기를 훈련합니다.
  2. 교차 검증: 훈련되지 않은 영역에서 바이너리를 테스트합니다.
  3. 분류: 두 이진 분류기의 판독값이 동일한 경우 결과로 이들 중 하나의 출력 값을 취합니다. 바이너리의 판독값이 다르면 "울타리 위에 앉아서 대나무를 피우십시오."라는 출력을 얻습니다.

이전에는 "자전거" 방법을 적용해야 했습니다.

  1. 샘플의 절반에 대해 이진 분류기를 훈련합니다.
  2. 샘플의 후반부에 대한 테스트
  3. ROC 분석을 사용하여 임계값 중 하나를 높여 민감도를 높이고 두 번째 임계값을 낮추어 특이성을 높입니다.
  4. 분류: 분류되는 패턴이 민감도 임계값보다 높으면 구매합니다. 패턴이 특이성 임계값 미만이면 판매합니다. 패턴이 두 문턱 사이에 있으면 울타리에 앉아서 대나무를 피웁니다.

그러나 위의 "자전거"는 교차 검증이 없기 때문에 2개의 바이너리로 분류하는 것보다 더 많은 잘못된 신호를 제공하지만 구현하기가 더 쉽습니다.

구현에서 가장 원시적이지만 가장 멍청하고 가장 유망하지 않은 삼항 자전거: 3개의 출력이 있는 ANN입니다. 그러한 출력 각각에 고유한 분류 임계값이 있는 경우 3개가 아니라 8개의 잠재적으로 가능한 상태를 얻게 되며 그 중 3개만 모호하지 않고(값은 3개 출력 중 하나만 임계값보다 높음) 5개는 해석(임계값 위의 값은 출력 중 하나보다 크거나 세 개의 출력 모두에서 임계값 미만임).

 
mytarmailS :

울타리 란 무엇입니까? 구매의 그리드에 구매가 표시되고 sat의 그리드가 sat라고 표시되면?

이것은 같은 가시 Reshetov입니다

아니요. 링크는 안 올릴테니 찾아보세요.
 
유리 레셰토프 :

이것은 이미 jPrediction에 구현되어 있습니다. 따라서 이진(two-class) 분류기가 아니라 삼항(three-class) 분류기라고 합니다.

아주 간단하게 구현:

  1. 훈련: 샘플의 겹치지 않는 두 부분에 대해 두 개의 이진 분류기를 훈련합니다.
  2. 교차 검증: 훈련되지 않은 영역에서 바이너리를 테스트합니다.
  3. 분류: 두 이진 분류기의 판독값이 동일한 경우 결과로 이들 중 하나의 출력 값을 취합니다. 바이너리의 판독값이 다르면 "울타리 위에 앉아서 대나무를 피우십시오."라는 출력을 얻습니다.

이전에는 "자전거" 방법을 적용해야 했습니다.

  1. 샘플의 절반에 대해 이진 분류기를 훈련합니다.
  2. 샘플의 후반부에 대한 테스트
  3. ROC 분석을 사용하여 임계값 중 하나를 높여 민감도를 높이고 두 번째 임계값을 낮추어 특이성을 높입니다.
  4. 분류: 분류되는 패턴이 민감도 임계값보다 높으면 구매합니다. 패턴이 특이성 임계값 미만이면 판매합니다. 문양이 문턱 사이에 있으면 울타리에 앉아 대나무를 피웁니다.

그러나 위의 "자전거"는 두 개의 바이너리로 분류하는 것보다 더 많은 잘못된 신호를 제공하지만 구현하기가 더 쉽습니다.

가장 멍청하고 가장 유망하지 않은 삼항 자전거이며 구현에서 가장 원시적입니다. 이것은 3개의 출력이 있는 ANN입니다. 그러한 출력 각각에 고유한 분류 임계값이 있는 경우 3개가 아니라 8개의 잠재적으로 가능한 상태를 얻게 되며, 그 중 3개만 모호하지 않습니다(값이 3개 출력 중 하나만 임계값보다 높음). 5개는 방법이 명확하지 않습니다. 해석(임계값 위의 값은 출력 중 하나보다 크거나 세 개의 출력 모두에서 임계값 미만임).

당신이 고려하지 않은 또 다른 방법이 있습니다. 뉴런의 출력은 하나뿐이지만 값의 범위는 조건부로 세 영역으로 나뉩니다. 나는 [-1.5...1.5]를 좋아했다. 값의 중간 범위[-1.0...1.0]는 "울타리"입니다. 뉴런에 대한 상황이 친숙할수록 더 흥분되고 값이 극단값으로 더 강하게 치우치는 경향이 있음이 밝혀졌습니다. [-1.0...1.0] 범위를 넘는 값은 해당 매수 및 매도 신호입니다.

그러나 사람들은 여전히 이진 분류를 계속해서 괴롭히고 있습니다.

 
안드레이 딕 :

당신이 고려하지 않은 또 다른 방법이 있습니다. 뉴런의 출력은 하나뿐이지만 값의 범위는 조건부로 세 영역으로 나뉩니다. 나는 [-1.5...1.5]를 좋아했다. 값의 중간 범위[-1.0...1.0]는 "울타리"입니다.

나는 고려하지 않았지만 당신은 그것을 부주의하게 읽었습니다. 단락 3과 4에서 하나의 바이너리를 사용하는 2개 임계값 "자전거" 방법을 참조하십시오.

유리 레셰토프 :
...

이전에는 "자전거" 방법을 적용해야 했습니다.

  1. 샘플의 절반에 대해 이진 분류기를 훈련합니다.
  2. 샘플의 후반부에 대한 테스트
  3. ROC 분석을 사용하여 임계값 중 하나를 높여 민감도를 높이고 두 번째 임계값을 낮추어 특이성을 높입니다.
  4. 분류: 분류되는 패턴이 민감도 임계값보다 높으면 구매합니다. 패턴이 특이성 임계값 미만이면 판매합니다. 문양이 문턱 사이에 있으면 울타리에 앉아 대나무를 피웁니다.
...
 
유리 레셰토프 :

접근 방식의 문제는 처음에 (구매/판매 신호의 삼항 필터링 이전) MO가 모든 데이터의 5%를 설명할 수 있는 데이터에 대해 교육을 받았다는 것입니다. 이해하십니까? 삼항 필터링 이전에도 MO는 이미 노이즈에 대해 학습되었으며 출력이 적절합니다.

안드레이 딕 :

같은 이야기인거 같은데...

===================================

내 방법은 의사 결정에 MO를 전혀 사용하지 않으며 전체 샘플을 설명하지 않고 강력한 통계로 간주되는 것입니다. 규칙성, 그리고 그러한 데이터가 모든 데이터의 0.01%에 불과하다면 그것들만 남을 것입니다 ...

 
안드레이 딕 :

...

그러나 사람들은 여전히 이진 분류를 계속해서 괴롭히고 있습니다.

대부분의 사람들은 삼항으로 실험하는 것보다 이미 구현된 이진 분류로 기성품 패키지를 사용하는 것이 더 쉽기 때문입니다. 모든 아이디어가 좋은 결과를 가져오는 것은 아니기 때문에 모든 사람이 "자전거"를 발명하는 것을 좋아하는 것은 아닙니다. 어떤 사람들은 바퀴가 네모나더라도 이미 만들어진 자전거를 타는 것이 더 쉽다고 생각합니다.

삼항 분류가 사용되는 경우 대부분의 기계 학습 소스는 가장 유망하지 않은 방법을 제공합니다. 구현하기 쉽지만 실제로는 완전히 부적합한 3개의 출력으로 ANN을 훈련시키는 것입니다.

 
유리 레셰토프 :

대부분의 사람들은 삼항으로 실험하는 것보다 이미 구현된 이진 분류로 기성품 패키지를 사용하는 것이 더 쉽기 때문입니다. 모든 아이디어가 좋은 결과를 가져오는 것은 아니기 때문에 모든 사람이 "자전거"를 발명하는 것을 좋아하는 것은 아닙니다. 어떤 사람들은 바퀴가 네모나더라도 이미 만들어진 자전거를 타는 것이 더 쉽다고 생각합니다.

삼항 분류가 사용되는 경우 대부분의 기계 학습 소스는 가장 유망하지 않은 방법을 제공합니다. 구현하기 쉽지만 실제로는 완전히 부적합한 3개의 출력으로 ANN을 훈련시키는 것입니다.

네, 동의합니다. 그렇습니다.

그러나 한 가지는 분명합니다(태프톨로지에 대해 유감스럽게 생각합니다). 바이너리는 시장에서 사용할 수 있는 최악의 것입니다.

 
mytarmailS :

접근 방식의 문제는 처음에 (구매/판매 신호의 삼항 필터링 이전) MO가 모든 데이터의 5%를 설명할 수 있는 데이터에 대해 교육을 받았다는 것입니다. 이해하십니까? 삼항 필터링 이전에도 MO는 이미 노이즈에 대해 학습되었으며 출력이 적절합니다.

말도 안되는 소리 하지 마세요. jPrediction은 잡음이 있거나 중요하지 않은 예측 변수에 대해 훈련된 모델로 끝나지 않도록 입력 차원 축소 알고리즘을 구현합니다. 저것들. 예측 변수의 다양한 조합이 있는 모델 집합에서 선택하며, 그 중에서 일반화 능력이 가장 우수한 모델만 남습니다.
 
mytarmailS :

이해했나요? 우리는 전체 샘플을 매수 및 매도 클래스로 나누려고 하므로 시장의 모든 움직임을 절대적 으로 예측하고 싶지만 예측자가 너무 미쳐서 모든 움직임의 ~3%객관적 으로 예측할 수 있습니다. 그래서 우리는 무엇을 해야 할까요? 필요? 우리는 최소한 이 3% 를 취하고 분리할 수 없는 다른 모든 것을 버리려고 노력해야 합니다. 왜냐하면 이것은 필터링해야 하는 입력/노이즈/재훈련 등의 이유에서 매우 쓰레기이기 때문입니다. ... call 그것은 당신이 원하는 것, 모든 것이 잘 될 것입니다 ...

나는 당신이 문제의 원인을 이해하고 있음을 참조하십시오. 그러나 나는 당신이 제안한 것과는 다르게 그것을 해결하려고 노력하고 있습니다.

나는 SanSanych의 말을 따르는 경향이 있습니다. 그런 예측자와 쓰레기가 아닌 대상을 선택해야 합니다. 좋은 예측 변수를 사용하면 지난 게시물의 내 것이 아니라 Vizard_와 같은 훈련 예제의 그래프를 얻을 수 있습니다. 이것은 충돌하는 훈련 예제를 제거하는 것보다 훨씬 어렵지만 결국 예측 변수의 올바른 선택이 더 신뢰할 수 있을 것 같습니다.

니 방식대로 뭐라 할 수는 없고 어떻게 해야할지 모르겠는데 꼭 성공하시길 바랍니다.

사유: