트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1613

 
알렉세이 마브린 :

네, 무슨 주장을 하시든 간에, 당신이 뭔가를 이해하지 못하거나 내가 이해하지 못한다는 의미입니다.

제 놀라운 점은 바로 이것입니다. 훈련 가능한 모델은 여기에서 이야기하고 있으며 초기 데이터에 대해 훈련을 받아야 합니다.

소스 데이터에 상관 관계가 있는 데이터가 있는 경우 상관 관계가 없는 데이터로 축소해야 합니다.

다음은 예입니다. 모델이 RGB 3자리로 색상을 분류하도록 가르칩니다. 세 개의 숫자, 이것은 순수한 초기 데이터입니다 !!! 접근 방식을 사용하여 다음과 같은 예측 변수를 만들어야 합니다.

1- R 2-G 3-B - 4 빨간색이 더 많음 5 - 초록색이 더 많음 6- 녹색과 파란색을 합친 것보다 빨간색이 더 많습니다.... 100500 녹색이 파란색만큼 빨간색이면 빨간색이 아닙니다. ))

모델 자체가 학습해야 하는 것 아닌가요?, 초기 데이터가 있고 그것이 바로 그것입니다!


그리고 당신은 반대로 - 서로 완전히 상관된 원본 데이터를 생성합니다.

내가 틀릴 수도 있지만 기호를 기본 부분(예: 로그 규칙)으로 분해해야만 순수한 패턴을 끌어낼 수 있는 것 같습니다. 양초에 대한 동일한 예로 돌아가 보겠습니다.

45개의 옵션이 있습니다. 순수 하고 유일한 패턴이

open[- 1 ]<low

그게 다야! 이 45가지 옵션에는 다른 것이 없습니다. 검색을 하고 하나의 규칙(하나의 기능)을 선택하여 사용합니다.

"네트워크 자체가 찾을 것"이기 때문에 "초기 행"을 사용하도록 제안합니다. 귀하의 경우 다음과 같이 이해합니다.

open[ 1 : 2 ] ; high[ 1 : 2 ] ; low[ 1 : 2 ] ; close[ 1 : 2 ]

그래서 건조 잔여물에서,

하나의 기능, 하나의 규칙, 하나 의 값, 노이즈 없는 순수한 패턴이 있습니다.

8개 값 + 노이즈 2개 값의 4개 행(OHLC)이 있습니다.

질문: 누가 더 중복되고 상관된 샘플을 가지고 있습니까?

 
mytarmailS :


그리고 당신은 반대로 - 서로 완전히 상관된 원본 데이터를 생성합니다.

내가 틀릴 수도 있지만 기호를 기본 부분(예: 로그 규칙)으로 분해해야만 순수한 패턴을 끌어낼 수 있는 것 같습니다. 양초에 대한 동일한 예로 돌아가 보겠습니다.

45개의 옵션이 있습니다. 순수 하고 유일한 패턴

그게 다야! 이 45가지 옵션에는 다른 것이 없습니다. 검색을 하고 하나의 규칙(하나의 기능)을 선택하여 사용했습니다 .

"네트워크 자체가 찾을 것"이기 때문에 "초기 행"을 사용하도록 제안합니다. 귀하의 경우 다음과 같이 이해합니다.

그래서 건조 잔여물에서,

하나의 기능, 하나의 규칙, 하나 의 값, 노이즈 없는 순수한 패턴이 있습니다.

8개 값 + 노이즈 2개 값의 4개 행(OHLC)이 있습니다.

질문: 누가 더 중복되고 상관된 샘플을 가지고 있습니까?

1. 당신이 틀렸을 가능성이 큽니다.

2.3. 이런 일은 일어나지 않습니다. 왜냐하면 시리즈는 고정적이지 않습니다. 모델을 시리즈로 조정했습니다. "순수한 규칙성을 구별"한다고 가정하면 MO와 무슨 관련이 있는지조차 명확하지 않습니다. 그러한 순수한 규칙성이 있다면 MO는 발명되지도 않았을 것이며 다른 기본 방법으로 발견됩니다.

4. 당신이 말했듯이, 당신이 한 가지 기능을 선택했다면 - 당신은 100% 과잉 훈련 = 적합, 100% 맹인, 아무것도 보지 못하므로 100% "바보" 모델, 무뚝뚝해서 죄송합니다)

Z.s. 대중에게 MO 만세! )))

 
알렉세이 마브린 :

1. 당신이 틀렸을 가능성이 큽니다.

네 말이 맞을 수도 있지만 하나의 규칙이 포함된 이 전체 설명은 생각을 보다 시각적으로 표현하기 위한 하나의 예일 뿐이라는 것을 이해하고 있다고 생각합니다. 말하자면 규칙의 앙상블을 만들어야 합니다... 그리고 100개의 엄격한(통계적으로) 규칙의 앙상블 또는 3000개의 약한(확률적인) 규칙의 앙상블 중에서 어느 쪽이 더 나은지 꽤 흥미롭습니다. 문제를 정면으로 해결하면 초기 데이터에서 학습하고 동일한 비 고정성으로 인해 두 번째 옵션이 더 좋지만 예를 들어 고정 속성으로 특정 시장 모델을 구축하면 사실은 아니지만 첫 번째 옵션이 아마도 더 나을 것입니다 ... 일반적으로 내가하지 않을 것이라고 주장하는 것이 더 큽니다. 당신은 나를 설득했습니다 ...

 
알렉세이 비아즈미킨 :

내 결과는 그다지 고무적이지 않습니다. 나는 잎사귀를 적절하게 수집했지만 서로에게 가장 잘 작동하도록 만드는 방법에 대한 질문이 생깁니다. 사실은 서로 20% -50% 이상 겹치는 경우가 많기 때문에 동일한 신호를 주는 것으로 밝혀져 그다지 좋지 않습니다. 아이디어는 그룹화하고 각 그룹에 대한 활성화 임계값을 만드는 것입니다. 이것이 제가 생각하기에 가장 좋은 방법입니다.

잎사귀 선정 문제가 완전히 해결되지 않은 상태에서 5년마다 좋은 결과를 보인 잎사귀를 뽑는다고 해도 20~40% 정도가 일을 멈출 것이라고 예상할 수 있는데, 이는 더욱 안타까운 일이다. 그것들을 끌 가치가 있는지 이해하십시오-분기에 대해 특별히 테스트를 수행했는데 후속 분기의 마지막 분기에 무익한 잎이 손실 (많은)을 덮는 것으로 나타났습니다.

시트 선택 방법 자체는 유망해 보이지만 프로세스가 매우 느립니다.

약간의 necroposting 질문 - 왜 처음에는 잎의 포트폴리오에 대한 최적 조건을 기반으로 나무를 만들 수 없습니까( 마코위츠 이론 에서와 같이)? 아마도 이것은 이미 어딘가에서 논의되었지만 나는 그것을 보지 못했습니다.

 
알렉세이 니콜라예프 :

약간의 necroposting 질문 - 왜 초기에 잎 포트폴리오에 대한 최적 조건을 기반으로 나무를 구축하는 것이 불가능한가요(Markowitz 이론과 유사)? 아마도 이것은 이미 어딘가에서 논의되었지만 나는 그것을 보지 못했습니다.

나는 이미 ML 모델을 구축하기 위한 기존 알고리즘이 시끄러운 시계열의 뉘앙스를 고려하지 않기 때문에 거래에 적합하지 않다고 여러 번 썼습니다. 이것은 예를 들어 전체 표본에서 올바른 분류 확률의 전체 우세한 분포를 제공하는 분할에 대한 예측 변수 값을 사용할 때 나타납니다. 그러나 이 분포는 한 부분으로 그룹화되는 드문 현상에 의해서만 발생할 수 있습니다. 샘플의. 나는 활성화 빈도에 대해 선택된 잎을 조사했고 그것은 나에게 분명해졌습니다.

따라서 예 - 처음에는 필요한 것을 구축할 수 있지만 이를 위해서는 학습 알고리즘을 변경하거나(여기서는 프로그래밍 역량이 충분하지 않음) 다른 방법을 사용하여 무작위로 평가해야 합니다. " 포트폴리오 최적 조건 " 이 의미하는 바를 이해하지 못했지만.

또 다른 옵션이 있습니다. 전체 샘플에 대한 대상 분류 확률의 이동을 개선하는 예측 변수 값의 범위 를 선택하고 이를 기반으로 별도의 예측 변수를 만드는 것 - 지금 이 아이디어를 구현하고 있지만 ' 아직 결과가 어떻게 될지 모릅니다.

그건 그렇고, 나는 트리 모델을 구축하는 데 나중에 사용하기 위해 예측 변수를 범위로 나누는 그리드가 여기에서 논의되었다는 것을 기억하지 못합니다. , 따라서 최종 결과입니다.

 
알렉세이 비아즈미킨 :

ML 모델을 구축하기 위한 기존 알고리즘이 거래에 적합하지 않다는 것을 이미 여러 번 썼습니다.

MO에 대한 표준 유형의 정보 표시는 거래에 적합하지 않다고 말하고 싶었을 것입니다... MO는 아무 책임이 없습니다)

알렉세이 비아즈미킨 :


그건 그렇고, 나는 트리 모델을 구축하는 데 나중에 사용하기 위해 예측자를 범위로 나누는 그리드가 여기에서 논의될 것이라는 것을 기억하지 못합니다.

메쉬은 무슨 뜻인가요?

 
알렉세이 비아즈미킨 :

" 포트폴리오 최적 조건 " 이 의미하는 바를 이해하지 못했지만.

고정된(논쟁의 여지가 있는) 위험 수준(변동성 또는 하락)에서 포트폴리오의 수익을 극대화합니다.

분명히 예, 알고리즘을 변경해야 합니다. 서로 다른 잎의 형평성 간에 많은 상관 관계를 계산해야 하며 이는 시간 면에서 매우 비쌀 수 있습니다.

나는 이 주제가 이전에 포럼에서 논의되었을 수 있다고 생각했습니다.

 
알렉세이 비아즈미킨 :

그건 그렇고, 나는 트리 모델을 구축 할 때 예측자를 범위로 나누는 그리드가 여기에서 논의되었다는 것을 기억하지 못하지만, 이 주제가 논의의 중요한 측면을 가지고 있으며 모델의 구성에 직접적인 영향을 미치는 것 같습니다 , 따라서 최종 결과입니다.

트리는 정확히 이 작업을 수행하며 각 예측 변수에서 다른 범위를 가져와 어느 것이 더 나은지 확인합니다.

처음을 반으로 나누고, 가장 좋은 것을 다시 반으로, 가장 좋은 것을 다시 반으로 나누는 식입니다. 각 예측 변수도 마찬가지입니다. 노드는 모든 예측 변수에서 이러한 모든 조각의 가장 좋은 분할이 됩니다.
수동으로 하시나요? 알고리즘은 이를 완벽하고 신속하게 수행합니다.

알렉세이 비아즈미킨 :

그러나 이 분포는 표본의 한 부분에 그룹화되는 드문 현상에 의해서만 발생할 수 있습니다. 나는 활성화 빈도에 대해 선택된 잎을 조사했고 그것은 나에게 분명해졌습니다.

이 드문 현상을 감지할 수 있는 예측 변수를 찾는 것이 필요합니다. 예측 변수가 있는 경우 가장 단순한 표준 MO 모델이 모든 것을 찾을 수 있습니다.

 
mytarmailS :

MO에 대한 표준 유형의 정보 표시는 거래에 적합하지 않다고 말하고 싶었을 것입니다... MO는 아무 책임이 없습니다)

나는 내가 말하고 싶은 것을 말했습니다. 모델을 구축하는 일반적인 방법을 가르 칠 때 고려되지 않은 많은 뉘앙스가 있습니다. 문제는 이러한 방법을 개선하고 작업 결과를 선택하고 예측 변수를 추가로 준비하면 해결할 수 있으며 다른 옵션이있을 수 있지만 아직까지는 모르겠습니다.


mytarmailS :

파티션 메쉬는 무엇을 의미합니까?

이것은 예측 능력에 대한 예측 변수 값의 범위를 테스트하고 예측 능력을 더 잘 강조하는 방식으로 범위의 세그먼트를 분할하려고 시도하는 알고리즘입니다. 대상이 3개인 표본이 있고 표본이 1 - 24%, 2 - 50%, 3 - 26%로 분포되어 있고 값의 범위가 있는 특정 예측자가 있으므로 그리드의 목표는 다음과 같습니다. 예측 변수 값의 영역을 찾기 위해 목표 1이 24%가 아니라 "예측"되고 이 섹션이 분할된다고 가정해 보겠습니다. 이러한 그리드를 구성하기 위한 알고리즘에는 다양한 변형이 있습니다.


알렉세이 니콜라예프 :

고정된(논쟁의 여지가 있는) 위험 수준(변동성 또는 하락)에서 포트폴리오의 수익을 극대화합니다.

분명히 예, 알고리즘을 변경해야 합니다. 서로 다른 잎의 형평성 간에 많은 상관 관계를 계산해야 하며 이는 시간 면에서 매우 비쌀 수 있습니다.

나는 이 주제가 이전에 포럼에서 논의되었을 수 있다고 생각했습니다.

이제 활성화의 상관 관계가 고려되고 조건부 상관 시트가 하나의 그룹으로 이동하며 이것이 포트폴리오가 생성되는 방식입니다. 그러나 포트폴리오에는 하나의 기본 전략이 있으며 지속 가능성을 위해 많은 작업을 수행해야 합니다. 전략은 동일한 예측 변수가 사용되는 경우 시간이 지남에 따라 활성화가 겹치지 않아야 합니다. 일반적으로 이것은 실제로 가능합니다.


도서관 :

트리는 정확히 이 작업을 수행하며 각 예측 변수에서 다른 범위를 가져와 어느 것이 더 나은지 확인합니다.

처음을 반으로 나누고, 가장 좋은 것을 다시 반으로, 가장 좋은 것을 다시 반으로 나누는 식입니다. 각 예측 변수도 마찬가지입니다. 노드는 모든 예측 변수에서 이러한 모든 조각의 가장 좋은 분할이 됩니다.
수동으로 하시나요? 알고리즘은 이를 완벽하고 신속하게 수행합니다.

이 드문 현상을 감지할 수 있는 예측 변수를 찾는 것이 필요합니다. 예측 변수가 있는 경우 가장 단순한 표준 MO 모델이 모든 것을 찾을 수 있습니다.

완벽하다는 것은 무엇을 의미합니까? 저는 수동으로 하지 않고, 지금 제가 보는 방식으로 스크립트를 작성합니다.

제 경우에는 각 예측 변수 값 옵션에 대한 별도의 평가가 이상적입니다. 그리고, 하나의 목표를 하나의 예측자로 부스트하는 예측자의 활성화 범위를 병합하고 싶습니다. 내가 아는 그리드는 하지 않는 것으로, 병합이 순위의 예측자를 스파링(노드 구축 ) 다른 예측 변수와 함께. 이론상.

아래 그림은 문자 그대로 시간을 기록하는 일반적인 시간 예측기를 보여줍니다. 각 대상 전체 샘플에서 10% 미만의 편차가 되도록 예측기 활성화를 필터링했습니다. 시간 18과 19는 목표 마이너스에 유리하고 시간 15는 바람직하지 않은 것으로 나타났습니다. 출력에서 샘플 값이 1인 새 예측 변수를 얻습니다. 예측 변수 값 18과 19를 결합, -1 - 값 15 및 0 - 다른 모든 값.

아래 그림과 같이 값 1과 4와 같이 중간 값을 제외하고 하나의 분할에서 간격이 있는 범위를 집계할 수 있는 파티션 그리드는 무엇입니까?


 
알렉세이 비아즈미킨 :

이제 활성화의 상관 관계가 고려되고 조건부 상관 시트가 하나의 그룹으로 이동하며 이것이 포트폴리오가 생성되는 방식입니다. 그러나 포트폴리오에는 하나의 기본 전략이 있으며 지속 가능성을 위해 많은 작업을 수행해야 합니다. 전략은 동일한 예측 변수가 사용되는 경우 시간이 지남에 따라 활성화가 겹치지 않아야 합니다. 일반적으로 이것은 실제로 가능합니다.

예를 들어 모든 전략이 BUY만 하는 경우 시간상 교차를 최소화하는 것(항상 긍정적인 상관관계를 최소화함)으로 귀결될 것입니다. BUY 및 SELL이 허용되는 경우 시간 교차는 전략의 잘못된 부분을 상쇄하는 데 유용할 수 있습니다(음의 상관 관계는 일반적으로 포트폴리오에 좋습니다).

아마도 전략의 시간과 교차 시간을 통해 간단하게 상관 관계를 결정할 수 있습니다.

사유: