트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1531

 

오늘 파이썬에서 humnokodil을 얻었고 이것을 얻었습니다.

기차

시험

아마도 커브 테스터가 썼거나 다른 내용일 것입니다. 내일 저녁에 다시 확인하겠습니다. 나는 기사를 위해 그것을하고 있습니다 (나는 내 접근 방식을 설명하고 싶습니다). 아마도 catbust는 숲보다이 전략으로 더 잘 할 것입니다.

 
막심 드미트리예프스키 :

오늘 파이썬에서 humnokodil을 얻었고 이것을 얻었습니다.

기차

시험

아마도 커브 테스터가 썼거나 다른 내용일 것입니다. 내일 저녁에 다시 확인하겠습니다. 나는 기사를 위해 그것을하고 있습니다 (나는 내 접근 방식을 설명하고 싶습니다). 아마도 catbust는 숲보다이 전략으로 더 잘 할 것입니다.

따라서 CatBoost 는 샘플 명명 시스템에 따라 테스트에서 학습합니다.

 
알렉세이 비아즈미킨 :

따라서 CatBoost는 샘플 명명 시스템에 따라 테스트에서 학습합니다.

일반적으로 새로운 데이터, 역사의 또 다른 부분이라는 의미에서. 기차 안에서는 대략 이 정도일 텐데, 테스트는 당황스러웠다. 테스터가 어딘가에서 엿보고 있을지도 몰라

내 숲은 거의 동일한 데이터에 대해 0.6-0.7 오류로 훈련되었으며 기차에서는 동일한 결과를 보여주지만 테스트가 항상 좋은 것은 아니며 거의 항상 기차보다 나쁩니다. 부스트 오류는 거의 같은 것으로 밝혀졌지만 테스트는 고통스럽게 양호합니다. 이것은 발생하지 않습니다

잘 지내세요, 잎사귀는 캐셨나요?
 
막심 드미트리예프스키 :

일반적으로 새로운 데이터, 역사의 또 다른 부분이라는 의미에서. 기차 안에서는 대략 이 정도일 텐데, 테스트는 당황스러웠다. 테스터가 어딘가에서 엿보고 있을지도 몰라

내 숲은 거의 동일한 데이터에 대해 0.6-0.7 오류로 훈련되었으며 기차에서는 동일한 결과를 보여주지만 테스트가 항상 좋은 것은 아니며 거의 항상 기차보다 나쁩니다. 부스트 오류는 거의 같은 것으로 밝혀졌지만 테스트는 고통스럽게 양호합니다. 이것은 발생하지 않습니다

잘 지내세요, 잎사귀는 캐셨나요?

글쎄, 그렇다면 나는 모른다. 샘플이 없으면 문제가 무엇인지 이해하는 것이 불가능합니다.

내 결과는 그다지 고무적이지 않습니다. 나는 잎사귀를 적절하게 수집했지만 서로에게 가장 잘 작동하도록 만드는 방법에 대한 질문이 생깁니다. 사실은 서로 20% -50% 이상 겹치는 경우가 많기 때문에 동일한 신호를 주는 것으로 밝혀져 그다지 좋지 않습니다. 아이디어는 그룹화하고 각 그룹에 대한 활성화 임계값을 만드는 것입니다. 이것이 제가 생각하기에 가장 좋은 방법입니다.

지금까지 상호 필터링을 실험하고 있습니다. 지금까지는 구매용으로만 R에서 나무를 잎사귀에 대해 훈련했습니다.

나무가 없는 첫 번째 화면과 나무가 있는 두 번째 화면. 올해 3~9월.

물론 밸런스 곡선은 그다지 매력적이지는 않지만, 이것은 추세 전략으로, 추세에서 얻은 것보다 더 많은 것을 잃지 않는 것이 본질이며 시장 (Si)은 희귀 한 것으로 일년 내내 평평했습니다. 강한 움직임. 트리를 추가하면 상대적인 성능이 향상되었음을 알 수 있습니다. 나중에 판매를 위해 동일한 작업을 수행할 것이며 결과가 긍정적이면 모델의 일부가 될 것입니다.

잎사귀 선정 문제가 완전히 해결되지 않은 상태에서 5년마다 좋은 결과를 보인 잎사귀를 뽑는다고 해도 20~40% 정도가 일을 멈출 것이라고 예상할 수 있는데, 이는 더욱 안타까운 일이다. 그것들을 끌 가치가 있는지 이해하십시오-분기에 대해 특별히 테스트를 수행했는데 후속 분기의 마지막 분기에 무익한 잎이 손실을 덮는 것으로 나타났습니다 (많은).

시트 선택 방법 자체는 유망해 보이지만 프로세스가 매우 느립니다.

 
알렉세이 비아즈미킨 :

글쎄, 그렇다면 나는 모른다. 샘플이 없으면 문제가 무엇인지 이해하는 것이 불가능합니다.

내 결과는 그다지 고무적이지 않습니다. 나는 잎사귀를 적절하게 수집했지만 서로에게 가장 잘 작동하도록 만드는 방법에 대한 질문이 생깁니다. 사실은 서로 20% -50% 이상 겹치는 경우가 많기 때문에 동일한 신호를 주는 것으로 밝혀져 그다지 좋지 않습니다. 아이디어는 그룹화하고 각 그룹에 대한 활성화 임계값을 만드는 것입니다. 이것이 제가 생각하기에 가장 좋은 방법입니다.

지금까지 상호 필터링을 실험하고 있습니다. 지금까지는 구매용으로만 R에서 나무를 잎사귀에 대해 훈련했습니다.

나무가 없는 첫 번째 화면과 나무가 있는 두 번째 화면. 올해 3~9월.

물론 밸런스 곡선은 그다지 매력적이지는 않지만, 이것은 추세 전략으로, 추세에서 얻은 것보다 더 많은 것을 잃지 않는 것이 본질이며 시장 (Si)은 희귀 한 것으로 일년 내내 평평했습니다. 강한 움직임. 트리를 추가하면 상대적인 성능이 향상되었음을 알 수 있습니다. 나중에 판매를 위해 동일한 작업을 수행할 것이며 결과가 긍정적이면 모델의 일부가 될 것입니다.

잎사귀 선정 문제가 완전히 해결되지 않은 상태에서 5년마다 좋은 결과를 보인 잎사귀를 뽑는다고 해도 20~40% 정도가 일을 멈출 것이라고 예상할 수 있는데, 이는 더욱 안타까운 일이다. 그것들을 끌 가치가 있는지 이해하십시오-분기에 대해 특별히 테스트를 수행했는데 후속 분기의 마지막 분기에 무익한 잎이 손실을 덮는 것으로 나타났습니다 (많은).

시트 선택 방법 자체는 유망해 보이지만 프로세스가 매우 느립니다.

예, 그런 mulien에서 빨리 돈을 벌지 못할 것입니다. 유감입니다.

거래가 거의 없으며 대표성이 없는 것으로 판명되었습니다. 그리고 초기에 모두 필요하지 않기 때문에 수익성이 없는 것은 걸러냅니다.
 
막심 드미트리예프스키 :

예, 그런 mulien에서 빨리 돈을 벌지 못할 것입니다. 유감입니다.

거래가 거의 없으며 대표성이 없는 것으로 판명되었습니다. 그리고 초기에 모두 필요하지 않기 때문에 수익성이 없는 것은 걸러냅니다.

예, 여기서 문제는 각 리프 신호에 대해 1랏이 할당되므로 많은 리프가 활성화되면 더 많은 로트가 필요하다는 것입니다. 71랏이 있지만 매우 드물게 71랏 미만으로 돈을 유지하면 모든 시간이 지나면 모든 것이 연간 25%로 드러날 것입니다. 증권 거래소의 GO는 크고 이것은 Si입니다.

수익성이없는 거래를 제거하는 것에 대해-이것은 양날의 검입니다-한편으로 필터 수를 늘릴 수 있습니다. 그러면 수익성이없는 거래 수는 줄어들지 만 동시에 수익성있는 거래 수는 줄어 듭니다. 위의 경우 많은 잎이 한 해 동안 수익성이 있습니다. 이는 시간 문제이며 시장 상태의 문제임을 의미합니다. 이 접근 방식의 문제는 매우 노동 집약적이며 새로운 예측 변수를 신속하게 추가할 수 있는 방법이 없다는 것입니다. 이 아이디어는 제가 갖고 있고 정기적으로 나타나는 아이디어입니다. 저는 이제 실제로 올해 2월의 샘플로 작업하고 있습니다.

성과를 향상시키는 또 다른 방법은 차익 실현을 위해 노력하는 것입니다. 이제 마감은 주로 중지와 한 가지 조건에서 발생합니다. 드문 경우입니다.

모든 단점에도 불구하고 시스템이 거의 1년 동안 병합되지 않았으므로 올바른 방향을 나타낼 수 있습니다.

 
알렉세이 비아즈미킨 :

예, 여기서 문제는 각 리프 신호에 대해 1랏이 할당되므로 많은 리프가 활성화되면 더 많은 로트가 필요하다는 것입니다. 71랏이 있지만 매우 드물게 71랏 미만으로 돈을 유지하면 모든 시간이 지나면 모든 것이 연간 25%로 드러날 것입니다. 증권 거래소의 GO는 크고 이것은 Si입니다.

수익성이없는 거래를 제거하는 것에 대해-이것은 양날의 검입니다-한편으로 필터 수를 늘릴 수 있습니다. 그러면 수익성이없는 거래 수는 줄어들지 만 동시에 수익성있는 거래 수는 줄어 듭니다. 위의 경우 많은 잎이 한 해 동안 수익성이 있습니다. 이는 시간 문제이며 시장 상태의 문제임을 의미합니다. 이 접근 방식의 문제는 매우 노동 집약적이며 새로운 예측 변수를 신속하게 추가할 수 있는 방법이 없다는 것입니다. 이 아이디어는 제가 갖고 있고 정기적으로 나타나는 아이디어입니다. 저는 이제 실제로 올해 2월의 샘플로 작업하고 있습니다.

성과를 향상시키는 또 다른 방법은 차익 실현을 위해 노력하는 것입니다. 이제 마감은 주로 중지와 한 가지 조건에서 발생합니다. 드문 경우입니다.

모든 단점에도 불구하고 시스템이 거의 1년 동안 병합되지 않았으므로 올바른 방향을 나타낼 수 있습니다.

훈련할 수 있다 2-. 동일한 기능에 대한 첫 번째 모델보다. 그러나 그것은 단순히 형평성으로 항목을 수정합니다. 거래를 금지/허용합니다. 최소한 추가 트랜잭션이 없으면 이미 테스트가 있습니다.

 
막심 드미트리예프스키 :

훈련할 수 있다 2-. 동일한 기능에 대한 첫 번째 모델보다. 그러나 그것은 단순히 형평성으로 항목을 수정합니다. 거래를 금지/허용합니다. 최소한 추가 트랜잭션이 없으면 이미 테스트가 있습니다.

또는 롤링 목록 시스템의 포트폴리오와 같은 것입니다.

 
막심 드미트리예프스키 :

훈련할 수 있다 2-. 동일한 기능에 대한 첫 번째 모델보다. 그러나 그것은 단순히 형평성으로 항목을 수정합니다. 거래를 금지/허용합니다. 최소한 추가 트랜잭션이 없으면 이미 테스트가 있습니다.

나는 당신이 목표를 변경하자고 제안하는 방법을 잘 이해하지 못했습니다. 지금, 사실, 저는 이미 3개의 목표를 가지고 있습니다 - 구매/판매/거래 안함. 그리고 구매 / 판매를 위해 시트를 선택한 다음 각 시트에 대해 "거래 금지"시트에서 최대 3 조각의 필터를 찾습니다 (일부는 충분하고 일부는 충분하지 않습니다. 테스트)를 수행했습니다. 이 쌍의 결과(활성화 시트 + 필터 시트) 이후에 모든 잎의 답과 상호 배제를 고려한 최종 신호를 기반으로 트리도 만들었습니다. 추가 필터.

여기 나무가 있다

트리 대신 CB에서 모델을 시도하고 싶습니다. 여기에 사용된 모든 시트의 일반화가 더 나을 수 있지만 여기에서는 정확도가 1% 증가합니다. 물론 많지는 않지만 결과는 긍정적입니다.

 
알렉세이 비아즈미킨 :

나는 당신이 목표를 변경하자고 제안하는 방법을 잘 이해하지 못했습니다. 지금, 사실, 저는 이미 3개의 목표를 가지고 있습니다 - 구매/판매/거래 안함. 그리고 구매 / 판매를 위해 시트를 선택한 다음 각 시트에 대해 "거래 금지"시트에서 최대 3 조각의 필터를 찾습니다 (일부는 충분하고 일부는 충분하지 않습니다. 테스트)를 수행했습니다. 이 쌍의 결과(활성화 시트 + 필터 시트) 이후에 모든 잎의 답과 상호 배제를 고려한 최종 신호를 기반으로 트리도 만들었습니다. 추가 필터.

여기 나무가 있다

나무 대신에 CB에서 모델을 시도하고 싶습니다. 아마도 거기에서 사용된 모든 시트를 일반화하는 것이 더 나을 것입니다.

자, 이론부터 시작하겠습니다. 예를 들어 판매용 모델과 구매 모델을 따로 선택하는 것이 무슨 의미가 있을까요?

구매 - 판매가 아닌 모든 것, 그리고 그 반대의 경우도 마찬가지입니다. 따라서 기존의 이진 분류기가 필요합니다. 또한 그렇게 한다면 왜 별도의 클래스가 "거래하지 않음"입니까? 더 높은 임계값을 통해 입력을 필터링할 수 있을 때. "거래 금지" 클래스는 모델에 의해 과도한 가중치가 부여될 수 있으며, 이로 인해 모델의 오류가 줄어들고 일반적으로 예측(일반화) 능력이 저하됩니다.

두 번째 모델의 의미는 첫 번째는 첫 번째 및 두 번째 종류의 오류(가양성 및 위음성)가 있다는 것입니다. 우리는 그것들을 제거하는 데 관심이 있습니다. 이를 위해 두 번째 모델의 입력에 동일한 기능을 제공하고 첫 번째 모델의 거래 결과가 출력됩니다. 여기서 0 - 거래가 수익성이 있었고 1 - 거래가 수익성이 없었습니다. 두 번째 분류기를 훈련하고 0이 표시될 때만 거래합니다. 첫 번째 모델의 신호를 필터링합니다. 수익성이 없는 거래는 기차에서 거의 사라질 것이므로 테스트에서 테스트해야 합니다. 바로 지금입니다.

두 번째 모델은 기차에서 훈련할 수 있을 뿐만 아니라 OOS도 캡처할 수 있습니다. 그러면 새 데이터에 대한 트랜잭션이 수정됩니다. 이 두 가지입니다. 자, 그럼 테스트.

샘플을 폴드로 분할하고 특정 조각을 통해 체크 무늬 순서로 모델을 훈련할 수 있습니다. 예를 들어 5겹입니다. 첫 번째 모델은 1,3,4 폴드에서 즉시 학습됩니다. 2.5에서 두 번째 수정 모델. 이것은 일반화를 더욱 향상시킬 것입니다.
사유: