트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2424

 
초월자 :

사실 입증책임은 검찰에 있으므로 제품의 품질이 좋지 않다는 것을 입증해야 합니다(신고한 내용과 일치하지 않음).

글쎄요, 저는 논리와 상식에 어필할 뿐입니다 🧐

글쎄, 당신은 피고인이 아닙니다))) 오히려 전문가) 그런 다음 자신의 전문가 평가를하십시오

 
YURY_PROFIT :

글쎄, 당신은 피고인이 아닙니다))) 오히려 전문가) 그런 다음 자신의 전문가 평가를하십시오

여기 나는 전문가이고 당신에게 증거를 요구할 것입니다 😉 - 결국 당신은 고발자입니다.

그리고 갑자기 당신은 이미 그곳에서 백만 달러를 벌었고 모든 것이 당신에게 충분하지 않습니다.

 
이고르 마카누 :

어떤 종류의 어리석음, 사용자가 있는지, 제품 / 상품 / 서비스 제조업체가 있습니까?

나만의 자동차를 만드셨나요? 그리고 자동차 회사에서 기성품을 샀다.

추신: 과학적 관점에서 그것은 가능합니다 ... 피타고라스 정리를 들어 보셨습니까? 당신은 어디에 있습니까? )))


이것은 전문 리소스에 대한 유머입니다. 여기 내가 방금 읽은 것입니다. "무화과 사진 작가, 무화과 모델 및 무화과 코스프레의 3가지 요소가 합쳐졌습니다."


주제별 ... 글쎄, 마치 시장에서 제품의 새 버전을 업로드할 수 있는 것처럼, 일부 제품 작성자가 단순히 새로운 기록 데이터에 대해 조언자를 다시 최적화하는 것은 중요하지 않습니다 ...... "일반적으로 , 요소가 함께 왔어요" - 여기, 그런데 "요소" 중 하나 - IMHO, 구매자의 낮은 준비, 제품을 질적으로 확인할 수 있는 사람은 거의 없지만 위에서 언급한 자동차의 구매자를 포함하여 모든 곳에서 동일합니다. 말하자면 마케팅

어리석음을 어디서 보았느냐? 그 메시지에는 첫째로 지적 작업을 의미하고 둘째로 "나는 그것을 사용하는 법을 배우지 않았다"라고 쓰여 있습니다.

텍스트 출판물을 비판하려면 저자와 같은 수준에 있어야 합니다. 일부 우스꽝스러운 비교가 피타고라스와 이루어졌습니다. 왜이거야?

더 적절한 예는 다음과 같습니다. 양자 컴퓨터를 구입했지만 자세한 지침을 읽어도 사용법을 배울 수 없습니다.

근본적인 차이를 이해하시길 바랍니다.

 
뜨거운 칠레 남자들
 
레벨은 특정 주제(링크) 및 기타 사물의 인식으로 즉시 볼 수 있습니다. 주제에 2~3명, 나머지는 평소처럼 홍수
 
mytarmailS :

"재생/중단"과 "열기/열지 않음" 또는 "구매/구매 안함"의 근본적인 차이점은 무엇입니까?

제 생각에는 아무것도 아닌 일반적인 분류 ..


다른 로봇 시작/중지 - 이론상 자신의 구매/판매보다 쉬워야 합니다...

시장 소음이 적고(제어 로봇에 의해 소음이 필터링됨) 솔루션을 더 쉽게 찾을 수 있습니다. 왜냐하면 불변량이 적기 때문입니다.

 
막심 쿠즈네초프 :

다른 로봇 시작/중지 - 이론상 자신의 구매/판매보다 쉬워야 합니다...

시장 소음이 적고(제어 로봇에 의해 소음이 필터링됨) 솔루션을 더 쉽게 찾을 수 있습니다. 왜냐하면 불변량이 적기 때문입니다.

차이가 없습니다. 시작-정지는 소음이 있는 다른 표지판에 의해 제어됩니다.
 
막심 쿠즈네초프 :

다른 로봇 시작/중지 - 이론상 자신의 구매/판매보다 쉬워야 합니다...

시장 소음이 적고(제어 로봇에 의해 소음이 필터링됨) 솔루션을 더 쉽게 찾을 수 있습니다. 왜냐하면 불변량이 적기 때문입니다.

엑스..

당신이 한 일을 보여주세요. 그렇지 않으면 나는 여전히 회의론자입니다. 나는 다른 네트워크로 네트워크를 필터링했고, 그래서 당신은 일종의 TSshku와 규범을 필터링합니까?

 

그래서 앞서 발표한 1단계 연구를 진행했는데, 실제로 어떤 일이 일어나는지 알아보도록 합시다. 바로 쓰고 생각하고 끝까지 결과를 알 때까지 많은 정보를 얻었고, 그것을 어떻게 올바르게 분석할 것인가가 같은 질문입니다.

순서대로 시작하겠습니다. 2014년부터 2021년 상반기까지 샘플을 가져왔습니다(60% - 기차, 20% - 테스트, 20% - 시험), 5336개의 예측 변수, 고정된 모든 매개변수 - 깊이가 있는 트리 6 및 random-seed 100 세트, 대조군 샘플에서 새로운 100개의 트리 후 결과에 개선이 없는 경우 자동 중지와 함께 속도 학습 0.03 및 1000 반복(트리), 나머지 설정은 중요하지 않지만 변경 가능한 매개변수 양자화의 유형과 양자 경계의 수입니다. 양자 경계의 수는 8에서 512로 증가하고 양자화 유형은 6가지 옵션으로 양자화 테이블을 별도의 파일에 저장합니다.

모든 모델을 훈련시킨 후 42개 모델에 대한 테이블을 얻었습니다. 이 테이블은 독립 샘플인 "Balances_Exam" 열을 기준으로 정렬됩니다.

스크린샷은 숨겨진 중심 값이 있는 테이블을 보여주고 상위 5개와 최악의 5개를 보여주고 전체 샘플에 대해 지표의 평균 값을 계산합니다.



결과적으로 두 가지 모델이 선택되었습니다. 연한 녹색으로 강조 표시되고 양자 수는 각각 8 및 128이고 양자화 유형은 Median 및 UniformAndQuantiles입니다.

다음으로 테스트 내 샘플을 8개 부분으로 나누어 각 부분에 6개월이 포함되도록 하고 첫 번째 및 두 번째 고정 양자 테이블로 모델을 별도로 훈련하면서 각각에 대해 프로젝트를 가정해 봅시다 5개의 설정을 사용했습니다 random-seed 매개변수가 반복되는 훈련을 위해 - 8단계에서 8에서 800까지 100개의 옵션 :

  1. 테스트 하위 샘플에 대한 통제를 중단하지 않고 1000그루의 나무를 훈련합니다.
  2. 개선 없이 100회 반복한 후 하위 샘플 테스트에서 중지하도록 제어가 있는 하위 샘플에서 1000개의 나무를 훈련합니다.
  3. 테스트 하위 샘플에 대한 통제를 중단하지 않고 100개의 나무를 훈련합니다.
  4. 테스트 하위 샘플에 대한 제어를 중단하지 않고 50개의 나무를 훈련합니다.
  5. 테스트 하위 샘플에 대한 제어를 중단하지 않고 5개의 트리를 훈련합니다.

교육을 완료한 후 결과 모델은 CatBoost 예측 변수에 대한 통계를 얻기 위한 다음 옵션에 따라 분석되었습니다.

  1. 예측값 변경;
  2. 손실 기능 변경;
  3. 내부 기능 중요.

다음으로 표본의 각 1/8의 Seed에 대해 개별적으로 결과를 평균화하여 각 세그먼트의 예측 변수 유의성 지표의 평균값으로 정렬된 일반 테이블로 축소하고 별도로 존재 여부를 확인했습니다. 각 세그먼트의 중요한 예측 변수이며 이 지표에 대해 테이블 순서 지정을 사용합니다. 설명된 절차는 각 프로젝트 및 모델 통계 유형별로 수행되었습니다.

아래는 5번째 훈련 옵션과 모델 분석의 첫 번째 버전에 대한 표에서 발췌한 것입니다.

다음으로 처음 n개의 예측 변수에 포함되지 않은 예측 변수를 훈련에서 제외할 설정을 만들었습니다. 기준을 충족하는 예측 변수가 충분하지 않으면 설정 파일이 생성되지 않았습니다. 통계 및 프로젝트의 각 변형에 대해 설정이 이루어집니다. 훈련에 사용되는 예측 변수 수에 대한 다음 제한 사항이 사용되었습니다. 5/25/50/100/300/500/1000/2000/3000. 따라서 일련의 설정을 얻었습니다.

다음으로 최대 1000개의 트리를 가지고 기차 - 60% 테스트 - 20% 테스트 - 20% 샘플에 고정 퀀텀 테이블 설정으로 훈련을 진행하고 테스트 샘플에 대한 훈련을 중지하고 모든 설정과 2개에 대해 훈련을 진행했다. 양자 테이블에 대한 옵션, 각 랜덤 시드 모델 100개 - 8에서 800까지의 100 옵션(8단계) . 또한 2개의 양자 테이블에 대해 예측 변수를 배제하지 않고 무작위 시드 열거(8에서 800까지 100개 옵션, 8단계)로 별도의 훈련을 수행했습니다.

아래는 중앙값 방법을 사용하여 8개의 경계에 대한 분석 설정이 있는 표입니다 . 처음 및 마지막 5개 최상의 옵션입니다.

아래는 UniformAndQuantiles 방법을 사용하여 128개의 경계를 분석한 표입니다. 첫 번째와 마지막 5개의 최상의 옵션입니다.


도출할 수 있는 첫 번째 결론은 모델에 사용된 예측 변수에 따라 달라지는 잠재력이 있으며 그 사용은 랜덤 시드의 영향을 받는다는 것입니다. 그리고 큰 소리로 생각하면서 설정 / 방법 선택의 목표가 최상의 결과가 아니라 이익의 평균 결과 또는 기타 지표가되어야한다고 가정합니다. 첫 번째 변형 에서는 훈련 외부의 샘플(Balans_Exam 열)에 대한 재무 결과의 평균 값 이 2222.39이고 두 번째 변형에서는 1999.13입니다.

다음으로, 모델의 메트릭 지표의 평균 값 테이블을 컴파일하여 교육 설정으로 분류합니다.

아래는 예측 변수의 제외를 담당하는 여러 설정에 대해 중앙값 방법 사용하여 8개 경계에 대한 분석 설정이 있는 표입니다 . 처음 10개의 최상의 옵션은 평균 값입니다.


다음은 UniformAndQuantiles 메서드를 사용하여 128개 테두리에 대한 분석 설정이 있는 표입니다.   예측 변수의 제외를 담당하는 다양한 설정 - 처음 10개의 최상의 옵션 - 평균 값.


"File_Name" 열에 있는 내용을 해독하려면 다음 표를 사용하는 것이 좋습니다.



관찰되는 조합의 수를 줄이면서 단계별로 분석해 보겠습니다.

아래 표는 두 개의 양자 테이블에 따라 상위 10위 안에 드는 "프로젝트"를 계산합니다.

그리고 여기서 우리는 두 테이블에 첫 번째 프로젝트(Exp_000)와 다섯 번째 프로젝트(Exp_004)의 좋은 대표자가 있음을 알 수 있습니다 . 어느 것이 더 좋고 어느 것이 거부해야 하는지는 분명하지 않지만 둘 다 정상에 올랐다는 사실 10은 그것에 대해 생각하는 이유입니다. 아마도 당신은 전체 테이블에 대한 몇 가지 계수와 함께 통계를 취해야 할 것입니다 - 나는 모릅니다 - 제안 옵션. 하지만 Exp_004 옵션이 좋은 점은 구성 파일 생성을 위한 데이터 준비 시간이 가장 짧고, 총 5개의 트리가 있기 때문에 논리적이라는 점에 유의한다. 초기 훈련을 위한 트리 수의 선택에 대해 최종 결론을 내리기에는 아직 이르다고 생각합니다. 어떻게 생각하시나요?

아래 표에서 수십 개의 양자 테이블에 대해 예측 변수 분석의 유형과 모델에 사용된 예측 변수의 한계 수를 살펴보겠습니다.



표를 보면 첫 번째 분석 방법이 더 많은 응답을 보인 것을 알 수 있으며, 또한 모형에 사용된 예측 변수의 수에 대한 대부분의 설정이 50개를 초과하지 않는 것을 표 전체에 걸쳐 볼 수 있습니다.

이제 모델 자체의 결과를 살펴보고 첫 번째 양자 테이블(CB_Svod_Exp_000_x_000000002)과 두 번째 양자 테이블(CB_Svod_Exp_004_x_000000002)에 대해 설정이 대다수인 것으로 판명된 프로젝트 샘플을 가져갈 것을 제안합니다.


아래는 중앙값 방법, 예측 변수 선택 설정 CB_Svod_Exp_000_x_000000002에 따라 8개 경계에 대한 분류 설정이 있는 표입니다. 처음 5개 최상의 옵션과 5개의 최악 옵션입니다.



아래는 분석 설정이 128 인 테이블입니다.   UniformAndQuantiles 메서드 에 의한 경계   예측 변수 선택 설정   CB_Svod_Exp_004_x_000000002 - 상위 5개 최고의 옵션과 5개의 최악의 옵션.

아래는 비교를 위한 요약 테이블입니다. 첫 번째 줄은 원본 양자 테이블의 데이터이고, 두 번째 줄은 랜덤 시드 열거 후의 데이터이고, 세 번째 줄은 이미 예측 변수 선택 절차 후의 선택 결과를 기반으로 합니다.

1. 중앙값 방법을 사용한 8개 경계 분할이 있는 테이블



2. 분류 설정이 있는 표   128     방법별 경계   균일 및 분위수



두 표의 점수는 학습 및 검정 표본에 대한 성능 저하를 나타내고 독립 표본에 대한 성능 향상을 나타냅니다. 즉, 예측 변수의 특성이 향상되고 개수가 감소 하여 피팅 효과가 감소한 것입니다. .


어떤 예비 결론을 내릴 수 있습니까?

1. 단순히 CatBoost 샘플을 공급할 수 있지만 예측자를 사용하여 조작하면 재무 결과를 포함하여 모델을 크게 개선할 수 있습니다.

2. 좋은 결과를 얻으려면 샘플에서 사용 가능한 많은 수의 예측 변수를 항상 사용할 필요는 없습니다. 평균으로 평가하는 좋은 결과를 얻으려면 1개만 사용하면 충분합니다. 모든 예측 변수의 %.

이 아이디어를 발전시키려면 다른 샘플에 대한 실험을 수행해야 하며, 결과가 반복되면 조합 수를 줄여서 유망한 결과를 찾는 방법을 생각할 수 있습니다. 목표는 테스트 및 검사 샘플을 들여다보지 않고 최상의 평균을 찾을 수 있는 블라인드 방법을 개발하는 것입니다. 이 방법은 훈련 샘플을 40% 늘리고 안정적인 응답으로 예측 변수의 탐지를 추가합니다.

얻은 재무 결과를 고려하여 유용성/효율성에 대한 수정 요소를 추가하여 평가 시 예측 변수의 추가 필터링을 생각할 수 있습니다.

내가 재무 지표를 보는 이유는 시장에서 다양한 이벤트가 발생할 수 있고 모델이 더 높은 수익을 가진 이벤트를 선택하는 것을 선호할 수 있기 때문입니다. 차트 자체.

메모가 재미있었으면 좋겠습니다. 귀하의 의견을 기다리겠습니다!

모든 테이블이 포함된 파일을 첨부했습니다. 누가 관심을 갖고 생각하고 싶어하는지.

파일:
CB_Svod_Si_Q.zip  697 kb
 
글쎄, 지금,하지만 당신은 5-15 조각을 증가시킬 수 있습니다, 지표는 더 나쁘지 않을 것입니다

또는 먼저 상관 관계에 따라 모든 예측 변수를 제거한 다음(초 단위) 나머지 5-15개를 가져옵니다(최대한 많이 얻을 경우).

이것이 계량경제학 이 시간을 절약하는 방법입니다

사유: