트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3335

 
Maxim Dmitrievsky #:
메인 트레인을 5~10개의 서브 트레인으로 나누고, 각 트레인을 트레일과 샤프트로 나눕니다. 각각에 대해 CV 유형별로 학습한 다음 전체 메인 트레인을 예측합니다. 모든 모델의 원래 레이블과 예측 레이블을 비교합니다. 예측에 실패한 모델은 블랙리스트에 추가합니다. 그런 다음 각 샘플에 대한 평균 열망을 계산하여 최종 모델을 학습할 때 잘못된 예시를 모두 제거합니다. 선택적으로 세 번째 클래스를 통해 두 번째 모델에 흰색 샘플과 검은색 샘플을 구분하도록 가르칠 수 있습니다(
).

코드 3줄, 결과 수준은... 글쎄요, 비교할 게 없습니다... 글쎄요, 어느 정도 수준입니다.

여기서 염소는 이력서, 즉 각각 다른 이력으로 학습된 여러 모델을 사용하여 어떤 샘플이 나쁜 샘플이고 어떤 샘플이 좋은 샘플인지 통계적으로 결정한다는 의미입니다. 이를 성향 점수, 즉 각 샘플의 성향이 훈련에서 어떤 역할을 하는지를 나타냅니다.

물론 라벨은 매우 쓰레기가 될 수 있으며 이 접근 방식은 거의 모든 것을 제거할 수 있습니다. 그래서 저는 처음에 다양한 마크업 변형을 추가하기 위해 트랜잭션의 무작위 샘플링을 사용했습니다. 차트를 마크업하는 방법에 대해 생각하고 싶지 않거나 생각할 방법을 모르기 때문입니다.

이것이 바로 자체적으로 TC를 검색하는 코졸 요소가 있는 AMO의 대략적인 모습입니다.

레이블(교사, 대상 변수)은 정의상 쓰레기가 될 수 없습니다. 예측 변수 외부의 몇 가지 고려 사항에서 따옴표가 마크업됩니다. 일단 레이블이 결정되면, 발견된 레이블 세트와 관련된 예측자 문제가 있습니다. 레이블 집합이 아름답지만 그에 대한 예측자를 찾을 수 없어 다른 레이블 집합을 찾아야 하는 문제가 발생하기 쉽습니다. 예를 들어, 마크는 ZZ 반전입니다. 아름다운 마크입니다. 그렇다면 이러한 레이블에 대한 예측자를 찾는 방법은 무엇일까요?

예측자를 기준으로 레이블을 필터링하기 시작하자마자 - 이것은 시장을 포함하여 여기에 표시되는 모든 것이 매우 적합하기 때문에 - 외부의 새 파일에서는 자연스러운 단계별 모드에서 작동하지 않습니다.

 
mytarmailS #:
예, 흥미 롭습니다.

별도의 샘플 테스트에서 7467 개, 시험에서 7177 개가 있지만 활성화가 전혀없는 잎이 적지 않음을 알려 드리며 한 번에 세지 않았습니다.

0

이것은 테스트 샘플의 값에 따라 클래스를 변경 한 잎의 분포입니다.

1

그리고 이것은 시험입니다.

그리고 이것은 클래스로의 분류입니다-그 중 세 개가 있으며 세 번째는 "-1"입니다-활성화되지 않았습니다.


기차 샘플의 경우.


샘플 테스트의 경우


시험 샘플의 경우.

일반적으로 리프 가중치가 더 이상 클래스 로직과 일치하지 않는 것을 볼 수 있습니다. 아래는 테스트 샘플의 그래프이며 명확한 벡터가 없습니다.


일반적으로 이 훈련 방법은 근사치를 구할 수는 있지만 예측자의 품질을 보장하지는 않습니다.

일반적으로 위 그래프에서 뚜렷한 "막대"는 장소와 활성화 빈도에 따라 매우 유사한 나뭇잎이라는 것을 인정합니다.


내 메일 #:

사실, 나는 훈련이나 테스트에서 목표와 관련하여 이동하지 않는 그러한 징후를 찾는 방법을 찾았습니다... 그러나 문제는 그러한 징후가 비극적으로 적고 선별 방법이 전력 측면에서 매우 비싸고 일반적으로 교사없이 훈련으로 구현되는 방법이며, 이런 식으로 만 피팅을 피할 수 있었다는 것입니다.

모르는 것을 논의하기는 어렵습니다. 따라서 나는 당신의 성공에만 기뻐할 수 있습니다. 그런 방법이 있다면 사용하겠습니다 :)

지금까지 내 방법은 그러한 질적 결과를 제공하지는 않지만 충분히 유사합니다.

 
Maxim Dmitrievsky #:
이 과정에서 정량화는 어떤 역할을 했나요? 10점 척도

사고 과정을 완전히 분리하기는 어렵습니다.

다양한 측면에 문제가 있기 때문에 적은 노력으로 더 많은 결과를 얻을 수 있는 개선점을 찾아야 합니다. 주기적으로 '데이터'에서 '학습 프로세스'로 이동하여 실험해 보세요.

원래의 아이디어는 상관관계를 추정하는 것이었지만, 기성 방법을 찾지 못해 제 방법을 현대화하는 중입니다. 나뭇잎이 비슷하면 추정이 왜곡된다고 생각합니다.

막심 드미트리예프스키 #:
스타필드를 지났고 곧 특이점이 시작되었습니다. 나는 다중 우주에 들어가서 내 자신의 사본을 만났습니다. 이제 저는 여러 버전의 우주를 돌아다니고 있습니다. 그리고 빠져나갈 방법이 없어요. 이제 새로운 의미를 찾아야 해요.

뇌나 신경망이 합리성의 한계에 도달하면 특이점이 시작됩니다.

흥미로운 아이디어네요. 이 게임, 나중에 언젠가 해볼지도 모르겠네요 저는 게임을 창의력으로 취급하는데, 지금은 게임이 그래픽적으로 구식이 되는 속도가 훨씬 느립니다.

나는 오래된 HD7950 그래픽 카드 (순전히 계산 용으로 별도의 컴퓨터에 넣음)에서 God of War (2018)를 10 미만으로 실행하고 그래픽을 최소한으로 설정하고 그림에 충격을 받았습니다. 그러나 주요 관심사는 아버지와 아들 사이의 관계의 정교함입니다.이 주제가 제기되는 컴퓨터 산업에서 아날로그를 찾기가 어렵습니다.

막심 드미트리 예프 스키 #:
메인 트랙을 5-10 개의 서브 트레인으로 나누고 각 트랙은 트랙과 샤프트로 나뉩니다. 각각에 대해 이력서 유형을 훈련 한 다음 전체 메인 트랙에서 예측합니다. 모든 모델의 원래 레이블과 예측 레이블을 비교합니다. 예측하지 못한 것은 블랙리스트에 올립니다. 그런 다음 각 샘플에 대한 평균 열망을 계산하여 최종 모델을 학습할 때 잘못된 예시를 모두 제거합니다. 선택적으로 세 번째 클래스를 통해 두 번째 모델에 흰색 샘플과 검은색 샘플을 구분하도록 가르칠 수 있습니다(
).

코드 3줄, 결과는... 글쎄요, 비교할 것이 없습니다... 글쎄요, 어느 정도 수준입니다.

여기서 염소는 이력서, 즉 각각 다른 이력으로 학습된 여러 모델을 사용하여 어떤 샘플이 나쁜지 좋은지를 통계적으로 결정한다는 의미입니다. 이를 성향 점수, 즉 각 샘플의 성향이 훈련에서 어떤 역할을 하는지를 나타냅니다.

물론 라벨은 매우 쓰레기가 될 수 있으며 이 접근 방식은 거의 모든 것을 제거할 수 있습니다. 그래서 처음에 다양한 마크업 변형을 추가하기 위해 트랜잭션의 무작위 샘플링을 사용했습니다. 차트를 마크업하는 방법에 대해 생각하고 싶지 않거나 생각할 방법을 모르기 때문입니다.

이것이 바로 자체적으로 TC를 검색하는 코졸 요소가 있는 AMO의 대략적인 모습입니다.

하지만 여기서는 모델을 통해 데이터로 작업합니다. 어떤 차이가 있나요?

 
Aleksey Vyazmikin #:

하지만 모델을 통해 데이터로 작업하는 것도 마찬가지입니다. 어떤 차이가 있나요?

일종의 자동 작업이기 때문에 생각하거나 (중요한 것은) 아무것도 할 필요가 없습니다.)
 
Maxim Dmitrievsky #:
글쎄, 자동과 마찬가지로, 아무것도 생각할 필요가 없으며 (중요한 것은 중요합니다) :)

훈련 방법에서 고양이 부스트에서 과도한 무작위성을 고려하면 접근 방식 자체를 평가하기가 어렵습니다. 거기에서 그들은 나무를 만들 때 문자열을 방해하고, 금지되지 않은 경우 바하 미로 데이터를 공급합니다.

위에서 지점에서 쓴 것처럼 비유로 새 데이터에서 얼마나 많은 시트가 클래스를 변경하는지 평가하는 것은 흥미 롭습니다. 이것은 접근 방식 / 모델의 품질에 대한 메트릭이 될 수 있습니다.

 
Aleksey Vyazmikin #:

훈련 방법 자체에서 CatBoost의 과도한 무작위성을 고려할 때 접근 방식 자체를 평가하기는 어렵습니다. 거기에서 그들은 나무를 만들 때 문자열을 방해하고 금지되지 않은 경우 바챔으로 데이터를 공급합니다.

위에서 지점에서 쓴 것처럼 비유로 새 데이터에서 얼마나 많은 시트가 클래스를 변경하는지 평가하는 것은 흥미 롭습니다. 이것은 접근 방식/모델의 품질에 대한 지표가 될 수 있습니다.

이상적으로, 이 무작위성은 데이터 세트 무작위성만큼 나쁘지 않습니다.
 
Maxim Dmitrievsky #:
이상적으로, 이러한 무작위성은 데이터 집합의 무작위성만큼 나쁘지 않습니다.

무작위성에서 우연히 아름다운 모델을 얻을 수 있다면 문제가 되겠지만, 그것이 불가능하다면 문제가 되지 않습니다.

문제는 모델을 훈련하는 것이 아니라 새로운 데이터에 대해 올바르게 작동할 가능성이 더 높은 모델을 선택하는 것입니다.

이러한 잠재력을 높일 수 있는 흥미로운 접근 방식입니다. 그리고 모델의 효율성을 평가하려면 분류 정확도 통계뿐만 아니라 다른 종류의 지표, 예를 들어 나뭇잎을 개별적으로 평가하는 것과 같은 지표가 필요합니다. 예측자의 지표가 변하기 때문에 잎이 너무 시끄러워 실제 클래스를 "변경"하는 것이 분명합니다. 그렇기 때문에 좋은 레이블과 안정적인 예측자가 필요하며, 이들의 조합으로 모델에서 희귀한 값을 가진 잎이 생성되어서는 안 됩니다.

프로덕션 환경에서는 이미 모델에 사용된 예측자 값의 분포 변화를 모니터링하고 변화가 크고 광범위한 경우 모델에 제동을 걸어야 합니다. 그러나 이러한 접근 방식은 통계의 축적을 필요로 하며, 이는 곧 손실의 축적과 같기 때문에 좋지 않습니다. 모델을 제외할 수 있는 더 빠른 방법이 필요하지만, 순전히 손실에 기반한 것이 아닌 합리적인 방법이 필요합니다.

많은 문제가 있으며, 이를 해결하지 않고서는 관리를 위해 모델에 돈을 주고 싶지 않습니다.

 
Aleksey Vyazmikin #:

예, 바이너리가 더 복잡합니다. 하지만 여기서 배급이 어떻게 도움이 될 수 있는지 모르겠습니다.

0과 1의 이진 부호는 이미 정규화되어 있고 나머지도 정규화해야 합니다.

 
Forester #:

0과 1의 이진 피처는 이미 정규화되어 있으므로 다른 피처도 정규화해야 합니다.

여러분의 생각을 이해했으면 좋겠습니다.

그러나 동일한 32개의 세그먼트로 균일하게 양자화하면 세그먼트 '1'은 0이고 세그먼트 '32'는 1이라고 생각할 수 있습니다. 다른 숫자도 마찬가지입니다. 그래서 여기서 근본적인 차이점이 무엇인지 이해하지 못합니다.

 
Aleksey Vyazmikin #:

여러분의 생각을 이해하셨기를 바랍니다.

그러나 동일한 32개의 세그먼트에서 균일하게 양자화하면 세그먼트 '1'은 0이고 세그먼트 '32'는 1이라고 생각할 수 있습니다. 다른 숫자도 마찬가지입니다. 그렇기 때문에 여기서 근본적인 차이점이 무엇인지 이해하지 못합니다.


32로 줄이면 이진 0과 1을 0과 32로 늘립니다 (예 : 0...5에서 0...32로 5 쿼터가있는 다른 것). 모든 것을 비례로 만들려면. 또는 고전적으로 모든 것을 하나의 하이퍼큐브로 압축합니다(정규화가 필요한 신경망의 경우). 본질은 동일합니다. 두 변형 모두에서 동일한 스케일을 얻습니다.

사유: