트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3142

 
Maxim Dmitrievsky #:

O.C.D. 그래프 몇 개만 보여주시겠어요?

새 선생님을 위한 것이 아닙니다.

예측값이 거칠어지는 문제를 해결하려고 합니다. 예측자 값이 모델이 학습된 값과 약간 다를 경우 분류 오류가 발생할 수 있는 것 같습니다. 한 번은 같은 선생님과 함께 모든 예측자를 명목형으로 변환하려고 시도했지만 결과가 나오지 않았습니다. 하지만 명목변수 값의 개수는 1개였습니다. 수백 개가 필요할까요? 나는 일하고 있지만 다른 많은 흥미로운 질문이 방해가됩니다.

 
Forester #:

특히 몇 초 동안 검색하는 경우에는 검색 시간이 길어집니다.

예, 정말 서두르지는 않았지만 여전히 길었습니다.

문제는 예측자의 예측력이 칩 중 하나에 불과하다는 것입니다. 그리고 제 전처리에는 많은 것들이 있으며 각각을 정당화하기 위해 일련의 통계가 필요합니다.

위에서 한 가지 문제를 더 언급했는데 오랫동안 해결책을 찾지 못했습니다.

 
СанСаныч Фоменко #:

신규 교사의 경우, 안 됩니다.

예측값이 거칠어지는 문제를 해결하려고 합니다. 예측자 값이 모델이 훈련 된 값과 약간 다른 경우 분류 오류가 발생할 수있는 것 같습니다. 한 번은 같은 선생님과 함께 모든 예측자를 명목형으로 변환하려고 시도했지만 결과가 나오지 않았습니다. 하지만 명목변수 값의 개수는 1개였습니다. 수백 개가 필요할까요? 나는 일하고 있지만 다른 많은 흥미로운 질문이 방해가됩니다.

"

이상적인 모델은 편향이 낮고 분산이 낮아야 합니다. 그러나 현실에서는 편향과 분산 사이에는 소위 '트레이드 오프'라는 것이 존재합니다. 모델의 복잡성을 높이면(예: 매개변수를 더 추가) 편향은 감소하지만 분산은 증가할 수 있습니다. 반대로 모델을 단순화하면 분산은 감소하지만 편향은 증가할 수 있습니다.


"

가상적으로 크랭크축을 만족할 만한 수준으로 구부리고 간격을 좁힐 수 있지만, 이는 더 이상 "설계에 의한" 것이 아니기 때문에 멀리 가지 못합니다.
 
Maxim Dmitrievsky #:

"

이상적인 모델은 편향이 낮고 분산이 낮아야 합니다. 그러나 현실에서는 편향과 분산 사이에는 소위 '트레이드 오프 '라는 것이 존재합니다. 모델의 복잡성을 높이면(예: 매개변수를 더 추가) 편향은 감소하지만 분산은 증가할 수 있습니다. 반대로 모델을 단순화하면 분산은 감소하지만 편향은 증가할 수 있습니다.


"

가상적으로 크랭크축을 만족할 만한 수준으로 구부리고 간격을 좁힐 수 있지만, 이는 더 이상 "설계에 의한" 것이 아니기 때문에 멀리 갈 수 없습니다.

어떤 이유로 세 번째 구성 요소는 종종 잊혀지는데, 바로 복구할 수 없는 오류입니다. 이 오류가 충분히 크다면(그리고 가격이 SB에 근접해 있기 때문에 많은 것 같습니다) 처음 두 가지보다 더 중요할 수 있습니다.

어쨌든 이것은 우리가 가지고 있는 가격 샘플(및 기타 사용 가능한 데이터)에서 추출할 수 있는 최대 정보는 얼마인가라는 한 가지 질문으로 정리할 수 있는 매우 중요한 사항입니다.

 
Aleksey Nikolayev #:

어떤 이유로 사람들은 종종 세 번째 구성 요소 인 복구 불가능한 오류를 잊어 버립니다. 충분히 크면 (그리고 우리나라에서는 가격이 SB에 근접하기 때문에 중요하지 않은 것 같습니다) 처음 두 가지보다 더 중요 할 수 있습니다.

어쨌든 이것은 우리가 가지고 있는 가격 샘플(및 기타 사용 가능한 데이터)에서 추출할 수 있는 최대 정보는 무엇인가라는 한 가지 질문으로 정리할 수 있는 매우 중요한 사항입니다.

따라서 우리는 모든 경우를 예측하려고하지 말고 모형을 통해 예측되는 경우를 추출해야합니다.

이를 '이질적 트리트먼트 효과'라고 하는데, 이는 크랭크축을 구부리는 것이 아니라 작동하는 부품을 찾아내고 작동하지 않는 부품을 버리는 것에 비유할 수 있습니다.

그러면 X의 속성은 상황에 따라 달라지며 고전적인 의미에서 Y에 대한 "예측자"가 아닙니다. 그렇기 때문에 코줄에서는 이를 "공변량"이라고 부릅니다.

결과는 최대 정보에 대한 질문에 대한 답변(측정 대상에 따라 다름)을 제공합니다. 일반적으로 ATE 또는 CATE로 측정됩니다.


 
Aleksey Nikolayev #:

한 가지 질문: 사용 가능한 가격 샘플(및 기타 사용 가능한 데이터)에서 추출할 수 있는 최대 정보량은 얼마인가요?

작업을 제대로 설정해야 한다고 생각합니다.

정보 정의

"최대 정보"를 정의하세요(최소한 언제 멈춰야 하는지 이해하기 위해).

각 목표마다 다른 세트가 있으므로 목표를 선언해야 합니다.


흥미로운 질문이네요, 마음에 듭니다.
 
Aleksey Nikolayev #:

어떤 이유로 사람들은 종종 세 번째 구성 요소 인 복구 불가능한 오류를 잊어 버립니다. 충분히 크면 (그리고 우리나라에서는 가격이 SB에 근접하기 때문에 중요하지 않은 것 같습니다) 처음 두 가지보다 더 중요 할 수 있습니다.

어쨌든 이것은 우리가 가지고 있는 가격 샘플(및 기타 사용 가능한 데이터)에서 추출할 수 있는 최대 정보는 무엇인가 라는 한 가지 질문으로 정리할 수 있는 매우 중요한 사항입니다.

이는 논문을 쓸 수 있는 연구의 문제이지, 반죽을 깎는 로봇을 만드는 것이 아닙니다.

최대한의 정보가 필요한 것이 아니라 충분한 최소한의 정보가 필요합니다. 따라서 우리는 다음과 같이 제한할 수 있습니다:

1. 분류 단계에서 분류 오차가 20% 미만인 모델을 만듭니다. 그리고 '모델'에는 예측자의 완전한 전처리와 모델 평가를 위한 도구가 포함된다는 점을 이해해야 합니다.

2. 손실/수익 거래 비율이 최소한 동일한 전문가 조언에 모델을 삽입합니다. 수익률이 4 이상이면 한 단계가 더 남았습니다.

3. OOS에서 아무것도 변경되지 않았는지 확인하고 모델이 아닌 전처리에있는 OOS에서 이러한 안정성의 이유를 이해합니다.

그리고 어떤 오류가 20 %에 들어갔는지 - 흥미 롭습니까?

 

오류를 분류하는 것이 더 쉬워지지 않을까요?

더 많은 오류를 발견할수록 더 나은 모델로 남을 것입니다. 정보의 극대화가 아니라 질적(말장난을 용서하세요)인 것입니다.

 
mytarmailS #:
Snalo가 작업을 제대로 설정해야 한다고 생각합니다.

정보 정의

"최대 정보"를 정의하세요(최소한 언제 멈춰야 하는지 이해하기 위해).

각 목표마다 다른 세트가 있으므로 목표를 선언해야 합니다.


하지만 흥미로운 질문이고 마음에 듭니다.

제 생각에는 위의 Maxim의 옵션이 매우 좋습니다. San Sanych가 올바르게 지적했듯이 중요한 것은 정보 자체가 아니라 예금을 늘리는 데 도움이되는 방법입니다).

간단히 설명하기 위해 트레이딩 전략을 트리텐트로, Y를 수익으로 간주하면 정의(TS 최대 수익 기대치)는 상당히 진부해집니다.

 
СанСаныч Фоменко #:

이는 논문이 가능한 연구의 문제이지 반죽을 깎는 로봇을 만드는 것이 아닙니다.

최대한의 정보가 아니라 충분한 최소한의 정보가 필요합니다. 따라서 우리는 다음과 같은 정보로 제한할 수 있습니다:

1. 분류 단계에서 분류 오차가 20% 미만인 모델을 만듭니다. 그리고 '모델'에는 예측자의 완전한 전처리와 모델 평가를 위한 도구가 포함된다는 점을 이해해야 합니다.

2. 손실/수익 거래 비율이 최소한 동일한 전문가 조언에 모델을 삽입합니다. 수익률이 4 이상이면 한 단계가 더 남았습니다.

3. OOS에서 변경된 사항이 없는지 확인하고, 모델이 아닌 전처리에 있는 OOS에서 이러한 안정성의 이유를 이해합니다.

그리고 어떤 오류가 20%에 들어갔는지 - 흥미롭습니까?

하나는 어떤 식 으로든 다른 하나를 방해하지 않습니다. 분명히 최대 값은 달성 할 수 없을뿐만 아니라 계산하는 것도 불가능하지만 어떻게 든 추정하고 예를 들어 스프레드와 대략적으로 비교할 수 있습니다. Maxim에서 제안한 것과 같은 최대값의 변형을 의미합니다.

사유: