트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 386

 

좋아요, 0.8%가 정직하게 받도록. 분명히 모델에는 재교육을 방지하기 위한 내장 알고리즘이 있습니다.


막심 드미트리예프스키 :

음, 첫째, 여기 집합이 매우 크고 둘째, 기능의 특성이 전혀 알려져 있지 않고 벡터 및 숲과 같은 선형 모델은 분명히 여기에 적합하지 않습니다. 복잡한 비 네트워크를 만들어야합니다. 아마도 이것은 이유입니다.


분류 모델은 실제로 적합하지 않습니다. 회귀가 필요합니다. 결과는 모델의 정확도에 의해 평가되지 않고 일반적으로 회귀 결과에 더 높은 추정치를 제공하는 Logloss 함수를 통해 평가되기 때문에

MultiLogLoss <- function(act, pred) {
  eps <- 1 e- 15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log (pred) + ( 1 - act) * log ( 1 - pred)) * - 1 / length(act)
}

act(실제) - 예상 결과, 벡터
pred (예측) - 예측 결과, 벡터

이 함수의 값은 낮을수록 좋습니다. 함수의 결과가 0.6931472보다 크거나 같으면 모델이 잘못된 것이며 이러한 결과는 무작위 추측을 의미합니다.

글쎄, 54 라운드의 결과로 판단하면 참가자에 대한 새로운 숨겨진 데이터로 평가했을 때 경쟁의 승자가 0.690467을 얻었으므로이 결과를 위해 노력해야합니다.

 
박사 상인 :

좋아요, 0.8%가 정직하게 받도록. 분명히 모델에는 재교육을 방지하기 위한 내장 알고리즘이 있습니다.



분류 모델은 실제로 적합하지 않습니다. 회귀가 필요합니다. 결과는 모델의 정확도에 의해 평가되지 않고 일반적으로 회귀 결과에 더 높은 추정치를 제공하는 Logloss 함수를 통해 평가되기 때문에

act (actual) - 예상 결과, 벡터
pred (예측) - 예측 결과, 벡터

이 함수의 값은 낮을수록 좋습니다. 함수의 결과가 0.6931472보다 크거나 같으면 모델이 잘못된 것이며 이러한 결과는 무작위 추측을 의미합니다.

글쎄, 54 라운드의 결과로 판단하면 참가자에 대한 새로운 숨겨진 데이터로 평가했을 때 경쟁의 승자가 0.690467을 얻었으므로이 결과를 위해 노력해야합니다.


회귀 NN은 훈련 샘플에서 이것을 제공하고 테스트 샘플이기도 합니다. 올바르게 해석하는 방법을 잘 모르겠지만 제 생각에는 모든 것이 나쁘다는 것입니다. 표준 단순 신경망은 회귀 분류에 비해 이점을 제공하지 않으며 다른 분류 방법 에 비해 이점도 제공하지 않습니다. 그런 다음 정규화 된 입력 및 출력, 회귀는이 경우 적용하는 것이 무의미하다고 생각합니다.


 

경쟁 분야의 문학 선택


5087개의 문서가 제목 및 키워드에서 GARCH, GJR-GARCH, EGARCH에 대한 검색과 일치했습니다.


이론적으로 GARCH 모델에서는 모든 것이 현명하고 모든 것이 투명하게 모델링됩니다.

1. 희망이 없는 원래 시리즈는 로그(Xi/ Xi-1)로 증분으로 변환됩니다.

2. 평균 ARIMA 모델로 모델링

3. 분산의 뉘앙스는 경사 및 첨도(두꺼운 꼬리) 등의 의미로 모델링됩니다.

4. 분포 자체가 모델링됩니다. 하나는 일반적으로 편향된 t-분포 또는 편향된 GED 분포를 취합니다.


거래소에서의 거래를 고려할 때 모델 매개변수의 변경 또는 스프레드를 고려하여 모드 전환 모델이 도입됩니다.


기사에는 기성품 R 코드가 포함되어 있는 경우가 많습니다.

 
산산이치 포멘코 :

경쟁 분야의 문학 선택


5087개의 문서가 제목 및 키워드에서 GARCH, GJR-GARCH, EGARCH에 대한 검색과 일치했습니다.


이론적으로 GARCH 모델에서는 모든 것이 현명하고 모든 것이 투명하게 모델링됩니다.

1. 희망이 없는 원래 시리즈는 로그(Xi/ Xi-1)로 증분으로 변환됩니다.

2. 평균 ARIMA 모델로 모델링

3. 분산의 뉘앙스는 경사 및 첨도(두꺼운 꼬리) 등의 의미로 모델링됩니다.

4. 분포 자체가 모델링됩니다. 하나는 일반적으로 편향된 t-분포 또는 편향된 GED 분포를 취합니다.


거래소에서의 거래를 고려할 때 모델 매개변수의 변경 또는 스프레드를 고려하여 모드 전환 모델이 도입됩니다.


기사에는 기성품 R 코드가 포함되는 경우가 많습니다.


그러나 증분이 어떤 식으로든 추세를 나타내지 않는다는 사실은 어떻습니까? 또한 모델에서 단기 정확도를 위해 증분을 사용하지만 까다로운 방식으로 추세 비율도 봅니다.

그리고 다른 시간 샘플에서 증분을 볼 수 있습니다. 다른 TF에서 반환 자체를 가르치지 않으려 고 노력 했습니까?

 
막심 드미트리예프스키 :



그러나 증분이 어떤 식으로든 추세를 나타내지 않는다는 사실은 어떻습니까?

네, 안돼요.

모델은 증분 또는 방향을 예측합니다. 이것이 분류 모델의 목적입니다.

나는 뉴스에서 움직임을 인식할 분류 모델을 모릅니다. 그리고 GARCH의 경우 이것이 모델의 의미입니다. 즉, 발생한 움직임을 해결하는 것입니다. 뚱뚱한 꼬리 - 결국 이것은 뉴스의 움직임입니다. 추세가 깨지면 급격한 반전이 발생합니다.


그리고 다른 시간 샘플에서 증분을 볼 수 있습니다.

여러 시간대에서 작동하는 흥미로운 GARCH 모델이 있습니다. 의미는 이것입니다.

H1의 증분을 예측한다고 가정합니다. 모델에는 분포를 특성화하는 입력 데이터가 필요합니다. 이러한 입력 데이터(보통 변동성)로 이전 시간이 아니라 현재 시간 내의 분을 사용합니다.

 
박사 상인 :

numerai의 규칙은 올해 두 번 변경되었습니다.

이전에는 쉽고 좋았습니다. 기차 테이블에서 모델을 훈련하고, 테스트 테이블에서 오류를 확인하고, 예측을 보내고, 숨겨진 검사 테이블로 추정하고, 오류를 계산합니다. 숨겨진 테이블에서 오류가 가장 적은 사람이 승리합니다. 테스트 데이터 세트의 오류가 숨겨진 데이터 세트의 오류와 실제로 일치하는 것이 매우 좋았고 정확했습니다. 모델을 확인할 수 있습니다.

그런 다음 그들은 무언가를 변경했고 테스트 테이블의 오류는 더 이상 숨겨진 테스트 테이블의 오류와 상관 관계가 없습니다. 정상의 모든 지도자가 사라졌습니다. 무작위로 사람들이 승리하기 시작했고 운 좋게도 모델을 숨겨진 체크리스트에 넣었습니다. IMHO는 경쟁이 아닌 임의의 찌꺼기 인 numerai에서 실패합니다.

그런 다음 그들은 모든 적절한 것이 무작위 경쟁에서 버려지고 실수를 깨닫고 다시 무언가를 변경하는 것을 보았습니다. 이제 예측은 여러 기준에 따라 평가됩니다. 무엇보다도 "고유성" 기준이 저를 화나게 합니다. 누군가 이전에 비슷한 결과를 보낸 적이 있다면 귀하의 결과는 표절로 거부될 것입니다. 저것들. 여러 사람이 동일한 프레임워크를 사용하여 모델을 만드는 경우 일찍 일어나서 예측을 보낸 사람이 돈을 가져갈 것입니다.
이제 모델의 정확도는 이익을 계산할 때 일반적으로 쓸모가 없습니다. 오류 0이 발생하고 상위 1위가 되며 상위가 다운로드를 위해 제공한 테스트 데이터의 결과를 표시하고 상위가 더 이상 숨겨진 체크리스트의 결과를 표시하지 않기 때문에 아무 것도 얻지 못할 수 있습니다.
그들의 경쟁의 현재 반복은 IMHO 넌센스, 투명성 없음, 모든 것이 혼란스럽습니다. 나는 그들이 대회에서 다시 뭔가를 바꾸기를 기다리고 있는데, 그것이 다시 적절하기를 바랍니다.

규칙을 변경하기 전에 이 사이트에서 실제 돈을 얼마나 벌었습니까?
 

 
박사 상인 :

일종의 리베이트 서비스)) 데이터 과학자의 작업에 대한 지불이 아닙니다.

 

상위 100명의 우승자에게는 매주 총 $3,600가 지급되지만 상품의 양은 급격히 감소합니다. 1위는 1000달러, 그 다음은 435달러, 257달러 등이다. 10위(보통 500명 이상의 참가자가 있음)에 들더라도 겨우 $63를 받게 됩니다. 그들은 괴롭힘을 당합니다.

저는 이 경쟁을 제 모델을 리더와 비교하고 돈을 버는 방법이 아니라 데이터 마이닝에 대한 다양한 접근 방식을 연구하는 방법으로 봅니다.

 

리더보드의 점수(val logloss, vertical)가 모델이 새 데이터(live logloss, 수평)에서 받은 점수와 어떻게 관련되는지 알고 싶었습니다. (55 투어)

왼쪽 하단 직사각형에 있는 사람들에게만 잘했습니다. 나머지는 순위표에 올랐지만 새 데이터에 병합되었습니다. 리더보드(오른쪽에서 가장 낮은 두 지점)의 로그 손실 측면에서 가장 좋은 것은 일반적으로 새 데이터에서 가장 나쁜 결과를 보였습니다.

그래프에서 모든 사람의 왼쪽에 점이 있는 사람이 이겼고 이는 의도적인 기계 학습이 아닌 임의의 이상값처럼 보입니다.

흥미롭게도 유효성 검사 데이터에서 0.690 - 0.691의 로그 손실로 거의 모든 사람들이 새 데이터에서 좋은 결과를 보였습니다. 이것이 무엇과 관련이 있는지 상상조차 할 수 없습니다.