트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2589

 
mytarmailS # :
https://stats.stackexchange.com/questions/31513/new-revolutionary-way-of-data-mining

이 주제에 대한 몇 가지 매우 흥미로운 생각이 있습니다 ...

그건 그렇고, 답변자들은 질문의 본질을 이해하지 못했습니다

모델을 선택할 때 OOS의 이익이 아니라 열차 이익에 대한 이 이익의 비율로 최적화하는 것이 좋습니다. 또는 그러한 비율이 작은 모델을 버리고 나머지 모델에서 OOS의 최대 이익을 취하십시오. 따옴표를 추측하지 않고 문자 그대로 이해하는 경우입니다.

 
Alexey Nikolaev # :

모델을 선택할 때 OOS의 이익이 아니라 열차 이익에 대한 이 이익의 비율로 최적화하는 것이 좋습니다. 또는 그러한 비율이 작은 모델을 버리고 나머지 모델에서 OOS의 최대 이익을 취하십시오. 따옴표를 추측하지 않고 문자 그대로 이해하는 경우입니다.

Alexey, 이익, 최대 이익, 모델 버리기 ....

그리고 그것은 맹렬한 개그처럼 들리고 당신은 어떻게 선언하는지 -
말 그대로 편견 없이
 
Alexey Nikolaev # :

모델을 선택할 때 OOS의 이익이 아니라 열차 이익에 대한 이 이익의 비율로 최적화하는 것이 좋습니다. 또는 그러한 비율이 작은 모델을 버리고 나머지 모델에서 OOS의 최대 이익을 취하십시오. 따옴표를 추측하지 않고 문자 그대로 이해하는 경우입니다.

위의 예에서 동전과 10,000명의 사람들이 있습니다. 머리는 1, 꼬리는 0이라고 합시다. 이 알고리즘에 따라 행동하면 아무 것도 얻지 못할 것입니다. 설명된 컨텍스트에 대해 이해할 수 있습니다. 즉, 어떤 종류의 우위를 발견했다면 승률이나 IS와 OOS의 이익 비율 등을 취하든지 중요하지 않지만, 우위가 없다면 이 중 어느 것도 방법이 작동합니다.


정확히! 먼저 가장자리의 존재를 평가해야 합니다. 그리고 나서 이미 선택하는 방법을 생각합니다. 예를 들어, IS를 보면 일부 메트릭에 대한 모델의 비율이 특정 임계값을 초과합니다. 예를 들어 승률은 모델의 55% - 45% 이상입니다. 우리는 승률로 순위를 매기고 일부 TOP을 가져갑니다. 이 탑에 대해 OOS에서 결과가 어떻게 떨어졌는지 볼까요? 55% 이상의 선택된 승률 중 동일한 45%(선택된 모든 모델에 대해 OOS에서 많은 것을 제공하는 비율)를 제공합니까? -이 모델 그룹은 안전하게 버릴 수 있다고 생각합니다. 그러한 TOP의 선택이 효과가 있다는 것이 분명하면 가장자리가 있습니다.이 효과가 얼마나 강하게 표현되는지에 따라 패턴 (에지)의 품질을 평가할 수 있습니다. 우리는 그녀가 충분히 강하다고 결정했습니다. 그게 전부입니다. 추가 선택은 기술의 문제입니다. 그러나 적어도 동일한 승률인 PF의 경우 IS에 대한 승률 및 PF 측면에서 난해한 측정 기준과 논리에 신경 쓸 필요가 없습니다.

 
mytarmailS # :
Alexey, 이익, 최대 이익, 모델 버리기 ....

그리고 그것은 맹렬한 개그처럼 들리고 당신은 어떻게 선언하는지 -
말 그대로 편견 없이

나는 무료 번역이 있습니다) 결론은 많은 모델이 초기에 훈련되고 결국에는 작동하는 모델을 선택해야 한다는 것입니다(모델 평가). 동지는 일반적으로 모든 사람이 FOS에서 단순히 최대 결과를 제공하는 모델을 선택하며 이는 잘못된 접근 방식이라고 주장합니다. 그의 두 번째 인용문에는 어떻게 해야 하는지 나와 있습니다.

표본 외 모델의 평균이 표본 내 점수의 상당한 비율이면 잘 하고 있다는 것을 알 수 있습니다. 이것은 열차당 이익에 대한 FOS당 이익의 비율을 최대화하는 것으로 번역되었습니다.

일반적으로 말해서, out-of-sample 결과가 in-sample의 50% 이상이면 실제로 어딘가에 도달하고 있는 것입니다. 이것은 FOS당 이익 대 열차당 이익의 비율이 0.5 미만인 폐기 모델로 번역될 수 있습니다.
 

글쎄요, 이것은 이미 최적화에서와 같이 모델을 선택하는 문제입니다. 주관적인 기준을 스스로 정할 수 있습니다.

매개변수가 약간 다른 여러 모델, 즉 분산을 허용하지만 모두 OOS를 통과하면 나쁘지 않습니다. 그러나 이것은 물론 만병 통치약이 아닙니다.

 
Alexey Nikolaev # :
Alexey, 최적화 표면을 복원하는 방법이 있습니까?
마찬가지로 그는 매개 변수 검색 알고리즘을 시작하고 무언가를 찾았고 알고리즘에서 검색한 결과 나타난 데이터에 따라 최적화 표면을 복원합니다.
우리는 발견적 알고리즘에 대해 이야기하고 있으며, 물론 완전한 열거에 관한 것은 아닙니다.
구글링했지만 결과가 없다
 
mytarmailS # :
Alexey, 최적화 표면을 복원하는 방법이 있습니까?
마찬가지로 그는 매개 변수 검색 알고리즘을 시작하고 무언가를 찾았고 알고리즘에서 검색한 결과 나타난 데이터에 따라 최적화 표면을 복원합니다.
우리는 발견적 알고리즘에 대해 이야기하고 있으며, 물론 완전한 열거에 관한 것은 아닙니다.
구글링했지만 결과가 없다

누락된 수신 조건부 하이퍼파라미터 값 세트에 대한 모델 품질 메트릭을 보완하시겠습니까? 음, 부스팅은 훈련하기 쉽습니다. 이것이 왜 필요할 수 있습니까?

 
Replicant_mih # :

누락된 수신 조건부 하이퍼파라미터 값 세트에 대한 모델 품질 메트릭을 보완하시겠습니까? 음, 부스팅은 훈련하기 쉽습니다. 이것이 왜 필요할 수 있습니까?

간단한 보간이 가능할 수도 있습니다. 먼저 준비된 보간이 있는지 확인하고 싶었습니다.
무엇 때문에? 모델의 OP를 보면 새 데이터에서 모델이 작동할지 예측할 수 있다고 확신합니다.


 
mytarmailS # :
Alexey, 최적화 표면을 복원하는 방법이 있습니까?
마찬가지로 그는 매개 변수 검색 알고리즘을 시작하고 무언가를 찾았고 알고리즘에서 검색한 결과 나타난 데이터에 따라 최적화 표면을 복원합니다.
우리는 발견적 알고리즘에 대해 이야기하고 있으며, 물론 완전한 열거에 관한 것은 아닙니다.
구글링했지만 결과가 없다

모델 매개변수 공간에서? 그것은 거대한 차원을 가지고 있습니다. 이것은 적은 수의 예측 변수가 있는 매우 간단한 모델에서만 가능합니다.

거대한 차원의 공간에서 표면을 구성하는 방법은 명확하지 않습니다. 이 차원과 비교할 때 우리는 매우 적은 수의 포인트를 가지고 있습니다. 일부 시각화 방법은 PCA 등의 차원이 감소하지 않는 한 의미가 불명확합니다.

 
막심 드미트리예프스키 # :

글쎄요, 이것은 이미 최적화에서와 같이 모델을 선택하는 문제입니다. 주관적인 기준을 스스로 정할 수 있습니다.

매개변수가 약간 다른 여러 모델, 즉 분산을 허용하지만 모두 OOS를 통과하면 나쁘지 않습니다. 그러나 이것은 물론 만병 통치약이 아닙니다.

이전에는 표준 메트릭과 사용자 정의 메트릭을 결합하는 아이디어가 있었습니다. 표준 메트릭에 따라 모델이 학습되고 사용자 정의 메트릭에 따라 선택이 수행되는 방식으로 이해했습니다.

사유: