트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 551

 

나는 다음 주제를 지지할 것이다: 지난 며칠 동안 나는 또한 최적화 프로세스의 속도를 높이기 위해 입력 변수의 수를 줄이는 것에 대해 생각했습니다. 그리고 나는 요즘 불필요한 항목을 선별하는 데 약간의 성공을 거두었다고 말해야 합니다.

질문: 노이즈이기 때문에 훈련 샘플에서 어떤 입력 변수를 제거해야 합니까????

사실, 이 질문은 그리 사소하지 않습니다. 왜냐하면 우리가 어떤 입력이 노이즈이고 어떤 것이 아닌지 알고 있기 때문입니다. 그 모델 빌딩은 간단한 문제가 될 것입니다. 그리고 모든 입력이 있을 때 출력과 하나 또는 다른 관계가 있습니다. 그럼 어떡해???? 어떤 것을 제거할 것인가?

나에게 있어서 답은 아주 간단했다....정규분포 법칙이 있는 입력 데이터만 남겨두면 된다. 히스토그램이 정규 분포처럼 보이고 중앙 부분이 범위의 중간에 있을 때. 학습에 유용할 수 있는 것은 이러한 변수입니다. 출력에 대한 알파가 있는 것과 같은 변수에 있다고 말하는 것이 아닙니다. 그녀는 거기에 없을 수도 있습니다. 그러나 검색 자체가 더 철저할 것이고 그러한 변수에서 알고리즘은 더 많이 포착하고 항목 수를 늘릴 것입니다. 다음은 예입니다.

이 항목은 좋은 것으로 간주됩니다. 정규분포를 가지고 있고 히스토그램의 중앙 부분이 범위의 중간에 있기 때문에

그러나 이 데이터는 주요 히스토그램 외부에 이상치가 있는 편향된 분포를 가지고 있습니다. 이 히스토그램은 데이터가 한쪽으로 치우쳐 있어 모델 작성에 유용하지 않을 수 있음을 나타냅니다.

입력 데이터를 선택하는 초기 단계에서는 출력에 대한 이 입력 또는 저 입력의 중요성을 판단할 수 없습니다. 최적화 프로그램을 위한 작업이기도 하기 때문입니다. 초기 단계에서는 0에 대한 변수의 분포만 판단할 수 있습니다. 그리고 이 분포가 정상이면(데이터가 한쪽에 고르게 분포되고 다른 쪽이 0에 상대적으로 고르게 분포됨) 대부분의 데이터가 음수 영역에 있을 때 0에 상대적으로 치우친 데이터와 달리 최적화 프로그램이 더 많은 선택을 할 것입니다. 혹은 그 반대로도.

하여튼 그런....

 

선택하는 모델에 따라 :) 정보가 아닌 기능을 제거한 후 모델의 정확도가 많이 떨어지지 않으면 필요한 것입니다. 삭제, 다시 교육 - 불필요한 것이 있는지 다시 확인하십시오.

출력에 고정되지 않은 프로세스가 있는 회귀 모델 이 있는 경우 이 접근 방식을 사용하면 반대로 모든 것을 망칠 수 있습니다. 정규 분포 노이즈에 대해 다시 학습합니다.

 
막심 드미트리예프스키 :

선택하는 모델에 따라 :) 정보가 아닌 기능을 제거한 후 모델의 정확도가 많이 떨어지지 않으면 필요한 것입니다. 삭제, 다시 교육 - 불필요한 것이 있는지 다시 확인하십시오.

출력에 고정되지 않은 프로세스가 있는 회귀 모델이 있는 경우 이 접근 방식을 사용하면 반대로 모든 것을 망칠 수 있습니다. 정규 분포 노이즈에 대해 다시 학습합니다.


0을 기준으로 한 분류. 이러한 목적을 위해 이 접근 방식이 옳습니다. IMHO!

 
마이클 마르쿠카이테스 :

그러나 이 데이터는 주요 히스토그램 외부에 이상치가 있는 편향된 분포를 가지고 있습니다. 이 히스토그램은 데이터가 한쪽으로 치우쳐 모델 작성에 유용하지 않을 수 있음을 나타냅니다.

Vladimir의 기사에는 이상값 제거에 대한 단락이 있는데, 그림 2에서 이상값을 제거하면 더 정규 분포를 얻게 됩니다.

그런 다음 입력 데이터를 중앙에 배치하여 상황을 더욱 개선할 것입니다.

 
도서관 :

Vladimir의 기사에는 이상값 제거에 대한 단락이 있는데, 그림 2에서 이상값을 제거하면 더 정규 분포를 얻게 됩니다.

그런 다음 입력 데이터를 중앙에 배치하여 상황을 더욱 개선할 것입니다.


이 이상값이 새 데이터에 도착하면 어떻게 해야 합니까? 모델은 그것을 어떻게 해석합니까?

데이터에서 이상값을 제거한다는 것은 다른 입력에 대해 이 벡터에 중요한 데이터가 있는 경우 주어진 이상값에 대한 전체 입력 벡터를 제거하는 것을 의미합니다. 입력의 특성이 이러한 이상값에 취약한 경우 이 입력을 전혀 사용하지 않는 것이 좋습니다. 임호.

 
마이클 마르쿠카이테스 :

0을 기준으로 한 분류. 이러한 목적을 위해 이 접근 방식이 옳습니다. IMHO!


예, 출력이 동일한 법칙에 따라 대략적으로 분포된다면, 그렇지 않다면 동일한 재교육이 있을 것입니다.

 
도서관 :

Vladimir의 기사에는 이상값 제거에 대한 단락이 있는데, 그림 2에서 이상값을 제거하면 더 정규 분포를 얻게 됩니다.

그런 다음 입력 데이터를 중앙에 배치하여 상황을 더욱 개선할 것입니다.


이상치의 제거는 핸디캡 예측을 상당히 악화시키고 전체 시스템을 마비시킬 수 있는 통계적 조치 또는 목발(모든 것을 고정시키려는 것)입니다(시장이 정규 분포인 경우에만 작동함)

국회가 일반적으로 어디에, 어떤 목적으로 사용되는지 이해해야합니다.. 책에 따라 아무것도하지 마십시오 :)

Vladimir는 그의 모델의 견고성에 대한 단일 확인이 없습니다 .. 동일한 R의 모델에 대한 매우 거친 테스트 만

그래서 나는 이 삶에서 무엇을 믿어야 할지 xs. .모든 것을 다시 확인해야 합니다.

 
막심 드미트리예프스키 :

예, 출력이 동일한 법칙에 따라 대략적으로 분포된다면, 그렇지 않다면 동일한 재교육이 있을 것입니다.


글쎄, 나는 항상 같은 양의 클래스 "0"과 "1"에 대한 출력 균형을 유지합니다. 즉, 내 출력은 균형을 이루고 동시에 0에 대해 정규 분포를 갖는 입력을 받습니다. 옵티마이저는 여러 번 실행해야 하지만 일반적으로 모델에서 더 많은 입력을 사용할수록 성능이 향상됩니다. 따라서 테스트 사이트에서 최대 결과를 얻을 수 있는 더 매개변수적인 모델을 선택합니다. 추가 부스팅 및 기타 로션 ...

 
마이클 마르쿠카이테스 :

이 이상값이 새 데이터에 도착하면 어떻게 해야 합니까? 모델은 그것을 어떻게 해석합니까?

데이터에서 이상값을 제거한다는 것은 다른 입력에 대해 이 벡터에 중요한 데이터가 있는 경우 주어진 이상값에 대한 전체 입력 벡터를 제거하는 것을 의미합니다. 입력의 특성이 이러한 이상값에 취약한 경우 이 입력을 전혀 사용하지 않는 것이 좋습니다. 임호.

새 데이터에서는 훈련 중에 얻은 범위에 따라 이상값도 제거됩니다. 훈련 중에 -100에서 +100으로 제거하고 기억하고 새 데이터에서 동일한 수준으로 제거했다고 가정해 보겠습니다. 이것은 절대값에 대해 수행되어야 하며, 그런 다음 정규화할 수 있습니다. 이상값을 제거하지 않고 정규화된 데이터의 중심이 항상 이동했고 비교할 수 없게 되었습니다).

그리고 방출 은 뉴스 보도나 특별한 사건의 순간에만 나타나지만 매번 이러한 방출의 강도는 다를 것입니다. 나는 그것들을 버리는 것이 낫다고 스스로 결정했습니다. 글쎄, 블라디미르, 그는 이것을 스스로 생각해 낸 것이 아닙니다. 분명히 이것은 많은 사람들의 연구에 의해 확인되었습니다.

 
마이클 마르쿠카이테스 :


글쎄, 나는 항상 같은 양의 클래스 "0"과 "1"에 대한 출력 균형을 유지합니다. 즉, 내 출력은 균형을 이루고 동시에 0에 대해 정규 분포를 갖는 입력을 받습니다. 옵티마이저는 여러 번 실행해야 하지만 일반적으로 모델에서 더 많은 입력을 사용할수록 성능이 향상됩니다. 따라서 테스트 사이트에서 최대 결과를 얻을 수 있는 더 매개변수적인 모델을 선택합니다. 추가 부스팅 및 기타 로션 ...


즉, 더 이상 jPredictor가 결국에는 없습니까? :)

사유: