트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2112

 
알렉세이 비아즈미킨 :

y - 그리드 파티셔닝의 경우, X 편차의 경우 전체 샘플에서 각 클래스의 목표 합계에 대한 백분율입니다. 5%를 필터링합니다. 다른 클래스가 다른 영역에서 우세하고 미러 변경이 있음을 알 수 있습니다. 그런 다음 특정 클래스로 인해 개선이 발생하지만(히스토그램은 마이너스로 이동) 때로는 그렇지 않습니다. 이 모든 것이 교육에 사용되어야 하지만 내가 알고 있는 표준 교육 방법에서는 이를 실제로 고려하지 않습니다. 유전학 (더 정확하게는 제거를 위해)으로 파열시키는 것이 더 효과적 일 가능성이 있습니다. 수행해야합니다.

예의 65%가 클래스 1인 좋은 양자를 찾았다고 가정해 보겠습니다.
분리가 발생합니다. 예를 들어, 중간에 여러분의 이 양에 따라 나누도록 하십시오.

1) 필요한 예제의 65%를 포함하는 양자의 모든 예제와 귀하의 양자보다 적은 양의 무리는 왼쪽 분기에 분할을 남깁니다. 결과적으로 우리는 65%가 아니라 다른 비율을 얻습니다. 다른 퀀텀의 예제와 희석하기 때문에 훨씬 더 작은 비율입니다.

2) 두 번째 - 퀀텀이 트리의 첫 번째 분할이 아닌 경우 이전의 모든 분할이 예제의 약 50%만큼 샘플에서 제거되었습니다. 그리고 트리의 5번째 수준에서 예제의 1/(2^5)=1/32이 양자에 남아 첫 번째 경우와 같이 얇아진 양자와 혼합됩니다. 저것들. 예제의 65%는 훈련의 결과로 시트에 남을 것 같지 않습니다.

유일한 옵션은 양자화 후 열을 범주형 기능으로 표시하는 것입니다. 그러면 이것이 트리의 첫 번째 분할인 경우 예제의 모든 65%가 다른 양자와 혼합되지 않고 왼쪽 분기로 이동합니다. 트리의 첫 번째 분할이 아닌 경우 다시 위쪽 분할에 의해 가늘어집니다.

 
도서관 :

예의 65%가 클래스 1인 좋은 양자를 찾았다고 가정해 보겠습니다.
분리가 발생합니다. 예를 들어, 중간에 여러분의 이 양에 따라 나누도록 하십시오.

1) 필요한 예제의 65%를 포함하는 양자의 모든 예제와 귀하의 양자보다 적은 양의 무리는 왼쪽 분기에 분할을 남깁니다. 결과적으로 우리는 65%가 아니라 다른 비율을 얻습니다. 다른 퀀텀의 예제와 희석하기 때문에 훨씬 더 작은 비율입니다.

2) 두 번째 - 퀀텀이 트리의 첫 번째 분할이 아닌 경우 이전의 모든 분할이 예제의 약 50%만큼 샘플에서 제거되었습니다. 그리고 트리의 5번째 수준에서 예제의 1/(2^5)=1/32이 양자에 남아 첫 번째 경우와 같이 얇아진 양자와 혼합됩니다. 저것들. 예제의 65%는 훈련의 결과로 시트에 남을 것 같지 않습니다.

유일한 옵션은 양자화 후 열을 범주형 기능으로 표시하는 것입니다. 그러면 이것이 트리의 첫 번째 분할인 경우 예제의 모든 65%가 다른 양자와 혼합되지 않고 왼쪽 분기로 이동합니다. 트리의 첫 번째 분할이 아닌 경우 다시 위쪽 분할에 의해 가늘어집니다.

1-2 - 예, 그럴 수 있습니다. 그러나 반드시 그런 것은 아닙니다. 그러한 확률을 최소화하는 접근 방식이 필요합니다.

그리고 범주형 기능에 대해 - 이것은 사실이지만 MQ의 경우 범주형 기능이 있는 모델 인터프리터가 없습니다.

하나의 값으로 양자 세그먼트를 통합하고 이러한 값이 발생하는 별도의 샘플을 만드는 솔루션을 보는 한, 이것이 우리가 이 하위 집합으로 작업하는 방법입니다. 이것은 잎사귀를 찾아 수행할 것이지만 처음에는 다른 방법으로 빠르게 양자화해야 합니다.

 
알렉세이 비아즈미킨 :

결과는 이상하게 판명되었습니다. 테스트 및 교육 샘플에서 0.6-0.8을 호출하고 변환이 없는 시험에서 0.009, 변환이 0.65인 경우 - 여기에서 뭔가 잘못되었습니다.

CatBoost가 변환 알고리즘을 배운 것 같은 느낌입니다 :)

이전 줄과 새 줄을 표시할 수 있습니까? 그런 다음 변환된 샘플에서 변환된 행을 제거하고 이것이 해석 문제인지 고품질 교육이 아닌지 확인할 수 있습니다.

그래야만 합니다. 새 데이터에는 한 클래스의 예가 더 적습니다. 여기에서 일반화 능력이 좋아야 할텐데 바로 테스터에 몰고가야지

리샘플링은 내 데이터에 도움이 되지 않습니다

원래 데이터 세트를 빼면 일종의 끝에 새 줄이 추가됩니다. 이 방법은 단순히 가장 가까운 이웃 예제를 부 클래스에 추가합니다. 저것들. 믿을 수 있는 새 태그 및 기능 생성

 
알렉세이 비아즈미킨 :

1-2 - 예, 그럴 수 있습니다. 그러나 반드시 그런 것은 아닙니다 . 그러한 확률을 최소화하는 접근 방식이 필요합니다.

범주형 기능의 경우 이는 사실이지만 MQ의 경우 범주형 기능이 있는 모델 인터프리터가 없습니다.

하나의 값으로 양자 세그먼트를 통합하고 이러한 값이 발생하는 별도의 샘플을 만드는 솔루션을 보는 한, 이것이 우리가 이 하위 집합으로 작업하는 방법입니다. 이것은 잎사귀를 찾아 수행할 것이지만 처음에는 다른 방법으로 빠르게 양자화해야 합니다.

이것은 트리 빌딩 알고리즘입니다. 변경할 수 없습니다. 나만의 Catboost 만 작성한다면

 
막심 드미트리예프스키 :

그래야만 합니다. 새 데이터에는 한 클래스의 예가 더 적습니다. 여기에서 일반화 능력이 좋아야 할텐데 바로 테스터에 몰고가야지

리샘플링은 내 데이터에 도움이 되지 않습니다

원래 데이터 세트를 빼면 일종의 끝에 새 줄이 추가됩니다. 이 방법은 단순히 가장 가까운 이웃 예제를 부 클래스에 추가합니다. 저것들. 믿을 수 있는 새 태그 및 기능 생성

따라서 재현율은 높게 유지되어야 합니다. 그렇지 않으면 의미가 없습니다. 그것은 샘플의 균형에 의존하지 않습니다.

어떻게 작동하는지 이해합니다. 감사합니다.

"Cluster Centroids"를 클러스터링하는 몇 가지 방법이 있습니다. 또는 여기에서 시도할 다른 방법이 있습니다.

5 главных алгоритмов сэмплинга
5 главных алгоритмов сэмплинга
  • habr.com
Работа с данными — работа с алгоритмами обработки данных. И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций. Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.
 
도서관 :

이것은 트리 빌딩 알고리즘입니다. 변경할 수 없습니다. 나만의 캣부스트만 쓴다면

이것이 우리가 말하는 것입니다. 자신만의 알고리즘을 만들어야 합니다.

 
알렉세이 비아즈미킨 :

따라서 재현율은 높게 유지되어야 합니다. 그렇지 않으면 의미가 없습니다. 그것은 샘플의 균형에 의존하지 않습니다.

어떻게 작동하는지 이해합니다. 감사합니다.

"Cluster Centroids"를 클러스터링하는 몇 가지 방법이 있습니다. 또는 여기에서 시도할 다른 방법이 있습니다.

반대로 이것은 주요 클래스에서 레이블을 제거합니다.

 
막심 드미트리예프스키 :

반대로 이것은 주요 클래스에서 레이블을 제거합니다.

따라서 0을 현명하게 제거해 봅시다. 아마도 이것이 효과를 줄 것입니다.

 
알렉세이 비아즈미킨 :

따라서 0을 현명하게 제거해 봅시다. 아마도 이것이 효과를 줄 것입니다.

노트북에서 방법을 바꾸기만 하면 됩니다.

from imblearn.under_sampling import ClusterCentroids
cc = ClusterCentroids(random_state= 0 )
X_resampled, y_resampled = cc.fit_resample(X, y)

따라서 예

https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html

나는 Near-Miss를 선호한다 (사진에서)

3. Under-sampling — imbalanced-learn 0.5.0 documentation
  • imbalanced-learn.readthedocs.io
On the contrary to prototype generation algorithms, prototype selection algorithms will select samples from the original set . Therefore, is defined such as and . In addition, these algorithms can be divided into two groups: (i) the controlled under-sampling techniques and (ii) the cleaning under-sampling techniques. The first group of methods...
 
막심 드미트리예프스키 :

노트북에서 방법을 바꾸기만 하면 됩니다.

엉뚱한 곳에서 교체했어도 - swears

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
< ipython-input-2-e8cb95eddaea > in < module > ()
      1 cc = ClusterCentroids(random_state=0)
----> 2 X_resampled, y_resampled = cc.fit_resample(X, y)

NameError: name 'X' is not defined

거기에 무엇이 잘못되었는지 보십시오.

사유: