트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1277

 
도서관 :

나는 이 방법을 다르게 이해했다.
연구 중인 예측 변수의 경우 정규 분포를 사용하여 임의의 값을 제출하지 않고 단순히 이 열의 행을 섞을 필요가 있습니다.

일반적으로 기사의 결과는 인상적입니다. 우리는 실제로 그것을 시도해야 합니다.

차이점은 무엇입니까

 
도서관 :
Alglib에서는 나머지 예측변수를 모두 50%에서 정렬하고 각각을 4분위수로 4등분하고 모든 옵션에서 오류가 가장 좋은 나눗셈을 선택합니다.

원칙적으로 무작위 분리는 부착하기 어렵지 않습니다.
테스트에서 좋은 결과를 가진 개별 나무를 보지 못했지만 (45-50 %), 그 숲이 이미 더 흥미 롭습니다)


이해, 나는 그렇게 생각했기 때문에 대부분의 나무의 루트 분할이 동일할 가능성이 높으며 그 자체는 다른 옵션을 버립니다.

나는 어떤 잎사귀라도 일종의 패턴/기호를 설명하기 위한 시도일 뿐이며 설명이 정확한지 또는 표본에서 우연의 일치인지 미리 알 수 없다는 사실에서 진행합니다. 그래서 나무 전체가 아닌 독특하고 독특한(반복 안됨) 잎사귀들을 모아서 따로 체크합니다.

Alglib은 분기가 과도해서 학습이 아니라 암기입니다. 나는 숲이 좋은 생각이라고 생각하지만 각 나무에 고유한 규칙(잎)이 있고 분할 수가 4-10개로 많지 않은 경우 올바르게 작동합니다.


도서관 :
예측 변수의 중요성에 따라 다음을 살펴보았습니다.
xgboost, lightGBM 패키지에는 "나무 모델"에 대한 기능(기능 중요도 )의 중요성을 평가하기 위한 기본 제공 방법이 있습니다.

  1. 얻다
    이 측정은 모델에 대한 각 기능의 상대적 기여도를 보여줍니다. 계산하기 위해 우리는 각 트리를 살펴보고 노드 분할로 이어지는 트리의 각 노드를 살펴보고 메트릭(지니 불순물, 정보 이득)에 따라 모델의 불확실성이 얼마나 감소하는지 확인합니다.
    각 기능에 대해 모든 트리에 대한 기여도가 요약됩니다.
  2. 씌우다
    각 기능에 대한 관찰 수를 표시합니다. 예를 들어, 4개의 기능과 3개의 트리가 있습니다. 트리 노드의 기능 1이 트리 1, 2 및 3에 각각 10, 5 및 2개의 관측치를 포함한다고 가정하면 이 기능에 대한 중요도는 17(10 + 5 + 2)과 같습니다.
  3. 빈도
    이 기능이 트리의 노드에서 얼마나 자주 발생하는지 보여줍니다. 즉, 각 트리의 각 기능에 대한 노드로 트리의 총 분할 수가 계산됩니다.
그들은 실제로 중요성을 올바르게 공유하지 않습니다.
5개의 막대에서 훈련된 나의 숲은 100보다 테스트에서 더 나은 결과를 제공합니다. 그러나 100에서 배울 때 처음 5는 중요한 것으로 표시되지 않고 일부 먼 것들로 표시됩니다.
100에서 훈련할 때 개별 나무와 숲의 오류는 더 낮습니다. 분명히 재훈련과 30-100 막대에 중요성을 부여하기 때문입니다. 그러나 일반적인 논리에서는 중요하지 않지만 5개 막대의 포리스트가 최상의 결과를 제공한다는 사실에 의해 명백합니다.

네, 표준 접근 방식은 중요성을 평가할 때 그다지 효과적이지 않습니다. 나는 점수로 고유성 지표를 시도하고 싶습니다. 기성품 잎이 있고 각 예측 변수를 다른 예측 변수로 차례로 변경하려고 할 때(그리드 파티션 고려), 통계를 수집하고, 최상의 대체 옵션을 기본 옵션과 비교하고, 정확도 또는 다른 변수를 고려합니다. 지표(개념이 중요함), 따라서 전체 모델에서 각 예측 변수에 대한 점수를 수집합니다.

도서관 :
코드를 대충 검토한 후 rpart 패키지에서 트리를 구축하기 위한 기능의 유전적 선택을 보았습니다. 저것들. 각 트리에는 훈련을 위한 고유한 기능 세트가 제공되었습니다. 유전학으로 인해 이러한 선택은 전체 열거보다 빠릅니다.
그러나 나무는 마법이 아니라 rpart가 제공하는 것입니다. 나는 그것이 표준이라고 생각합니다.

나무 자체는 절대 표준이며 스크립트의 원래 아이디어는 가장 중요한 예측 변수를 찾는 것이며 유전학이 이에 기여하는 것 같습니다.

새로운 세대를 만들기 위해 다른 지표(정확도, 완전성 또는 기타)에 대한 엔트로피를 변경하는 것이 어떻게 가능한지 이해가 되지 않습니다.

 

얼마 전 ML에 대한 강의를 보았는데 모델이 좁은 확률 범위에서 작동하는 상황이 표시되었습니다. 그래서 부스트 모델의 경우 모델이 실제로 확률이 아닌 확률을 생성하기 때문에 이것은 거의 표준으로 간주됩니다. 순수한 형태로, 그리고 이와 관련하여 이러한 상황에서 예측의 정확한 해석을 위해 그러한 모델을 보정하는 개념이 있습니다. 그리고 작년에 모델이 40에서 60 사이의 범위에서 결과를 냈을 때 그러한 상황이 있었고 그들은 이것이 매우 나쁜 옵션이라고 확신했습니다 ... 그러나 모델이 안정적이고 좋은 결과를 제공했기 때문에 의심 스럽습니다. 재정 결과.

 
알렉세이 비아즈미킨 :

얼마 전에 ML에 대한 강의를 보았는데 모델이 좁은 확률 범위에서 작동 하는 상황이 표시되었습니다. 그래서 부스트 모델의 경우 모델이 실제로 확률이 아닌 확률을 생성하기 때문에 이것은 거의 표준으로 간주됩니다. 순수한 형태로, 그리고 이와 관련하여 이러한 상황 때문에 정확한 예측을 위해 그러한 모델을 보정하는 개념이 있습니다. 그리고 작년에 모델이 40에서 60 사이의 범위에서 결과를 냈을 때 그러한 상황이 있었고 그들은 이것이 매우 나쁜 옵션이라고 확신했습니다 ... 그러나 모델이 안정적이고 좋은 결과를 제공했기 때문에 의심 스럽습니다. 재정 결과.

Alexey, 오류 확률이 99%라고 가정해 보겠습니다. 좋은 것입니까 나쁜 것입니까?

나머지 1%만이 성공할 확률이라는 것을 이해합니다.

작지만 시원하기 때문에 우리는 이미 오류의 위치와 이를 피하는 방법을 알고 있습니다.

이 경우 99:1의 비율
 
레나트 아크티아모프 :

Alexey, 오류 확률이 99%라고 가정해 보겠습니다. 좋은 것입니까 나쁜 것입니까?

나머지 1%만이 성공할 확률이라는 것을 이해합니다.

작지만 시원하기 때문에 우리는 이미 오류가 어디에 있고 어떻게 피할 수 있는지 알고 있습니다.

이러한 높은 오류 확률은 우리가 무슨 일이 일어나고 있는지 거의 알지 못한다고 말합니다.

이것은 상당히 정확한 데이터이고 훌륭하지만 성공과는 거리가 멉니다. 1%는 사고일 수 있습니다.

그리고 그것은 단지 확률의 관점에서입니다.

 
알렉세이 비아즈미킨 :

이해, 나는 그렇게 생각했기 때문에 대부분의 나무의 루트 분할이 동일할 가능성이 높으며 그 자체는 다른 옵션을 버립니다.

약 50%. 그러나 이 매개변수는 포리스트를 구축하기 위해 다른 f-ii 호출에 필요한 매개변수로 변경할 수 있습니다.

알렉세이 비아즈미킨 :
나는 점수로 고유성 지표를 시도하고 싶습니다. 기성품 잎이 있고 각 예측 변수를 다른 예측 변수로 차례로 변경하려고 할 때(그리드 파티션 고려), 통계를 수집하고, 최상의 대체 옵션을 기본 옵션과 비교하고, 정확도 또는 다른 변수를 고려합니다. 지표(개념이 중요함), 따라서 전체 모델에서 각 예측 변수에 대한 점수를 수집합니다.

Maxim이 찾은 순열과 유사한 것. 그러나 값이 0.1에서 0.2로 변경되는 예측 변수 대신 예측 변수를 800에서 300000으로 변경하는 것이 의미가 있습니까? 아니다!
그러나 그것의 라인을 혼합하기 위해 - 그것은 가지고 있습니다. 숫자의 범위와 확률 분포는 유지되지만 각 예의 값은 무작위가 됩니다.

알렉세이 비아즈미킨 :

새로운 세대를 만들기 위해 다른 지표(정확도, 완전성 또는 기타)에 대한 엔트로피를 변경하는 것이 어떻게 가능한지 이해가 되지 않습니다.

일부 R 패키지에서는 고유한 오류 기능을 사용할 수 있습니다. Xgboost는 할 수 있지만 거기에서 f-ii의 도함수에 대한 공식을 찾아 함께 제출해야 합니다. 파생 상품을 도출하는 것은 나에게 문제입니다. rpart 패키지에 대한 설명을 보세요. 거기에서 기능을 사용할 수도 있고 파생물 없이 사용할 수도 있습니다.

 
도서관 :

Maxim이 찾은 순열과 유사한 것입니다. 그러나 값이 0.1에서 0.2로 변경되는 예측 변수 대신 예측 변수를 800에서 300000으로 변경하는 것이 의미가 있습니까? 아니다!
그러나 그것의 라인을 혼합하기 위해 - 그것은 가지고 있습니다. 숫자의 범위와 확률 분포는 유지되지만 각 예의 값은 무작위가 됩니다.

나는 " n. dist 라고 하자 ."라고 썼습니다. 평균과 분산을 구하고 앞으로. 무작위화는 순열보다 NOISE를 사용하는 것이 좋습니다.

여기에는 단순히 단어를 왜곡하고 스크린샷을 찍는 것을 좋아하는 바보들이 많이 있습니다. 나중에 이에 대해 주장하려고 합니다.

 
막심 드미트리예프스키 :

나는 " n. dist 라고 하자 ."라고 썼습니다. 당연히 정규화 된 기호에 의미가 있습니다. 평균과 분산을 구하고 앞으로.

여기에는 단순히 단어를 왜곡하고 스크린샷을 찍는 것을 좋아하는 바보들이 많이 있습니다. 나중에 이에 대해 주장하려고 합니다.
정규화는 범위에 도움이 됩니다.
그러나 정규 분포의 확률 분포 는 중앙(약 0.5)에 있는 반면 실제 예측 변수는 약 0.8과 같이 옆으로 이동할 수 있습니다. 또는 0.2 및 0.8 주변의 안장 또는 기타 ...
저어주면 분포가 보존됩니다.
 
도서관 :
정규화는 범위에 도움이 됩니다.
그러나 정규 분포의 확률 분포는 중앙(약 0.5)에 있는 반면 실제 예측 변수는 약 0.8과 같이 옆으로 이동할 수 있습니다. 또는 0.2 및 0.8 주변의 안장 또는 기타 ...
저어주면 분포가 보존됩니다.

평균과 분산을 취하십시오. lol 그리고 걱정하지 마십시오.

 
막심 드미트리예프스키 :

평균과 분산을 취하십시오. lol 그리고 걱정하지 마십시오.

섞기 쉬움)

그리고 흥미로운 방법(순열)에 대한 링크 - 감사합니다!

사유: