훈련에 확률 곡선이 있더라도 어떤 새로운 데이터에 대해 이야기 할 수 있습니까? 그리고 부스팅과 포레스트는 이걸로 큰 죄를 지었어요. 버스팅은 자신감이 넘치고 포레스트는 자신감이 부족합니다. 물론 임계값을 전혀 사용하지 않는다는 전제하에 말입니다.
저는 임계값을 높이면 훈련에서도 거래의 품질이 향상되지 않는다는 것을 관찰했습니다. 그렇다면 그들이 무엇을 반환 할 확률은 무엇입니까? 아무것도 :)
어떻게 든 당신은 확률에 초점을 맞춘 내 게시물에주의를 기울이지 않습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS 및 VNU의 예측 오차는 거의 동일해야 합니다.
다음은 다른 히스토그램입니다.
다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.
어떻게 된 일인지 제 글에 주의를 기울이지 않고 확률에 초점을 맞추고 있습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS, VNU의 예측 오차는 거의 같아야 합니다.
다음은 또 다른 히스토그램입니다.
다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.
누군가 구글에서 이 팁을 찾아주길 바랐습니다.
어떻게 든 당신은 확률에 초점을 맞춘 내 게시물에주의를 기울이지 않습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS 및 VNU의 예측 오차는 거의 동일해야 합니다.
다음은 다른 히스토그램입니다.
다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.
어떻게 된 일인지 제 글에 주의를 기울이지 않고 확률에 초점을 맞추고 있습니다. 확률이 무엇인지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS, VNE의 예측 오차는 거의 같아야 합니다.
즉시 사용 가능한 모델은 정확한 확률을 제공하지 않습니다. 바로 그 이야기입니다. 완전히 일치하는 레이블을 예측했을지 모르지만 확률은 그렇지 않습니다.
내 게시물을 추가했습니다. 모든 모델은 분류 오류가 변동하지 않는다는 의미에서 정확한 확률을 제공합니다.
어떻게 된 일인지 제 글에 주의를 기울이지 않고 확률에 초점을 맞추고 있습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS, VNU의 예측 오차는 거의 같아야 합니다.
다음은 또 다른 히스토그램입니다.
다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.
포기할까요? Google 분류 확률 보정, R에 있어야 합니다.
.
우리는 서로 다른 것에 대해 이야기하고 있습니다.
저는 결과에 대해 글을 쓰고 있고, 여러분은 중간 데이터의 이상에 대해 글을 쓰고 있습니다.
저에게는 RF와 ada에 의해 주어진 특정 레이블의 확률 값이 다를 것이 분명하지만 특정 레이블에 대한 예측은 거의 동일합니다. 저는 확률 값에 관심이 있는 것이 아니라 예측 오차에 관심이 있습니다.
이론적으로 계산하면 확률이 극한 정리를 만족한다는 것을 증명해야 하기 때문에 여러분이 생각하는 의미에서 클래스 확률을 구하는 것은 불가능할 가능성이 높습니다.
우리는 서로 다른 것에 대해 이야기하고 있습니다.
저는 결과에 대해 글을 쓰고 있고, 여러분은 중간 데이터의 이상에 대해 글을 쓰고 있습니다.
RF와 ada가 제공하는 클래스 확률 값은 다르지만 특정 레이블에 대한 예측은 거의 동일합니다. 저는 확률 값에 관심이 있는 것이 아니라 예측 오차에 관심이 있습니다.
이론화하면 확률이 극한 정리를 만족한다는 것을 증명해야하기 때문에 귀하의 의미에서 클래스 확률을 얻는 것은 불가능할 가능성이 높습니다.
그래도 원래 질문은 있었지만 아무도 대답하지 않았습니다.
왜요? 논문의 의미에서....
왜 그럴까요? 논문의 의미에서....