트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

СанСаныч Фоменко 2023.12.24 19:25 #33541

Maxim Dmitrievsky #:
누군가 구글에서 이 팁을 찾아주길 바랐습니다.

훈련에 확률 곡선이 있더라도 어떤 새로운 데이터에 대해 이야기 할 수 있습니까? 그리고 부스팅과 포레스트는 이걸로 큰 죄를 지었어요. 버스팅은 자신감이 넘치고 포레스트는 자신감이 부족합니다. 물론 임계값을 전혀 사용하지 않는다는 전제하에 말입니다.

저는 임계값을 높이면 훈련에서도 거래의 품질이 향상되지 않는다는 것을 관찰했습니다. 그렇다면 그들이 무엇을 반환 할 확률은 무엇입니까? 아무것도 :)

어떻게 든 당신은 확률에 초점을 맞춘 내 게시물에주의를 기울이지 않습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS 및 VNU의 예측 오차는 거의 동일해야 합니다.

다음은 다른 히스토그램입니다.

다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.

Maxim Dmitrievsky 2023.12.24 19:26 #33542

СанСаныч Фоменко #:

어떻게 된 일인지 제 글에 주의를 기울이지 않고 확률에 초점을 맞추고 있습니다. 확률이 무엇인지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS, VNE의 예측 오차는 거의 같아야 합니다.

어떤 모델이든 즉시 사용 가능한 모델은 정확한 확률을 제공하지 않습니다. 그게 바로 이야기입니다. 예측된 레이블이 완전히 일치할 수는 있지만 확률은 실제 결과의 확률을 반영하지 못합니다.

이해가 되시나요?

СанСаныч Фоменко 2023.12.24 19:32 #33543

Maxim Dmitrievsky #:
즉시 사용 가능한 모델은 정확한 확률을 제공하지 않습니다. 바로 그 이야기입니다. 완전히 일치하는 레이블을 예측했을지 모르지만 확률은 그렇지 않습니다.

무슨 말인지 이해하시겠어요?

내 게시물을 추가했습니다. 모든 모델은 분류 오류가 변동하지 않는다는 의미에서 정확한 확률을 제공합니다.

Maxim Dmitrievsky 2023.12.24 19:34 #33544

СанСаныч Фоменко #:

어떻게 된 일인지 제 글에 주의를 기울이지 않고 확률에 초점을 맞추고 있습니다. 확률이 무엇이라고 불리는지는 중요하지 않으며, 중요한 것은 개선되지 않으면 모델이 과도하게 훈련되어 쓰레기통에 들어간다는 것입니다. OOV, OOS, VNU의 예측 오차는 거의 같아야 합니다.

다음은 또 다른 히스토그램입니다.

다른 알고리즘 - 레이블과 예측 변수는 동일하지만 히스토그램이 다릅니다. 다른 분류 알고리즘이 동일한 히스토그램을 생성한다는 것을 의미하는 일종의 이론적 확률을 찾고 있다면 ... 특정 알고리즘으로 작업하고 예측해야 하며 이론적 이상이 아니라 평가해야 하기 때문에 그런 일은 일어나지 않습니다. 여기서 주요 평가는 이론적 이상에 대한 확률의 근접성이 아니라 모델의 과적합성입니다.

포기할까요? Google 분류 확률 보정은 R에서 해야 합니다.

그리고 모델의 확률 곡선을 벤치마크와 비교하여 플롯하세요.

СанСаныч Фоменко 2023.12.24 19:45 #33545

Maxim Dmitrievsky #:
포기할까요? Google 분류 확률 보정, R에 있어야 합니다.
.

그리고 모델의 확률 곡선을 벤치마크와 비교하여 플롯하세요.

우리는 서로 다른 것에 대해 이야기하고 있습니다.

저는 결과에 대해 글을 쓰고 있고, 여러분은 중간 데이터의 이상에 대해 글을 쓰고 있습니다.

저에게는 RF와 ada에 의해 주어진 특정 레이블의 확률 값이 다를 것이 분명하지만 특정 레이블에 대한 예측은 거의 동일합니다. 저는 확률 값에 관심이 있는 것이 아니라 예측 오차에 관심이 있습니다.

이론적으로 계산하면 확률이 극한 정리를 만족한다는 것을 증명해야 하기 때문에 여러분이 생각하는 의미에서 클래스 확률을 구하는 것은 불가능할 가능성이 높습니다.

Maxim Dmitrievsky 2023.12.24 19:46 #33546

СанСаныч Фоменко #:

우리는 서로 다른 것에 대해 이야기하고 있습니다.

저는 결과에 대해 글을 쓰고 있고, 여러분은 중간 데이터의 이상에 대해 글을 쓰고 있습니다.

RF와 ada가 제공하는 클래스 확률 값은 다르지만 특정 레이블에 대한 예측은 거의 동일합니다. 저는 확률 값에 관심이 있는 것이 아니라 예측 오차에 관심이 있습니다.

이론화하면 확률이 극한 정리를 만족한다는 것을 증명해야하기 때문에 귀하의 의미에서 클래스 확률을 얻는 것은 불가능할 가능성이 높습니다.

그럼에도 불구하고 원래 질문은 거기에 있었고 아무도 대답하지 않았습니다. 저는 제가 질문한 것에 대해 정확히 이야기하고 있습니다.

그래서 노력해야 할 것이 있습니다.

СанСаныч Фоменко 2023.12.24 19:48 #33547

Maxim Dmitrievsky #:
그래도 원래 질문은 있었지만 아무도 대답하지 않았습니다.

그래서 기대할 만한 것이 있습니다.

왜요? 논문의 의미에서....

Maxim Dmitrievsky 2023.12.24 19:49 #33548

СанСаныч Фоменко #:

왜 그럴까요? 논문의 의미에서....

확률 곡선으로 거래한다는 것은 이익 대신 손실을 감수한다는 것을 의미하기 때문입니다. 위험에 민감한 애플리케이션인 경우 모든 분류기는 보정이 필요합니다.

mytarmailS 2023.12.24 19:51 #33549

캘리브레이션이란?

https://stats.stackexchange.com/questions/552146/probability-calibration-of-statistical-models

캘리브레이션 방법

https://www.tidymodels.org/learn/models/calibration/

https://mlr.mlr-org.com/articles/tutorial/classifier_calibration.html

Maxim Dmitrievsky 2023.12.24 19:52 #33550

마지막으로.

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3355