약속한 대로 이진 분류 모델을 선택하기 위해 여러 지표를 테스트한 결과를 보고합니다. 테스트에는 17개의 지표가 포함되었습니다. 균형 오류율; LogLikelihoodOfPrediction; W카파; 카파; 브라이어 스코어; 제로 원 손실; 정확성; 균형 잡힌 정확도; MCC; 정도; 전화; F1; AUC; 경첩 손실; 해밍로스; CrossEntropy, Logloss가 기본값입니다. 기술은 간단합니다. 교육, 테스트 및 최종 확인을 위해 동일한 샘플에서 동일한 설정으로 CatBoost를 실행하고, 교육에 참여하지 않는 최종 확인을 위해 파일에서 숫자 표시기를 가져옵니다. 각 지표에 대해 1부터 8까지 크기가 다른 8개의 나무가 형성되어 있으며, 이 역시 집합에서 좋은 값을 선택하는 능력을 평균화하고, 나무의 크기를 변경하는 의미를 판단하는 데에도 사용되었습니다. 4개의 목표는 훈련을 위해 사용되며, 그 전략은 추세 이동의 목표 측면에서 더 크게 다릅니다. 각 지표의 결과는 다음 표에 요약되어 있습니다.
일부 지표는 서로 완전히 일치하며 그룹으로 수집되었습니다. 지표 그룹의 식별자는 녹색으로 표시됩니다.
다음은 각 지표에 대한 요약표로 지표의 최대값과 최소값을 하이라이트 하고 전체 샘플의 피크 지표를 컬러로 표시한 것이다.
다음은 각 지표의 평균 수익에 대한 요약 테이블이며, 이는 최대 평균 금액에 대한 모든 대상 옵션에 대한 범용 지표를 식별하기 위한 옵션입니다.
이전에 쓴 것처럼 수신된 데이터에서 최상의 지표를 선택하기 위해 이 데이터에 대한 공식을 동시에 테스트했습니다. "% All * 1%", 결과는 테스트에 참여하는 각 지표에 대해 이러한 표에 요약되었습니다.
이 접근 방식을 통해 각 지표에 대한 선택 계수 지표의 합계로 순위를 매길 수 있었으며 이는 아래 표와 같습니다.
흥미롭게도 첫 번째 평가에서 가장 좋아하는 "정밀도"는 맨 끝에 있었는데 이는 보편적이지 않지만 반대로 첫 번째 대상에 대한 성능은 매우 성공적인 것으로 나타났습니다.
이 계수가 각 지표의 표에서 선택한 옵션을 고려하고 이러한 지표의 합계로 등급을 볼 수도 있습니다.
요약하면 피벗 테이블에서 결과를 수집하고 장소에 대한 점수를 합산할 수 있습니다. 해당 메트릭이 적은 사람이 더 나을 수 있습니다.
Logloss는 모델 선택을 위한 최상의 지표가 아니라 평균적인 지표라는 결론을 내릴 수 있습니다. 동시에 다른 TS는 훈련된 모델을 선택하기 위해 다른 방법이 필요할 수 있습니다. 따라서 예를 들어 대상(columns_100)의 균형이 더 잡힌 샘플의 경우 정밀도가 이상적이지만 불균형 샘플(예: 20%(columns_200) 및 대상 "1"보다 작으면 상황이 매우 그에게는 좋지 않은 일이며 이 일을 훌륭하게 수행한 HingeLoss를 사용하는 것이 합리적입니다. 가장 균형 잡힌 것은 아마도 Recall 표시기일 것입니다. 이 표시기는 땅을 더듬는 데 사용할 수 있습니다. 제 생각에는 그렇게 생각합니다. 정확도와 같은 지표는 매우 신뢰할 수없고 불균형 한 것으로 판명되었으며 한편으로는 가장 균형 잡힌 대상으로 최상의 옵션을 찾을 수 있었지만 다른 한편으로는 모든 트리 옵션의 평균을 성공적으로 선택하지 못했습니다 , 결과적으로 그는 불균형 샘플을 검색하거나 모델을 튜닝하는 데 능숙하지 않았습니다.
기차/테스트 오차 차이에 대한 정보가 있습니까? 가장 인기있는 정확도 또는 로그 손실을 하나만 가져 가면 충분합니다.
예를 들어 이와 같은 것
오른쪽 기차 왼쪽 테스트:
나는 모델이 일반화하는 능력과 과적합을 방지하기 위해 어떤 종류의 기능이 있는지에 관심이 있습니다. 나는 그들이 빨리 길 잃은 것을 마스터했습니다. 마지막으로 진짜 이야기 :)
catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하기 위해 필요하고, 고려하고 분석할 가치가 있지만 아직까지는 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.
나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.
이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.
catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하는 데 필요하고 고려하고 분석할 가치가 있지만 아직까지 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.
나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.
이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.
네, TS의 개발보다 더 많은 시간이 소요되는 영원한 통합을 화나게 할 뿐입니다. 저도 파이썬으로 해보고 싶은데 아직 시간이 없네요
책은 어떻게 읽나요? 엉덩이 아래에 뭔가를 넣고 있습니까?
꽤 인기가 있습니다. 문제에는 해결책이 있거나 없거나 둘 중 하나입니다. 그렇지 않으면 해결할 수 없습니다. 있다면, 당신이 결정하는 것은 전혀 사실이 아닙니다. 그리고 국회는 어느 편도 아닙니다.
위의 책을 읽어주세요. 최적의 솔루션은 항상 한 조각의 양이며 얼마나 만족스러운가는 이미 두 번째 문제입니다.
약속한 대로 이진 분류 모델을 선택하기 위해 여러 지표를 테스트한 결과를 보고합니다. 테스트에는 17개의 지표가 포함되었습니다. 균형 오류율; LogLikelihoodOfPrediction; W카파; 카파; 브라이어 스코어; 제로 원 손실; 정확성; 균형 잡힌 정확도; MCC; 정도; 전화; F1; AUC; 경첩 손실; 해밍로스; CrossEntropy, Logloss가 기본값입니다. 기술은 간단합니다. 교육, 테스트 및 최종 확인을 위해 동일한 샘플에서 동일한 설정으로 CatBoost를 실행하고, 교육에 참여하지 않는 최종 확인을 위해 파일에서 숫자 표시기를 가져옵니다. 각 지표에 대해 1부터 8까지 크기가 다른 8개의 나무가 형성되어 있으며, 이 역시 집합에서 좋은 값을 선택하는 능력을 평균화하고, 나무의 크기를 변경하는 의미를 판단하는 데에도 사용되었습니다. 4개의 목표는 훈련을 위해 사용되며, 그 전략은 추세 이동의 목표 측면에서 더 크게 다릅니다. 각 지표의 결과는 다음 표에 요약되어 있습니다.
일부 지표는 서로 완전히 일치하며 그룹으로 수집되었습니다. 지표 그룹의 식별자는 녹색으로 표시됩니다.
다음은 각 지표에 대한 요약표로 지표의 최대값과 최소값을 하이라이트 하고 전체 샘플의 피크 지표를 컬러로 표시한 것이다.
다음은 각 지표의 평균 수익에 대한 요약 테이블이며, 이는 최대 평균 금액에 대한 모든 대상 옵션에 대한 범용 지표를 식별하기 위한 옵션입니다.
이전에 쓴 것처럼 수신된 데이터에서 최상의 지표를 선택하기 위해 이 데이터에 대한 공식을 동시에 테스트했습니다. "% All * 1%", 결과는 테스트에 참여하는 각 지표에 대해 이러한 표에 요약되었습니다.
이 접근 방식을 통해 각 지표에 대한 선택 계수 지표의 합계로 순위를 매길 수 있었으며 이는 아래 표와 같습니다.
흥미롭게도 첫 번째 평가에서 가장 좋아하는 "정밀도"는 맨 끝에 있었는데 이는 보편적이지 않지만 반대로 첫 번째 대상에 대한 성능은 매우 성공적인 것으로 나타났습니다.
이 계수가 각 지표의 표에서 선택한 옵션을 고려하고 이러한 지표의 합계로 등급을 볼 수도 있습니다.
요약하면 피벗 테이블에서 결과를 수집하고 장소에 대한 점수를 합산할 수 있습니다. 해당 메트릭이 적은 사람이 더 나을 수 있습니다.
Logloss는 모델 선택을 위한 최상의 지표가 아니라 평균적인 지표라는 결론을 내릴 수 있습니다. 동시에 다른 TS는 훈련된 모델을 선택하기 위해 다른 방법이 필요할 수 있습니다. 따라서 예를 들어 대상(columns_100)의 균형이 더 잡힌 샘플의 경우 정밀도가 이상적이지만 불균형 샘플(예: 20%(columns_200) 및 대상 "1"보다 작으면 상황이 매우 그에게는 좋지 않은 일이며 이 일을 훌륭하게 수행한 HingeLoss를 사용하는 것이 합리적입니다. 가장 균형 잡힌 것은 아마도 Recall 표시기일 것입니다. 이 표시기는 땅을 더듬는 데 사용할 수 있습니다. 제 생각에는 그렇게 생각합니다. 정확도와 같은 지표는 매우 신뢰할 수없고 불균형 한 것으로 판명되었으며 한편으로는 가장 균형 잡힌 대상으로 최상의 옵션을 찾을 수 있었지만 다른 한편으로는 모든 트리 옵션의 평균을 성공적으로 선택하지 못했습니다 , 결과적으로 그는 불균형 샘플을 검색하거나 모델을 튜닝하는 데 능숙하지 않았습니다.
바로 지금, 내가 문자 그대로 "무릎에" 발견한 탐나는 열쇠 의 도움으로 이 추세는 쉽고 부드럽게 변기에 던져졌습니다.그가 생각해낸 것은 흥미롭다.
훌륭한 테스트, 감사합니다.
기차/테스트 오차 차이에 대한 정보가 있습니까? 가장 인기있는 정확도 또는 로그 손실을 하나만 가져 가면 충분합니다.
예를 들어 이와 같은 것
오른쪽 기차 왼쪽 테스트:
나는 모델이 일반화하는 능력과 과적합을 방지하기 위해 어떤 종류의 기능이 있는지에 관심이 있습니다. 나는 그들이 빨리 길 잃은 것을 마스터했습니다. 마지막으로 진짜 이야기 :)
훌륭한 테스트, 감사합니다.
기차/테스트 오차 차이에 대한 정보가 있습니까? 가장 인기있는 정확도 또는 로그 손실을 하나만 가져 가면 충분합니다.
예를 들어 이와 같은 것
오른쪽 기차 왼쪽 테스트:
나는 모델이 일반화하는 능력과 과적합을 방지하기 위해 어떤 종류의 기능이 있는지에 관심이 있습니다. 나는 그들이 빨리 길 잃은 것을 마스터했습니다. 마지막으로 진짜 이야기 :)
catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하기 위해 필요하고, 고려하고 분석할 가치가 있지만 아직까지는 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.
나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.
이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.
catbust는 3개의 샘플을 사용합니다. 하나는 훈련된 테스트이고, 두 번째는 각 모델의 훈련을 확인하고 훈련 과정에서 얻은 최상의 모델을 선택하고 테스트 데이터에서 안정적이며, 세 번째는 선택한 모델로 교육 완료 시 이미 표시된 시험 샘플. 그는 실제로 훈련 샘플에서 매우 잘 배울 수 있기 때문에 테스트 샘플의 결과를 훈련 샘플과 비교하는 것은 의미가 없지만 시험 샘플을 사용한 테스트는 의미가 있습니다. 하지만 이 모든 것을 엑셀에서 수동으로 처리하다 보니 테스트 샘플의 결과를 확인하기에는 제 힘이 부족했습니다. 물론 이러한 데이터는 모델을 평가하는 데 필요하고 고려하고 분석할 가치가 있지만 아직까지 프로세스가 자동화되어 있지 않습니다. 그리고 나는 어떤 숫자에 대해 말할 수 없습니다.
나는 과적합을 처리하는 특별한 방법을 발견하지 못했습니다. 아주 좋은 성능으로 훈련을 중지하는 방법을 제외하고 ... 알고리즘 자체에는 끌 수 있는 특정 임의가 있습니다. 트리 분기에 대한 최상의 예측 변수로, 이는 재훈련을 방지하는 데 도움이 됩니다.
이제 모델에 여전히 탐욕을 쌓는 나무의 원칙이 있고 이로 인해 더 나은 결과를 얻지 못하는 경우가 있기 때문에 예측자를 부분적으로 제출하고 어떤 일이 일어나는지 보고 싶습니다.
네, TS의 개발보다 더 많은 시간이 소요되는 영원한 통합을 화나게 할 뿐입니다. 저도 파이썬으로 해보고 싶은데 아직 시간이 없네요
네, TS의 개발보다 더 많은 시간이 소요되는 영원한 통합을 화나게 할 뿐입니다. 저도 파이썬으로 해보고 싶은데 아직 시간이 없네요
네, 저는 python을 사용하지 않습니다. catbust에 콘솔 버전이 있다는 것이 너무 좋아서 MT5와 친구가 되고 싶습니다.
네, 저는 python을 사용하지 않습니다. catbust에 콘솔 버전이 있다는 것이 너무 좋아서 MT5와 친구가 되고 싶습니다.
거의 모든 사람이 콘솔을 가지고 있어서 작업하기가 불편합니다.
거의 모든 사람이 콘솔을 가지고 있어서 작업하기가 불편합니다.
다른 사람이 가지고 있는지 몰랐어요?
왜 편리하지 않은가요? MT5에는 설정과 매개변수 열거를 구현할 수 있는 스크립트가 있습니다. Python이나 R의 순수 코드보다 더 나은 방법입니다.
Catboost는 그래픽 팜으로 작업하는 방법을 알고 있어 제 관심을 끌었습니다.
다른 사람이 가지고 있는지 몰랐어요?
왜 편리하지 않은가요? MT5에는 설정과 매개변수 열거를 구현할 수 있는 스크립트가 있습니다. Python이나 R의 순수 코드보다 더 나은 방법입니다.
Catboost는 그래픽 팜으로 작업하는 방법을 알고 있어 제 관심을 끌었습니다.
개발된 모든 ML 라이브러리에 대해 이것은 단지 플러스 측면에 있습니다
저수준 언어, 특히 연구에서 MO로 작업하는 것은 편리하지 않고 오래 걸리지 않습니다.