설명에서 이해가 안 된다면 정확히 무엇이 명확하지 않은지 질문하세요. 더 잘 설명하도록 노력하겠습니다.
저도 몇 년 전에 이미 그렇게 했는데, 무의미한 게 아니라 인건비 때문에 거절했어요.
아래는 이전 실험의 결과 테이블이며 작업은 다음과 같습니다.
1. 예측변수의 개수를 9개로 자른다.
2. 조각 간의 조합이 만들어집니다 - 512
3. 그런 다음 각 조각의 유무에 따라 샘플이 평균적으로 어떻게 거동하는지에 대한 평가가 있습니다.
4. 작품의 의미(긍정/부정)에 대해 가정합니다.
5. 중요한 조각은 더 작은 조각으로 쪼개지고 덜 중요한 조각은 하나로 결합됩니다(순서대로일 필요는 없습니다).
6. 새로운 512 조합이 형성됩니다.
7. 샘플에 부정적인 영향을 미치는 작은 조각이 발견되면 결과의 개선이 멈출 때까지 추가 열거에서 제외되고 폐기 된 조각을 추가하고 동일한 방식으로 결과를 분석 할 수 있습니다. 반대로 긍정적인 영향은 하나의 그룹으로 일반화됩니다.
다음은 32번의 이러한 반복으로 지표가 어떻게 변하는지에 대한 예입니다.
물론 방법은 개선될 수 있지만 이를 위해서는 실험과 결과의 결과가 필요합니다.
예, 개선은 여러 번은 아니지만 결과를 통해 어떤 예측 변수가 결과에 더 좋거나 더 나쁜 영향을 미치는지와 그 이유를 생각할 수 있습니다.
그리고 CatBoost 통계로 작업하고 예측자(및 해당 그룹)를 제거/추가하려고 합니다. 이전에 사용한 열거보다 빠를 수 있기 때문입니다.
또 다른 장점은 예측 변수가 과도하면 드문 분할이 나타나고 리프 활성화가 훈련 외부의 샘플에서 매우 드물게 발생할 수 있다는 것입니다(이전에 화면에서 이것을 보여주었습니다). 이는 의도적으로 훈련 및 평가의 품질을 저하시킵니다.
뭔가 똑똑해. 한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까? 첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등 2개의 중첩 루프만 있으면 됩니다. 적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.
도서관 : 뭔가 똑똑해. 한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까? 첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등 2개의 중첩 루프만 있으면 됩니다. 적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.
최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.
최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.
첫 번째 최상의 기능을 선택한 후 첫 번째 기능과 함께 상호 작용이 가장 좋은 두 번째 기능이 선택되는 식입니다. 10에 도달하면 이전에 선택한 10개 중 하나와 가장 잘 상호 작용하는 방식으로 다음 항목이 선택되지만 대부분의 경우 모든 항목과 상호 작용합니다.
설명에서 이해가 안 된다면 정확히 무엇이 명확하지 않은지 질문하세요. 더 잘 설명하도록 노력하겠습니다.
저도 몇 년 전에 이미 그렇게 했는데, 무의미한 게 아니라 인건비 때문에 거절했어요.
아래는 이전 실험의 결과 테이블이며 작업은 다음과 같습니다.
1. 예측변수의 개수를 9개로 자른다.
2. 조각 간의 조합이 만들어집니다 - 512
3. 그런 다음 각 조각의 유무에 따라 샘플이 평균적으로 어떻게 거동하는지에 대한 평가가 있습니다.
4. 작품의 의미(긍정/부정)에 대해 가정합니다.
5. 중요한 조각은 더 작은 조각으로 쪼개지고 덜 중요한 조각은 하나로 결합됩니다(순서대로일 필요는 없습니다).
6. 새로운 512 조합이 형성됩니다.
7. 샘플에 부정적인 영향을 미치는 작은 조각이 발견되면 결과의 개선이 멈출 때까지 추가 열거에서 제외되고 폐기 된 조각을 추가하고 동일한 방식으로 결과를 분석 할 수 있습니다. 반대로 긍정적인 영향은 하나의 그룹으로 일반화됩니다.
다음은 32번의 이러한 반복으로 지표가 어떻게 변하는지에 대한 예입니다.
물론 방법은 개선될 수 있지만 이를 위해서는 실험과 결과의 결과가 필요합니다.
예, 개선은 여러 번은 아니지만 결과를 통해 어떤 예측 변수가 결과에 더 좋거나 더 나쁜 영향을 미치는지와 그 이유를 생각할 수 있습니다.
그리고 CatBoost 통계로 작업하고 예측자(및 해당 그룹)를 제거/추가하려고 합니다. 이전에 사용한 열거보다 빠를 수 있기 때문입니다.
또 다른 장점은 예측 변수가 과도하면 드문 분할이 나타나고 리프 활성화가 훈련 외부의 샘플에서 매우 드물게 발생할 수 있다는 것입니다(이전에 화면에서 이것을 보여주었습니다). 이는 의도적으로 훈련 및 평가의 품질을 저하시킵니다.
한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까?
첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등
2개의 중첩 루프만 있으면 됩니다.
적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.
무의미한 시간 죽이기
건설적인 토론이 없을 것이 분명합니다. 본질을 이해하려는 욕구가 없습니다.
건설적인 토론이 없을 것이 분명합니다. 본질을 이해하려는 욕구가 없습니다.
쓰레기를 겪을 생각이 없고 본질이 분명하다(고통쓰레기)
뭔가 똑똑해.
한 번에 하나씩 추가하여 모든 기능을 단순히 확인하는 것보다 이것이 어떻게 더 낫습니까?
첫째, 그들은 1개의 기능에 대해 1000번(1000개의 기능을 검사함) 훈련하고 가장 좋은 것을 찾았습니다. 그런 다음 최고의 기능에 999번, 나머지 999번 중 두 번째로 좋은 항목을 선택했습니다. 그런 다음 나머지 998개 중 최고 2개와 3개 등
2개의 중첩 루프만 있으면 됩니다.
적은 수의 기능을 가진 모델은 매우 빠르게 학습합니다. 합리적인 시간에 20~30개의 베스트 피스를 모을 수 있습니다. 예, 10-20개의 기능을 선택한 후에는 일반적으로 모델 개선이 중단되고 새로운 기능을 추가한 후에는 결과가 악화될 뿐입니다.
최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.
부스팅의 도움으로 부스팅을 재발명하기로 한 남자, 그를 방해하지 말자
상식에 호소하는 것은 도움이 되지 않았습니다
쓰레기를 겪을 생각이 없고 본질이 분명하다(고통쓰레기)
왜 헛소리?
이 개선 사항을 제공합니다. 그렇습니다.
이론적 근거가 있습니다. 그렇습니다.
물론 이러한 개선은 규모의 순서가 아닙니다.
그리고 예, 예측자에게는 그다지 효과적이지 않을 수 있습니다. 여기에서 거절의 근거를 인정할 수 있습니다.
거래는 잊어버리고 신경망에서 지표 만들기
왜 헛소리?
이 개선 사항을 제공합니다. 그렇습니다.
이론적 근거가 있습니다. 그렇습니다.
물론 이러한 개선은 규모의 순서가 아닙니다.
그리고 예, 예측자에게는 그다지 효과적이지 않을 수 있습니다. 여기에서 거절의 근거를 인정할 수 있습니다.
이미 모든 것을 말했지만, 나는 열거 할 수없는 열거를 방해하지 않을 것입니다.
최고가 아니라 서로의 조합을 찾아야합니다. 이것이 바로 문제입니다. 그것이 문제인 이유 - 모든 조합을 분류하는 것은 불가능하기 때문에 발견적 방법이 필요한 이유입니다. 또 다른 문제는 서로 다른 예측 변수가 분할된 후 잠재적으로 강한 유사성이 있다는 것이며, 이는 앙상블에서 본질적으로 상관된 많은 잎이 있기 때문에 확률의 과대평가로 이어질 것입니다.
첫 번째 최상의 기능을 선택한 후 첫 번째 기능과 함께 상호 작용이 가장 좋은 두 번째 기능이 선택되는 식입니다. 10을 칠 때. 다음 항목은 이전에 선택한 모든 항목과 가장 잘 상호 작용하여 선택되지만 대부분의 경우
네 그렇게 작동하지 않습니다
모델에서 가져오기 가 적은 피처를 제거하고 분리한 다음 잘 비교 .. 손가락(기타 피처) 등으로 원을 그리십시오.