이 알고리즘으로 캐글에서 1 위를 차지할 수 있었다고 주장하는데, 간단한 작업이 있었다고 생각하지 않습니다 ...
알아 내려고 노력할까요? 나는 공식을 이해하지 못합니다-대단히 유감스럽게도.
그리고 아이디어를 세분화하면 시장 데이터에 너무 나쁩니다.
서로 매우 가까운 다른 클래스의 예제 쌍을 삭제할 것을 제안합니다. 세 번째 예를 보면, 이상적으로는 0.2에서 0.8까지의 모든 예가 삭제되고 클래스의 순도가 절대적인 0.2 미만과 0.8 이상의 영역만 남게 됩니다. 어떤 모델이든 더 쉽게 분류할 수 있습니다. 앞서 나는 이미 이러한 간단한 예와 나무가 순도가 높은 클래스를 가진 잎을 사용하면 쉽게 나눌 수 있음을 보여주었습니다 (그리고 잎에서 잎을 1 개의 예까지 나누지 마십시오). 그러나 이것은 인공적인 예입니다.
시장 데이터에는 한 클래스가 우세한 순수한 블록이 없을 것입니다. 즉, 거의 모든 것을 청소해야합니다. 예를 들어, 1000 포인트가 있었고 900 개는 청소되었고 나머지는 어떻게 든 나뭇잎의 청결도 (예 : 70 %)에 도달했으며 나쁘지 않은 것 같고 돈을 벌 수 있습니다. 그러나 실제로 거래를 시작하면 청소 (나머지 1 개에 대해 9 개의 쓰레기)와 70 %의 지표가 예를 들어 53 %로 떨어지고 확산, 미끄러짐 등으로 잃을 때 제거한 예가 있습니다.
나는 클래스 중 하나의 순도가 정직한 53 %의 나무와 잎을 선호합니다. 그리고 그것을 사용하지 않을 것입니다.
서로 매우 가까운 클래스의 예제 쌍을 제거할 것을 제안합니다. 세 번째 예를 보면, 이상적으로는 0.2에서 0.8까지의 모든 예가 제거되고 클래스의 순도가 절대적인 0.2 미만과 0.8 이상의 영역만 남게 됩니다. 어떤 모델이든 더 쉽게 분류할 수 있습니다. 앞서 나는 이미 이러한 간단한 예와 나무가 순도가 높은 클래스를 가진 잎을 사용하면 쉽게 나눌 수 있음을 보여주었습니다 (그리고 잎에서 잎을 1 개의 예까지 나누지 마십시오). 그러나 이것은 인공적인 예입니다.
시장 데이터에는 한 클래스가 우세한 순수한 블록이 없을 것입니다. 즉, 거의 모든 것을 청소해야합니다. 예를 들어, 1000 포인트가 있었고 900 개는 청소되었고 나머지는 어떻게 든 나뭇잎의 청결도 (예 : 70 %)에 도달했으며 나쁘지 않은 것 같고 돈을 벌 수 있습니다. 그러나 실제로 거래를 시작하면 청소할 때 제거한 예가있을 것입니다 (남은 1 개에 대해 9 개의 쓰레기)와 70 %의 지표가 예를 들어 53 %로 떨어지고 확산, 미끄러짐 등으로 손실됩니다.
나는 클래스 중 하나의 순도가 정직한 53 %의 나무와 잎을 선호합니다. 그리고 그것을 사용하지 않을 것입니다.
이 시점에서 우리의 생각은 결과에 대해 동의합니다. 예, 매우 얇은 샘플을 기대하지만 프로세스가 반복적이기 때문에 측정값을 알고 훨씬 일찍 중단하고 동일한 데이터를 사용하여 동일한 나무 모델을 구축하면 분할이 적고 잎에서 더 신뢰할 수 있는 값을 얻을 수 있다는 것을 이해합니다.
트롤링인가요?
트롤링이 무엇인가요?
동영상입니다.
트롤링이란 무엇인가요?
동영상은 다음과 같습니다.
이런식입니다.
다음과 같이
제 입장에서는 인터넷의 한 장소, 즉 링크에 관한 것이었습니다.
제 입장에서는 인터넷의 한 장소, 즉 링크에 관한 것이었습니다.
정확한 기사는 기억나지 않지만
찾아보세요.
어떤 기사였는지 기억이 나지 않습니다,
어떤 기사였는지 기억이 안 나지만 찾아보세요.
그래서 검색을 해봤는데 아직 아무것도 찾지 못했습니다.
그게 제가 깨달은 것입니다. 원인이 밝혀졌는지 궁금해서요. 무엇이 고장 났는지가 아니라 왜 신호가 사라졌는지요.
새로운 데이터에서 신호가 허용 가능한 범위를 벗어났기 때문에 신호가 누락된 것입니다.
분류와 비교할 수 있는데, 분명하게 알려진 패턴이 있고 모호하게 알려지지 않은 패턴이 있습니다. 시간이 지날수록 알려지지 않은 것이 점점 더 많아지고 "알려진" 클래스에는 아무것도 남지 않습니다.
이 알고리즘으로 캐글에서 1 위를 차지할 수 있었다고 주장하는데, 간단한 작업이 있었다고 생각하지 않습니다 ...
알아 내려고 노력할까요? 나는 공식을 이해하지 못합니다-대단히 유감스럽게도.
그리고 아이디어를 세분화하면 시장 데이터에 너무 나쁩니다.
서로 매우 가까운 다른 클래스의 예제 쌍을 삭제할 것을 제안합니다. 세 번째 예를 보면, 이상적으로는 0.2에서 0.8까지의 모든 예가 삭제되고 클래스의 순도가 절대적인 0.2 미만과 0.8 이상의 영역만 남게 됩니다. 어떤 모델이든 더 쉽게 분류할 수 있습니다.
앞서 나는 이미 이러한 간단한 예와 나무가 순도가 높은 클래스를 가진 잎을 사용하면 쉽게 나눌 수 있음을 보여주었습니다 (그리고 잎에서 잎을 1 개의 예까지 나누지 마십시오).
그러나 이것은 인공적인 예입니다.
시장 데이터에는 한 클래스가 우세한 순수한 블록이 없을 것입니다. 즉, 거의 모든 것을 청소해야합니다. 예를 들어, 1000 포인트가 있었고 900 개는 청소되었고 나머지는 어떻게 든 나뭇잎의 청결도 (예 : 70 %)에 도달했으며 나쁘지 않은 것 같고 돈을 벌 수 있습니다. 그러나 실제로 거래를 시작하면 청소 (나머지 1 개에 대해 9 개의 쓰레기)와 70 %의 지표가 예를 들어 53 %로 떨어지고 확산, 미끄러짐 등으로 잃을 때 제거한 예가 있습니다.
나는 클래스 중 하나의 순도가 정직한 53 %의 나무와 잎을 선호합니다. 그리고 그것을 사용하지 않을 것입니다.
그래서 검색을 해봤는데 아직 아무것도 나오지 않았습니다.
발생
여기서 연결이 보이지 않습니다. 무엇에서 나온 말인가요?
그리고 아이디어를 세분화하면 시장 데이터에 좋지 않습니다.
서로 매우 가까운 클래스의 예제 쌍을 제거할 것을 제안합니다. 세 번째 예를 보면, 이상적으로는 0.2에서 0.8까지의 모든 예가 제거되고 클래스의 순도가 절대적인 0.2 미만과 0.8 이상의 영역만 남게 됩니다. 어떤 모델이든 더 쉽게 분류할 수 있습니다.
앞서 나는 이미 이러한 간단한 예와 나무가 순도가 높은 클래스를 가진 잎을 사용하면 쉽게 나눌 수 있음을 보여주었습니다 (그리고 잎에서 잎을 1 개의 예까지 나누지 마십시오).
그러나 이것은 인공적인 예입니다.
시장 데이터에는 한 클래스가 우세한 순수한 블록이 없을 것입니다. 즉, 거의 모든 것을 청소해야합니다. 예를 들어, 1000 포인트가 있었고 900 개는 청소되었고 나머지는 어떻게 든 나뭇잎의 청결도 (예 : 70 %)에 도달했으며 나쁘지 않은 것 같고 돈을 벌 수 있습니다. 그러나 실제로 거래를 시작하면 청소할 때 제거한 예가있을 것입니다 (남은 1 개에 대해 9 개의 쓰레기)와 70 %의 지표가 예를 들어 53 %로 떨어지고 확산, 미끄러짐 등으로 손실됩니다.
나는 클래스 중 하나의 순도가 정직한 53 %의 나무와 잎을 선호합니다. 그리고 그것을 사용하지 않을 것입니다.
이 시점에서 우리의 생각은 결과에 대해 동의합니다. 예, 매우 얇은 샘플을 기대하지만 프로세스가 반복적이기 때문에 측정값을 알고 훨씬 일찍 중단하고 동일한 데이터를 사용하여 동일한 나무 모델을 구축하면 분할이 적고 잎에서 더 신뢰할 수 있는 값을 얻을 수 있다는 것을 이해합니다.
초기 중심이 무작위로 위치한다는 것을 올바르게 이해했나요?