이것은 비정형 데이터(텍스트)로 작업한 다음 이를 단어 구조 의 가방으로 변환한 다음 원하는 다른 모든 것으로 변환하는 것입니다.
이것은 다른 주제에서 나온 것입니다. 어떻게 변환하든 입력 벡터의 차원이 지정된 임계값보다 낮아야 하며, 그렇지 않으면 패턴을 결정할 수 없습니다. 범주형은 벡터 길이에 더 큰 제한이 있을 수 있습니다. 또한 행 수에 대한 의존성도 고려해야 합니다. 대규모 데이터에서는 특징의 수가 더 많을 수 있습니다.
Maxim Dmitrievsky #: 이는 다른 문제입니다. 어떻게 변환하든 입력 벡터의 차원이 지정된 임계값보다 낮아야 하며, 그렇지 않으면 패턴을 감지할 수 없습니다. 범주형은 아마도 벡터 길이에 더 큰 제한이 있을 것입니다. 또한 행 수에 대한 의존성도 고려해야 합니다. 방대한 데이터에서는 특징의 수가 더 많을 수 있습니다.
왜 많은 수의 징조가 악한가요? 코줄루에 관한 책에 나오는 흥미로운 그래프입니다.
특징의 수에 따라 훈련 샘플에서 동일한 예를 찾을 확률입니다.
명확하지 않습니다. 훈련 샘플에서 동일한 예제를 찾을 확률은 얼마인가요?
명확한 것은 없습니다. 교육 샘플과 동일한 예가 있는 곳을 찾을 확률은 얼마나 되나요?
데이터 세트의 동일한 행
행이 1,000개만 있는 경우
대략적으로 말하면, 18개 이상의 기능이 있는 경우 반복되지도 않기 때문에 모든 행을 기억하도록 분류기를 훈련시켜야 합니다.
인과 관계 추론에서는 예시를 일치시켜 통계를 계산할 수 없습니다.1. 이 행렬은 어떻게 얻나요? 거기에 있는 숫자는 무엇인가요?
2. 규칙에 대해 이야기하고 있습니다. 제 접근 방식에서는 규칙이 어떻게 그리고 무엇으로부터 도출되는지는 중요하지 않지만, 응답이 훈련 샘플의 다른 응답과 유사하면 추가 정보를 전달하지 않습니다.
왜 많은 수의 징조가 악한가요? 코줄루에 관한 책에 나오는 흥미로운 그래프입니다.
특징의 수에 따라 훈련 샘플에서 동일한 예를 찾을 확률입니다.
특징이 14개(심지어 10개)가 넘으면 손실 없이 줄일 수 없는 규칙이 많이 생깁니다.
모든 것이 캐주얼의 영역 안에 있습니다...
뉴로닉스 내부에서는 sec2sec과 같은 효율적인 압축 알고리즘을 사용하므로 이 또한 사실입니다.
초2초와 같은 뉴로닉스 내부의 효율적인 압축 알고리즘을 사용하므로 공정하기도 합니다.
텍스트에 대해 이야기하는 경우 95%의 경우 다음과 같은 일반적인 단어 카운터가 사용됩니다 - 이 관찰에서 단어가 몇 번 발생했습니까? 0, 1, 103..
).
이들은 서로 다른 아키텍처, 레이어 케이크입니다. 비교하기 어렵습니다. 우리는 일반적인 분류 또는 회귀에 대해 이야기하고 있습니다. 이 경우에는 보편적인 법칙처럼 보입니다.
이들은 다른 아키텍처, 레이어 케이크입니다. 비교하기 어렵습니다. 우리는 일반적인 분류 또는 회귀에 대해 이야기하고 있습니다. 이 경우에는 보편적인 법칙처럼 보입니다.
----------------------------------------------------------------------
아, 기억나요, 단어의 가방이라고 하죠.
새롭고, 낯설고, 이해하기 어렵고, 복잡한 것은 무엇인가요?
동일한 표지판 + 모든 MO
이것은 비정형 데이터(텍스트)로 작업한 다음 이를 단어 구조 의 가방으로 변환한 다음 원하는 다른 모든 것으로 변환하는 것입니다.
모두 동일합니다.
----------------------------------------------------------------------
아, 기억나요, 단어의 가방이라고 하죠.
새롭고, 낯설고, 이해하기 어렵고, 복잡한 것은 무엇인가요?
동일한 표지판 + 모든 MO
이것은 비정형 데이터(텍스트)로 작업한 다음 이를 단어 구조 의 가방으로 변환한 다음 원하는 다른 모든 것으로 변환하는 것입니다.
이는 다른 문제입니다. 어떻게 변환하든 입력 벡터의 차원이 지정된 임계값보다 낮아야 하며, 그렇지 않으면 패턴을 감지할 수 없습니다. 범주형은 아마도 벡터 길이에 더 큰 제한이 있을 것입니다. 또한 행 수에 대한 의존성도 고려해야 합니다. 방대한 데이터에서는 특징의 수가 더 많을 수 있습니다.