트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3388

 
Maxim Dmitrievsky #:

왜 많은 수의 징조가 악한가요? 코줄루에 관한 책에 나오는 흥미로운 그래프입니다.

특징의 수에 따라 훈련 샘플에서 동일한 예를 찾을 확률입니다.

명확하지 않습니다. 훈련 샘플에서 동일한 예제를 찾을 확률은 얼마인가요?

 
Aleksey Vyazmikin #:

명확한 것은 없습니다. 교육 샘플과 동일한 예가 있는 곳을 찾을 확률은 얼마나 되나요?

데이터 세트의 동일한 행

행이 1,000개만 있는 경우

대략적으로 말하면, 18개 이상의 기능이 있는 경우 반복되지도 않기 때문에 모든 행을 기억하도록 분류기를 훈련시켜야 합니다.

인과 관계 추론에서는 예시를 일치시켜 통계를 계산할 수 없습니다.
 
Aleksey Vyazmikin #:

1. 이 행렬은 어떻게 얻나요? 거기에 있는 숫자는 무엇인가요?

2. 규칙에 대해 이야기하고 있습니다. 제 접근 방식에서는 규칙이 어떻게 그리고 무엇으로부터 도출되는지는 중요하지 않지만, 응답이 훈련 샘플의 다른 응답과 유사하면 추가 정보를 전달하지 않습니다.

1. 모든 특징 값

2. 아무도 기능이 어떻게 만들어졌는지 신경 쓰지 않고 모두가 응답만으로 기능을 평가합니다.
 
Maxim Dmitrievsky #:

왜 많은 수의 징조가 악한가요? 코줄루에 관한 책에 나오는 흥미로운 그래프입니다.

특징의 수에 따라 훈련 샘플에서 동일한 예를 찾을 확률입니다.

특징이 14개(심지어 10개)가 넘으면 손실 없이 줄일 수 없는 규칙이 많이 생깁니다.


이 모든 것이 캐주얼 프레임워크 내에 있습니다.
비정형 피처(텍스트, 그림)가 있는 모델에서.
수천 개의 속성이 일반적입니다.
 
mytarmailS #:
모든 것이 캐주얼의 영역 안에 있습니다...
구조화되지 않은 기능(텍스트, 그림)이 있는 모델에서.
수천 개의 속성은 정상입니다.

뉴로닉스 내부에서는 sec2sec과 같은 효율적인 압축 알고리즘을 사용하므로 이 또한 사실입니다.

 
Maxim Dmitrievsky #:

초2초와 같은 뉴로닉스 내부의 효율적인 압축 알고리즘을 사용하므로 공정하기도 합니다.

텍스트에 대해 이야기하는 경우, 95%의 경우 주어진 관찰에서 단어가 몇 번이나 발생했는지와 같은 일반적인 단어 수를 사용합니다. 0, 1, 103..

그리고 특징 행렬이 공간을 덜 차지하도록 하기 위해 행렬 값의 95%가 0이기 때문에 "스파스 행렬" 형식으로 유지됩니다.

사진은 컨볼루션입니다.

그리고 seq2seq는 드문 문제에 대해 이색적입니다.
 
mytarmailS #:
텍스트에 대해 이야기하는 경우 95%의 경우 다음과 같은 일반적인 단어 카운터가 사용됩니다 - 이 관찰에서 단어가 몇 번 발생했습니까? 0, 1, 103..

그리고 특징 행렬을 덜 차지하도록 하기 위해 행렬 값의 95%가 0이기 때문에 "희소 행렬" 형식으로 유지됩니다(
).

그림에서는 컨볼루션입니다.

그리고 seq2seq는 드문 문제에 대해 이색적입니다.

이들은 서로 다른 아키텍처, 레이어 케이크입니다. 비교하기 어렵습니다. 우리는 일반적인 분류 또는 회귀에 대해 이야기하고 있습니다. 이 경우에는 보편적인 법칙처럼 보입니다.

 
Maxim Dmitrievsky #:

이들은 다른 아키텍처, 레이어 케이크입니다. 비교하기 어렵습니다. 우리는 일반적인 분류 또는 회귀에 대해 이야기하고 있습니다. 이 경우에는 보편적인 법칙처럼 보입니다.

모두 같은 것이죠.

뉴런에 대해 이야기하는 것이 아니라 피드포워드의 구조에 대해 이야기하는 것입니다.

----------------------------------------------------------------------

아, 기억나요, 단어의 가방이라고 하죠.



새롭고, 낯설고, 이해하기 어렵고, 복잡한 것은 무엇인가요?


동일한 표지판 + 모든 MO


이것은 비정형 데이터(텍스트)로 작업한 다음 이를 단어 구조가방으로 변환한 다음 원하는 다른 모든 것으로 변환하는 것입니다.

 
mytarmailS #:
모두 동일합니다.

뉴런에 대해 말하는 것이 아니라 특성 피드의 구조에 대해 말하는 것입니다.

----------------------------------------------------------------------

아, 기억나요, 단어의 가방이라고 하죠.



새롭고, 낯설고, 이해하기 어렵고, 복잡한 것은 무엇인가요?


동일한 표지판 + 모든 MO


이것은 비정형 데이터(텍스트)로 작업한 다음 이를 단어 구조가방으로 변환한 다음 원하는 다른 모든 것으로 변환하는 것입니다.

이것은 다른 주제에서 나온 것입니다. 어떻게 변환하든 입력 벡터의 차원이 지정된 임계값보다 낮아야 하며, 그렇지 않으면 패턴을 결정할 수 없습니다. 범주형은 벡터 길이에 더 큰 제한이 있을 수 있습니다. 또한 행 수에 대한 의존성도 고려해야 합니다. 대규모 데이터에서는 특징의 수가 더 많을 수 있습니다.
 
Maxim Dmitrievsky #:
이는 다른 문제입니다. 어떻게 변환하든 입력 벡터의 차원이 지정된 임계값보다 낮아야 하며, 그렇지 않으면 패턴을 감지할 수 없습니다. 범주형은 아마도 벡터 길이에 더 큰 제한이 있을 것입니다. 또한 행 수에 대한 의존성도 고려해야 합니다. 방대한 데이터에서는 특징의 수가 더 많을 수 있습니다.
다른 것)))
전 세계가 하고 있고 모두가 행복합니다.)
사유: