트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 364

 
블라디미르 페레르벤코 :

여기 봐 .

예측 변수의 중요성을 평가할 때 이것은 정보 기준에 의해서만 결정되는 것이 아니라 복잡한 값이라는 것을 기억하는 것이 중요합니다. 그리고


제 생각에는 기본 알고리즘에 내장된 수단과 독립 실행형 도구에 의해 결정된 예측 변수의 중요성이 문제를 해결하지 못한다고 생각합니다. 왜냐하면 이 중요성은 실제로 분류에서 예측 변수를 사용하는 빈도이기 때문입니다. 토성의 고리, 커피 찌꺼기가 예측 변수의 수에 포함된 경우 알고리즘은 이러한 예측 변수도 사용합니다.


예측자가 대상 변수와 "관련"되어야 하는 이 스레드 및 기타 스레드에 여러 번 게시됩니다.

다시 예를 들겠습니다.

대상 변수 남성/여성

예측자: 의류.

엄격한 도덕을 가진 국가의 경우 예측 변수가 바지와 치마로 구성되어 있으면 두 개의 비중첩 하위 집합으로 나뉘며 각 하위 집합은 대상 변수를 고유하게 결정합니다. 분류 오류는 0입니다.

예측 변수에 남녀공용 또는 스코틀랜드 스타일의 옷을 포함하기 시작하면 교차가 발생하여 분류 오류가 결정됩니다. 기본적으로 이 오류를 제거할 수 없습니다.


이것은 내 생각일 뿐만 아니라 이 스레드에서 비슷한 생각을 가진 출판물에 대한 링크를 제공했습니다.

 
산산이치 포멘코 :


제 생각에는 기본 알고리즘에 내장된 수단과 독립 실행형 도구에 의해 결정된 예측 변수의 중요성이 문제를 해결하지 못한다고 생각합니다. 왜냐하면 이 중요성은 실제로 분류에서 예측 변수를 사용하는 빈도이기 때문입니다. 토성의 고리, 커피 찌꺼기가 예측 변수의 수에 포함된 경우 알고리즘은 이러한 예측 변수도 사용합니다.


예측자가 대상 변수와 "관련"되어야 하는 이 스레드 및 기타 스레드에 여러 번 게시됩니다.

다시 예를 들겠습니다.

대상 변수 남성/여성

예측자: 의류.

엄격한 도덕을 가진 국가의 경우 예측 변수가 바지와 치마로 구성되어 있으면 두 개의 비중첩 하위 집합으로 나뉘며 각 하위 집합은 대상 변수를 고유하게 결정합니다. 분류 오류는 0입니다.

예측 변수에 남녀공용 또는 스코틀랜드 스타일의 옷을 포함하기 시작하면 교차가 발생하여 분류 오류가 결정됩니다. 기본적으로 이 오류를 제거할 수 없습니다.


이것은 내 생각일 뿐만 아니라 이 스레드에서 비슷한 생각을 가진 출판물에 대한 링크를 제공했습니다.

진실은 하나, 백만 가지 방법이 있습니다.

모든 사람은 자신의 길을 갈 자격이 있습니다. 가장 중요한 것은 그것이 막 다른 골목으로 이어지지 않는다는 것입니다.

행운을 빕니다

 
막심 드미트리예프스키 :


그러나 나는 항상 완벽하게 작동하지는 않지만 때때로 제공 할 좋은 자체 최적화 장치를 만드는 것이 가능하다고 믿습니다.

그러나 이것은 분명히 표준 지표가 아니며 출력에 지그재그가 있을 것입니다. :) 제 생각에는 유치한 게임처럼 들릴 수도 있습니다.

저도 그랬으면 하는 바램입니다만, 인기 라이브러리 분류기의 12가지 매개변수를 구성하면 이것이 가능하다는 제가 약 3년 전에 먹었던 환상과는 거리가 멉니다. 특히 퇴근 후 저녁(((

ZZ – 나쁜 목표, 전적으로 동의합니다.

 
블라디미르 페레르벤코 :

예측 변수의 중요성을 평가할 때 다음을 기억하는 것이 중요합니다.

... 예측 변수의 중요성은 첫 번째 계층의 가중치로 결정할 수 있습니다.

도서관 :

이 함수의 중요도 계산 알고리즘

예를 들어 선형 상관된 PCA 기능을 먼저 처리한 다음 포리스트 또는 XGB와 같은 풍부한 비선형 모델을 구축하고 기능(압축 PCA)을 살펴보고 없는 기능을 강타합니다. 속도가 가장 적게 감소하는
 

Open R 설치, 모든 패키지 설치, R 프로젝트를 빌드할 때 VS 2017이 여전히 중단됨

Python용 프로젝트는 일반적으로 생성됩니다.

R Studio와 R 3.4를 철거하고 Open R만 남겨두고 작동함) 분명히 충돌합니다.

글쎄, R Studio에는 아무 의미가 없습니다. 같은 일이 발생합니다.


 
훈련 전에 목표 변수에 대한 입력 변수의 상관 관계를 구축하는 것이 의미가 있습니까? 그리고 가장 관련이 없는 것들을 제거하여 계산 속도를 높이고 학습 정도를 높이시겠습니까?
 
도서관 :
훈련 전에 목표 변수에 대한 입력 변수의 상관 관계를 구축하는 것이 의미가 있습니까? 그리고 가장 관련이 없는 것들을 제거하여 계산 속도를 높이고 학습 정도를 높이시겠습니까?
실제로, 상관 입력을 제거해야 합니다. :) 입력이 대상과 상관 관계가 있는 경우 이것이 성배이며 Hc가 필요하지 않습니다)))
 
우연히 인터넷에서 재미있는 프로그램을 발견했습니다. 당신은 마음속으로 인기있는 캐릭터나 사람을 생각하고 컴퓨터가 당신에게 특정한 질문을 함으로써 높은 확률로 당신의 생각을 예측할 수 있을 것입니다. 이것이 신경망이 작동하는 방식입니다. 올바른 투표. 여기에 비밀이 있습니다.
 
도서관 :
훈련 전에 목표 변수에 대한 입력 변수의 상관 관계를 구축하는 것이 의미가 있습니까? 그리고 가장 관련이 없는 것들을 제거하여 계산 속도를 높이고 학습 정도를 높이시겠습니까?

대상과 변수의 상관관계를 확인할 필요는 없지만(있어야 함), 변수 간의 상관관계가 없는지 확인할 필요가 있습니다. - 없어야 합니다(다공선성).
 
드미트리 :

대상과 변수의 상관관계를 확인할 필요는 없지만(있어야 함), 변수 간의 상관관계가 없는지 확인할 필요가 있습니다. - 없어야 합니다(다공선성).

입력을 개선하는 방법을 생각하면서 이미 상관 입력을 제거했습니다.

따라서 목표와 상관관계가 있어야 한다는 점에 동의합니다. 따라서 목표 입력과 가장 상관관계가 없는(예: Kcorr<0.5 또는 0.3)도 제거하고 싶습니다. 이렇게 하면 품질을 너무 저하시키지 않으면서 학습 프로세스의 속도를 높일 수 있습니다. 그러나 모든 입력을 제거해야 한다는 가정이 있습니다.)))

사용된 입력(해당 지표에서 가져온 임의의 입력)에서 지금까지 목표와 상관 관계를 찾지 못했습니다. 학습 오류 = 0.44, 즉 거의 동전. 음, 균형이 떨어지고 있습니다.