트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 560

 
산산이치 포멘코 :

나는 숲과 에이다에 대해 비슷한 번호를 가지고 있습니다.

이제 "양"으로 돌아가면 임의의 예측자 목록에서 노이즈를 버리는 방법은 무엇입니까? 나는 170개 중 27개의 예측 변수를 선택한 경험적 알고리즘을 가지고 있습니다. 또한 다른 사람의 예측 변수 집합을 분석하고 성공적으로 분석하는 데 사용했습니다. 이 경험을 바탕으로 알고리즘에서 변수의 "중요성"을 사용하는 R의 모든 방법은 예측 변수 집합을 노이즈에서 지울 수 없다고 주장합니다.

나는 지부의 모든 독자들에게 호소한다. 나는 소스 데이터가 처리가 필요하지 않은 RData나 Excel 파일의 형태로 제시된다면 적절한 분석을 할 준비가 되어 있다.

게다가.

첨부 파일에는 초기 예측 변수 집합을 노이즈로부터 청소하는 문제를 훨씬 더 높은 품질로 해결하는 것으로 추정되는 여러 기사를 첨부하고 있습니다. 불행히도 지금은 시도할 시간이 없습니다. 누군가 시도하고 결과를 게시할 수 있습니까?


나는 먼저 주제를 읽기로 결정했습니다(내가 읽지 않은 것으로 판명되었습니다). 그리고 다음과 같은 여러 가지 질문이 생겼습니다.

1. 숲은 임의의 기능 하위 집합에 대해 훈련됩니다. 이것은 훈련에 무작위로 포함되지 않은 기능이 "중요하지 않음"으로 표시된다는 것을 의미합니까?

2. 범주형 기능이 있을 때 이해하려면 어떻게 해야 합니까? 그리고 숲은 범주 수가 많은 기능보다 미리 중요도를 덜 줄 것입니다.

3. 각각의 새 샘플의 PCA가 교육 샘플의 구성 요소와 매우 다른 "새" 구성 요소를 강조 표시하지 않습니까? 이를 처리하는 방법은 무엇입니까?

마지막으로 약간 다른 기능 선택 방법(재귀적 기능 제거)에 대한 기사: http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side- 옆에/

이 기사에는 다음을 포함하여 설명된 이전 부분에 대한 링크도 포함되어 있습니다. 그리고 숲

Selecting good features – Part IV: stability selection, RFE and everything side by side
  • 2014.12.20
  • blog.datadive.net
In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
 
막심 드미트리예프스키 :

나는 먼저 주제를 읽기로 결정했습니다(내가 읽지 않은 것으로 판명되었습니다). 그리고 다음과 같은 여러 가지 질문이 생겼습니다.

1. 숲은 임의의 기능 하위 집합에 대해 훈련됩니다. 이것은 훈련에 무작위로 포함되지 않은 기능이 "중요하지 않음"으로 표시된다는 것을 의미합니까?

2. 범주형 기능이 있을 때 이해하려면 어떻게 해야 합니까? 그리고 숲은 범주 수가 많은 기능보다 미리 중요도를 덜 줄 것입니다.

3. 각각의 새 샘플의 PCA가 교육 샘플의 구성 요소와 매우 다른 "새" 구성 요소를 강조 표시하지 않습니까? 이를 처리하는 방법은 무엇입니까?

마지막으로 약간 다른 기능 선택 방법(재귀적 기능 제거)에 대한 기사: http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side- 옆에/

이 기사에는 다음을 포함하여 설명된 이전 부분에 대한 링크도 포함되어 있습니다. 그리고 숲


불행히도, 내 개인적인 답변은 여기 에 쓰여진 내용이나 주제에 대한 다른 문헌에 추가되지 않습니다.

기능의 "중요도"를 결정하기 위한 상당히 많은 알고리즘이 있습니다(회귀 또는 범주는 중요하지 않음). 이 모든 것이 R에 있습니다.

나는 그것들을 마스터하는 데 많은 시간을 보냈고 결국 목표 변수와 관련이없는 노이즈 기능을 제거한 다음 R에서 사용하여 오류를 5-5로 줄이는 것이 예비임을 알았습니다. 7%. 20% 미만의 오류가 달성되지 않았습니다.

다시 한 번, 각 막대에서 중요한 구성 요소를 선택하고 결과 집합에서 포리스트가 다시 훈련된다는 점에 유의합니다.


숫자는 그렇습니다.

  • 수백 개의 예측 변수 중에서 노이즈 기준에 따라 27개의 예측 변수를 선택했습니다. 대상 변수와 "관련"됩니다.
  • 중요도(RFE) 기준에 따라 선택한 각 막대의 27개 중
  • 받은 5-15 표지판에서 나는 숲을 연구합니다. 이 목록은 사용된 27개 내에서 항상 변경됩니다.


이 접근 방식의 품질에 대한 기준: 두 개의 파일을 가져옵니다. 처음에는 가르치고, 훈련하고, 검증 = 거의 동일한 오류입니다. 두 번째 파일에서 결과 모델을 확인합니다 = 첫 번째 파일에서와 거의 동일한 오류입니다. 이것에 대해 나는 모델이 재학습되지 않았으며 앞으로는 적어도 하나의 막대가 훈련하는 동안과 동일하게 작동할 것이라고 결론지었습니다.

다른 접근 방식은 저에게 효과가 없으며 한 유형의 모델을 다른 유형으로 교체해도 재교육 측면에서 아무 것도 개선되지 않습니다.



RSA에 대해 주성분을 사용해도 원래 세트에 비해 오류가 줄어들지 않았다는 점에서 제 결과는 부정적입니다. 왜 그렇게 - 이론적으로 오류를 줄여야하지만 이해하지 못했습니다.

 
산산이치 포멘코 :

내 의견으로는 forex와 같은 이기종 기능에 대한 모델을 사용할 때 PCA는 일반적으로 쓸모가 없습니다. 왜냐하면 테스트가 아닌 동일한 구성 요소에 대해 교육을 받은 경우 모델에서 전혀 고려하지 않은 구성 요소의 다른 조합이 나타납니다.

숲으로 돌아간다면

재료에 들어가야 합니다. 훈련 샘플에 포함되지 않은 기능이 평가되는 방식을 이해하기 위해 이에 대해 아무 것도 기록되지 않은 것 같습니다(대부분 불량으로 평가됨)

+ 숲의 학습 과정은 무작위로 이루어지며 여러 훈련을 연속적으로 수행하면 다른 결과를 얻을 수 있습니다. 때로는 상당히 다른 결과를 얻을 수 있습니다. 또한 이 트릭을 사용하는 방법도 완전히 명확하지 않습니다. 글쎄, 우리가 모델을 맞추면 저장하고 나중에 사용하십시오 .. 모델이 자체 재학습 .. 연속으로 여러 번 훈련해야 하는 경우 다음과 같은 최소 오류를 선택하십시오 .. 그렇지 않으면 테스터에서 여러 번 실행하면 최대 5개 이상의 관찰에 따라 다른 결과가 얻은 다음 후속 실행에서 반복/교대됩니다.

 
막심 드미트리예프스키 :

PCA는 일반적으로 forex와 같은 이기종 기능에 대한 모델을 사용할 때 쓸모가 없습니다 .. 제 생각에는. 왜냐하면 테스트가 아닌 동일한 구성 요소에 대해 교육을 받은 경우 모델에서 전혀 고려하지 않은 구성 요소의 다른 조합이 나타납니다.

숲으로 돌아간다면

재료에 들어가야 합니다. 훈련 샘플에 포함되지 않은 기능이 평가되는 방식을 이해하려면 이에 대해 아무 것도 기록되지 않은 것 같습니다(대부분 불량으로 평가됨)

+ 숲의 학습 과정은 무작위로 이루어지며 여러 훈련을 연속적으로 수행하면 다른 결과를 얻을 수 있습니다. 때로는 상당히 다른 결과를 얻을 수도 있습니다. 또한 이 트릭을 사용하는 방법도 완전히 명확하지 않습니다. 글쎄, 우리가 모델을 맞추면 저장하고 나중에 사용하십시오 .. 모델이 자체 재학습 .. 연속으로 여러 번 훈련해야 하는 경우 다음과 같은 최소 오류를 선택하십시오 .. 그렇지 않으면 테스터에서 여러 번 실행하면 최대 5개 이상의 관찰에 따라 다른 결과가 얻은 다음 후속 실행에서 반복/교대됩니다.


나는 당신이 묘사한 열정을 기억하지 못합니다. 동일한 종자로 결과는 일관되게 동일합니다.

 
산산이치 포멘코 :

나는 당신이 묘사한 열정을 기억하지 못합니다. 동일한 종자로 결과는 일관되게 동일합니다.


종자는 무엇을 담당합니까? 더 이상 기억이 안나요.. 간판의 숫자만..? 나는 aglib 숲을 사용합니다

 
리버스45 :
구구단을 모르는 선생님과 그녀에게 강요하지 않는 국회의 개발자, 무작위, 올바른 솔루션 - 더 붓지 마십시오!

나는 지원한다.

그냥 텅 빈 공기입니다. 예를 들어 천장 데이터를 배치하여 확인할 수 있습니다.

학습에는 세 가지 주요 방법이 있습니다. 교사 없이(목표가 표시되지 않음), 교사와 함께(목표에 완전히 레이블이 지정됨) 및 반 지도 감독(정확하게 번역하는 방법을 모르겠습니다). 이것은 모델에 완전히(부분적으로) 마크업되지 않은 대상이 표시되는 경우입니다. 다른 모든 것은 악한 자의 것입니다.

행운을 빕니다

 
막심 드미트리예프스키 :

종자는 무엇을 담당합니까? 더 이상 기억이 안나요.. 간판의 숫자만..? 나는 aglib 숲을 사용합니다

어서 해봐요...

set.seed는 난수 생성기 를 특정 상태로 설정하고 계산을 반복할 때 재현 가능한 결과를 얻습니다.

재료를 배우십시오.

 
블라디미르 페레르벤코 :

어서 해봐요...

set.seed는 난수 생성기 를 특정 상태로 설정하고 계산을 반복할 때 재현 가능한 결과를 얻습니다.

재료를 배우십시오.


그럼 괜찮아? 저는 그런 설정이 전혀 없어서 물어봤습니다.

그래서 mt5에서도 할 수 있습니다, 감사합니다

 
블라디미르 페레르벤코 :

나는 지원한다.

그냥 텅 빈 공기입니다. 예를 들어 천장 데이터를 배치하여 확인할 수 있습니다.

학습에는 세 가지 주요 방법이 있습니다. 교사 없이(목표가 표시되지 않음), 교사와 함께(목표에 완전히 레이블이 지정됨) 및 반 지도 감독(정확하게 번역하는 방법을 모르겠습니다). 이것은 모델에 완전히(부분적으로) 마크업되지 않은 대상이 표시되는 경우입니다. 다른 모든 것은 악한 자의 것입니다.

행운을 빕니다

글쎄요.)) 알고리즘을 완전히 알고 목표를 찾을 수 있다면 도대체 왜 NA가 필요한가요? 없이 모든 것을 할 수 있습니다.)

NS와 기타 DM은 정확히 알 수 없을 때 필요합니다.

학습 알고리즘은 특정 작업별로 개발 및 수정됩니다. 주로 베이스를 기반으로 합니다.

그러나 당신이 말하는 것은 공기를 흔드는 것입니다. 서론 이외의 것을 읽으십시오. )

행운을 빕니다.

 
유리 아사울렌코 :

글쎄요.)) 알고리즘을 완전히 알고 목표를 찾을 수 있다면 도대체 왜 NA가 필요한가요? 없이 모든 것을 할 수 있습니다.)

당신이 쓴 것을 이해 했습니까? 대상은 검색되지 않으며 모델이 학습해야 할 대상으로 미리 정의됩니다. 어떤 알고리즘을 말씀하시는 건가요?

NS와 기타 DM은 정확히 알 수 없을 때 필요합니다.

우리가 모르는 것은 무엇입니까?

학습 알고리즘은 특정 작업별로 개발 및 수정됩니다. 주로 베이스를 기반으로 합니다.

여기서 해결해야 할 두 가지 작업인 회귀 및 분류에 대해 이야기하고 있습니다(클러스터링 및 순위 지정 생략). 다른 어떤 "특정 작업"을 염두에 두고 계십니까?

그러나 당신이 말하는 것은 공기를 흔드는 것입니다. 서론 이외의 것을 읽으십시오. )

???

행운을 빕니다.

사유: