트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 162

 
산산이치 포멘코 :

읽어 주셔서 감사합니다.

작가가 너무 낙관적인 것 같아요.

재교육의 문제는 원칙적으로 해결할 수 없습니다.

...

이론적으로 필요한 모든 요소를 미리 알고 있고 이에 대한 정보 액세스도 있는 경우와 같이 라플라스의 일반 결정론의 관점에서 결정할 수 있습니다. 그러나 실제로 이러한 "해결 가능성"에는 많은 문제가 있습니다(모든 요소가 알려져 있지 않고 모두 사용할 수 있는 것은 아니며 사용 가능한 요소는 종종 측정할 수 없을 정도로 시끄럽습니다).

산산이치 포멘코 :


...

노이즈의 입력 예측자를 먼저 지우지 않으면 대상 변수와 "관련되지 않음" 이면 예측 변수의 "중요성" 개념을 사용하는 다른 방법이 작동하지 않는 것처럼 "거칠게 하기" 방법이 작동하지 않습니다.

이것은 jPrediction에 대한 내 경험에 의한 확인뿐만 아니라 귀하의 의견에 따라 그래야 하는 방식인 것 같습니까?

그러나 문제는 모든 경험이 위의 진술을 확인하는 것은 아니라는 것입니다. 그것은 모두 어떤 특정 기계 학습 방법이 사용되는지에 달려 있습니다.

예를 들어, Viktor Tsaregorodtsev는 BackPropagation을 사용하여 신경망에 대한 연구를 수행했으며 결과를 바탕으로 " 신경망의 크기를 줄이면 일반화 능력이 향상되지 않습니다 "라는 기사에서 완전히 반대되는 결론에 도달했습니다.

"이것은 소음, 정보가 아닌 기능 및 중복 뉴런의 배제가 실제로 필수적이고 유용하다는 견해와 반대입니다."

저것들. 모든 기계 학습 방법에 대해 예외 없이(모든 사람을 동일한 브러시로 취급하기 위해) 일반적인 결론을 도출하는 것은 완전히 쓸모가 없습니다. 일부 방법의 경우 그러한 "결론"이 정확하지만 다른 방법의 경우 분명히 잘못된 것으로 판명될 수 있습니다.

 
유리 레셰토프 :

jPrediction에서 모델의 복잡성은 예측자의 수가 점진적으로 증가함을 의미합니다. 실제로 jPrediction에서 은닉층의 뉴런 수는 2^(2*n+1)이며, 여기서 n은 예측자의 수입니다 . 따라서 예측자의 수가 증가할수록 모델의 복잡도(은닉층의 뉴런의 수)가 증가한다.


예측 변수가 100개라면 공식에 따르면 은닉층의 뉴런 수는 어딘가에 우주의 원자 수에 근접할 것입니다(예측 변수 200개를 생각하는 것이 두렵습니다). 당신은 분명히 신성한 자원, 즉 컴퓨팅과 시간을 가지고 있습니다.

 
안드레이 딕 :

SS는 무지를 계속하면서 매우 불행한 예를 들었습니다 ...

"다른 힘"은(는) 무슨 뜻인가요? 공과 보풀에 동일한 힘이 작용합니다. 중력 (무게)과 몸의 절반에 걸쳐 분포하는 바람 흐름의 힘.

...

Andrey, 이 스레드는 물리학 문제가 아니라 기계 학습에 관한 것임을 상기시킵니다.

친절하십시오. 이 주제에서 환영받지 못하는 추상적인 주제에 대해 여기에서 넘쳐흐르지 마십시오.

물리학 지식을 자랑하고 싶을 정도로 가렵다면, 물리학에 대한 별도의 지점을 시작하십시오.

특히 똑똑한 얼굴로 은유에 도전하려고 하기 때문에 의도적으로 어리석은 입장에 놓이게 됩니다.

 
유리 레셰토프 :

Andrey, 이 스레드는 물리학 문제가 아니라 기계 학습에 관한 것임을 상기시킵니다.

친절하십시오. 이 주제에서 환영받지 못하는 추상적인 주제에 대해 여기에서 넘쳐흐르지 마십시오.

물리학 지식을 자랑하고 싶을 정도로 가렵다면, 물리학에 대한 별도의 지점을 시작하십시오.

특히 똑똑한 얼굴로 은유에 도전하려고 하기 때문에 의도적으로 어리석은 입장에 놓이게 됩니다.

글쎄요, 잘못된 예에 근거한 비유가 가치가 있다고 생각한다면 앞으로는 간섭하지 않겠습니다.

죄송합니다. 그리고 당신 SS 실례합니다.

 
시비르크 :

예측 변수가 100개라면 공식에 따르면 은닉층의 뉴런 수는 어딘가에 우주의 원자 수에 근접할 것입니다(예측 변수 200개를 생각하는 것이 두렵습니다). 당신은 분명히 신성한 자원, 즉 컴퓨팅과 시간을 가지고 있습니다.

예, 최소 10,000개의 예측 변수가 있습니다. 그들 모두가 정보를 제공한다는 사실은 아닙니다. 저것들. jPrediction은 그 중 가장 유익한 정보를 찾아 점차 모델을 복잡하게 만듭니다. 그리고 일반화 능력이 떨어지기 시작하자마자 멈출 것입니다.

그것은 신성한 자원에 도달하지 않습니다. 꽤 충분하고 일반적인 Personalki.

 
안드레이 딕 :

글쎄요, 잘못된 예에 근거한 비유가 가치가 있다고 생각한다면 앞으로는 간섭하지 않겠습니다.

죄송합니다. 그리고 당신 SS 실례합니다.

은유는 수사학의 성공 여부와 관계없이 수사학 외에는 가치가 없습니다. 그리고 그들의 잘못을 찾는 것은 나쁜 매너입니다.

사과는 당연히 받아들입니다.

 
유리 레셰토프 :
은유는 수사학의 성공 여부와 관계없이 수사학 외에는 가치가 없습니다. 그리고 그들의 잘못을 찾는 것은 나쁜 매너입니다.

어떤 말이 가치가 없다면 그것은 신성모독입니다. 나는 SS가 욕을 하려고 한 것이 아니라 그에게 일어난 일이라고 생각합니다.

그리고 은유가 주어집니다. 몇 년은 비교의 도움을 받아 접근 가능한 언어로 어떤 아이디어를 전달하기를 원합니다. 따라서 일부 예는 정치인에게 좋을 것이고 다른 예는 핵 물리학자에게 분명할 것이며 정치인과 원자력 과학자가 서로를 이해하기 위해 비교, 즉 은유에 의존합니다. 따라서 은유는 대화 상대의 이해를 돕기 위한 매우 구체적인 목적을 가지고 있습니다.

좋아, 우리는 이미 갔다.

 
안드레이 딕 :

어떤 말이 가치가 없다면 그것은 신성모독입니다. 나는 SS가 욕을 하려고 한 것이 아니라 그에게 일어난 일이라고 생각합니다.

그는 아주 좋지 않은 비유를 했을 뿐입니다. 그래서 무엇? 이를 위해 그를 벽에 기대게 하려면?

우리는 모두 인간이며 때때로 실수를 합니다.

또 다른 설탕에 절인 과일은 이것 때문에 너무 많은 홍수가 발생하여 주제의 정보 내용을 과도하게 줄입니다. 그리고 이것은 우연이 아닙니다.

 
유리 레셰토프 :

이론적으로 필요한 모든 요소를 미리 알고 있고 이에 대한 정보 액세스도 있는 경우와 같이 라플라스의 일반 결정론의 관점에서 결정할 수 있습니다. 그러나 실제로 이러한 "해결 가능성"에는 많은 문제가 있습니다(모든 요소가 알려져 있지 않고 모두 사용할 수 있는 것은 아니며 사용 가능한 요소는 종종 측정할 수 없을 정도로 시끄럽습니다).

이것은 jPrediction에 대한 내 경험에 의한 확인뿐만 아니라 귀하의 의견에 따라 그래야 하는 방식인 것 같습니까?

그러나 문제는 모든 경험이 위의 진술을 확인하는 것은 아니라는 것입니다. 그것은 모두 어떤 특정 기계 학습 방법이 사용되는지에 달려 있습니다.

예를 들어, Viktor Tsaregorodtsev는 BackPropagation을 사용하여 신경망에 대한 연구를 수행했으며 결과를 바탕으로 " 신경망의 크기를 줄이면 일반화 능력이 향상되지 않습니다 "라는 기사에서 완전히 반대되는 결론에 도달했습니다.

"이것은 소음, 정보가 아닌 기능 및 중복 뉴런의 배제가 실제로 필수적이고 유용하다는 견해와 반대입니다."

저것들. 모든 기계 학습 방법에 대해 예외 없이(모든 사람을 동일한 브러시로 취급하기 위해) 일반적인 결론을 도출하는 것은 완전히 쓸모가 없습니다. 일부 방법의 경우 그러한 "결론"이 정확하지만 다른 방법의 경우 분명히 잘못된 것으로 판명될 수 있습니다.

랜덤 포레스트 알고리즘의 저자의 첫 번째 출판물을 보면 저자는 rf가 재교육하는 경향이 전혀 없다고 진지하게 언급하고 많은 예를 제시했습니다. randomforest 패키지 자체는 과적합에 대한 약간의 의심도 제거하는 방식으로 구축됩니다.

그러나 가장 재학습 가능한 알고리즘은 randomforest입니다. 개인적으로 불.

나는 다음과 같은 방법으로 얻은 수치만을 믿는다.

우리는 시간이 지남에 따라 차례로 두 개의 파일을 가져옵니다.

첫 번째 파일은 학습, 테스트 및 검증의 세 부분으로 무작위로 나뉩니다.

  • 우리는 학습 부분에서 가르치고, 차례로 해당 부분에서 알고리즘을 학습하고 샘플에서 호출되는 부분(GLE 샘플)에서 평가합니다. 학습 오류가 발생합니다. 교차 검증 알고리즘을 사용하여 OOV에 대한 조각을 얻습니다. 그는 항상 다릅니다.
  • 첫 번째 파일의 테스트 및 유효성 검사 부분에서 훈련된 모델을 확인합니다.
  • 이전에 훈련된 모델을 적용하는 오류가 발생합니다. 이 세 가지 오류는 가까워야 합니다.

시간상 첫 번째 파일 뒤에 있는 두 번째 파일로 전달합니다.

이 두 번째 파일에 훈련된 모델을 적용합니다. 결과 오류는 기존 3가지 오류와 크게 다르지 않아야 합니다.

결과적으로 서로 크게 다르지 않은 네 가지 오류 값이 있습니다.

저에게 이것은 재교육이 없다는 유일한 증거입니다. 그리고 테스터에서 이 네 가지에 가까운 오류가 발생하면 거래할 수 있습니다.

저는 이것만 믿습니다.

기계 학습에 대한 대다수의 출판물은 두 번째 파일의 유사체에서 테스트되지 않습니다. 이유는 평범합니다. 알고리즘은 시계열에 적용되지 않습니다. 그리고 파일 번호 1을 무작위로 나누면 충분하다는 것이 밝혀졌습니다. 예를 들어 손으로 쓴 텍스트를 인식할 때 그렇습니다.

 

내 은유와 유추에 대해.

저는 응용수학을 전공했습니다. 그리고 선생님들은 제가 모든 급우들처럼 수학 도구를 마스터할 수 있다고 믿었습니다. 동시에 교사는 미래 활동의 주요 문제를 보았습니다. 이것은 특정 도구를 특정 실제 작업 에 적용하는 문제에 대한 해결책입니다. 이것이 내가 평생 해 온 일이지만 모든 도구를 마스터하기 위해 .... R에는 수백 또는 수천 개의 도구가 있습니다. 그래서 무엇?

이 모든 트롤링이 나를 노리는...

트롤에게 반대하기 위해, 단지 그를 먹여살리기 위해서입니다.

물론 가지를 치워줄게, 그저 멋진 가지일 뿐이었어

사유: