트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 4

 
알렉세이 버나코프 :

NS는 아주 좋은 일을 했습니다.

랜덤 포레스트는 변수 집합의 상호 작용이 있는 이러한 작업을 마스터할 수 없습니다. 그리고 각 예측변수의 개별 유의성은 의도적으로 0이었습니다.

나는 국회가 아무 것도 하지 않았다는 어떤 증거도 보지 못했다.

과적합은 과학, 특히 모델 구축에서 세계적인 악입니다.

따라서 세 가지 세트에 대해 오류가 필요합니다.

  • 훈련 세트. 딸랑이가 이해하는 방식(OOB, 테스트, 유효성 검사)이 매우 적합합니다.
  • 날짜 측면에서 훈련 세트 외부에 있는 세트.
  • 날짜 측면에서 훈련 세트 외부에 있는 다른 세트.

마지막 두 세트는 믹싱이 없는 상태로 터미널에 들어 있으므로 바 단위로 베이스를 사용합니다.

세 세트 모두 거의 동일한 오류가 있어야 합니다. 이 경우 모델을 훈련할 때 사용하는 예측 변수 집합을 수정해야 합니다.

 
알렉세이 버나코프 :


랜덤 포레스트는 변수 집합의 상호 작용이 있는 이러한 작업을 마스터할 수 없습니다. 그리고 각 예측변수의 개별 유의성은 의도적으로 0이었습니다.

예측 변수 간의 상호 작용을 고려하려는 귀하의 아이디어는 통계의 혁명입니다. 지금까지는 예측변수 간의 상호작용이 악하다고 믿었다. 예측 변수 자체가 일반적으로 비정상적일 뿐만 아니라 이러한 비정상 무작위 프로세스 간의 연결도 고려하려고 합니다.

기계 학습에서는 상호 작용하는 변수를 제거하는 것이 필수로 간주됩니다. 또한, 상호 작용을 제거하고 상호 작용하는 예측 변수 집합을 독립적인 예측 변수 집합으로 변환할 수 있는 주성분 방법과 같은 매우 효율적인 알고리즘이 발명되었습니다.

 
산산이치 포멘코 :

나는 국회가 아무 것도 하지 않았다는 어떤 증거도 보지 못했다.

과적합은 과학, 특히 모델을 구축할 때 전 세계적인 악입니다.

따라서 세 세트에 대해 오류가 필요합니다.

  • 훈련 세트. 딸랑이가 이해하는 방식(OOB, 테스트, 유효성 검사)이 매우 적합합니다.
  • 날짜 측면에서 훈련 세트 외부에 있는 세트.
  • 날짜 측면에서 훈련 세트 외부에 있는 다른 세트.

마지막 두 세트는 믹싱이 없는 상태로 터미널에 들어 있으므로 바 단위로 베이스를 사용합니다.

세 세트 모두 거의 동일한 오류가 있어야 합니다. 이 경우 모델을 훈련할 때 사용하는 예측 변수 집합을 수정해야 합니다.

해보자 이것이 작업의 일부가 아니라는 사실에도 불구하고. 훈련된 모델을 실행하고 출력의 예측 정확도를 측정해야 하는 검증 샘플을 게시합니다.

그러나 나는 이것이 필요하지 않다는 것을 반복합니다. 기본 패턴을 기반으로 유효성 검사를 다시 컴파일했습니다.

파일:
 

데이터에 포함된 패턴:

Количество по полю input_19 output
input_1 input_3 input_5 input_7 input_9 input_11 0 1 сумма предикторов четность
1 1 1 1 1 1 143 6 ИСТИНА
1 1 1 1 1 2 100 7 ЛОЖЬ
1 1 1 1 2 1 121 7 ЛОЖЬ
1 1 1 1 2 2 119 8 ИСТИНА
1 1 1 2 1 1 114 7 ЛОЖЬ
1 1 1 2 1 2 124 8 ИСТИНА
1 1 1 2 2 1 105 8 ИСТИНА
1 1 1 2 2 2 102 9 ЛОЖЬ
1 1 2 1 1 1 101 7 ЛОЖЬ
1 1 2 1 1 2 131 8 ИСТИНА
1 1 2 1 2 1 122 8 ИСТИНА
1 1 2 1 2 2 114 9 ЛОЖЬ
1 1 2 2 1 1 111 8 ИСТИНА
1 1 2 2 1 2 98 9 ЛОЖЬ
1 1 2 2 2 1 123 9 ЛОЖЬ
1 1 2 2 2 2 112 10 ИСТИНА
1 2 1 1 1 1 128 7 ЛОЖЬ
1 2 1 1 1 2 114 8 ИСТИНА
1 2 1 1 2 1 111 8 ИСТИНА
1 2 1 1 2 2 126 9 ЛОЖЬ
1 2 1 2 1 1 143 8 ИСТИНА
1 2 1 2 1 2 95 9 ЛОЖЬ
1 2 1 2 2 1 108 9 ЛОЖЬ
1 2 1 2 2 2 117 10 ИСТИНА
1 2 2 1 1 1 112 8 ИСТИНА
1 2 2 1 1 2 132 9 ЛОЖЬ
1 2 2 1 2 1 92 9 ЛОЖЬ
1 2 2 1 2 2 134 10 ИСТИНА
1 2 2 2 1 1 110 9 ЛОЖЬ
1 2 2 2 1 2 114 10 ИСТИНА
1 2 2 2 2 1 120 10 ИСТИНА
1 2 2 2 2 2 108 11 ЛОЖЬ
2 1 1 1 1 1 109 7 ЛОЖЬ
2 1 1 1 1 2 133 8 ИСТИНА
2 1 1 1 2 1 99 8 ИСТИНА
2 1 1 1 2 2 115 9 ЛОЖЬ
2 1 1 2 1 1 123 8 ИСТИНА
2 1 1 2 1 2 116 9 ЛОЖЬ
2 1 1 2 2 1 131 9 ЛОЖЬ
2 1 1 2 2 2 119 10 ИСТИНА
2 1 2 1 1 1 96 8 ИСТИНА
2 1 2 1 1 2 120 9 ЛОЖЬ
2 1 2 1 2 1 111 9 ЛОЖЬ
2 1 2 1 2 2 99 10 ИСТИНА
2 1 2 2 1 1 132 9 ЛОЖЬ
2 1 2 2 1 2 110 10 ИСТИНА
2 1 2 2 2 1 93 10 ИСТИНА
2 1 2 2 2 2 106 11 ЛОЖЬ
2 2 1 1 1 1 100 8 ИСТИНА
2 2 1 1 1 2 127 9 ЛОЖЬ
2 2 1 1 2 1 127 9 ЛОЖЬ
2 2 1 1 2 2 101 10 ИСТИНА
2 2 1 2 1 1 119 9 ЛОЖЬ
2 2 1 2 1 2 120 10 ИСТИНА
2 2 1 2 2 1 99 10 ИСТИНА
2 2 1 2 2 2 106 11 ЛОЖЬ
2 2 2 1 1 1 133 9 ЛОЖЬ
2 2 2 1 1 2 97 10 ИСТИНА
2 2 2 1 2 1 100 10 ИСТИНА
2 2 2 1 2 2 116 11 ЛОЖЬ
2 2 2 2 1 1 119 10 ИСТИНА
2 2 2 2 1 2 118 11 ЛОЖЬ
2 2 2 2 2 1 102 11 ЛОЖЬ
2 2 2 2 2 2 128 12 ИСТИНА
 
산산이치 포멘코 :

나는 국회가 아무 것도 하지 않았다는 어떤 증거도 보지 못했다.

Neuronka는 이 문제를 해결했으며 첨부 파일에는 Rattle의 코드가 포함된 로그가 있습니다. 뉴런을 호출할 때 코드에 몇 가지 변경 사항이 있습니다. 최대 반복 횟수를 늘리고 중간 계층(skip=TRUE)을 우회하여 입력에서 출력으로 즉시 이동하는 연결을 제거했습니다. 그리고 이 두 가지 제한 사항이 모든 것을 망칩니다.

새 파일에 대해 유효성 검사를 수행했는데 두 경우 모두 오류가 거의 0%입니다(두 번째 파일에서 유효성을 검사할 때 하나의 오류가 있음).

하지만 신경망은 블랙박스와 같아서 해법의 논리를 알 수 없다. 가중치를 보고 각 입력에 대한 평균 절대값 을 결정하고 차트를 그릴 수 있습니다. 그리고 1, 3, 5, 7, 9, 11이 나머지보다 더 중요하다는 것을 알아내십시오. 그러나 동시에 나머지 입력도 어떤 이유로 사용되며 0 가중치는 어디에도 없습니다. 즉, 다른 방식으로 밝혀졌습니다. 먼저 훈련을 받은 다음 중요한 입력을 결정할 수 있습니다.

 
Dr.Trader :

Neuronka는 이 문제를 해결했으며 첨부 파일에는 Rattle의 코드가 포함된 로그가 있습니다. 뉴런을 호출할 때 코드에 몇 가지 변경 사항이 있습니다. 최대 반복 횟수를 늘리고 중간 계층(skip=TRUE)을 우회하여 입력에서 출력으로 즉시 이동하는 연결을 제거했습니다. 그리고 이 두 가지 제한 사항이 모든 것을 망칩니다.

새 파일에 대해 유효성 검사를 수행했는데 두 경우 모두 오류가 거의 0%입니다(두 번째 파일에서 유효성을 검사할 때 하나의 오류가 있음).

하지만 신경망은 블랙박스와 같아서 해법의 논리를 알 수 없다. 가중치를 보고 각 입력에 대한 평균 절대값 을 결정하고 차트를 그릴 수 있습니다. 그리고 1, 3, 5, 7, 9, 11이 나머지보다 더 중요하다는 것을 알아내십시오. 그러나 동시에 나머지 입력도 어떤 이유로 사용되며 0 가중치는 어디에도 없습니다. 즉, 다른 방식으로 밝혀졌습니다. 먼저 훈련을 받은 다음 중요한 입력을 결정할 수 있습니다.

그리고 있습니다. 나머지 입력은 노이즈입니다. 여기에 많은 방법의 마이너스가 있습니다. 노이즈 변수는 완전히 제거되지 않습니다.

아마도 더 오래 그리고 더 작은 단계로 배워야 할 것입니다.

그러나 전반적으로 브라보. NS는 어려운 문제를 해결했습니다.
 
산산이치 포멘코 :

나는 국회가 아무 것도 하지 않았다는 어떤 증거도 보지 못했다.

과적합은 과학, 특히 모델 구축에서 세계적인 악입니다.

따라서 세 가지 세트에 대해 오류가 필요합니다.

  • 훈련 세트. 딸랑이가 이해하는 방식(OOB, 테스트, 유효성 검사)이 매우 적합합니다.
  • 날짜 측면에서 훈련 세트 외부에 있는 세트.
  • 날짜 측면에서 훈련 세트 외부에 있는 다른 세트.

마지막 두 세트는 믹싱이 없는 상태로 터미널에 들어 있으므로 바 단위로 베이스를 사용합니다.

세 세트 모두 거의 동일한 오류가 있어야 합니다. 이 경우 모델을 훈련할 때 사용하는 예측 변수 집합을 수정해야 합니다.

명백한 증거가 필요합니까? 학습 과정에서 일관성 없는 데이터를 전달하는 입력의 가중치가 감소했습니다. 충돌하는 데이터의 흐름이 차단되었다고 말할 수 있습니다.

훈련된 네트워크 는 다른 용도로 사용되지 않기 때문에 이 경우 과적합 문제가 없습니다.

그것이 그러한 방법을 사용하는 것이 얼마나 편리한가, 그것이 문제입니다. 포병이 너무 무겁습니까?

 
드미트리 페도세예프 :

그것이 그러한 방법을 사용하는 것이 얼마나 편리한가, 그것이 문제입니다. 포병이 너무 무겁습니까?

다른 방법을 시도할 수 있습니다. 그러나 나는 그것이 문제에 적합하다고 생각합니다.
 
알렉세이 버나코프 :
다른 방법을 시도할 수 있습니다. 그러나 나는 그것이 문제에 적합하다고 생각합니다.
일이 잘 풀리고 잘 해냅니다. 그러나 항상 흥미롭고 더 효과적이고 쉬운 것이 있을 수 있습니다.
 
드미트리 페도세예프 :
일이 잘 풀리고 잘 해냅니다. 그러나 항상 흥미롭고 더 효과적이고 쉬운 것이 있을 수 있습니다.
시도할 때까지 이해하지 못할 것입니다. 일반 포함 및 제외는 작동하지 않습니다. 그리고 또 뭐?
사유: