트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1237

 
드미트리 :

2년 전 나는 여기 막심카에게 국회는 핵폭탄 같은 장난감이라고 썼다. 다른 모델이 최소한 만족스러운 결과를 제공한다면 NN을 사용하지 않는 것이 좋습니다. 보이지 않는 것을 발견하고 이에 대해 아무 것도 할 수 없습니다.

나무도 좋지만 숲을 이용하는 것이 좋습니다.

R을 통해 xgboost 를 실험할 계획입니다. 필요한 모든 것이 있습니다. 예, 매우 빠르고 메모리를 최적으로 사용하는 것 같습니다.
예를 들어 100개의 예측 변수가 있는 100,000개의 예제가 요약됩니까?
 
도서관 :
R을 통해 xgboost를 실험할 계획입니다. 필요한 모든 것이 있습니다. 예, 매우 빠르고 메모리를 최적으로 사용하는 것 같습니다.
예를 들어 100개의 예측 변수가 있는 100,000개의 예제가 요약됩니까?

) 몰라 - 이것은 이미 Fa에 대한 것입니다. 아마도.

나는 바이너리를 가지고 노는 간단한 모델을 사용했습니다.

 
도서관 :
R을 통해 xgboost를 실험할 계획입니다. 필요한 모든 것이 있습니다. 예, 매우 빠르고 메모리를 최적으로 사용하는 것 같습니다.
예를 들어 100개의 예측 변수가 있는 100,000개의 예제가 요약됩니까?

더 빠르게

mql의 행렬을 일반 형식으로 파일에 저장하는 방법을 배우는 방법

품질면에서 MLP와 숲 사이에는 차이가 없습니다.. 일반적으로 일반 모델 중 하나 이상과 하나 이상 사이에는 거의 차이가 없지만 자신을 부스트 해 보는 것이 흥미 롭습니다. 실제로 40이 될 수 있습니다. 몇 배 더 좋습니다. 그러나 실제로는 조금 더 나아질 것입니다.

위의 책에 대해 - 텍스트에 너무 많은 추가 단어와 감탄사가 삽입 된 것을 볼 때 저자가 자신을 확인하고 닫았다는 것을 즉시 깨닫습니다))

 
막심 드미트리예프스키 :

더 빠르게

mql의 행렬을 일반 형식으로 파일에 저장하는 방법을 배우는 방법

품질면에서 MLP와 숲 사이에는 차이가 없습니다.. 일반적으로 일반 모델 중 하나 이상과 하나 이상 사이에는 거의 차이가 없지만 자신을 부스트 해 보는 것이 흥미 롭습니다. 실제로 40이 될 수 있습니다. 몇 배 더 좋습니다. 그러나 실제로는 조금 더 나아질 것입니다.

위의 책에 대해-텍스트에 너무 많은 추가 단어와 감탄사가 삽입 된 것을 볼 때 저자가 자신을 확인하고 닫았다는 것을 즉시 깨닫습니다))

BackProp 때문에 NS는 노이즈가 많은 중요한 데이터를 찾을 수 없습니다.

나는 숲이 소음을 처리하는 방법을 아직 이해하지 못했습니다(이것이 많은 다른 나무의 투표라는 사실 외에).


단일 트리 자체가 소음을 억제할 수 있습니까? (1년전에 읽었던걸로 기억하는데 노이즈와 함께 샘플까지 완벽하게 기억하는걸로 기억)

 
도서관 :
BackProp 때문에 NS는 노이즈가 많은 중요한 데이터를 찾을 수 없습니다.

나는 숲이 소음을 처리하는 방법을 아직 이해하지 못했습니다(이것이 많은 다른 나무의 투표라는 사실 외에).


단일 트리 자체가 소음을 억제할 수 있습니까? (1년전에 읽었던걸로 기억하는데 노이즈와 함께 샘플까지 완벽하게 기억하는걸로 기억)

같은 방식으로 배깅에 대한 신경망의 앙상블이 구축되고 숲과 동일하게 나타납니다.

숲은 나무 대신에 자루에 넣기의 특별한 경우일 뿐이라는 것을 이해해야 합니다. 나무 대신 약한 모델이면 무엇이든 채울 수 있습니다. 단일 트리는 아무것도 억제할 수 없는 기본 모델입니다.

"유형" 숲은 무작위 샘플링으로 인해 재훈련되지 않지만 실제로는 매우 쉽고 자연스럽게 재훈련됩니다.

둘 다 Decay(그라디언트 단계), 조기 중지 또는 포리스트의 r 매개변수 또는 전처리를 통해 정규화되어야 하지만 이러한 모든 개선은 일반적으로 5-10% 이내입니다. 잘못된 데이터에서는 두 모델 모두 똑같이 저조한 성능을 보입니다.

부스팅은(정확히 극단적이지, 그냥 GBM이 아니라) 젠장, 리트레이닝이 별로 안 돼, 봐야지, 할 말이 없다.

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
마법사_ :

친애하는 이노센트. 나는 이 단어를 두려워하지 않을 것입니다 - 선생님, 전달된 기쁨의 순간에 감사드립니다!
인생은 새로운 색상으로 빛났습니다 (파란색, 빨간색, 회색, 녹색))))
가능하시면 몇 가지 질문에 답변해 주십시오. 왜 그렇게 부지런히 Vorontsov Voronov를 부르고 있습니까?
그리고 왜 MO가 없는 시장의 상태에 대해 알려줌으로써 우리에게 일종의 비자발적 목표를 밀어붙이는 것입니다.
그리고 가장 중요한 것은 - 트렌드 플랫은 어디에 있습니까?)))

나는 Vorontsov와 당신의 괴롭힘에 대한 절망에 대해 썼지만 내 게시물은 삭제되었습니다. Gramarnats처럼되지 마십시오. 내 목표는 bespontovy가 아니지만 Grail의 기초입니다. 나는 회색 (평면)과 색상 (트렌드)이 다릅니다 90%의 정확도, 명확성을 위해 파란색과 빨간색, 나는 방향을 사용하지 않고 녹색 표시기는 절대값 을 취합니다.

 
막심 드미트리예프스키 :

mql의 행렬을 일반 형식으로 파일에 저장하는 방법을 배우는 방법

구조의 배열을 만들고 필요한 경우 이러한 각 구조에 행렬을 쓰고 FileWriteArray() 를 사용하여 한 번에 재설정합니다.

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
도서관 :
큰 숫자는 없습니다. 그는 작은 숫자에 대해 10:8:2 대 6:4로 설명했습니다. 하지만 우리는 많은 데이터를 가지고 있습니다.


VR을 대표하는 사례가 몇 개나 될까요? 나는 보통 10000 미만을 사용하지 않습니다. 최소한 1000

나무의 경우 나무 수에 대한 오류 의존성에 대한 훌륭한 그래프가 있습니다.

따라서 파수꾼의 경우 나무 수가 100개를 넘더라도 오류가 줄어들지 않습니다.

차트는 다음과 같습니다.



다양한 파일 크기를 사용하여 질문에 대한 답변을 얻을 수 있습니다.

하지만 그게 다가 아닙니다.

rf의 경우 "샘플 크기" 매개변수가 하나 더 있습니다. 그들은 클래스의 차이를 평평하게 할 수 있습니다. 어쨌든 이 매개변수는 오류의 크기에 큰 영향을 미칩니다.

예를 들어.

샘플 크기 = 1000, 500, 파일 크기 7500라인의 경우 클래스 균형이 우울해 보입니다. 그러나 이것은 언뜻보기에 반드시 우울할 필요는 없습니다. 클래스 "0"이 길고 클래스 "1"이 "아웃 오브 마켓"이라고 가정합니다. "out of the market"에 대한 오류는 0.5 이상입니다. 이것은 구매가 헛소리에서 이루어지고 있음을 의미합니다. 그리고 장소를 바꾸면 "시장에서 나온"불도저에서 조각하지만 "긴"오류는 매우 작습니다.



그리고 샘플 크기 = 1000, 1000인 동일한 파일은 매우 괜찮아 보입니다.

 
이고르 마카누 :

구조의 배열을 만들고 필요한 경우 이러한 각 구조에 행렬을 작성하고 FileWriteArray()를 사용하여 한 번에 재설정합니다.

미리 열의 수를 모릅니다. 그리고 내부에 동적 배열 이 있는 구조의 배열은 파일에 기록되지 않습니까? ) 일반적으로 어떤 종류의 솔기 ..

열 수를 미리 알 수 없는 2차원 배열을 저장하기만 하면 됩니다.

 
막심 드미트리예프스키 :

같은 방식으로 배깅에 대한 신경망의 앙상블이 구축되고 숲과 동일하게 나타납니다.

숲은 나무 대신에 자루에 넣기의 특별한 경우일 뿐이라는 것을 이해해야 합니다. 나무 대신 약한 모델이면 무엇이든 채울 수 있습니다. 단일 트리는 아무것도 억제할 수 없는 기본 모델입니다.

"유형" 숲은 무작위 샘플링으로 인해 재훈련되지 않지만 실제로는 매우 쉽고 자연스럽게 재훈련됩니다.

둘 다 Decay(그라디언트 단계), 조기 중지 또는 포리스트의 r 매개변수 또는 전처리를 통해 정규화되어야 하지만 이러한 모든 개선은 일반적으로 5-10% 이내입니다. 잘못된 데이터에서는 두 모델 모두 똑같이 저조한 성능을 보입니다.

부스팅은(정확히 극단적이지, 그냥 GBM이 아니라) 젠장, 리트레이닝이 별로 안 돼, 봐야지, 할 말이 없다.

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

rf, xgboost , SVM, GLM, nnet 등 모든 것이 거의 동일합니다.

일부 영역에서는 한 모델이 다른 모델보다 낫고 다른 모델에서는 더 나쁩니다(모든 단위는 퍼센트 단위).

모델의 오류는 실제로 "예측자-대상 변수" 쌍의 오류인 것 같습니다. 어떤 트릭으로 점프 할 수없는 특정 한계가 있지만 망치기 쉽고 유망한 쌍을 지나칠 수 있습니다

사유: