트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 930

 
알렉세이 비아즈미킨 :

그리고 좋은 확률로 가지를 찾아 하나의 예측자로 인코딩한 다음 다시 한 번 나무에 갈기를 주면 나무는 발견된 결과를 어떻게 개선할지 생각할 것입니다(예측자와 같아야 하기 때문에 올바른 솔루션의 비율이 높습니까?) , 어떻게 생각하십니까?

몰라 :) 그런 실험은 나무로 하지 않았어. 그러나 예를 들어, 모든 종류의 GBM 모델은 이러한 방식으로 작동합니다. 트리를 만든 다음 이전 모델과 비교하여 개선된 다른 모델을 만든 다음 다른 모델을 만드는 식입니다.

 
박사 상인 :

더 분기하면 이러한 데이터의 정확도가 확실히 높아집니다. 그러나 대부분의 경우 새로운 데이터에 해당합니다.

트리가 이미 무언가를 학습했지만 아직 과적합이 없고 새로운 데이터에서 유사한 결과를 기대할 수 있는 특정 최적값에 도달했습니다.

흠, 하지만 다시 이 트리를 하나의 예측자로 압축하고 솔루션을 더 찾으면? 사실 내 예측 변수는 종종 일종의 예비 계산, 값 분류 등입니다. 트리에 원시 데이터를 주면 더 일찍 분기가 멈추고 더 큰 오류가 발생합니다 ... 그리고 이것을 기반으로 올바른 방향으로 분기하면 결과가 발생하지만이 방향은 알려져 있지 않지만 결정하는 방법은 질문.

 
박사 상인 :

몰라 :) 그런 실험은 나무로 하지 않았어. 그러나 예를 들어, 모든 종류의 GBM 모델은 이러한 방식으로 작동합니다. 트리를 만든 다음 이전 모델과 비교하여 개선된 다른 모델을 만든 다음 다른 모델을 만드는 식입니다.

분명히 당신은 이 GBM 모델에 대해 읽어야 합니다... 하지만 그것들은 어디에서 재생산됩니까(R만?)?

필터를 시도하는 것은 남아 있습니다. 모든 예측자가 기본적으로 TS에서 필터로 사용되기 때문에 내 프로그램이 최소한 일부 결과를 제공했지만 아마도 귀하의 프로그램은 흥미로운 것을 제공할 것입니다.

 

박사 Trader , 이것은 Levl_first_H1, Levl_High_H1, Levl_Low_H1, Levl_Support_H1, Levl_Close_H1 , 별도의 전체 규칙으로 일반적으로 원래 생각한대로 재미있는 표시로 나타납니다.


표에서 다음과 같습니다.

1. 모든 막대의 2년을 설명하려면 목표를 고려하여 6088개의 조합만 사용했으며 목표가 전혀 없으면 4705개 미만, 즉 균일 분포의 경우 하나의 조합은 2년 동안 86행을 설명하지만, 더 빈번한 조합과 덜 빈번한 조합이 있다고 생각합니다.

2. 2015년에서 2016년 사이에 새로운 고유 규칙의 출현은 41%에 달했고 목표 1에서 새로운 규칙의 출현은 55%에 달했습니다. 2015년 규정의 45%가 그대로 유지되어 계속 운영되고 있어 좋은 것 같습니다.

3. 2015년과 2016년 샘플에서는 가능한 모든 조합의 21%만 사용되었습니다. 여기서 나머지 조합은 매우 독특하거나 샘플이 충분하지 않습니다.

나무를 만들 때 이러한 사실을 어떻게든 사용해야 할까요?

추가됨:

그런 다음 2015년 목표 1과 0에 대해 중복 제거, 2016년 목표 0과 1의 규칙을 추가한 다음 중복 행을 삭제하는 등의 실험을 해보니 뭔가 이해할 수 없는 우울한 결과가 나왔다.

대상 "1"에 대해 잘못된 규칙의 81%, 대상 "0"에 대해 38%가 있는 것으로 나타났습니다. 그러나 행의 몇 퍼센트가 오류 백분율을 포함하는지 알 수는 없지만... 아마도 다른 비율, 그렇지 않으면 2016년에 발견된 것과 똑같은 수의 새로운 규칙이 추가될 것입니다. 하지만 그렇지 않습니다. 즉, 규칙이 항상 준수되는 것은 아니며 추가 조건(예측자)만 있으면 됩니다.

 

알렉세이 비아즈미킨 :


표에서 다음과 같습니다.

규칙이 항상 충족되는 것은 아니며 추가 조건인 예측자가 필요합니다.

Alexey, 나는 NS-ku를 즉시 성인 방식으로 제안합니다. 우리(MQL 커뮤니티)는 선택과 포리스트만으로는 그리 멀리 가지 않을 것입니다.

분명히, 작동하는 NS 전략은 거래자처럼 결정을 내리기 위해 분석 플랫폼이 필요합니다. 구매, 판매 또는 일반적으로 시장에 진입할 가치가 있습니까? 매수, 매도 또는 일반적으로 포지션을 청산해야 합니까?

우리는 여기 에서 Maxim과 함께 이에 대해 환상을 보았습니다. 거기에 상식이 존재하는지 읽고 확인하십시오.

 
geratdc_ :

Alexey, 나는 NS-ku를 즉시 성인 방식으로 제안합니다. 우리(MQL 커뮤니티)는 선택과 포리스트만으로는 그리 멀리 가지 않을 것입니다.

분명히, 작동하는 NS 전략은 거래자처럼 결정을 내리기 위해 분석 플랫폼이 필요합니다. 구매, 판매 또는 일반적으로 시장에 진입할 가치가 있습니까? 매수, 매도 또는 일반적으로 포지션을 청산해야 합니까?

우리는 여기 에서 Maxim과 함께 이에 대해 환상을 보았습니다. 거기에 상식이 존재하는지 읽고 확인하십시오.

그래서 시장에 국회를 위한 자리가 있는지 잘 모르겠습니다...

 

그리고 지금 주목. 나는 이번 주에 Dokovsky 스크립트와 이메일 네트워크에서 작업하기로 결정했습니다.

그리고 지금 가장 흥미롭고 무엇을 할 수 있습니까?????

최대 뉴런 수가 200개(기본값)인 경우 학습 품질은 R-점수에 따라 0.6이었습니다. 하지만 최대 은닉 뉴런 수를 30개로 줄임으로써 점수를 0.85로 높였습니다(매우 좋음). 그러나 그는 무게로 모델 사본을 받기 시작했습니다. 나는 항상 같은 무게를 얻습니다. 여기 질문이 있습니다. 유전학은 완고하게 동일한 최소 기능에 도달합니다. 데이터가 너무 모호하지 않아 실수 분야에서 네트워크의 동일한 가중치 계수로 하나의 최소값에 속합니다. 일주일 동안 어떻게 작동하는지 봅시다 ...

정확히 말하자면 지난주 Reshetov의 옵티마이저는 ELMNN 네트워크보다 점수가 조금 높지만 설치하는 것이 훨씬 빠르므로 전환을 시도합니다. 들어가게 된다면 저도 당분간 Reshetov를 거절하겠습니다. 작업에 네트워크를 대규모로 설치 ....

 
알렉세이 비아즈미킨 :

분명히 당신은 이 GBM 모델에 대해 읽어야 합니다... 하지만 그것들은 어디에서 재생산됩니까(R만?)?

파이썬에도 있어야 합니다.

알렉세이 비아즈미킨 :

필터를 시도하는 것은 남아 있습니다. 모든 예측자가 기본적으로 TS에서 필터로 사용되기 때문에 내 프로그램이 최소한 일부 결과를 제공했지만 아마도 귀하의 프로그램은 흥미로운 것을 제공할 것입니다.

나는 오늘 밤에 알고리즘을 실행할 것이고, 무슨 일이 일어났는지 내일 보여줄 것이다

알렉세이 비아즈미킨 :

표에서 다음과 같습니다.

...

100% 정확도를 달성하고 모델이 잘 작동하기를 바라는 것은 일반적으로 Forex에서 불가능합니다. 이를 위해서는 함께 잘 수렴되는 몇 달 동안의 예측 변수와 심지어 대상 예측 변수를 선택해야 합니다. 일반적으로 50% 이상의 정확도에 도달하면 모델은 훈련 예제를 암기하기 시작하고 그 안에서 논리적 패턴을 찾지 않습니다. 따라서 새로운 데이터에 대한 결과는 점점 더 나빠질 것입니다. 데이터의 경우 이 최적값은 약 60%로 나타났습니다. 훈련 데이터와 테스트 데이터의 결과가 거의 같을 때 트리를 더 자세히 분석하고 정확도를 높이면 포리스트는 새 데이터에서 점점 더 나쁜 결과를 보여줍니다. .

 
마이클 마르쿠카이테스 :

최대 뉴런 수가 200개(기본값)인 경우 학습 품질은 R-점수에 따라 0.6이었습니다. 하지만 최대 은닉 뉴런 수를 30개로 줄임으로써 점수를 0.85로 높였습니다(매우 좋음).

유전학은 올바른 매개변수를 찾기 위해 제한된 수 의 함수 호출을 시도합니다. 이 매개변수에 대한 옵션의 수를 좁히면(200 대신 30), 유전학은 1에서 30까지 해당 지역을 더 자세히 탐색할 수 있습니다. 그리고 이것은 정확합니다. 일부 모델 매개변수를 검색하기 위한 특정 한계를 알고 있다면 유전학이 이 정보를 즉시 제공하는 것이 좋습니다.


또는:

gaResult <- ga(type= "real-valued" ,
               fitness = GaFitness,
               min = c( 1 , 1 , 0 ),
               max = c(NHID_MAX, length(ACTFUN_NAMES), 1000 ),
               popSize = 500 ,
               monitor=plot)

코드에 이 줄(녹색)을 추가하면 유전학은 기본 50개 대신 500명의 개체를 모집단에 갖게 됩니다. 그리고 10배 더 많은 모델을 확인할 수 있습니다(그러나 스크립트 실행 시간은 10배 증가). 가능한 많은 모델 매개변수 조합을 정렬합니다. 최대에서도. 뉴런의 수는 200으로, 유전학도 0.85로 더 나은 결과를 찾거나 적어도 그것에 근접할 수 있다고 생각합니다.

 

오, 읽을 것이 있을 것입니다. 그렇지 않으면 그것이 무엇인지 잊어버렸습니다. 아니면 오히려 GBM이 XGboost 와 어떻게 다른지 잊었거나..

어떤 모델이든 부스트할 수 있는 것처럼 gbb, 나무에서처럼 xgb

숲이 만들어지는 배깅보다 부스팅이 조금 더 낫다는 걸 압니다. 그리고 재교육은 어떤지 모르겠습니다.

https://habr.com/company/ods/blog/327250/

https://datascienceplus.com/gradient-boosting-in-r/

Открытый курс машинного обучения. Тема 10. Градиентный бустинг
Открытый курс машинного обучения. Тема 10. Градиентный бустинг
  • 2018.05.17
  • habr.com
Всем привет! Настало время пополнить наш с вами алгоритмический арсенал. Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир...
사유: