트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2750

 
mytarmailS #:
기억은 나는데, 그건 피팅 오류야, 그러니까 추적 샘플링...
다음 캔들, 테스트의 오류는 무엇입니까?

다음 300개 막대의 오차입니다. 각 막대에서 예측자를 생성한 다음 필터링하고 모델을 학습시킨 다음 다음 막대를 예측했습니다.

 
Maxim Dmitrievsky #:
글쎄요, 종종 모델이 오래 살지 않기 때문에 어느 정도 의미가 있습니다. 하지만 적어도 1년 이상 간격으로 지속적인 재교육이 필요 없는 옵션을 찾고 싶고, 추적하기 쉬운 모델의 느린 성능 저하(
)를 원합니다.

나는 이것에 동의 할 수 없습니다.

시장은 변화하고 있으며 변화의 시간 간격은 서로 다르고 서로 독립적입니다.

저는 예전에는 3개월에서 6개월까지 지속되는 EA를 작성할 수 있었습니다. 주말에 최적화했죠. 그런 다음 그들은 죽었고 짧은 시간 동안 예금을 소진하기에 충분했습니다. 하지만 최적화를 위한 시간이 충분하지 않았습니다. 결국 상황은 더욱 악화되었습니다. 얼마 후 매개 변수를 선택할 수없는 경계가 있다는 것이 밝혀졌습니다.

시장 변화의 기간은 5-7년으로 더 길어졌습니다. 그러나 결과는 월별 기간과 동일합니다. 봇은 영원히 죽습니다. 시장에서 특정 봇을 비공개 메시지로 보낼 것입니다. 여기서는 할 수 없습니다.

따라서 "표본에서 벗어났다"는 이 모든 아이디어는 쓰레기입니다. 봇의 수명은 얼마나 될지 알 수 없습니다: 3개월 또는 7년. 봇이 죽으면 우리는 이를 다른 인출과 혼동하여 예치금을 잃게 됩니다.

이상적으로는 다음 캔들에서 재훈련을 받아야 합니다. 틱에 대해 작업하면 다음 틱, H1, 다음 시간이 도착하면 다음 틱에 대해 작업합니다.

 
Valeriy Yastremskiy #:

모든 바에 대한 훈련, 예를 들어 고정되지 않은 틱에 대한 훈련에 대해서는 반대하지 않습니다. 트레이닝 구조를 완전히 이해하지 못하겠습니다. EA 로직은 별도의 훈련인가요 아니면 각 바에 대한 훈련의 일부인가요? 첫 번째 훈련의 꼬리, 몇 개의 꼬리 또는 훈련 단계와 같은 것입니까?

각 막대에서 모든 것이 새로운 것입니다.

 
Maxim Dmitrievsky #:

인과 관계 추론을 위한 더 많은 나무 모델이 있지만 아직 파악할 시간이 없었습니다.

연습에서 많은 해석:

- 환경이 대상에 영향을 미침 (실험실 조건에서 모든 것이 상관 관계가있는 경우 자연 조건에서 설명되지 않은 다른 의존성이 나타납니다. 가장 사소한 것은 인적 요인 또는 군집 효과입니다) -RL이 ML보다 낫지모델링도 필요하며 모든 것을 고려할 수있는 것은 아닙니다....
- 약 2 개의 상관 값에 대해 무엇이 무엇에 의존하는지에 대해서만 추론 할 수 있고 그 반대가 아닌 (요인에 대한 결과 또는 결과에 대한 요인)
-중재, 중재, 상호 작용, 프로세스를 방해하는 의존성 (종종 실험적으로 추적 할 수도 없음)
-일반적으로 실험을 계획하려면 실험을 계획하는 것이 중요합니다 (정확히 논리적, 이론적 인 의존성 그래프를 그릴 수있는 것이 유용합니다), 결과는 ML로 처리하거나 더 간단하게 처리 할 수 있습니다 ....
즉, 조사 된 요인에 대한 조건부 분포 또는 조사 된 두 요인의 공동 영향을 얻기 위해 어떤 순서와 어떤 요인을 수정해야하는지, 얻은 결과를 무조건 분포와 비교하기 위해- "더 나은-더 좋지 않음", "영향-영향력이 아닌"가설을 제시하고, 통계적으로 확인하거나 반박하고, 현장 조건에서 테스트에 전송하기 위해.... 그리고 새로운 인과 관계 추론을 얻습니다.)

그리고 ML RF에서는 상관 관계 행렬을 처리하는 방법을 모르겠습니다 (특히 포인트 2가 의문입니다).

많은 사람들이 포인트 2 때문에 확률 론적 모델을 비판하고 다른 요인의 영향을 고려했다고 주장하면서 인과 추론을 찬양하기 시작합니다..... 그러나 알고리즘적으로 VM 장치가 질문 (! 추론과 동의어)을 어떻게 해결하는지는 (적어도 저에게는) 알 수 없습니다 - 저는 "아무것도"라고 말하고 싶습니다.

저에게 인과 추론은 본질적으로 추론이며 중재, 중재, 상호 작용에 대한 연구는 별도의 큰 주제이며 취향의 문제입니다 (즉, 논리적으로 구축 된이 그래프 또는 저 그래프를 스케치하는 것) - 또한 일종의 디자인 (실험).

시장에 BP가 1 개만 있으면 의존성에 대한 가설을 테스트 할 수 없으며 실험의 합리적인 설정으로 하나의 OLS 또는 ANOVA로 충분합니다 (그러나 확실히 칩을 골라 낼 필요는 없습니다).

?? ... 그래서 나는 논리와 이론적 지식을 제외하고는 특징을 요인이나 결과 (나무 모델 또는 기타)에 귀속시키는 알고리즘을 모릅니다 ..... 하지만 요즘에는 다른 말로 모든 종류의 것들이 광고되고 있습니다. 어떤 맥락에서 인과 추론을 접했는지 모르겠습니다.

 
JeeyCi #:

실습에서 많은 해석 :
-환경이 테스트 대상자에게 영향을 미침 (실험실 조건에서 모든 것이 상호 연관 될 때, 자연 조건에서 설명되지 않은 다른 의존성이 나타날 때 가장 진부한-인적 요인 또는 군집 효과)-RL이 ML보다 낫지 만 모델링도 필요하며 모든 것을 고려할 수있는 것은 아닙니다.....
- 약 2 개의 상관 값에 대해 무엇이 무엇에 의존하는지에 대해서만 추론 할 수 있지만 그 반대의 경우는 아닙니다 (요인에 대한 결과 또는 결과에 대한 요인)
-중재, 중재, 상호 작용, 프로세스를 방해하는 종속성 (종종 실험적으로 추적 할 수도 없음)
-일반적으로 실험을 계획하려면 실험을 계획하는 것이 중요합니다 (정확히 논리적, 이론적 인 의존성 그래프를 그릴 수있는 것이 유용합니다), 결과는 ML로 처리 할 수 있습니다....
즉, 조사 된 요인에 대한 조건부 분포 또는 조사 된 두 요인의 공동 영향을 얻기 위해 어떤 순서와 어떤 요인을 수정해야하는지, 얻은 결과를 무조건 분포와 비교하기 위해- "더 나은-더 좋지 않음"이라는 가설을 제시하고, 통계적으로 확인하거나 반박하고, 현장 조건에서 테스트로 이전하기 위해 .... 그리고 새로운 인과 관계 추론에 부딪히기 위해)

그리고 ML RF에서는 상관 관계 행렬을 처리하는 방법을 모르겠습니다 (특히 포인트 2가 의문입니다).

많은 사람들이 2번 요점 때문에 확률론적 모델을 비판하고 다른 요인의 영향을 고려했다고 주장하면서 인과 추론을 찬양하기 시작합니다..... 그러나 알고리즘적으로 VM 장치에서 질문 (! 추론과 동의어)이 어떻게 해결되는지는 (적어도 저에게는) 알 수 없습니다 - 저는 "아무것도"라고 말하고 싶습니다.

저에게 인과 추론은 본질적으로 추론이며 중재, 중재, 상호 작용에 대한 연구는 별도의 큰 주제이며 취향의 문제입니다 (즉, 논리적으로 구축 된 그래프를 스케치하는 것) - 또한 일종의 디자인 (실험).

시장에 BP가 1개만 있으면 의존성에 대한 가설을 실제로 테스트할 수 없으며, 합리적인 실험을 통해 하나의 OLS 또는 LDA로 충분할 것입니다(하지만 기능을 확실히 할당할 필요는 없습니다).

?? ... 그래서 나는 논리와 이론적 지식을 제외하고는 기능을 요인이나 결과 (나무 모델 또는 기타)에 귀속시키는 알고리즘을 모릅니다...... 하지만 요즘 우리는 다른 말로 모든 종류의 것들이 광고되고 있습니다. 어떤 맥락에서 인과 추론을 접했는지 모르겠습니다.

우버가 프로세스를 개선했다는 글을 봤는데요.

그리고 상관관계 = 인과관계라는 일반적인 해석과 A/B부터 시작해서 다른 방식으로 해결하려고 하는데, 그건 잘 모르겠어요.

그들은 이상한 정의를 가지고 있고, 병 없이는 이해할 수 없으며, 불필요한 단어로 머리를 채워야합니다.

Causal Inference from Observational Data, или как провести А/В-тест без А/В-теста.
Causal Inference from Observational Data, или как провести А/В-тест без А/В-теста.
  • Stats&Data ninja
  • koch-kir.medium.com
Привет дата-ниндзя👋! Первый вопрос, который ты задашь — зачем вообще это нужно ❗️❓ Предположим, ты исследуешь причинно-следственную связь между двумя величинами (Y зависит от X). И тогда, изменяя X, мы можем быть уверены что изменяем Y, причем уверены мы не только в самом факте изменения, но и в его направлении и величине (magnitude). Конечно...
 
mytarmailS #:

그건 그렇고, 다른 모델이 어떻게 작동하는지, 오류없이 mach () 함수를 만들 수 있는지 궁금합니다.

GP 튜닝 없이 다른 모델을 간단히 훈련했습니다.

1 0.002392       форест
3 0.005348 екстр. буст.
4 0.024160     нейронка
2 0.037200         МГУА

결론: 모델은 함수를 생성할 수 없고 어느 정도 정확도로만 근사화할 수 있으므로 기능 생성 및 기능 선택은 여전히 관련이 있습니다.

set.seed(125)
dat <- round(rnorm(100000),2)
X <- matrix(dat,ncol = 5)
Y <- apply(X,1,max)
colnames(X) <- paste0("x",1:5)

tr <- 1:19950
ts <- 19951:20000

#///////////////

library(randomForest)
rf <- randomForest(Y[tr]~.,X[tr,],ntree=100)
pr <- predict(rf,X[ts,])

cb <- round(  cbind(pred=pr,actual=Y[ts])  ,2)
matplot(cb,t="l",col=c(1,2),lty=1,lwd=c(3,1),main="RF regresion")
rf_MSE <- mean((cb[,1] - cb[,2])^2)  #  rf MSE 0.002392

#///////////////

library(GMDHreg)
gmdh <- gmdh.mia(X = X[1:10000,],
                 y = Y[1:10000],
                 x.test = X[10000:19951,] ,
                 y.test = Y[10000:19951], prune = 25,criteria = "test")
pr <- predict(gmdh,X[ts,])

cb <- round(  cbind(pred=pr,actual=Y[ts])  ,2)
matplot(cb,t="l",col=c(1,2),lty=1,lwd=c(3,1),main="gmdh regresion")
gmdh_MSE <- mean((cb[,1] - cb[,2])^2)  #  gmdh MSE 0.038692

#///////////////

library(xgboost)
xgb_train = xgb.DMatrix(data = X[1:10000,], label = Y[1:10000])
xgb_test =  xgb.DMatrix(data = X[10000:19951,], label = Y[10000:19951])

watchlist = list(train=xgb_train, test=xgb_test)
xgb = xgb.train(data = xgb_train, max.depth = 3, watchlist=watchlist, nrounds = 1750)

pr <- predict(xgb,X[ts,])
cb <- round(  cbind(pred=pr,actual=Y[ts])  ,2)
matplot(cb,t="l",col=c(1,2),lty=1,lwd=c(3,1),main="xgb regresion")
xgb_MSE <- mean((cb[,1] - cb[,2])^2)  #  xgb MSE 0.005348

#///////////////

library(automl)
nn <- automl_train(Xref = X[tr,], Yref = Y[tr],
                   autopar = list(numiterations = 10,
                                  psopartpopsize = 10),
                   hpar = list(numiterations = 10))

pr <- automl::automl_predict(nn,X[ts,])

cb <- round(  cbind(pred=pr,actual=Y[ts])  ,2)
matplot(cb,t="l",col=c(1,2),lty=1,lwd=c(3,1),main="nn regresion")
nn_MSE <- mean((cb[,1] - cb[,2])^2)  #  nn MSE 0.023828

#///////////////

 res <- c(rf_MSE , gmdh_MSE , xgb_MSE , nn_MSE)
nms <- c("форест","МГУА","екстр. буст.","нейронка")
m <- cbind.data.frame(res,nms)
m <- m[order(m$res),]
m
barplot(m$res,names.arg = m$nms)
 
СанСаныч Фоменко #:

다음 300개 막대의 오차입니다. 각 막대에서 예측자를 형성한 다음 필터링하고 모델을 학습시킨 후 다음 막대를 예측했습니다.

나는 저녁에 비슷한 일을하려고 노력할 것이지만, 나는 그러한 재교육 봇을 꽤 많이 해왔고, 그들이 그런 점수를주기 위해 나는 그것을 거의 믿을 수 없습니다....

오히려 테스트 샘플이 무엇인지에 대한 개념 / 이해에 혼란이 있으며, 이로 인해 우리는 그것을 같은 것으로 부르면서 다른 것에 대해 이야기합니다.

 
Aleksey Vyazmikin #:

작업 대기열이 약간 언로드되어 스크립트를 실행할 수 있게 되었습니다. 스크립트를 실행하면 오류가 발생합니다.

프로그램이 이전 버전 R 4.0을 원한다는 것을 올바르게 이해했나요?

음, 이전 버전을 검색했지만 찾지 못했습니다. 물론 끔찍한 비호환성은 혐오스럽습니다.

틀렸습니다. 패키지가 다른 버전용으로 빌드된 경우 경고가 표시됩니다. 어떤 비호환성에 대해 이야기하고 있을까요?

랜덤 포레스트 v.4.7-1.1은 크레인에서 아무데도 가지 않았습니다. R 4.1.3

 
Renat Fatkhullin #:

빌드 3440부터 AVX 버전의 소프트웨어 배포가 시작됩니다(https://www.mql5.com/ru/forum/432624/page5#comment_42117241).

다음 단계는 수학 장치를 벡터 및 OpenCL 함수로 재작성하는 것으로, CUDA와 같은 추가 라이브러리를 설치할 필요 없이 10배속 가속을 제공합니다.

이것은 정말 큰 진전입니다. 지표와 전문가를 다시 작성해야 하나요?

 
СанСаныч Фоменко #:

동의할 수 없습니다.

시장은 변화하고 있으며 변화의 시간 간격은 서로 다르며 서로 독립적입니다.

예전에는 3~6개월짜리 전문가 어드바이저를 작성할 수 있었습니다. 주말에 최적화했죠. 그런 다음 그들은 죽었고 짧은 시간 동안 예치금을 소진하기에 충분했습니다. 하지만 최적화를 위한 시간이 충분하지 않았습니다. 결국 상황은 더욱 악화되었습니다. 얼마 후 매개 변수를 선택할 수없는 경계가 있다는 것이 밝혀졌습니다.

시장 변화의 기간은 5-7년으로 더 길어졌습니다. 그러나 결과는 월별 기간과 동일합니다. 봇은 영원히 죽습니다. 시장에서 특정 봇을 비공개 메시지로 보내 드리겠습니다. 여기서는 할 수 없습니다.

따라서 "표본에서 벗어났다"는 이 모든 아이디어는 쓰레기입니다. 봇의 수명은 얼마나 될지 알 수 없습니다: 3개월 또는 7년. 봇이 죽으면 다른 드로다운과 혼동하여 디포가 고갈됩니다.

이상적으로는 다음 캔들에서 재훈련을 받아야 합니다. 틱에 대해 작업하면 다음 틱, H1에 다음 시간이 도착하면 다음 시간에 작업합니다.

알고리즘을 KNN(또는 일부 수정)과 비교해 보셨나요? 이득이 얼마나 큰지 궁금합니다.

사유: