트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

СанСаныч Фоменко 2016.07.01 14:56 #301

알렉세이 버나코프 :

Yuri, 데이터에 대한 첫 번째 테스트:

방법	loss_function	cv_folds	가방_프랙	model_params	AUC_cv	정확도_기차	정확도_검증
GBM	베르누이	4	0.4	0.015_\|_7_\|_70_\|_600	0.429659	0.590361	0.50501
GBM	베르누이	4	0.6	0.02_\|_5_\|_110_\|_600	0.485727	0.586345	0.51503

훈련을 위한 두 가지 다른 매개변수 값 세트. 교차 검증에서 AUC가 주각 아래에 있다는 점은 주목할 만합니다.

일반적으로 테스트에서 51.5%의 정확도가 우리가 얻은 최고입니다.

어떻게 60%가 되는지 모르겠습니다.

예, 이 예측 변수 집합을 폐기해야 합니다.

어리석게도 모든 것을 증분하면 여러 오실레이터가 5000개 이상의 관측값과 함께 총 100개 이상의 예측 변수가 됩니다. H1, 그런 다음 이러한 세트에서 10-15개의 예측 변수를 선택하는 것이 가능합니다. 그러면 예측 오류가 40% 미만일 뿐만 아니라 가장 중요하게는 초과되지 않은 모델이 제공됩니다.

Alexey Burnakov 2016.07.01 15:10 #302

산산이치 포멘코 :

예, 이 예측 변수 집합을 폐기해야 합니다.

어리석게도 모든 것을 증분하면 여러 오실레이터가 5000개 이상의 관측값과 함께 총 100개 이상의 예측 변수가 됩니다. H1, 그런 다음 이러한 세트에서 10-15개의 예측 변수를 선택하는 것이 가능합니다. 그러면 예측 오류가 40% 미만일 뿐만 아니라 가장 중요하게는 초과되지 않은 모델이 제공됩니다.

우리는 아직 유리가 세트에 포함된 기능을 알지 못합니다. 그는 그것들이 모두 필요하다고 말합니다.

Alexey Burnakov 2016.07.01 15:34 #303

일반적으로 51.5% 이상의 분류 정확도를 얻지 못했습니다. 따라서 나머지 메트릭도 무작위 추측에 가까울 것입니다.

시험에 대한 답의 균형은 거의 50/50입니다.

유리, 당신의 폭로를 기다리고 있습니다.

Dr. Trader 2016.07.01 16:21 #304

test.csv에 대한 나의 정확한 예측 수는 약 50%이며 모든 것이 헛된 것입니다. 예측 변수 집합이 좋지 않다는 데 동의합니다. 유리 씨, 표준 지표를 더 추가하세요. 모델이 정말 그렇게 좋다면 좋은 예측 변수를 사용하여 80% 이상의 예측 정확도를 달성할 수 있다고 생각합니다.

Yury Reshetov 2016.07.01 17:42 #305

알렉세이 버나코프 :

일반적으로 51.5% 이상의 분류 정확도를 얻지 못했습니다. 따라서 나머지 메트릭도 무작위 추측에 가까울 것입니다.

시험에 대한 답의 균형은 거의 50/50입니다.

정보 주셔서 감사합니다. 아무도 더 나은 결과를 얻을 수 없었고 나 자신이 Weka에서 이 데이터 세트를 구동했고 또한 문제가 있다면 libVMR 버전을 업데이트할 때입니다. 새 버전을 적용하면 해당 샘플의 정답률 60%가 제한되지 않습니다.

알렉세이 버나코프 :

유리, 당신의 폭로를 기다리고 있습니다.

나는 아무것도 숨기지 않는다. 위에서 이미 제공한 이전 버전의 경우 모든 정보는 공개 도메인에 있습니다.

바이너리 분류기 구성 방법에 대한 설명: https://sites.google.com/site/libvmr/

주석이 있는 Java 소스: https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

어셈블리: https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова

sites.google.com

Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью

Alexey Burnakov 2016.07.01 20:10 #306

유리, 고마워.

한 가지가 이해가 되지 않습니다. 집합이 선형으로 분리 가능한 경우 일반적인 SVM 방법을 사용하지 않는 이유는 무엇입니까? 당신은 어떻게 더 나을까요?

Yury Reshetov 2016.07.02 08:43 #307

알렉세이 버나코프 :
유리, 고마워.

한 가지가 이해가 되지 않습니다. 집합이 선형으로 분리 가능한 경우 일반적인 SVM 방법을 사용하지 않는 이유는 무엇입니까? 당신의 것이 어떻습니까?

집합이 선형으로 분리 가능한 경우 잠재적인 분리 초평면의 수는 무한합니다. 이 경우 적절한 초평면을 식별하기 위한 몇 가지 기준을 찾는 것이 필요합니다. 이러한 기준 중 하나는 Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition이라는 책에서 지원 벡터 기계에 대해 공식화되었습니다. M.: Nauka, 1974. 보다 정확하게는 이 책은 다양한 기준에 대해 논의합니다.

SVM과 VMR은 모두 지원 벡터 머신입니다.

SVM은 경험적 데이터에서 종속성을 복구하는 방법입니다. 기준은 공간이 선형으로 분리 가능한 경우 지지하는 초평면 사이의 최대 거리입니다. 경험적 데이터에서 종속성의 Vapnik VN 재구성을 참조하십시오. 모스크바: 1979년 나우카
VMR은 강한 종속성을 식별하고 약한 종속성을 제거(축소)하는 방법입니다. 기준은 선형 분리 가능성에 관계없이 지지 초평면 사이의 최소 최대 거리입니다. 저것들. VMR은 종속성을 복원하지 않으며(훈련 샘플에 분명히 없는 모델에 아무것도 추가하지 않음), 일부 암시적 종속성이 모델에 속하지 않는다는 것은 말할 것도 없습니다(제거). 보다 구체적으로 VMR은 일부 기능을 줄여 하이퍼스페이스를 줄입니다.

어떤 방법이 더 좋거나 더 나쁘고 오랫동안 논쟁 할 수 있습니다. 그러나 일반화 능력을 가지고 확인하면 모든 것이 제자리에 들어갈 것입니다.

Price VR에서 고정 VR 머신 러닝 및 신경망 최적화 결과의 자동 선택

СанСаныч Фоменко 2016.07.02 09:37 #308

유리 레셰토프 :

집합이 선형으로 분리 가능한 경우 잠재적인 분리 초평면의 수는 무한합니다. 이 경우 적절한 초평면을 식별하기 위한 몇 가지 기준을 찾는 것이 필요합니다. 이러한 기준 중 하나는 Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition이라는 책에서 지원 벡터 기계에 대해 공식화되었습니다. M.: Nauka, 1974. 보다 정확하게는 이 책은 다양한 기준에 대해 논의합니다.

SVM과 VMR은 모두 지원 벡터 머신입니다.

SVM은 경험적 데이터에서 종속성을 복구하는 방법입니다. 기준은 공간이 선형으로 분리 가능한 경우 지지하는 초평면 사이의 최대 거리입니다. 경험적 데이터에서 종속성의 Vapnik VN 재구성을 참조하십시오. 모스크바: 1979년 나우카
VMR은 강한 종속성을 식별하고 약한 종속성을 제거(축소)하는 방법입니다. 기준은 선형 분리 가능성에 관계없이 지지하는 초평면 사이의 최소 최대 거리입니다. 저것들. VMR은 종속성을 복원하지 않으며(훈련 샘플에 분명히 없는 모델에 아무것도 추가하지 않음), 일부 암시적 종속성이 모델에 속하지 않는다는 것은 말할 것도 없습니다(제거). 보다 구체적으로 VMR은 일부 기능을 줄여 하이퍼스페이스를 줄입니다.

어떤 방법이 더 좋거나 더 나쁘고 오랫동안 논쟁 할 수 있습니다. 그러나 일반화 능력을 가지고 확인하면 모든 것이 제자리에 들어갈 것입니다.

문제가 나오면 해결해야 하며, 말(예측자)보다 카트(모델)를 먼저 놓는 것은 완전히 공허한 운동입니다. 그리고 카트에 무엇을 사용하고 있는지, 전혀 사용하지 않은 카트를 비교하는 것은 더욱 그렇습니다.

모든 유형의 모델을 적용하기 전에 예측 변수 목록에서 노이즈를 제거하고 대상 변수에 "관계"가 있는 예측 변수만 남겨두어야 합니다. 이것이 완료되지 않으면 수백 년 동안 실제로 널리 사용된 토성의 고리, 커피 찌꺼기 및 기타 예측 변수를 기반으로 하는 건물 모델로 쉽게 미끄러질 수 있습니다.

Dr.Trader 위 그는 자신의 예측 변수 세트에서 노이즈를 제거하는 작업을 시도했습니다.

결과는 부정적입니다.

부정적인 결과의 원인은 매우 많은 수의 예측 변수가 있는 적은 수의 관찰 때문이라고 생각합니다. 그러나 이것은 모든 모델을 적용하기 전에 파헤쳐야 하는 방향입니다.

매트 연구. 패키지 거시경제 지표에 기반한 시장 엘리트 지표 :)

Alexey Burnakov 2016.07.02 17:56 #309

유리 레셰토프 :

집합이 선형으로 분리 가능한 경우 잠재적인 분리 초평면의 수는 무한합니다. 이 경우 적절한 초평면을 식별하기 위한 몇 가지 기준을 찾는 것이 필요합니다. 이러한 기준 중 하나는 Vapnik VN, Chervonenkis A. Ya. Theory of Pattern Recognition이라는 책에서 지원 벡터 기계에 대해 공식화되었습니다. M.: Nauka, 1974. 보다 정확하게는 이 책은 다양한 기준에 대해 논의합니다.

SVM과 VMR은 모두 지원 벡터 머신입니다.

SVM은 경험적 데이터에서 종속성을 복구하는 방법입니다. 기준은 공간이 선형으로 분리 가능한 경우 지지하는 초평면 사이의 최대 거리입니다. 경험적 데이터에서 종속성의 Vapnik VN 재구성을 참조하십시오. 모스크바: 1979년 나우카
VMR은 강한 종속성을 식별하고 약한 종속성을 제거(축소)하는 방법입니다. 기준은 선형 분리 가능성에 관계없이 지지 초평면 사이의 최소 최대 거리입니다. 저것들. VMR은 종속성을 복원하지 않으며(훈련 샘플에 분명히 없는 모델에 아무것도 추가하지 않음), 일부 암시적 종속성이 모델에 속하지 않는다는 것은 말할 것도 없습니다(제거). 보다 구체적으로 VMR은 일부 기능을 줄여 하이퍼스페이스를 줄입니다.

어떤 방법이 더 좋거나 더 나쁘고 오랫동안 논쟁 할 수 있습니다. 그러나 일반화 능력을 가지고 확인하면 모든 것이 제자리에 들어갈 것입니다.

유리, 고마워. 나는 생각할 것이다.

질문이 있습니다. 예측 변수를 어떻게 선택했습니까?

Vladimir Perervenko 2016.07.02 18:52 #310

불행히도 R에서는 49개의 무작위 샘플이 있기 때문에 Sharpe 및 기타 유사한 것을 계산할 수 없습니다. 중첩될 때 트랜잭션 순서가 복원되지 않습니다.

R에는 필요한 모든 것이 있습니다. fTrading::sharpRatio를 참조하십시오.

예, PerformanceAnalytics는 검색을 방해하지 않습니다.

행운을 빕니다

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 31