트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 819

Aleksey Vyazmikin 2018.04.05 02:18 #8181

막심 드미트리예프스키 :

1: 샘플 크기를 결정하십시오. 샘플이 매우 작습니다.

2. 단순 분류/회귀 모델(선형)을 연구하십시오. 가장 적합할 것입니다. 오류가 크면 더 복잡한(비선형) 모델로 전환해 볼 수 있습니다.

3. 절대 조언을 듣지 마세요. 특히 R로 전환하세요 :))) 이제 이 포럼에서 그들을 추방할 시간입니다.

4. 머신 러닝 없이 해결할 수 있는 문제라면 사용하지 않는 것이 좋습니다.

1. 예, 이것은 단지 예일 뿐입니다. 물론 실제로는 표본이 많습니다.

2. 감사합니다. 물론 간단한 것부터 시작하는 것이 좋습니다. 마이닝 날짜 측면에서 이것은 제 발전의 새로운 단계라고 생각합니다.

3. MQL의 대안을 알면 좋을텐데...

4. 당분간은 기호(패턴)가 거래에 미치는 영향 정도에 따라 클러스터링 가능성을 찾고 있습니다. TS를 피팅의 방향으로 발전시키기 시작한 것이 두렵고, 그 다음에는 내 환각을 버리기 위해 시장 행동의 징후의 형태로 아이디어를 축적하고 싶습니다.

[삭제] 2018.04.05 02:24 #8182 http://alglib.sources.ru/dataanalysis/

이 모든 것은 mql에서 사용할 수 있습니다(터미널의 표준 배송과 함께 제공됨)

클러스터링의 경우 간단한 k-평균을 사용할 수 있습니다.

그리고 접시에 대해 로지스틱 회귀를 시도할 수 있습니다. 다층 퍼셉트론도 클래스로 나뉘지만 더 복잡합니다(비선형).

일반적인 의사 결정 트리는 거의 적합하지 않으며 포리스트를 사용하는 것이 더 낫습니다. 여러 트리로 구성되어 서로 다른 방식으로 분할됩니다(예: 첫 번째 변수가 첫 번째 파티션으로 사용되지 않고 세 번째 파티션으로 사용됨). 그런 다음 모든 트리의 결과를 평균화하여 보다 정확하고 안정적인 추정값을 얻습니다. 그러나 작업이 본질적으로 선형인 것으로 판명되면 스캐폴딩이 작동하지 않으므로 물류 전문가를 사용하는 것이 좋습니다. 1개의 은닉층이 있는 회귀 또는 퍼셉트론. 따라서 가장 단순한 선형 모델로 시작하는 것이 좋으며 결과가 적합하면 더 이상 비틀지 마십시오. Dr. Trader 2018.04.05 02:26 #8183

알렉세이 비아즈미킨 :

요일의 영향을 살펴보고 싶다면 요일을 표시하는 다른 입력 매개변수를 만드는 것이 더 나은가요, 아니면 1에서 5까지 하나의 매개변수를 지정하는 것으로 충분합니까?).

포리스트는 "보다 큼" 또는 "보다 작음" 작업을 사용하여 값을 비교하는 규칙을 만듭니다.

값 1,2,3,4,5의 경우 - 예를 들어 수요일에만 작동하는 규칙을 생성해야 하는 경우 "목요일 미만" 및 "초과"라는 두 가지 분기가 필요합니다. 화요일".

표시가 있는 다른 매개변수인 경우 한 번의 비교로 충분합니다(표시가 0보다 큼).

규칙을 만드는 데 필요한 분기가 적을수록 모델이 더 간단하고 더 좋습니다.

이것 저것 해보세요. 값이 1,2,3,4,5인 열 하나. 그리고 표시가 있는 5개의 열이 더 있습니다. Dr. Trader 2018.04.05 02:53 #8184

알렉세이 비아즈미킨 :

내 예에서와 같이 답이 알려진 경우 효율성을 위해 다른 알고리즘을 비교했지만 더 복잡한 작업에 대해 누군가가 비교를 했습니까?

귀하와 같은 데이터를 예측하는 것을 분류라고 하며, 원하는 답변이 몇 개의 값일 수도 있고 숫자가 아니라 개념일 수도 있습니다("거래에서 벗어남", "롤오버" 등).

뉴런과 부스팅은 이를 잘 수행하며 이러한 데이터에 대해 훈련된 다음 새로운 데이터를 예측하는 데 사용할 수 있습니다.

귀하의 목표는 귀하의 데이터에서 가장 가치 있는 정보를 추출하고 읽을 수 있는 규칙 세트를 얻는 것임을 이해합니다. 그러면 뉴런은 작동하지 않을 것이고 뉴런에서 규칙과 지식을 추출하는 것은 그리 쉬운 일이 아닙니다.

숲은 많은 해법, 많은 나무(수식)를 제공하고 최종 답은 투표로 결정되며 각 수식은 고유한 답을 제공하며 가장 인기 있는 것이 결국 선택됩니다. 그러나 이러한 규칙 더미는 해석하기가 너무 어렵습니다. 위에서 추가한 것처럼 많은 그림이 있을 것이며 각각은 고유한 답변을 제공할 것이며 결과는 가장 자주 발생하는 것입니다.

하나의 트리는 그래프에 수십/수백 개의 가지가 있는 복잡한 경우에 위와 같은 그림을 제공합니다. 그러나 다른 한편으로 이 모든 것은 그림의 가지를 따라가면 쉽게 해석되고 반복될 수 있습니다.

많은 모델이 있으므로 특정 작업에서 더 편리한 것을 선택하십시오. MQL의 Alglib도 이 모든 작업을 수행할 수 있습니다. 하지만 불편합니다. 매번 스크립트를 약간의 변경으로 컴파일하고 실행하고 결과를 기다려야 합니다.

R 또는 Python은 오류가 발생한 경우 이전 코드 줄을 변경하여 간단히 다시 실행할 수 있습니다. 스크립트가 실행되는 동안 생성된 모든 개체는 메모리에 남아 있으며 계속해서 작업하고 새 코드 줄을 실행하여 예측할 수 있습니다. mql에서와 같이 약간의 변경 후에 전체 스크립트를 다시 실행할 필요가 없습니다. Алёша 2018.04.05 17:19 #8186

유리 아사울렌코 :

그리고 구간에서 70%의 확실성을 가진 예측은 거의 효과가 없습니다. 그다지 어렵지는 않지만 여전히 의미가 없습니다.

70%확률 50%확률은 사실 별거 아니지만 70%정확도는 동화나 혼합타겟쓰는분들의 실수라고 70%정확도 SharpRatio> 30에서 울트라 HFT도 환상적임

Алёша 2018.04.05 17:38 #8187

산산이치 포멘코 :

100번째:

1. 데이터 관리가 필요합니다. 목표 변수에 영향을 미치는 예측 변수만 선택하여 시작하는 것이 필수입니다. 그런 다음 모든 데이터 마이닝

2. 두 가지 모델이 있습니다.

3. 가능할 때마다 교차 검증을 통해 모델 학습

4. 훈련 파일 외부의 모델 평가

5. 테스터에서 실행

그리고 100번째: 모든 단계는 필수입니다!

이 모든 작업을 수행하면 저장소가 즉시 병합되지 않을 것이라고 가정할 수 있습니다!

가자, 얘들아! 포럼에서 어슬렁거리지 말고 조용한 기쁨으로 우리는 R에 지정된 계획을 구현하고 있습니다.

예, 모든 것이 나물입니다. 농담입니다. 나는 당신처럼 사람들이 ZZ를 목표로 사용하도록 캠페인을하고 있습니다. 나는 순진하고 교활한 계획을 즉시 이해하지 못했습니다 :)

СанСаныч Фоменко 2018.04.05 17:54 #8188 http://alglib.sources.ru/dataanalysis/
이 모든 것은 mql에서 사용할 수 있습니다(터미널의 표준 배송과 함께 제공됨)
클러스터링의 경우 간단한 k-평균을 사용할 수 있습니다.
그리고 접시에 대해 로지스틱 회귀를 시도할 수 있습니다. 다층 퍼셉트론도 클래스로 나뉘지만 더 복잡합니다(비선형).
일반적인 의사 결정 트리는 거의 적합하지 않으며 포리스트를 사용하는 것이 더 낫습니다. 여러 트리로 구성되어 서로 다른 방식으로 분할됩니다(예: 첫 번째 변수가 첫 번째 파티션으로 사용되지 않고 세 번째 파티션으로 사용됨). 그런 다음 모든 트리의 결과를 평균화하여 보다 정확하고 안정적인 추정값을 얻습니다. 그러나 작업이 본질적으로 선형인 것으로 판명되면 스캐폴딩이 작동하지 않으므로 물류 전문가를 사용하는 것이 좋습니다. 1개의 은닉층이 있는 회귀 또는 퍼셉트론. 따라서 가장 단순한 선형 모델로 시작하는 것이 좋으며 결과가 적합하면 더 이상 비틀지 마십시오.
요일의 영향을 살펴보고 싶다면 요일을 표시하는 다른 입력 매개변수를 만드는 것이 더 나은가요, 아니면 1에서 5까지 하나의 매개변수를 지정하는 것으로 충분합니까?).
포리스트는 "보다 큼" 또는 "보다 작음" 작업을 사용하여 값을 비교하는 규칙을 만듭니다.
값 1,2,3,4,5의 경우 - 예를 들어 수요일에만 작동하는 규칙을 생성해야 하는 경우 "목요일 미만" 및 "초과"라는 두 가지 분기가 필요합니다. 화요일".
표시가 있는 다른 매개변수인 경우 한 번의 비교로 충분합니다(표시가 0보다 큼).
규칙을 만드는 데 필요한 분기가 적을수록 모델이 더 간단하고 더 좋습니다.
이것 저것 해보세요. 값이 1,2,3,4,5인 열 하나. 그리고 표시가 있는 5개의 열이 더 있습니다.
내 예에서와 같이 답이 알려진 경우 효율성을 위해 다른 알고리즘을 비교했지만 더 복잡한 작업에 대해 누군가가 비교를 했습니까?
귀하와 같은 데이터를 예측하는 것을 분류라고 하며, 원하는 답변이 몇 개의 값일 수도 있고 숫자가 아니라 개념일 수도 있습니다("거래에서 벗어남", "롤오버" 등).
뉴런과 부스팅은 이를 잘 수행하며 이러한 데이터에 대해 훈련된 다음 새로운 데이터를 예측하는 데 사용할 수 있습니다.
귀하의 목표는 귀하의 데이터에서 가장 가치 있는 정보를 추출하고 읽을 수 있는 규칙 세트를 얻는 것임을 이해합니다. 그러면 뉴런은 작동하지 않을 것이고 뉴런에서 규칙과 지식을 추출하는 것은 그리 쉬운 일이 아닙니다.
숲은 많은 해법, 많은 나무(수식)를 제공하고 최종 답은 투표로 결정되며 각 수식은 고유한 답을 제공하며 가장 인기 있는 것이 결국 선택됩니다. 그러나 이러한 규칙 더미는 해석하기가 너무 어렵습니다. 위에서 추가한 것처럼 많은 그림이 있을 것이며 각각은 고유한 답변을 제공할 것이며 결과는 가장 자주 발생하는 것입니다.
하나의 트리는 그래프에 수십/수백 개의 가지가 있는 복잡한 경우에 위와 같은 그림을 제공합니다. 그러나 다른 한편으로 이 모든 것은 그림의 가지를 따라가면 쉽게 해석되고 반복될 수 있습니다.
많은 모델이 있으므로 특정 작업에서 더 편리한 것을 선택하십시오.
MQL의 Alglib도 이 모든 작업을 수행할 수 있습니다. 하지만 불편합니다. 매번 스크립트를 약간의 변경으로 컴파일하고 실행하고 결과를 기다려야 합니다.
R 또는 Python은 오류가 발생한 경우 이전 코드 줄을 변경하여 간단히 다시 실행할 수 있습니다. 스크립트가 실행되는 동안 생성된 모든 개체는 메모리에 남아 있으며 계속해서 작업하고 새 코드 줄을 실행하여 예측할 수 있습니다. mql에서와 같이 약간의 변경 후에 전체 스크립트를 다시 실행할 필요가 없습니다.
그리고 구간에서 70%의 확실성을 가진 예측은 거의 효과가 없습니다. 그다지 어렵지는 않지만 여전히 의미가 없습니다.
70%확률 50%확률은 사실 별거 아니지만 70%정확도는 동화나 혼합타겟쓰는분들의 실수라고 70%정확도 SharpRatio> 30에서 울트라 HFT도 환상적임
1. 데이터 관리가 필요합니다. 목표 변수에 영향을 미치는 예측 변수만 선택하여 시작하는 것이 필수입니다. 그런 다음 모든 데이터 마이닝
2. 두 가지 모델이 있습니다.
3. 가능할 때마다 교차 검증을 통해 모델 학습
4. 훈련 파일 외부의 모델 평가
5. 테스터에서 실행
그리고 100번째: 모든 단계는 필수입니다!
이 모든 작업을 수행하면 저장소가 즉시 병합되지 않을 것이라고 가정할 수 있습니다!
가자, 얘들아! 포럼에서 어슬렁거리지 말고 조용한 기쁨으로 우리는 R에 지정된 계획을 구현하고 있습니다.
다시 한 번 명확히 해야 합니다. 저는 ZZ를 위해 캠페인을 하는 것이 아닙니다. 이는 추세 거래 시스템에 대해 매우 명확합니다.
그리고 표적과 표적에 대한 예측자 - 이 모든 것이 극도로 어렵고 비용이 많이 듭니다. 그리고 모델은 매우 쉽게 선택할 수 있습니다. 일부 유형은 대상 및 해당 예측 변수에 범주적으로 적합하지 않은 반면 다른 유형은 적합합니다. 일반적으로 항상 12개 또는 2개의 모델을 시도해야 합니다.
이해가 안되는 분들을 위해 다시한번 말씀드립니다. 70%는 현실이다. 시간 간격의 70%에 대해 정당한 예측을 달성할 수 있습니다.
그러한 예측이 무의미하다는 문제는 다른 곳에 있습니다. 실현된 이러한 예측의 70% 중 약 1/4 또는 그 미만만이 실제로 거래에 진입하기에 적합합니다. 즉, 간격의 ~ 17%에 불과합니다. 그러나 어디에서 예측이 정당화되는지 사전에 알 수 없고 나머지 30%가 실패한 거래와 놓친 "정확한" 거래의 상당 부분을 제공한다는 점을 감안할 때 신뢰할 수 있는 예측의 70%를 실현하는 것은 불가능합니다.
