트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1487

 
알렉세이 비아즈미킨 :

따라서 예측 변수와 그 값을 정렬할 때 추정치를 제공해야 하며 매우 복잡한 값(범위)을 가진 예측 변수를 취하지 말고 표본 전체에 분포된 예측 변수를 우선적으로 선택해야 합니다.

글쎄, 백테스트에서 모든 것이 항상 매우 좋아 보인다)
유니폼 이 필요한 것 같은데요? 포레스트는 훈련 중 포워드에 대해 아무것도 모릅니다\
 
도서관 :
글쎄, 백테스트에서 모든 것이 항상 매우 좋아 보인다)
유니폼이 필요한 것 같은데요? 포레스트는 훈련 중 포워드에 대해 아무것도 모릅니다\

평가는 교육에 참여하는 두 개의 샘플에 대해 이루어져야 합니다.

 
알렉세이 비아즈미킨 :

평가는 교육에 참여하는 두 개의 샘플에 대해 이루어져야 합니다.

두 번째 - 검증?
 

그런 다음 유효성 검사 사이트가 조정됩니다. 검증이 더 많은 훈련이라면 더 나아질 수 있지만. Ivan Butko의 NS에서는 소규모 사이트에서 교육하고 사이트에서 검증이 몇 배 더 큽니다. 여기에서는 일반적으로 모든 데이터의 15-25%를 검증하는 옵션이 고려되었으며 그의 비디오에서는 약 80%가

 
도서관 :
두 번째 - 검증?

예, 해당되는 경우.

일반적으로 여기에서 샘플이 클수록 더 좋다고 생각합니다. 이것은 학습뿐만 아니라 예측 변수의 안정성에 대한 문제입니다.

드물지는 않지만 표본에서 매우 붐비는 예측 변수 값의 범위 를 단순히 그룹화하기 위해 준비 중인 데이터를 처리하는 것이 가능할 수도 있습니다.

조건부로 -1로 교체하고 최소 2-3 깊이까지 초기 분할을 금지합니다.

 
도서관 :

그런 다음 유효성 검사 사이트가 조정됩니다. 검증이 더 많은 훈련이라면 더 나아질 수 있지만. Ivan Butko의 NS에서는 소규모 사이트에서 교육하고 사이트에서 검증이 몇 배 더 큽니다. 여기에서는 일반적으로 모든 데이터의 15-25%를 검증하는 옵션이 고려되었으며 그의 비디오에서는 약 80%가

검증에 대해 실제로 교육하지 않고 단순히 시장 구조 에 대한 추가 정보를 가져오기 때문에 특별한 조정은 없을 것입니다.

 
알렉세이 비아즈미킨 :

예, 해당되는 경우.

일반적으로 여기에서 샘플이 클수록 더 좋다고 생각합니다. 이것은 학습뿐만 아니라 예측 변수의 안정성에 대한 문제입니다.

드물지는 않지만 표본에서 매우 붐비는 예측 변수 값의 범위 를 단순히 그룹화하기 위해 준비 중인 데이터를 처리하는 것이 가능할 수도 있습니다.

조건부로 -1로 교체하고 최소 2-3 깊이까지 초기 분할을 금지합니다.

너무 까다롭습니다... 표준 트리 구축 알고리즘은 간단하고 빠릅니다.
알렉세이 비아즈미킨 :

검증에 대해 실제로 교육하지 않고 단순히 시장 구조에 대한 추가 정보를 가져오기 때문에 특별한 조정은 없을 것입니다.

평가가 검증을 기반으로 하는 경우 이에 대한 조정이 있을 것입니다.유일하게 허용되는 옵션은 검증이 학습에 상응하거나 그 이상인 경우입니다.
그리고 훈련 영역에 유효성 검사를 포함하기만 하면 된다는 결론에 도달했습니다.
 
성배 :

예, 아니요, 이 "Parzen 창", 핵 평활화, 그러나 거의 완벽하다는 의미에서 "준최적"(Mitchell이 어딘가에 있음)이라는 svm은 어떤 종류의 svm이지만 매우 느리지만 각 반복은 전체를 정렬합니다. 새로운 포인트에 대한 데이터 세트 및 코어가 있는 컨볼루션

비정상성에 어떤 영향을 미칠지 모르겠지만.. 느리면 몬테칼링도 어렵다.

IMHO의 주요 문제는 크기 조정 \ 데이터 변환, 주기 선택입니다. 패턴이 반복되면 비선형 회귀 또는 SVM도 좋은 결과를 제공합니다(인공 VR에서)

저것들. 멀리 가져온 모델 선택의 문제
 
막심 드미트리예프스키 :

주요 문제는 데이터 크기 조정/변환, 주기 강조 표시입니다.

네 맞습니다.

 
도서관 :
너무 까다롭습니다... 표준 트리 구성 알고리즘은 간단하고 빠릅니다.
그리고 훈련 영역에 유효성 검사를 포함하기만 하면 된다는 결론에 도달했습니다.

표준 알고리즘은 고정 현상, 폐쇄 시스템과 함께 작동하도록 설계되었으므로 모든 정보는 선험적으로 유용한 것으로 간주되며 무작위성의 관점에서 평가되지 않고 작업에 사용할 가능성만 평가됩니다(목표별 분류) , 우리는 많은 노이즈를 가지고 있으며 그것을 처리하는 논리적 인 방법을 제안했습니다.

그리고 네, 식물표본관을 채집할 때 유효성 검사를 그대로 두고 임시 지역의 효율성을 포함하여 잎 평가 기준을 남겼습니다. 이제 모든 나무 변형에서 50,000개 이상의 시트가 있으며 그 중 약 200개만 신호 및 필터로 선택되어 결과(대부분의 기간)-600(신호 시트당 3개)을 크게 향상시킵니다.

우리가 할 수 있는 일은 데이터를 가장 성공적으로 피팅하기 위한 알고리즘을 개발하는 것뿐이라는 사실에서 출발해야 합니다. 왜냐하면 우리는 미래를 알지 못하고 사용 가능한 예측 변수 값을 기반으로 하여도 많은 변형이 있기 때문입니다. 그리고 운이 좋다면 얼마 동안 계속 존재할 패턴을 식별할 수 있을 것입니다. 그렇기 때문에 특정 기준으로 그러한 패턴을 찾는 것이 중요하며 논리는 적어도 그것이 있어야 한다고 제안합니다. 전체 샘플에서 발생하는 패턴입니다. 따라서 작업은 이러한 패턴을 많이 생성하고 그 패턴에서 트리를 만드는 알고리즘을 만드는 것입니다.

보호할 수 있는 재교육의 간단한 예는 롱 플랫이 설정된 특정 가격대의 사이트 샘플에서 식별하는 것입니다. 교육 중에 이제 두 가지 가격대(또는 (상한 시간대) 우리가 거래 해야 하지만 미래에는 같은 지역에 플랫이 설정될 가능성이 낮습니다. 그리고 동일한 기능을 주제로 제안한 접근 방식을 사용하면 이벤트를 생성하는 데 스트라이크 수준이 더 중요하다는 것을 알 수 있습니다.