트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3333

 
Aleksey Vyazmikin #:

아직 이해가 되지 않습니다. 이 모든 것이 한 공간, 즉 한 예측 변수의 지표에서 발생하지만 다른 변수는 어떻게 고려해야 할까요?

예측할 때 무엇을 해야 하는지에 관해서는 두 가지 모델을 사용할 생각입니다. 하나는 제거된 것을 감지하거나 데이터가 '클러스터링' 영역에 있는지 확인하고, 다른 하나는 이미 남은 것에 대해 작동합니다.

예제에는 2차원 공간에서 거리를 변경(빗변 계산)하는 두 가지 예측 변수가 있습니다. 5000 개의 표지판이있을 경우 5000 차원 공간에서 거리를 측정합니다 (측정 방법-알지베의 코드 k- 수단 참조, 이것이 주요 작업입니다-거리를 측정하고 기초로 삼으십시오).
그것은 모든 공간에서 카테트의 제곱합의 근처럼 보입니다 https://wiki.loginom.ru/articles/euclid-distance.html.

실제로 그렇게 할 경우 예를 들어 1...100000의 볼륨이 계산에서 0,00001...0,01000의 가격 델타를 삼키지 않도록 예측 변수를 조정하는 것을 잊지 마십시오.

이를 어떻게 감지할 수 있을까요? 이것이 바로 문제입니다. 특히 예시에서처럼 노이즈가 있는 영역이 명확하게 구분되지 않는 시장 데이터에서는 더욱 그렇습니다. 모든 것이 90~99%의 노이즈가 있을 것입니다.

시끄러운 라인을 제거하기 위해 기성품 패키지를 사용하는 것이 더 쉬울 수 있으며 탐지기가있을 수도 있습니다....

 
Maxim Dmitrievsky #:

https://www.mql5.com/ru/articles/9138

아무도 관심을 갖지 않은 지 1년이 지났습니다.

나는 그러한 알고리즘을 12 개 또는 20 개 작성했으며 그중 일부는 잘 입증되었습니다. 이 기사는 결과의 안정성 측면에서 최고는 아니지만 첫 번째 팬케이크입니다.

아직 더 나은 것이 없기 때문에 논의 할 것이 없습니다.


글쎄, 왜 사례가 없는지-나는 파이썬이 아직 트레이더들 사이에 널리 퍼져 있지 않아 사람들이 활발한 토론으로 이동한다고 생각합니다.
나중에 내 샘플에서 귀하의 접근 방식을 시도해 보겠습니다.

CatBoost를 바로 사용해 보셨나요?

 

sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.

"하지만 안타깝게도 이번에도 완전한 무작위성입니다. 이 그림은 설명하기 위한 그래프입니다."

맞습니다, 그렇게 간단하지 않습니다.

 
Forester #:

예에서는 2 개의 예측자가 있습니다. 즉, 2 차원 공간에서 거리를 변경합니다 (빗변 계산). 5000 개의 표지판이 있으면 5000 차원 공간에서 거리를 측정합니다 (측정 방법-알글 리브의 k- 수단 코드 참조, 거리를 측정하는 것이 주요 작업입니다.
모든 공간에서 카테트 제곱의 합의 근처럼 보입니다 https://wiki.loginom.ru/articles/euclid-distance.html.

이제 이해가 떠오르고 있습니다-감사합니다-생각 해 보겠습니다.

포레스터 #:

정말로 그렇게 할 것이라면 예를 들어 볼륨 1...100000이 계산에서 가격 델타 0,00001...0,01000을 삼키지 않도록 예측자를 조정하는 것을 잊지 마십시오.

맞습니다, 정규화할 필요가 있습니다. 하지만 정규화를 해제하고 지수로만 지표를 계산하면 어떨까요? :) 저는 카테트를 통해 계산하는 방식이 마음에 들지 않습니다. 인위적이기 때문이죠.

하지만 제안된 알고리즘을 재현한 다음 개선에 대해 생각해 보는 것이 옳을 것 같습니다.

포레스터 #:

어떻게 감지할 수 있을까요? 이것이 바로 문제입니다. 특히 예시에서처럼 노이즈가 있는 영역이 명확하게 구분되지 않는 시장 데이터에서는 더욱 그렇습니다. 90~99%는 모두 노이즈가 있을 것입니다.

시끄러운 라인을 제거하기 위해 기성품 패키지를 사용하는 것이 더 쉬울 수 있으며 탐지기가있을 수도 있습니다....

사실, 비디오를 보셨나요? 비디오의 끝 부분에는 데이터가 속한 영역을 감지하고 누적되지 않은 경우 훈련이 수행 된 주어진 샘플에 따라 신호가 무시되는 모델이 구축되었다고 나와 있습니다. 거기에서 논의한 것보다 훨씬 더 나쁜 데이터가 있다는 것은 분명하지만 목표 "1"의 20-30 %라면 이미 행복 할 것입니다.

또 다른 옵션은 전체 샘플에서 이러한 행을 마크 업하여 이러한 제외 된 예제를 감지하도록 모델을 훈련시키는 것입니다.

 
Aleksey Vyazmikin #:

맞습니다. 정규화해야 합니다. 하지만 정량화되지 않고 지표가 순전히 인덱스로만 계산된다면 어떻게 해야 할까요? :) 그리고 저는 카테트를 통해 계산하는 아이디어가 마음에 들지 않아요. 인위적이기 때문입니다.

한 칩은 2쿼터로, 다른 칩은 32쿼터로 양자화되어 있습니다. 작동하지 않습니다.

알렉세이 비야즈미킨 #:

실제로 동영상을 보셨나요? 비디오의 끝 부분에는 데이터가 속한 영역을 감지하고 훈련이 수행 된 주어진 샘플에 따라 누적되지 않은 경우 신호가 무시되는 모델이 구축되었다고 나와 있습니다. 분명히 우리는 거기에서 논의 된 것보다 훨씬 더 나쁜 데이터를 가지고 있지만 목표 "1"의 20 % ~ 30 %라면 만족할 것입니다.

또 다른 옵션은 전체 샘플에서 이러한 행을 마크 업하여 이러한 제외 된 예를 감지하도록 모델을 훈련시키는 것입니다.

아직 보지 못했습니다.
이러한 모든 계산 없이도 제외된 예시를 감지할 수 있습니다. 이미 말씀드렸듯이 클래스 중 하나에 속할 확률이 50% 정도인 잎사귀만 제외하면 됩니다.

 
Forester #:

한 칩은 2쿼터로, 다른 칩은 32쿼터로 양자화됩니다. 좋지 않습니다.

아니요, 모두 동일한 상대적 위치인 분할기(스플릿)의 수가 고정됩니다.

포레스터 #:

이러한 모든 계산 없이도 제외된 예제를 감지할 수 있습니다. 이미 말씀드렸듯이 클래스 중 하나의 확률이 약 50%인 나뭇잎만 제외하면 됩니다.

여러 가지 방법이 있을 수 있습니다. 저는 모델 구축 전 처리의 변형에 관심이 있습니다. 일반적으로 최종 모델이 성공적으로 훈련되었는지 여부에 관계없이 최종 결론에서 오류를 줄이는 건물 조합의 변형이 적기 때문입니다.
게다가 우리가 무언가를 "버릴"수 있다는 사실에 대해 이야기한다면 우리가 말하는 모델이 무엇인지 언급해야합니다. 숲이라면 "버려지지 않은" 나뭇잎의 비율을 세어야 할까요, 아니면 50%에 가까운 나뭇잎의 활성화 횟수를 세고 임계값을 초과하면 신호에 반응하지 않아야 할까요?
부스팅을 할 때 불확실한 나뭇잎이 전체적으로 확률을 한 방향 또는 다른 방향으로 이동할 수 있으므로 확률 이동에 따라 가중치가 어떻게 분포되는지 보여주는 그래프를 만들고 싶지만 계속 미뤄두고 있습니다. 3일 동안 컴퓨터가 모델 잎의 유사성을 고려합니다 - 알고리즘 최적화에 대해 생각합니다 - 너무 오래....

 
Forester #:
5000개의 기능이 있는 경우
이렇게 큰 차원에서는 KNN과 같은 메트릭 알고리즘은 의미가 없습니다. 대략적으로 말하면, 전체 샘플은 어떤 지점에서든 거의 같은 거리에 있으며 결과는 작은 무작위 거리 편차에 의해 결정됩니다.
 
Aleksey Vyazmikin #:

아직 트레이더들 사이에 파이썬이 널리 퍼져 있지 않아서 사람들이 활발한 토론으로 이동하지 않는 것 같습니다.
나중에 샘플에서 귀하의 접근 방식을 시도해 보겠습니다.

캣부스트의 기본 제공 방법을 사용해 보셨나요?

기본 제공 방법이란 무엇인가요?
파이썬은 선택 사항입니다. 많은 문헌을 던졌습니다.
글쎄, 나는 또한 아직 시작하지 않은 모든 사람들이 언젠가는 변덕스럽고이 주제에 올 것이라고 예측합니다 :) 아마도 10 년 안에, 어쩌면 100 년 안에있을 것입니다.

다른 옵션이없는 것과 마찬가지로 다른 옵션이 없습니다. 다른 신경망에 대한 옵션이있을 수 있지만 원칙은 동일합니다-분할 및 정복.
 
Maxim Dmitrievsky #:
바로 사용 가능한 방법은 무엇인가요

이것이 기능입니다.

막심 드미트리예프스키 #:
다른 옵션이 없는 것과 마찬가지로 존재하지 않는 것과 같습니다. 다른 신경망에는 변형이있을 수 있지만 원칙은 동일합니다. 분할 및 정복입니다.

데이터를 분할/분리하는 방법에는 여러 가지가 있으며, 이전에도 이 스레드에서 시도된 적이 있지만 유의미한 결과를 보여주지 못해 "잊혀진" 적이 있습니다.

베이지안 네트워크는 언뜻 보기에는 인과 관계를 복원하는 능력 때문에 흥미롭습니다.

 
Aleksey Vyazmikin #:

해당 기능은 다음과 같습니다.

데이터를 분할/분리하는 방법에는 여러 가지가 있으며, 이전에도 이 스레드에서 시도한 적이 있지만 유의미한 결과를 보여주지 못하여 '잊혀진' 기능이었습니다.

베이지안 네트워크가 있는데, 언뜻 보기에는 인과 관계를 복원하는 능력 때문에 흥미로워 보입니다.

아니요, 시도해 보지 않았습니다. 오늘 밤에 확인해 보겠습니다.
이러한 방법은 모델에 따라 다릅니다. 데이터는 그 자체로 분리되거나 분리되지 않습니다. 어떻게 설명해야 할지 모르겠네요. 한 번 시도했다가 최적화 프로그램과 다시 문제가 생겼습니다. 책에 나와 있습니다.
여기서 왼쪽으로 가면 말을 잃게 됩니다. 오른쪽으로 가면 머리 둘 달린 용을 잃게 되죠.
사유: