트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

Aleksey Vyazmikin 2020.10.24 18:49 #20361

로르샤흐 :

마지막 열은 대상, 나머지는 입력

일반적으로 나는 샘플을 60% 3 부분으로 잘라 훈련 및 20 컨트롤 훈련과 훈련에 참여하지 않은 샘플을 잘라냅니다.

메모리는 18기가바이트를 많이 먹습니다. 얼마나 많은 메모리가 있습니까?

거의 기본 설정으로 학습 프로세스를 시작했지만 학습 샘플에서 결과가 빠르게 개선되고 첫 번째 트리 이후 컨트롤 샘플에서 개선이 없음을 알 수 있습니다.

따라서 질문은 - 거기에 패턴이 있다고 확신합니까?

클래스 밸런스가 매우 좋지 않다는 가정이 있는데, 유닛 비율이 10% 정도?

Aleksey Nikolayev 2020.10.24 18:54 #20362

이고르 마카누 :

저것들. 우리는 TS의 개념을 공식화할 수 없습니까?

TC가 영감이라는 것이 밝혀졌습니다. 아니면 악기 연주?

어떤 언어로 완벽하게 형식화하고 기록하는 것이 가능해지면 즉시 일부 교활한 동지들이 이 언어에 대한 컴파일러를 내놓을 것이고 거래자들은 망각에 빠질 것입니다)

이고르 마카누 :

글쎄, 또는 우리로 돌아가서 ... - TS는 주로 시장 정보 및 의사 결정에 대한 분석임이 밝혀졌습니다.

글쎄요, 이 단어들이 의미하는 바를 명확하고 모호하지 않게 공식화하는 것이 불가능하다는 것을 깨닫고 이러한 이유로 동일한 정보를 분석한 결과는 사람마다 크게 다를 수 있으며 미래만이 누가 옳았는지 보여줄 수 있다는 것을 이해해야 합니다. )

Maxim Dmitrievsky 2020.10.24 18:59 #20363

dr.mr.mom :

왜 갑자기 그런 세계적 비관주의가? ))) "Zyril"은 NeuroShell Day Pro의 모든 최신 패키지 이전에도 어떻게 교육을 받았는지에 대한 것입니다. 그럼에도 불구하고 내부에서 어떻게 작동하는지 알 수 없는 강력한 결과를 얻었으며 MT4에 연결하는 것이 거의 불가능했습니다.

GPU는 고정하는 것이 바람직하다는 데 동의합니다.

NS work on Forex) 문제는 NS가 어떤 종류의 NS이며 어떤 패러다임으로 조립/훈련되고 있는지, 내 것은 진화하고 있다는 것입니다.

예, 첫 번째 강력한 버전은 하루라도 훈련할 수 있습니다(실제로는 고대 가정용 노트북에서 8시간 만에). 그러나 한 달 안에 견고하기 때문에 첫 번째 옵션을 더 발전시켜야 할 필요성으로 돌아가야 합니다. 저것들. 실생활에서 10개의 작업 도구가 있더라도 미리 새 버전이 있을 것입니다.

이제 아키텍처와 관련하여 NEAT 알고리즘이 가제트와 함께 기본으로 사용됩니다. 결과적으로 아키텍처도 진화합니다.

이 같은.

그리고 동시에 미생물학 등에 관한 책/강의를 읽는 것이 좋습니다.

그리고 분쟁에서 불행히도 한 바보 (지식없이 논쟁), 다른 놈 (지식으로 논쟁), 나는 논쟁 / 정당화로 의견 교환을 선호합니다.

결국, 가장 중요한 것은 체커와 함께 지옥에 좋은 것입니다 - 가자)))

논쟁의 여지가 없습니다. 왜냐하면 일반적인 프레임워크에서는 최소한의 코드로

집에서 만든 제품은 여기에서 특별히 논의되지 않고 catbust 또는 현대 신경망과 같은 성인 모델만 논의됩니다.

mql 뉴런으로 이 마우스 소란은 토론하는 것조차 흥미롭지 않습니다. 왜냐하면 세상은 훨씬 앞서갔고 매년 리드가 두 배가 되기 때문입니다.

"나는 tensorflow에 이런저런 모델이 있다"고 말해 봅시다. 그리고 당신은 mql에 무언가를 코딩했다고 말합니다. 그리고 왜 이 정보가 필요합니까? 어떻게 재현합니까?

Forester 2020.10.24 19:21 #20364

알렉세이 비아즈미킨 :

일반적으로 나는 샘플을 60% 3 부분으로 잘라 훈련 및 20 컨트롤 훈련과 훈련에 참여하지 않은 샘플을 잘라냅니다.

메모리는 18기가바이트를 많이 먹습니다. 얼마나 많은 메모리가 있습니까?

거의 기본 설정으로 학습 프로세스를 시작했지만 학습 샘플에서 결과가 빠르게 개선되고 첫 번째 트리 이후 컨트롤 샘플에서 개선이 없음을 알 수 있습니다.

따라서 질문은 - 거기에 패턴이 있다고 확신합니까?

클래스 밸런스가 매우 안 좋다는 가정이 있는데, 유닛 비율이 10% 정도?

나무와 같은 시스템은 샘플이 많은 클래스별로 균형을 맞출 필요가 없습니다. 신경망은 불균형으로 인해 방해를 받았고 나무는 나뭇잎 위에 명확하게 흩어져 있습니다.
이것이 내가 나무로 전환한 이유 중 하나입니다.

https://www.mql5.com/en/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Igor Makanu 2020.10.24 19:21 #20365

알렉세이 니콜라예프 :

글쎄요, 이 단어들이 의미하는 바를 명확하고 모호하지 않게 공식화하는 것이 불가능하다는 것을 깨닫고 이러한 이유로 동일한 정보를 분석한 결과가 사람마다 크게 다를 수 있으며 미래만이 누가 옳았는지 보여줄 수 있다는 것을 깨닫는 것뿐입니다)

시장 정보의 분석과 함께 일반적으로 문제가 없습니다 ... 시장은 자신에게만 정보를 제공하고 모든 데이터는 처리되어야한다고 믿는 연구원의 탐욕을 제외하고는. 여기서 작업은 반복되는 패턴을 찾는 것으로 공식화되며 나머지 데이터는 버려야 합니다(사용하지 않음).

모든 것이 결정을 내리는 데 있어 슬프다. 테스트 를 통과하고 앞으로 나아갈 TS를 생성하는 것이 가능하지만 여기에 문제가 있습니다.

, 즉 미래에 문제를 어떻게 작성합니까?

일반적으로 작업을 공식화하는 데 약간의 진전이 있다고 생각합니다.

원칙적으로 테스트 통계를 업로드하고 Python에서 NN을 훈련하려고 시도하는 것은 어렵지 않습니다.

시장의 맥락에 대한 정의, IMHO 그것은 당신이 쓴 것과 같습니다 - 오직 상인의 결정, 즉. 공식화하거나 알고리즘화하거나 탐색하는 것이 가능한지 의심스럽습니다.

Aleksey Vyazmikin 2020.10.24 19:31 #20366

도서관 :
트리 시스템은 클래스별로 균형을 맞출 필요가 없는 것 같습니다. 신경망은 불균형으로 인해 방해를 받았고 나무는 나뭇잎 위에 명확하게 흩어져 있습니다.
이것이 내가 나무로 전환한 이유 중 하나입니다.

CatBoost 가 필요하지만 자체 밸런서가 있지만 분명히 대처할 수 없습니다.

일반적으로 강한 불균형이 있는 경우 학습이 계속되지만 통계적으로 리프에 0이 더 많으면 0만 있을 것입니다. 소규모 클래스를 빼는 데 대한 명확한 규칙이 거의 없으면 해결할 수 있습니다. 그렇지 않으면 모든 나뭇잎에 번집니다.

Forester 2020.10.24 19:38 #20367

알렉세이 비아즈미킨 :

CatBoost가 필요하지만 자체 밸런서 가 있지만 분명히 대처할 수 없습니다.

일반적으로 강한 불균형이 있는 경우 학습이 계속되지만 통계적으로 잎에 0이 더 많으면 0만 있을 것입니다. 소규모 클래스를 빼는 데 대한 명확한 규칙이 거의 없으면 해결할 수 있습니다. 그렇지 않으면 모든 나뭇잎에 번집니다.

또는 항상 그렇듯이 데이터에 패턴이 거의 없습니다.

알렉세이 비아즈미킨 :

일반적으로 강한 불균형이 있는 경우 학습이 계속되지만 통계적으로 잎에 0이 더 많으면 0만 있을 것입니다. 작은 클래스를 꺼내기위한 명확한 규칙이 거의 없다면 해결할 수 있습니다. 그렇지 않으면 모든 잎에 번집니다.

규칙은 분명합니다. 분할이 수행되어 무엇보다도 다른 클래스의 불순물을 깨끗하게 만듭니다.

블로그에 대한 링크를 추가했습니다. 선택 범위가 넓습니다. 작은 클래스에서 잎을 형성할 수 있는 항목이 있으며 Gini 인덱스의 루트를 사용할 수 있습니다(공식을 찾지 못했을 뿐입니다).

Forester 2020.10.24 19:41 #20368

알렉세이 비아즈미킨 :

이렇게 방대한 양의 데이터에 대해서는 나뭇잎을 더 잘 청소할 수 있도록 나무를 더 깊게 만드는 것이 필요하다고 생각합니다.
시트에 예시가 1만개 남으면 자연스럽게 번지겠지만, 나눗셈을 100개로 하면 더 선명해질 것 같아요.

Alglibovsky 숲은 시트에서 최대 1개의 예를 가져오며 분할은 100%입니다. 잎에는 0 또는 1만 남습니다.

Aleksey Vyazmikin 2020.10.24 19:47 #20369

도서관 :
알렉세이 비아즈미킨 :

또는 항상 그렇듯이 데이터에 패턴이 거의 없습니다.

규칙은 분명합니다. 분할이 수행되어 무엇보다도 다른 클래스의 불순물을 깨끗하게 만듭니다.

블로그에 대한 링크를 추가했습니다. 선택 범위가 넓습니다. 작은 클래스에서 잎을 형성할 수 있는 항목이 있으며 Gini 인덱스의 루트를 사용할 수 있습니다(공식을 찾지 못했을 뿐입니다).

따라서 그는 예측 변수가 거의 없습니다. 작은 차원이 얻어 지므로 나무 조합에 대한 옵션도 거의 없습니다.

나는 샘플의 1 %를 가져갔습니다. 테스트에서 100 % 교육이 있습니다. 뚜렷한 패턴이 없다고 생각합니다.

그리고 CatBoost는 예측자를 사용하여 다소 무작위로 구축합니다. 이는 이해도에서 적합성을 감소시킵니다.

도서관 :

이렇게 방대한 양의 데이터에 대해서는 나뭇잎을 더 잘 청소할 수 있도록 나무를 더 깊게 만드는 것이 필요하다고 생각합니다.
시트에 예시가 1만개 남으면 자연스럽게 번지겠지만, 나눗셈을 100개로 하면 더 선명해질 것 같아요.

깊이가 6인 트리가 서 있고 예측 변수가 많을수록 깊이가 필요하다고 생각합니다.

그리드는 256에 의해 만들어졌습니다.

Forester 2020.10.24 19:52 #20370

알렉세이 비아즈미킨 :

깊이가 6인 트리가 서 있고, 예측 변수가 많을수록 깊이가 필요하다고 생각합니다.

그리드는 256에 의해 만들어졌습니다.

선이 많을수록 더 많은 깊이가 필요합니다.
기가바이트가 있는 경우 수백만 개의 행이 있습니다. 깊이가 6이면 최종 시트는 전체 예제/라인 수의 1/64가 됩니다. 입력이 수백만이면 수만입니다.

15의 깊이를 시도하십시오(최대인 것 같으며, 1/32768 라인이 시트에 남을 것입니다)

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2037