기고글 토론 "랜덤 포레스트로 추세 예측하기"

СанСаныч Фоменко 2015.01.16 08:41 #101

CyberCortex:

저는 매우 구체적인 사안을 다루기 때문에 '일반적인' 이야기를 하고 싶지 않습니다.

좀 더 구체적으로 설명하겠습니다.

캐럿 셸에는 약 140개의 머신 러닝 패키지가 있는데, 제 작업에는 랜덤 트리 포리스트용 패키지 2개와 서포트 벡터 머신(SVM)용 패키지 1개를 사용합니다. 보시다시피 R에서 사용할 수 있는 머신 러닝 도구를 일반화하는 것은 제가 할 수 있는 일이 아닙니다.

게다가.

이 글에서는 매우 제한된 Rattle 셸을 사용하는 브랜치이며, 이 중 랜덤포레스트 패키지만 사용했습니다.

게다가.

해당 패키지에서이 기사에서 일부 기능 만 사용합니다.

또한 이러한 제한 사항 만 사용하여 게시물에 댓글을 달지 만 프로그램 코드와 그 사용 결과를 내 말에 넣을 수 있습니다.

그래서.

1. "모든 재무 계열은 소위 시계열로, 값의 순서가 중요합니다." - 아무도 이것을 부정하지 않으며 시계열임에도 불구하고 이 순서는 깨지지 않습니다. 가격 P1, P2, P3...Pn에 대해 모델을 학습시킨 사용자는 샘플 외에서 테스트할 때나 실제로 사용할 때 순서를 변경하지 않습니다.

이는 지정된 패키지와 완전히 일치하지 않습니다. 다른 패키지 내에서 해당 코멘트를 구현할 수는 있지만 훨씬 더 복잡한 코드가 될 것입니다. 이 글에서 사용된 코드(머신 러닝 알고리즘에서 가장 일반적인 접근 방식)는 다음과 같습니다:

초기 샘플(데이터 세트)은 훈련(70%), 테스트(15%), 검증(15)의 세 부분으로 나뉩니다. 분할 알고리즘은 다음과 같습니다. 예를 들어 훈련의 경우 원래 데이터 세트의 행 중 70%가 순차적으로 선택되지 않고 무작위로 선택됩니다. 나머지 30%에서 또 다른 15%가 다시 무작위로 선택됩니다. 나머지 15%도 무작위 행 순서라는 것이 분명합니다. 막대의 순서를 준수하는지에 대해서는 의문의 여지가 없습니다.

그러나 이것이 전부는 아닙니다.

훈련 세트에 대한 훈련은 데이터의 일부(약 66%)만 사용합니다. 데이터의 나머지 부분은 표본 외(OOS) 추정치입니다. 즉, OOV가 계산된 막대는 서로 다르지만 훈련이 수행된 막대와 혼합되어 있습니다. 이 논문은 이 추정치를 제공하며 항상 최상의 성능을 제공합니다.

그런 다음 딸랑이에서 두 개의 데이터 세트에 대해 훈련된 모델의 추정치를 더 얻을 수 있습니다. 세 가지 추정치를 비교하여 결론을 도출할 수 있습니다.

다시 한 번 말하지만, 시계열에 대해 모델을 훈련하려면 특별한 노력이 필요합니다. 딸랑이를 사용하려면 목표 변수와 해당 예측자가 훈련과 테스트에서 막대의 순서를 무작위로 지정할 수 있어야 합니다.

2. 입력이 100% 쓰레기 예측자라면 출력도 100% 쓰레기가 된다는 점에 동의합니다. 이것은 명백한 사실이며 아무도 이에 대해 이의를 제기하지 않습니다. 제가 말씀드리고 싶은 것은 쓰레기 데이터가 사실상 사용되지 않기 때문에 100%가 아닌 어떤 양의 쓰레기 데이터로도 아웃 오브 샘플에 대해 좋은 결과를 제공하기 때문에 데이터를 컬링하는 것이 중요하지 않은 알고리즘이 있다는 것입니다. 주성분 분석이나 자동 인코더와 같이 데이터 차원 감소가 중요한 알고리즘과 데이터 차원에 민감하지 않은 알고리즘을 구분하는 것도 중요합니다.

그렇지 않습니다. 랜덤포레스트에는 예측 변수의 중요도를 결정하는 알고리즘이 내장되어 있습니다. 이 알고리즘은 예측자 사이에 쓰레기가 있으면 완전히 쓸모가 없습니다. 랜덤포레스트 패키지 자체에는 정크 예측자를 미리 걸러내는 추가 기능이 있지만, 래틀에서는 이 기능을 사용할 수 없습니다.

"주식 시장에서는 경제적 원인과 움직임의 방향 사이의 관계에 대한 연구가 일반적이지만, 일중 구간에는 적용되지 않습니다." - 그렇긴 한데, 비농업 고용지표 발표와 같은 일중 구간에는 적용됩니다.

글쎄요, 저는 이 리소스에 대해 잘 모르겠습니다. 하지만 저는 경제를 잘 알고 있습니다. 그리고 가즈프롬의 시간별 데이터는 다른 회사의 경제 데이터에 의존하지 않는다고 자신 있게 주장할 수 있습니다. 이달의 결과에 대해 질문이 없습니다.

3. 물론 나는 당신을 이해하고 모두가 그가 아는대로 벌고 있지만 기계 학습 알고리즘을 직접 구현 한 적이 있습니까? 알고리즘의 작동 방식을 이해하려면 알고리즘을 처음부터 직접 작성해야한다고 확신합니다. 이 경우 책에 기록되지 않은 것을 발견하게 될 것입니다. 그리고 이전에는 쉬워 보였던 명백해 보이는 요소조차도 실제로는 생각했던 것과 다르게 작동합니다.)

용병을 만드는 것과 운전하는 것은 또 다른 문제입니다. 저는 운전을 선호하지만 모든 사람이 자신의 선택을합니다.

추신.

질문하신 내용에 대해 더 깊이 있는 답변을 담은 책을 집필했습니다.

PSPS

제 개인적인 경험에 따르면 최대 70 %의 주요 시간은 지루하고 지루한 작업 인 예측자를 선택하는 데 소비됩니다. 책을 판매한다는 이유로 일부 집단이 형성되었습니다. 아무도 예측자를 빠르고 효과적으로 선택하여 과도하게 훈련 된 모델을 생성하지 않습니다. 그리고 대부분의 독자들은 이미 이 책을 넘어 더 나은 도구를 사용하여 업무를 수행하고 있습니다.

이 스레드에 대한 여러분의 의미 있는 관심에 감사드립니다.

베이지안 회귀 - 이 기고글 토론 "신경망 저렴하고 트레이딩의 머신러닝: 이론, 모델,

CyberCortex 2015.01.16 12:30 #102

faa1947:

자세한 답변에 감사드립니다.

하지만 몇 가지 사항을 명확히 해 주셨으면 합니다.

먼저 위에서 의료 데이터로 작업하는 제 프로그램의 예는 "예시"라고 쓰셨고 시계열에는 엄격한 순서가 있다는 사실을 언급하셨습니다.

"모든 재무 계열은 소위 시계열로, 값의 순서가 중요합니다."

그리고 여러분이 사용하는 랜덤 포레스트에서는"막대의 순서를 준수하는 데는 의문의 여지가 없습니다."라고 쓰셨습니다.

그렇다면 알고리즘이 처음에 무작위 부분공간 방법을 사용하고 이러한 시계열을 섞는다면 랜덤 포레스트는 시계열에서 어떻게 작동하나요?

"다시 한 번 말하지만 시계열에 대한 모델을 학습하려면 특별한 노력이 필요합니다." - 그러면 우리는 다시 처음으로 돌아갑니다. 그렇다면 시계열에서 작동하도록 만드는 데 특별한 노력이 필요하다면 왜 그러한 알고리즘에 시간을 낭비할까요? 우리는 이러한 연구가 장려되는 대학 연구의 맥락에서 학문적인 관점이 아니라 실용적인 관점에서 이에 대해 이야기하고 있습니다.

"가즈프롬의 심리는 다른 기업의 경제 데이터와는 별개라고 자신 있게 말할 수 있습니다." - 그렇다면 장중 가즈프롬 주가는 가즈프롬과 다른 기업을 포함하는 RTS 지수의 영향을 전혀 받지 않는다는 뜻인가요?

"메르세데스를 만드는 것과 운전하는 것은 별개의 문제입니다. 저는 운전을 선호하지만 모든 사람이 자신의 선택을합니다. " - 궤변으로 이것은 원래 논문에서 벗어난 것이라고합니다.) 저는 알고리즘과 그 실현에 대해 이야기하고 있었는데, 당신은 겉으로는 초기 논문과 연결되어 있지만 그것과 동일하지는 않은 자동차에 대한 논문을 눈에 띄지 않게 제시했습니다. 알고리즘과 자동차 사이에는 "작은" 차이가 있다고 생각합니다. 나는 신경 쓰지 마세요, 나는 단지 그러한 특성을 알아 차리는 것을 좋아합니다 :)

요약하자면, Rattle과 랜덤 포레스트에 대해 구체적으로 작성한 내용은 현실과 관련이 있을 가능성이 높으며 이에 대해 잘 알고 있습니다.

그러나 한 가지 질문은 여전히 열려 있습니다. 동일한 품질의 두 가지 알고리즘 (첫 번째는 특별한 노력과 기술 없이 시계열에서 완벽하게 잘 작동하고 두 번째는 그들과 함께)을 선택할 수있는 사람이 왜 후자를 선호해야합니까? 그리고 이 경우 최적일까요?

다중 기간 표시기 오래된 물건 [ARCHIVE] 포럼을 어지럽히 지

CyberCortex 2015.01.16 12:32 #103

joo:
그 문장을 지나칠 수 없었습니다. 존경합니다!

감사합니다:)

СанСаныч Фоменко 2015.01.16 12:56 #104

CyberCortex:

그러나 한 가지 질문은 여전히 열려 있습니다. 동등한 분류 품질을 가진 두 가지 알고리즘 (첫 번째는 특별한 노력과 기술 없이 시계열에서 완벽하게 잘 작동하고 두 번째는 그렇지 않은 경우)을 선택할 수있는 사람이 왜 후자를 선호해야합니까? 그리고 이 경우 최적일까요?

도구마다 다른 문제를 해결하며, 이는 사용 가능한 자료에 따라 결정됩니다.

딸랑이는 아이디어를 빠르게 테스트할 수 있는 훌륭한 도구입니다. 그러나 그것으로 작동하는 모델을 구축하는 것은 매우 어려울 것입니다.

Rattle을 더 자세히 살펴보고 Randomforest 패키지의 일부로 준비된 액세스 로그를 가져올 수 있습니다. 예를 들어 목표 변수가 추세가 아닌 자산 증가를 예측하는 것이고 이에 대한 예측 변수를 찾았다면 랜덤포레스트가 매우 유용할 것입니다. 추세를 예측하려면 샘플을 수동으로 청크로 나누고 순서를 유지해야 하는데, 이는 래틀에서는 어렵지만(가능하지만) 입력 샘플 형성 알고리즘에 제한이 없는 랜덤포레스트 패키지에서 직접 작업해야 합니다. 테스트를 위한 상당히 광범위한 샘플 생성 도구 세트가 있습니다. 이들은 별도의 패키지입니다.

등등. 일반적인 결론은 "최적의" 도구는 없다는 것입니다.

각 패키지에는 원시 데이터의 특정 문제를 해결하는 많은 미묘한 점이 있습니다. 일반적으로 이 과정은 그리 간단하지도 않습니다.

추신. 가즈프롬에 대해 썼을 때 저는 시세와 수익 유형 값 사이의 관계를 의미했습니다. 그리고 지수는 산술, 같은 칠면조입니다..... 하지만 그건 다른 문제입니다... 주식 시장에서 기계 학습을 사용하는 것이 외환보다 더 유망하지만. 나에게 보이는 것처럼.

트레이딩의 머신러닝: 이론, 모델, 눈사태 베이지안 회귀 - 이

CyberCortex 2015.01.16 13:02 #105

faa1947:

도구마다 해결해야 할 문제가 다르며, 이는 사용 가능한 재료에 따라 결정됩니다.

래틀은 아이디어를 빠르게 테스트할 수 있는 훌륭한 도구입니다. 그러나 그것으로 작동하는 모델을 구축하기는 어렵습니다.

Rattle을 더 깊이 파고들어 랜덤포레스트 패키지의 일부로 준비된 액세스 로그를 가져올 수 있습니다. 예를 들어, 목표 변수가 추세가 아닌 자산 증가를 예측하는 것이고 이에 대한 예측 변수를 선택했다면 랜덤포레스트가 매우 유용할 것입니다. 추세를 예측하려면 샘플을 수동으로 청크로 나누고 순서를 유지해야 하는데, 이는 래틀에서는 어렵지만(가능하지만) 입력 샘플 형성 알고리즘에 제한이 없는 랜덤포레스트 패키지에서 직접 작업해야 합니다. 테스트를 위한 상당히 광범위한 샘플 생성 도구 세트가 있습니다. 이들은 별도의 패키지입니다.

등등. 일반적인 결론은 "최적의" 도구는 없다는 것입니다.

각 패키지에는 원시 데이터의 특정 문제를 해결하는 많은 미묘한 점이 있습니다. 일반적으로 이 과정은 그리 간단하지도 않습니다.

추신. 가즈프롬에 대해 썼을 때 저는 시세와 수익 유형 값 사이의 관계를 의미했습니다. 그리고 지수는 산술, 같은 칠면조입니다..... 하지만 그건 다른 문제입니다... 주식 시장에서 기계 학습을 사용하는 것이 외환보다 더 유망하지만. 그것은 나에게 보인다.

감사합니다, 더 이상 질문이 없습니다.

Thomas Schroeder 2015.01.21 12:08 #106

좋은 기사

Andrew Kreimer 2015.01.22 21:02 #107

수고하셨습니다!

Dr. Trader 2015.01.23 09:38 #108

흥미로운 기사입니다, 감사합니다. R에 대해 처음 들었는데 매우 유용한 것 같습니다. 오랫동안 과거 데이터를 기반으로 스스로 거래 할 수있는 신경망을 만들고 싶어서 mt5 (ohlc, 스프레드, 볼륨)에서 히스토리를 언로드하고 래틀에 전달하고 어떤 일이 발생하는지 보려고합니다.

СанСаныч Фоменко 2015.01.23 12:11 #109

Dr.Trader:
흥미로운 기사입니다, 감사합니다. R에 대해 처음 들었는데 매우 유용한 것 같습니다. 오랫동안 과거 데이터를 기반으로 거래 할 수있는 신경망을 만들고 싶어서 mt5 (ohlc, 스프레드, 볼륨)에서 히스토리를 언로드하고 래틀에 전달하고 어떤 일이 발생하는지 보려고합니다.

래틀에는 6가지 모델이 있는데 그중 하나가 NS입니다. NS의 결과를 랜덤 포레스트, ada 및 SVM과 비교하는 것이 좋습니다. 결과에 매우 놀랄 것이라고 생각합니다.

Vladimir Perervenko 2015.01.28 16:13 #110

Dr.Trader:
흥미로운 기사입니다, 감사합니다. R에 대해 처음 들었는데 매우 유용한 것 같습니다. 오랫동안 과거 데이터를 기반으로 거래 할 수있는 신경망을 만들고 싶어서 mt5 (ohlc, 스프레드, 볼륨)에서 기록을 언로드하고 딸랑이에 전달하고 어떤 일이 발생하는지 보려고합니다.

이것이 바로 래틀이 설계되지 않은 것입니다. R에서 직접 작업해야 합니다. 다음은 이러한 솔루션의 변형입니다 https://www.mql5.com/ko/articles/1103.

행운을 빕니다.

Третье поколение нейросетей: "Глубокие нейросети"

2014.11.27
Vladimir Perervenko
www.mql5.com

Статья посвящена новому и очень перспективному направлению в машинном обучении — так называемому "глубокому обучению" и конкретней "глубоким нейросетям". Сделан краткий обзор нейросетей 2 поколения, их архитектуры связей и основных видов, методов и правил обучения и их основных недостатков. Далее рассмотрена история появления и развития нейросетей 3 поколения, их основные виды, особенности и методы обучения. Проведены практические эксперименты по построению и обучению на реальных данных глубокой нейросети, инициируемой весами накапливающего автоэнкодера. Рассмотрены все этапы от выбора исходных данных до получения метрик. В последней части статьи приведена программная реализация глубокой нейросети в виде индикатора-эксперта на MQL4/R.

기고글 토론 "랜덤 포레스트로 추세 예측하기" - 페이지 11