기고글 토론 "랜덤 포레스트로 추세 예측하기"

Vladimir Perervenko 2015.01.29 11:25 #111

받는 사람: CyberCortex

제가 개입하게 되어서 죄송합니다.

그런 고집과 공격적인 비전문성을 그냥 지나칠 수 없었습니다.

신청 프로그램에 대한 설명에서 작성자의 진술을 하나씩 고려해 보겠습니다.

인용: "기존 아날로그와 비교한 사이버코텍스의 장점:

사용된 알고리즘. 많은 트레이더에게 인공 지능 분야의 기술은 고전적 신경망이라는 진부한 주제로 시작해서 고전적 신경망으로 끝납니다. 하지만 사이버코텍스에 구현된 부스팅 알고리즘은 훨씬 더 강력하고 현대적인 도구(?) 이기 때문입니다: "

이의 제기:

많은 트레이더들의 이런 무시무시한 의견은 어디에서 나온 것입니까? 일반적으로 이 분야를 머신러닝이라고 하는데, 인공 지능은 다소 다릅니다. 많은 트레이더가 들어보지도 못한 여러 유형의 신경망(딥 네트워크, 컨볼루션 네트워크 및 기타 최신 신경망)에 익숙하다고 확신합니다. 신경망이라는 주제는 MLP 공부에만 국한된 사람들에게는 지겨운 주제입니다. 서둘러 실망시켜 드리지만, 신경망이라는 주제는 이제 딥 러닝 방법의 개발 이후 두 번째 숨을 쉬고 있으며이를 알고 있고 할 수있는 사람들에게는 닫힌 주제와는 거리가 멀습니다. 게다가 우리는 수많은 R 언어 패키지로 구현된 다른 많은 분류 알고리즘을 알고 있습니다.
다양한 변형의 부스팅 알고리즘은 꽤 오랫동안(1996년) 알려져 왔으며 신경망 알고리즘보다 결코 더 강력하지 않습니다. 그런데 프로그램에서 어떤 알고리즘을 사용하는지 알려주셔야 합니다. 패키지 R에 대한 간략한 설명 ----------------------------------------------------------------------------------------------.

"ADA"- 적응형 확률론적 부스팅. 제가 가장 좋아하는 알고리즘 중 하나로, 원래 알고리즘의 세 가지 수정 사항인 Gentle-, Logit-, Real AdaBoost가 구현되어 있습니다.

.
"adabag" - 이 패키지는 멀티클래스 알고리즘인 Adaboost.M1(Freund and Schapire's), AdaBoost-SAMME(Zhu et al., 2009) 및 Breiman의 배깅 알고리즘을 사용합니다 ;
' boost' - 윌콕슨 테스트 통계를 사용한 특징(예측자)의 사전 선택으로 보완된 'BagBoost', 'LogitBoost', 'AdaBoost' 및 'L2Boost' 등의 부스팅 방법 세트가 포함되어 있습니다 ;
'pga' - AdaBoost와 랜덤 포레스트에 진화 알고리즘을결합한 알고리즘의 앙상블을 포함합니다 .

세상에 알려지지 않은 독창적인 알고리즘이 있다면기존 알고리즘과의 차이점과 장점에 대해 최소한 일반적인 용어로 설명해 주시고, 설명에 대한 링크를 첨부해 주시면 감사하겠습니다.

보시다시피 선택의 폭은 상당히 넓습니다.

해당 주제가 아닌 분들을 위해 "버스팅"(증폭) - 처음에는 통계 계산에 사용할 예제 (실험 결과)의 수가 적고 새로운 예제를 추출하는 것이 불가능하거나 매우 비싼 과학 분야의 문제를 해결하기 위해 원래 제안 된재 샘플링 방법입니다 . 이 방법의 핵심은 초기 작은 세트에서 무작위로 형성된 더 작은 크기의 샘플을추출하는 것입니다 .이절차를여러 번 반복하여 결과적으로 충분히 큰 전체 샘플을 얻은 다음 통계 계산에 사용합니다.

우선. 외환 시장은 "데이터 부족"의 경우가 아닙니다. 오히려 "데이터 과잉"의 경우입니다.

두 번째로.실무와 대학에서 부스팅 및 교차 검증을연구하고 적용한 오랜경험에따르면 이러한 방법은 훈련 과정, 즉 내부오류로모델을 선택할 때 사용하기에 바람직하지 않습니다. 그러나 학습된 모델의 평가 단계, 즉 외부 오차를 구하는 단계에서는 매우 유용합니다. 따라서 '데이터 풍부' 의 경우에는 훈련 중에 훈련/검증/테스트로 분할하는 것이 이상적입니다. 데이터 선택 및 사전 학습 과정에서 고려해야 하고 모델링 결과가 크게 좌우되는 다른 많은 미묘한 사항들이 있지만, 이는 별도의 큰 주제입니다.

ADA에 대한 오랜 실험 경험으로 볼 때 때로는 우수한 결과, 때로는 역겨운 = 매우 불안정하다고 말할 수 있습니다.

인용: "알고리즘은 입력 데이터의 차원을 줄이고 어떤 기능이 유익하고 어떤 기능이 유익하지 않은지 알아낼 필요가 없습니다. 오히려 사용 가능한 입력 데이터가 많을수록 정확한 분류 확률이 높아집니다. 정보가 없는 특징은 자동으로 폐기됩니다."

질문 - 정보가 없는 특징은 어떻게 마술처럼 걸러지나요? 모든 의사 결정 트리 알고리즘에는 예측자의중요도 결정(평가)이 포함되어 있지만, 중요도를 결정하는 데 사용되는 기준이 상당히 많고 모든 기준이 명확한 결과를 제공하는 것은 아닙니다. 프로그램에서는 이 문제를 어떻게 해결하나요?

인용: "이알고리즘은 사전 데이터 정규화나 사전 조작이 전혀 필요하지 않습니다. 모든 데이터는 자동으로 단위 분산과 제로 수학적 기대치로 축소됩니다."

실제로 전처리가 필요 없는 유일한 알고리즘은RandomForest입니다. 다른 모든 알고리즘은 다양한 전처리가 필요합니다. 분명히 프로그램이 사용자를 위해 표준화 과정(평균에서 표준 편차를 뺀 값)을 수행한다는 뜻인가요? 적어도 12가지 이상의전처리 방법이있고 개별 사례마다 어떤 방법이 가장 좋은지 결정해야 하기 때문에 이것이 좋은 해결책인지 잘 모르겠습니다.

인용: " 이알고리즘은 신경망과 달리 최적의 분류 결과를 얻기 위해 학습 매개변수를 조정할 필요가 없습니다."

사실이 아닙니다. 알려진 모든 부스팅 알고리즘에는 최상의 결과를 얻기 위해 조정해야 하는 매개변수가 최소 두 개 이상 있습니다.

인용:"이 알고리즘은 과잉 훈련 경향에 거의 영향을 받지 않습니다."

잘못된 진술입니다. 모든 머신 러닝 알고리즘은 이러한 질병인 과학습에 취약합니다. 정규화를 통해 과학습 모델의 위험을 줄일 수 있습니다. 오늘날에는 부스팅 알고리즘을 포함하여 다양한 정규화 방법이 알려져 있고 성공적으로 사용되고 있습니다.

인용:"이 알고리즘을 사용하면 데이터를 원하는 수의 클래스로 분류할 수 있습니다."

이것은 이 알고리즘의 성과가 아닙니다. 오늘날 거의 모든 머신러닝 알고리즘이 이 작업을 수행합니다.

인용:"구현된 알고리즘의 특징은 데이터에 패턴이 있으면 이를 찾을 수 있다는 것입니다. 반대로 데이터에 패턴이 없다면 프로그램의 예측은 단순한 동전 던지기보다 더 나을 것이 없으며 이는 논리적입니다."

놀랄 수도 있지만 모든 알고리즘에는 이 기능이 있습니다.

결론 : 돈을 위해 제공하는 이해할 수없는 알고리즘은 R 언어로 투명하고 간단하며 다양한 변형으로 구현할 수 있으며 완전 무료, 즉 무료라는 점에 유의하십시오. 이 프로그램은 10-15 줄 길이입니다. 이것이 첫 번째입니다. R 언어의 두 번째 부인할 수없는 장점은 세계 과학계 (사실상 전 세계의 모든 대학)와 현재 소프트웨어 비즈니스의 거대 기업에 의해 개발되고 지원된다는것입니다 . Microsoft는 클라우드에서 모델의 생성, 학습 및 평가의 모든 단계를 생성하고 이후 모델로 데이터를 서비스로 전송하여 예측을 얻을 수있는 클라우드 서비스 "Azure" 와 함께 "Microsoft Azure Machine Learning Studio"를 출시했습니다 . 이 서비스는 전적으로 R 언어를 기반으로 하며 그래픽 인터페이스를 통해 프로세스를 그림을 '그리는 것'으로 축소할 수 있습니다(물론 단순화시킨 것입니다). 이전에 이 언어가 연구계에서 사실상의 표준이었다면, 이제는 응용 및 산업 분야에서 사실상 표준이 되었습니다.

마지막으로 한 가지 더. 저는 여러분이 프로그램에 구현된 노동으로 수익을 창출한다는 사실에 반대하지 않습니다. 괜찮습니다. 다만 광고 목적으로 존재하지 않거나 과장된 특성을 제품에 부여하는 것에 반대합니다. 비전문적으로 보입니다.

조심하세요. 고전이 말했듯이.

행운을 빕니다

트레이딩의 머신러닝: 이론, 모델, 머신 러닝 및 신경망 거래량, 변동성 및 허스트

CyberCortex 2015.02.01 21:12 #112

vlad1949:

안녕하세요!

"일반적으로 이 분야를 머신러닝이라고 하는데, 인공 지능은 조금 다릅니다." - 머신러닝은 인공 지능의 하위 분야입니다. 하지만 방금 잊어버리셨을 겁니다. 그럴 수도 있죠...

새로운 유형의 신경망에 대해 들어본 적이 있습니다:) 그리고 제 프로그램 설명에 모든 네트워크가 아니라"고전적 신경망"이라고 적혀 있는 것을 보셨다면 아시겠지만요. 고전적이란 MLP와 그 파생물, 홉필드 네트워크, 확률적 네트워크 등을 의미합니다.

"많은 트레이더의 이 무시무시할 정도로 거창한 의견은 어디에서 나온 것일까요?" - 이 매우 중요한 의견은 약한 인공 지능 기술을 사용하려는 대다수의 트레이더가 고전적인 신경망을 사용한다는 사실에서 비롯됩니다.

"그런데 프로그램이 어떤 특정 알고리즘으로 실행되는지 설명할 필요가 있습니다." - 단일 레벨 의사 결정 트리(스텀프)의 적응형 부스팅. 거기에 쓰여 있습니다. 눈앞에 롤모델도 없고 인터넷에 정상적인 설명도 없는 상태에서 처음부터 직접 구현했기 때문에 개발할 때 제가 가진 휴리스틱을 적용했습니다.

"모르는 분들을 위해 설명하자면. "부스팅은 ..."에서 제안한리샘플링 방식입니다 .- 어디서 베꼈는지는 모르겠지만 이 정의는 부스팅이 아니라 부트스트랩을 설명하는 것 같습니다.) 부스팅은 단순한 분류기를 부스팅하는 것입니다. 부스팅에서는 작은 샘플 m에서 하나의 큰 샘플 N을 얻지 않습니다. 부스팅에서는 이후의 각 단순 분류기에 대해 이전 분류기에 의해 잘못 분류된 예가 우선적으로 샘플링됩니다. 예제 수는 항상 원래 예제 수와 같습니다. 그 후,"루프에서 벗어난 사람들을 위해" 라는 진지한 글을 읽으면 특히 재미있습니다.xD

"우선. 외환 시장은 "데이터 희소성"의 경우가 아닙니다. 오히려 '데이터 풍부'의 경우입니다." - 어느 쪽에서 보느냐에 따라 다릅니다. 외환 시세와 옛날 냄새가 나는 수많은 "유사 수학적" 지표와 그 파생상품을 의미한다면, 네, 부족하지 않습니다. 그러나 실수로 부스팅과 부트 스트랩을 혼동하여 다른 방향으로 갔기 때문에 어떤 종류의 답변을 기다리고 있는지 모르겠으므로 격언은 무시되지 않을 것입니다.

"실무와 대학에서부스팅 및 교차 검증을연구하고 적용한 오랜경험에따르면..." - 정말요? 지루하네요...

" ADA에 대한 오랜 실험 경험으로 볼 때 때로는 훌륭한 결과, 때로는 역겨운 결과 = 매우 불안정하다고 말할 수 있습니다. " " " - 귀하의 경험은 우리에게 공리가 아니며, 아마도 위의 혼란과 비슷한 버튼이나 다른 것을 혼동했을 수 있습니다. 모르겠어요.

"소프트웨어에서 이 문제를 어떻게 해결하나요? " - 모든 단순 분류기는 분류 오류가 가장 적게 발생하는 기능에 초점을 맞춥니다. 그 특징이 유익하지 않으면 오류가 높습니다. 이것이 바로 이 모든 것의 마법입니다. 이 논리에 대해 좀 더 과학적인 논리로 도전해 봅시다....... 아니, 정말 뭐라도 써보세요.

" 좋은 해결책인지 잘 모르 겠습니다." - 너무 단정적으로 말씀하시는 것 같지 않으신가요? 소프트웨어 개발자는 의도한 대로 작동하기 위해 추가해야 할 사항에 대해 좀 더 분별력이 있는 것 같네요.

"그렇지 않습니다. 알려진 모든 부스팅 알고리즘에는 더 나은 결과를 얻기 위해 조정해야 하는 매개 변수가 최소 두 개 이상 있습니다." - R에서 조정이 필요한 매개 변수는 어떤 것이 있나요? 메모 중입니다...

"인용:"알고리즘은 과훈련 경향에 거의 영향을 받지 않습니다. " "거짓 진술....""" - 나는 당신의 진술이 너무 마음에 듭니다 :). 글쎄, 우선, 그것은 "실질적으로"라고 말합니다. 러시아어로는 "거의"를 의미합니다. 그러나 예를 들어 자동차 번호판 인식 실험에서와 같이 데이터에 안정적인 패턴이있는 경우 알고리즘이 재 학습되지 않습니다. 훈련 샘플에서는 오차가 0이 되고 테스트 샘플에서는 오차가 약 1%로 일정하게 유지됩니다. 질문은?

"이것은 이 알고리즘의 성과가 아닙니다. 오늘날 거의 모든 머신러닝 알고리즘이 이 작업을 수행 합니다." - 단점이라고 말할 수 있습니다. 이진 분류기와 비교하면 장점입니다. 그렇게 생각하지 않나요?

"놀랄 수도 있지만 모든 알고리즘에는 이 기능이 있습니다." -"데이터에 패턴이 있으면 찾을 수 있습니다."라는 말을 주의 깊게 읽어보세요. 이것이 제가 강조하는 부분입니다. 머신러닝 알고리즘의 가장 큰 문제는 얼마나 많은 패턴을 찾을 수 있느냐입니다. 제 프로그램은 이 정도는 괜찮습니다. 당신의 논리에 따르면 다층 퍼셉트론이 머신 러닝 알고리즘이기 때문에 사람들은 다른 알고리즘을 개발해서는 안 되며, 당신은"모든 알고리즘에 이 기능이 있다 "고 말합니다.

"돈을 받고 제공하는 모호한 알고리즘" - 저는 알고리즘을 제공하는 것이 아니라 프로그램을 제공하는 것입니다. 저는 R 언어에 대해 악감정은 없습니다. 그러나 요점이 무엇인지 알 수 있습니다. 모든 사람이 프로그래밍 언어의 논리와 구문을 이해하고, 알고리즘 설정을 이해하고, 일부 파일을 변환하고, 다양한 목발을 통해 터미널에 연결하여 계산 결과를 사용할 수있는 것은 아닙니다. 누군가가이 모든 것을 할 수 있다면 축하합니다. 어떤 사람들은 "즉시" 작동하기만 하면 됩니다. 제가 여러분을 쫓아다니며 저희 소프트웨어를 사라고 강요한다고 생각하실 겁니다. R을 사용해도 화내지 않을 거라고 장담합니다.

"소프트웨어로 열심히 일해서 수익을 창출해도 괜찮아요." - 죄송합니다, 의견을 묻는 것을 깜빡했네요. 하지만 당신이 괜찮다면 전 괜찮습니다.

"광고 목적으로 제품에 존재하지 않거나 과장된 특성을 부여하는 것에 반대합니다." - 그리고 아무것도 모르는 것에 대해 글을 쓰는 것도 반대합니다.

감사합니다. 끝났어요. 고전이 말하듯.

추신: 전 그냥 공격에 대응하는 것뿐입니다. 악의는 없어요. 평화하세요.

추신: 그리고 네, 저와 논쟁을 시작하지 말았어야 했어요:))

__kamil 2016.06.11 20:59 #113

모든 지그재그 값은 미래 통화 가격을 기반으로하므로 결과가 너무 낙관적 인 것 같습니다.

JunCheng Li 2016.07.11 11:35 #114

트레이딩 계좌가 없으신가요? 그렇다면 지금 바로 트레이딩 계좌를 개설하고 MT4 MQL 트레이딩 계좌를 개설하세요. вки?

JunCheng Li 2016.07.11 11:36 #115

MQL4에서 학습된 모델을 사용하는 예를 들어 주시겠어요? 감사합니다!

tahach 2016.07.17 13:01 #116

우여곡절 끝에 최신 Rattle 4.1.0을 MacOS Sierra에서 사용할 수 있게 되었지만, R 데이터 세트 메뉴에서 파일을 선택할 수 없고 회색으로 표시되어 있습니다. 대신 R데이터 파일에서 파일 이름으로 "TC.RData"를 선택한 다음 데이터 이름으로 "TC"를 선택할 수 있었고, 실행을 누르면 바로 사용할 수 있었습니다.

julius.olorunto 2016.07.17 14:02 #117

어디로 가는지도 모르겠어요.

Vasily Belozerov 2016.12.04 10:43 #118

여러분, 안녕하세요! 여러분의 에너지가 올바른 방향으로 향하고 있습니다!

축하합니다, 전략적인 실수를 하셨군요!

글의 첫 줄을 인용하겠습니다: "처음에 트레이딩 시스템을 구축하는 목적은 통화쌍과 같은 일부 시장 상품의 움직임을 예측하는 것입니다."

저는 기사를 더 읽어보지도 않았습니다. 모든 예측 방법을 연구하는 것이 좋습니다!

트레이딩 시스템을 구축하는 목적은 "(자신의) 행동 모델을 만드는 것"입니다.

시장(리더)이 무엇을 하느냐가 중요한 것이 아니라, 여러분이 무엇을 하느냐가 중요합니다: AND, OR, NOT.

예: AND - 리더 추격(리더의 행동 반복).

Dr. Trader 2016.12.13 13:50 #119

리눅스(쿠분투)에 딸랑이를 설치하려고 했는데 작동하지 않았고 코드 컴파일에 대한 종속성이 많았습니다.

설치 오류를 분석하여 R에 딸랑이를 설치하기 전에 운영 체제 자체에 설치해야 하는 패키지 목록을 다음과 같이 얻었습니다:

콘솔 -
$ sudo apt-get install libxml2-dev unixodbc-dev libssl-dev libgtk2.0-dev

그런 다음 R 자체에서 설치를 실행할 수 있습니다 -
> install.packages("rattle", dependencies=TRUE).

rattle을 설치하는 데 필요한 *.h 파일이 여전히 부족한 경우 다음과 같이 필요한 패키지를 찾을 수 있습니다.
$ sudo apt-get install apt-file
$ apt-file update
$ apt-file search /someheaderfile.h

다른 분들에게 도움이 될지도 모르겠네요 :)

Discussion of article "Random 트레이딩을 위한 ONNX 학습 알고리즘 트레이딩에서의 파이썬

Dr. Trader 2017.06.10 19:43 #120

운영체제 업데이트 후 딸랑이 작동을 멈췄고, rattle()을 호출하면 오류가 발생합니다
메서드(객체, ...)에서 오류 발생: 잘못된 루트 요소: 'requires'

거의 도움이 된 첫 번째 방법은 추가 매개 변수를 사용하여 딸랑이를 실행하는 것이 었습니다
rattle(useGtkBuilder = TRUE)
프로그램 창이 열렸지만 버튼이 작동하지 않았고 메서드가 끝까지 도움이되지 않았습니다.

cran에서 설치 한 딸랑이 버전이 오래되었으므로 새 버전을 얻으려면 개발자 저장소를 지정하여 딸랑이를 다시 설치해야합니다.
install.packages("rattle", repos ="https://rattle.togaware.com", type ="source")
그리고 그 후 모든 것이 잘 작동했습니다.

Discussion of article "Random 트레이딩의 머신러닝: 이론, 모델, [ARCHIVE] 포럼을 어지럽히 지

기고글 토론 "랜덤 포레스트로 추세 예측하기" - 페이지 12