트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3157

 
Maxim Dmitrievsky #:
아니요

패키지는 좋지만 먼저 원칙적으로 무엇을 해야 하는지 이해해야 합니다.


코줄리 메서드에 대한 채팅 응답


인과 관계 추론에 사용되는 몇 가지 방법이 있습니다. 가장 일반적인 방법은 다음과 같습니다:

  1. 무작위 대조 실험: 복잡한 환경에서 인과 관계를 파악하는 데 사용되는 방법입니다. 할당 메커니즘을 완전히 통제할 수 있으며 무작위로 할당됩니다1.
  2. 관찰 데이터: 이 방법은 실험이 불가능하거나 실용적이지 않을 때 사용됩니다. 설문조사나 행정기록과 같은 자연적인 출처에서 수집한 데이터를 분석하는 것이 포함됩니다1.
  3. 도구 변수: 이 방법은 내생성 또는데이터부족에 문제가 있을 때 인과 관계를 파악하는 데사용됩니다1.
  4. 성향 매칭: 비슷한 특성을 가진 그룹을 비교하여교란의영향을 제거하는 데 사용되는방법입니다1.
  5. 차이 내 차이 추정기: 이 방법은 시간에 따른 변화와그룹간의 변화를 분석하는 데사용됩니다1.

이는 인과 관계 추론에 사용되는 많은 방법 중 일부에 불과합니다. 각 방법에는 고유한 장단점이 있으며, 어떤 방법을 선택할지는 특정 상황과 사용 가능한 데이터에 따라 달라집니다.


포인트 1에 대해 알려주세요.

무작위 대조 실험 (RCT) 이라고도 하는 무작위 대조 실험은 인과 관계를 발견하는 강력한 방법입니다. RCT에서 참가자는 무작위로 두 개 이상의 그룹으로 나뉩니다. 한 그룹은 약물과 같은 개입을 받고 다른 그룹은 위약 또는 표준 치료를 받습니다. 그런 다음 연구자들은 두 그룹 간의 결과를 비교하여 결과에 차이가 있는지 확인합니다.

RCT의 가장 큰 장점은 참가자를 무작위로 그룹에 배정함으로써 편견과 혼란을 제거할 수 있다는 것입니다. 즉, 그룹 간 결과의 차이가 다른 요인이 아닌 노출에 기인한 것일 수 있습니다.

하지만 RCT가 항상 가능하거나 실용적인 것은 아닙니다. 예를 들어 비용이 많이 들거나, 많은 시간과 자원이 필요하거나, 윤리적으로 허용되지 않을 수 있습니다. 이러한 경우 연구자는 다른 인과관계 추론 방법을 사용할 수 있습니다.


======================================

이걸 하고 계신가요? 보기에는 피케 셀렉타 보루타네요 .


 
Maxim Dmitrievsky #:

지루하지 않도록 약간의 코줄 테마를 개발했으니 직접 확인해 보세요.

분명히, 여러분은 트리트먼트의 개념을 (프로그래밍적인 의미에서) 재해석하고 과부하가 걸린 개념을 가지고 있습니다. 원래는 훨씬 더 간단하고 모호하지 않은 개념입니다. 이렇게 확장된 개념이 오히려 과잉 학습으로 이어지지 않을까요? 더 많은 유연성이 항상 그것을 초래할 수 있다는 의미에서 그렇습니다.

 
Aleksey Nikolayev #:

분명히, 여러분은 트리트먼트에 대한 (프로그래밍적인 의미에서) 재해석되고 과부하된 개념을 가지고 있습니다. 처음에는 훨씬 더 간단하고 모호하지 않은 개념입니다. 이렇게 확장된 개념이 오히려 과잉 학습으로 이어지지 않을까요? 더 많은 유연성이 항상 그것으로 이어질 수 있다는 의미에서요.

모르겠어요, 전 맥도날드를 먹어요 :) 아마도요. 저는 모든 각도에서 제공되는 자료를 훑어본 것뿐입니다.
 
mytarmailS #:

패킷도 좋지만 먼저 자신이 무엇을 하고 있는지 알아야 합니다.


코줄리 메소드에 대한 채팅 응답


인과관계 추론에는 여러 가지 방법이 사용됩니다. 가장 일반적인 방법은 다음과 같습니다:

  1. 무작위 대조 실험: 복잡한 환경에서 인과 관계를 파악하는 데 사용되는 방법입니다. 할당 메커니즘을 완전히 통제할 수 있으며 무작위로 할당됩니다1.
  2. 관찰 데이터: 이 방법은 실험이 불가능하거나 실용적이지 않을 때 사용됩니다. 설문조사나 행정기록과 같은 자연적인 출처에서 수집한 데이터를 분석하는 것이 포함됩니다1.
  3. 도구 변수: 이 방법은 내생성 또는데이터부족에 문제가 있을 때 인과 관계를 파악하는 데사용됩니다1.
  4. 성향 매칭: 비슷한 특성을 가진 그룹을 비교하여교란의영향을 제거하는 데 사용되는방법입니다1.
  5. 차이 내 차이 추정기: 이 방법은 시간에 따른 변화와그룹간의 변화를 분석하는 데사용됩니다1.

이는 인과 관계 추론에 사용되는 많은 방법 중 일부에 불과합니다. 각 방법에는 고유한 장단점이 있으며, 어떤 방법을 선택할지는 특정 상황과 사용 가능한 데이터에 따라 달라집니다.


포인트 1에 대해 알려주세요.

무작위 대조 실험 (RCT) 이라고도 하는 무작위 대조 실험은 원인과 결과의 관계를 파악하는 강력한 방법입니다. RCT에서 참가자는 무작위로 두 개 이상의 그룹으로 나뉩니다. 한 그룹은 약물과 같은 개입을 받고 다른 그룹은 위약 또는 표준 치료를 받습니다. 그런 다음 연구자들은 두 그룹 간의 결과를 비교하여 결과에 차이가 있는지 확인합니다.

RCT의 가장 큰 장점은 참가자를 무작위로 그룹에 배정함으로써 편견과 혼란을 제거할 수 있다는 것입니다. 즉, 그룹 간 결과의 차이가 다른 요인이 아닌 노출에 기인한 것일 수 있습니다.

하지만 RCT가 항상 가능하거나 실용적인 것은 아닙니다. 예를 들어 비용이 많이 들거나, 많은 시간과 자원이 필요하거나, 윤리적으로 허용되지 않을 수 있습니다. 이러한 경우 연구자는 다른 인과관계 추론 방법을 사용할 수 있습니다.


======================================

이걸 하고 계신가요? 보기에는 피케 셀렉타 보루타네요 .


메타 학습자 질문과 직교 학습에 대해서는 책에 다 나와 있어요. 그리고 교차 피팅도요.
 
Maxim Dmitrievsky #:
메타 러너에 대해 잘 알고, 직교 학습에 대해 물어보세요, 그것은 결국 책에 있습니다.

메타 학습은 알고리즘이 이전 경험을 바탕으로 새로운 작업에 빠르게 적응할 수 있도록 하는 머신 러닝 접근 방식입니다.인과 관계 추론의 맥락에서메타 학습은 인과 관계추론을위한 예측 모델을 재사용하는 데 사용할있습니다1.

선형 회귀, 부스트 의사 결정 트리, 신경망 또는 가우스 프로세스 등 모든 예측 모델은 이 장에서 설명하는 접근 방식을 사용하여 인과 추론에 적용할 수 있습니다. 따라서 메타 학습의 성공 여부는 사용된 예측 모델의 품질과 인과 추론작업에얼마나 잘 적응하는지에 따라 달라집니다1.

메타러닝은 상당히 새롭고 활발하게 발전하고 있는 연구 분야이며, 인과 관계 추론의 맥락에서 메타러닝에 대한 다양한 접근 방식이 존재합니다.

========================

직교 학습은 인과 추론을 개선하는 데 사용되는 머신 러닝의 한 접근 방식입니다. 직교 학습의 한 가지 예는 Chernozhukov 등이 제안한 이중 머신 러닝입니다. 1. 이 방법은 2단계 추정기를 사용하여 먼저올가미2를 비롯한 정교한 머신 러닝 알고리즘을 사용하여 고차원 교란 요인의 효과를 직교화합니다.

직교학습은 직교 랜덤포레스트1와같은 다른 인과 관계 추론 방법에도 사용됩니다. 이 알고리즘은 이중 머신 러닝과 일반화된 랜덤 포스트를 결합하여 랜덤 포스트를 사용하여 조건부 모멘트 모델을 통계적으로 추정합니다.

일반적으로 직교 학습은 교란 요인의 영향을 제거하고 매개변수 추정 오류에 대한 민감도를 낮춤으로써 인과 추론의 정확성과 견고성을 향상시킵니다.

 
Aleksey Nikolayev #:

분명히, 여러분은 트리트먼트에 대한 (프로그래밍적인 의미에서) 재해석되고 과부하된 개념을 가지고 있습니다. 처음에는 훨씬 더 간단하고 모호하지 않은 개념입니다. 이렇게 확장된 개념이 오히려 과잉 학습으로 이어지지 않을까요? 더 많은 유연성이 항상 그것을 초래할 수 있다는 의미에서 그렇습니다.

Maxim이 위에 쓴 것처럼 모델 과잉 학습의 주요 징후인 OOS에서는 작동하지 않습니다.

제가 이해하는 의미로는 모델을 취하고 그 결과를 개선하여 오류를 줄이려고합니다.

그러나 OOS에서 오류의 원인은 동일한 예측자 값이 다른 상황에서 다른 클래스를 예측할 때 데이터 자체입니다. 예측자의 이러한 결함은 어떤 수학적 연습으로도 수정할 수 없으며 쓰레기를 수정할 수 없지만 알고리즘이 "편리한"데이터를 찾고 좋은 결과를 보여주기 때문에 쓰레기에서는 매우 작은 훈련 오류를 얻을 수 있습니다. 그러나 새로운 데이터의 경우 자체 쓰레기가 있기 때문에 결과는 비참합니다.

동시에 카주알 사용의 문제는 다음과 같은 방식으로 볼 수 있습니다.

50%의 값이 클래스 중 하나를 예측하고 나머지 50%는 무작위로 모든 클래스를 예측하는 예측자가 있다고 가정해 보겠습니다.

모델을 맞추고 분류 오류를 얻습니다.

이제 문제는 이 분류 오류가 예측자 값의 분할과 일치하는지 여부입니다. 개선할 수 있다면 카쥬얼이고, 개선할 수 없다면 결코 카쥬얼이 아니므로 모델 적합을 극복한 것입니다.

 
Maxim Dmitrievsky #:
네. 목록에서 트리트먼트 변수를 삭제하고 이 변수 없이 인핸서를 만들 수 있습니다. 그것으로는 할 수 없습니다. 편향되지 않은 추정치를 얻으려면 교차 피팅을 수행합니다.
.

저도 이 정의에서 같은 방식이었으니 걱정하지 마세요 :)

용어의 문제가 아니라 그것이 무엇이고 어떻게 적용하는지에 대한 문제입니다....

이중 기계 학습은 데이터의 인과 관계를 평가하는 데 사용되는 기술입니다.

1) 무엇을 추정할 것인가?

2) 추정한 다음에는 무엇을?

 
mytarmailS #:

이는 용어의 문제가 아니라 그것이 무엇이며 어떻게 적용되는지에 대한 문제입니다.

이중 머신 러닝은 데이터의 원인과 결과 관계를 평가하는 데 사용되는 기술입니다.

1) 무엇을 평가하나요?

2) 추정하고 나서 무엇을?

다음으로, 목표를 변환하고 가중치를 얻을 수 있습니다. 그들은 편견이 없을 것입니다. 편견없는 추정에 대한 대부분의 코줄리.


 
코끼리와 동방박사에 관한 이야기와 같은 것으로 밝혀졌습니다. 이 책에는 모든 것이 들어 있으며, 코끼리라는 것을 깨닫기 위해 포럼에서 손가락으로 다시 이야기해야 합니다.
 
Aleksey Nikolayev #:

이 기사의 10페이지에는 의사 코드 형태의 구현이 있습니다. 두 번째 페이지의 부록에는 R의 구현과 이 문서에 사용된 데이터에 대한 참조가 있습니다.

의사 코드는 공식을 나타냅니다.)

R 코드에 관해서는-감사합니다-누락되었습니다. 함수 코드라고 생각하지만 파일에서 읽는 것과 같은 코드 자체는 주석 처리되어 있습니까?

# --- Read in data --- 

# > arson = read.csv("arson.csv")
# > i = with(arson, day <= 731)
# > arson1 = arson[i,]
# > arson2 = arson[!i,]
# > arson2[,"day"] = arson2[,"day"] - 731

아직 작동하는 방법을 찾지 못했습니다. 작동하도록 만들었나요?

알렉세이 니콜라예프 #:

일반적으로 mql5에서 의사 결정 트리를 어떻게 구현하나요? 배열이나 템플릿을 통해 구현하나요?

저는 이전에 MQL5에서 트리 구축을 구현한 적이 없습니다. 포레스터가 더 많은 경험을 가지고 있습니다.

하지만 배열 외에도 벡터와 행렬을 사용하면 코드가 더 빠를 것 같습니다. 또한 제가 알기로는 완전한 열거가 필요하기 때문에 OpenCL을 사용할 수 있습니다.

하지만 이 맥락에서 "템플릿"이 무엇인지 모르겠습니다 :(

R에는 코드가 있기 때문에 모든 것이 의미가 있는지 여부를 처음에 이해하는 것이 합리적입니다.

이 기사의 샘플은 적은 수의 예측 변수를 사용하며 훨씬 더 많은 예측 변수를 가지고 있으며 물론 개별적으로 정보가 적습니다.

일반적으로 저는 두 샘플을 비교하는 것뿐만 아니라 데이터에서 이상 징후를 감지하는 데 이 방법을 사용하는 데 관심이 있습니다.

아이디어는 비슷하더라도 잎사귀 그룹이 있고, 한 예측 변수의 비정상적인 동작이 발견되면 해당 예측 변수를 사용하는 모든 잎사귀를 비활성화하면서 그룹의 잎사귀와의 상관 관계를 확인하는 것입니다. 이상적으로는 제시간에 감지되면 신뢰도는 떨어지지만 모델을 계속 실행할 수 있습니다.

사유: