트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3175

 
СанСаныч Фоменко 최적화 그래프가 있습니다.

이 그래프는 과도한 훈련을 제어하는 데 사용할 수 있습니다.

이 표면에서 한 셀이 거의 같은 색의 다른 셀로 둘러싸인 부분을 식별할 수 있다면, 이 중앙 셀은 과훈련되지 않은 TC의 매개변수를 제공합니다. 이 위치는 발견된 최적값이 고원이라는 사실에 해당합니다.

그러나 "표면"이 표범의 피부처럼 보이면 테스터가 많은 수의 맥시마를 발견했기 때문에 TS는 절망적이며, 이는 미래에 그들을 맞출 확률이 극히 낮음을 나타냅니다.

당신은 할 수 없습니다.

패턴(표면)의 특성은 특정 최적화 기준에 따라 TS의 특성에 대해서만 알려줍니다. 다른 기준을 적용하면 패턴이 달라집니다. 이에 대한 오해는 최적화(학습)를 글로벌 최대치로 수행해서는 안 된다는 오해로 이어지고, 반대로 수행해야 한다는 오해로 이어집니다. 올바른 학습의 핵심은 전략에 적합한 최적화 기준을 선택하는 것입니다.

이 모든 것은 이전에 여러 번 논의된 바 있습니다.

 
fxsaber #:
그게 다야, 내가 한 가지 질문을했고 전문가들이 답을 내놓았습니다))))))

젊은 멍청한 IT맨에게 이혼녀처럼))) 이제라도 막대기로 반격하세요))))
 
fxsaber #:

이 간격의 의미가 무엇인지 명확히 설명해 주세요.

지금은 이 계획을 상상하고 있습니다.

  1. 숫자 크러셔가 열차에서 작동하여 테스트별로 필터링합니다.
  2. 숫자 크러셔는 완전히 꺼져 있습니다. 그리고 시험에서 가장 좋은 결과 몇 개를 취합니다.


첫 번째 요점은 이상해 보입니다. 테스터의 "포워드 테스트"입니다. 필터링 없이 최적화만 하는 것보다 훈련+테스트를 결합하는 것이 더 나은가요?

의학에서는 거의 똑같이 아픈 60 명의 환자 그룹을 무작위로 세 그룹으로 나누고 첫 번째 그룹은 신약으로 치료하고 두 번째 그룹은 오래된 약물로 치료하고 세 번째 그룹은 치료하지 않고 위약을 투여합니다. 그리고 첫 번째 그룹이 두 번째와 세 번째 그룹보다 낫다면 그 약은 좋은 것으로 인식되고 실험은 일정 기간 동안 반복, 즉 모니터링 한 다음 자유 부동으로 방출됩니다.

위양성 및 음성 결과의 확률이 감소하는 것은 논리적으로 보이지만 저에게는 오류에 대한 만병 통치약이 아닙니다.

그리고 저는 시끄러운 연구에서 결과에 대한 범주적 평가를 전혀 이해하거나 인정하지 않습니다)))).

 
Andrey Dik #:

아니요, 그럴 수 없습니다.

패턴(표면)의 특성은 특정 최적화 기준에 따른 차량의 특성만을 알려줍니다. 다른 기준을 적용하면 패턴이 달라집니다. 이에 대한 오해는 최적화(학습)를 글로벌 최대치로 수행해서는 안 된다는 오해로 이어지고, 반대로 수행해야 한다는 오해로 이어집니다. 올바른 훈련의 핵심은 전략에 적합한 최적화 기준을 선택하는 것입니다.

이 모든 것은 이전에 여러 번 논의된 바 있습니다.

그리고 모두가 자신의 의견에 머물러 있습니다. 나에게 보이는 것처럼 당신은 유일한 사람입니다.

프로세스의 무작위성으로 인해 다시는 나타나지 않는 개별 봉우리가 아닌 고원을 찾아야합니다.

 
Valeriy Yastremskiy #:

의학에서는 거의 똑같이 아픈 60 명의 환자 그룹을 무작위로 세 그룹으로 나누고 첫 번째 그룹은 신약으로 치료하고 두 번째 그룹은 오래된 약물로 치료하고 세 번째 그룹은 치료하지 않고 위약을 투여합니다. 그리고 첫 번째 그룹이 두 번째와 세 번째 그룹보다 낫다면 그 약이 좋은 것으로 인정하고 일정 기간 동안 많은 수의 실험을 반복하여 모니터링한 다음 자유 부동으로 방출합니다.

위양성 및 음성 결과의 확률이 감소하는 것은 논리적으로 보이지만 오류에 대한 만병 통치약은 아닙니다.

그리고 저는 시끄러운 연구에서 결과에 대한 범주적 평가를 전혀 이해하거나 인정하지 않습니다)))).

파일을 여러 섹션으로 나누고 제공 한 예에서 내 샘플에 해당하는 그룹에 환자를 무작위로 포함시키는 것은 예측 변수가 대상 변수와 관련이있는 경우에만 작동합니다. 즉, 쓰레기가 아닙니다. 의학에서 약물(예측 인자)과 질병의 관계를 파악하는 것은 약물이 체내에 들어가는 과정의 생리학을 이해함으로써 이루어집니다. 예측 변수와 목표 변수 간의 관계를 결정하기 위해서는 다른 방법이 필요한데, 이 모든 것이 모델을 학습시키기 전에 수행되는 전처리이며 이 단계는 필수입니다.

마찬가지로 테스트 아키텍처는 필수이며 모델 오버트레이닝 전에 반드시 수행해야 합니다.

 
СанСаныч Фоменко #:

그리고 모두가 각자의 의견을 가지고 있습니다. 제 생각에 당신은 특별한 사람인 것 같습니다.

프로세스의 무작위성으로 인해 다시는 나타나지 않을 개별 봉우리가 아닌 고원을찾아야합니다.

내가 유일한 숫자에 있다는 것은 신경 쓰지 않습니다. 그것은 단지 문제를 이해하는 사람이 정말 적다는 것을 보여줍니다))))

고원이든 정점이든-최적화 기준의 표면, 기준에 따라 다릅니다! 왜 그들이 종종 기준을 사용한다고 생각하십니까- MO의 오류? 표면이 단조롭기 때문에))) 즉, 그들은 항상 가능한 한 단조롭고 가능한 경우 하나의 전역이있는 그러한 기준을 선택하려고 노력합니다.

따라서 우리는 고원을 찾지 말고 가능한 한 단조로운 하이퍼 서피스를 가진 기준을 찾아야합니다.

그런데 오류 기준에는 값이 0 인 전역이 정확히 하나 있습니다. 그리고 전역에 도달하지 않고 훈련을 중단해야한다는 사실은 또 다른 문제이며 기준 표면과는 아무런 관련이 없습니다.

 
이 말도 안되는 글을 읽고 여기서 똑똑한 사람들이 똑똑한 것을 논의한다고 생각하는 미성숙 한 생각을 가진 불쌍한 사람들이 얼마나 불쌍한지....
 
Maxim Dmitrievsky #:
몇 년 동안 이 작업을 해왔다고 결론을 내릴 수도 있습니다. 아니면 지금처럼 무작위 검색을 할 수도 있습니다.

방금 무작위 검색은 비생산적인 접근 방식이라고 썼습니다.

저는 샘플링 가능성을 테스트할 때 예측 변수 선택에 무작위성을 가미한 무작위화를 사용하며, CatBoost에서 수년 동안 이를 사용해 왔습니다.

무작위 추출은 예측자 응답이 무작위로 추출되었기 때문에 모델이 계속 작동할 것으로 기대하는 정당성을 제공하지 않습니다.

 
Aleksey Nikolayev #:

IMHO, Maxim이 최근에 쓴 파이 해킹처럼 보입니다. 할당 된 퀀타의 중요성을 결정하기 위해 일부 통계 테스트를 사용하지 않는 한 확실히 그 사람입니다.

SB에서 거래하기 가장 좋은 시간을 선택한 간단한 예를 든 적이 있습니다 (분명히 존재하지 않는 경우). 5 * 24 = 120 개의 변형 만 있었지만 그러한 시간이 항상 발견되는 것으로 충분했습니다 (시간 간격은 반년이라고 생각합니다). 거기에도 "샘플링 안정성"이 있습니다.

어떤 유의성 테스트를 제안하시나요? 나는 양자 세그먼트를 선택하는 알고리즘이 완벽하다고 말하는 것이 아니라 반대로 쓰레기가 많고 개선하고 싶습니다.

어떤 징후에서 일종의 "파이 해킹"이라고 결정했는지, 그리고 정확히 어떤 부분, 양자 세그먼트 선택 또는 양자 세그먼트 (즉, 내가 만든 그래프)에 의해 잘 그리고 훈련없이 선별 된 문자열 스크리닝을 결정했는지 이해하지 못합니다. 예, 방법은 나무 모델을 구축하는 일반적인 접근 방식과 약간 다르지만 그다지 많지는 않지만 개념은 남아 있습니다.

SB의 예와 관련하여 두 가지 고려 사항이 있습니다:

1. 프로세스를 알 수 없고 데이터만 있는 경우 거래하기 가장 좋은 시간이 있다는 패턴을 가정할 수 있습니다. 아니면 이 가설을 거부할 수 있는 고려사항이 있을까요?

2. 이러한 관측값이 시간(이벤트 기록)에 따라 비교적 고르게 분포되어 있다면 난수 생성기 오류에 가깝습니다.

트레이닝에서는 보통 최소 10년 이상의 장기간에 걸친 샘플을 사용합니다.

 
СанСаныч Фоменко #:

파일을 여러 섹션으로 나누고, 말씀하신 예에서 제 샘플에 해당하는 그룹에 환자를 무작위로 포함하는 것은 예측 변수가 대상 변수와 관련이있는 경우에만 작동합니다. 즉, 쓰레기가 아닙니다. 의학에서 약물(예측 인자)과 질병의 관계를 파악하는 것은 약물이 체내에 도입되는 과정의 생리학을 이해함으로써 이루어집니다. 예측 변수와 목표 변수 간의 관계를 결정하는 다른 방법이 있어야 합니다. 이 모든 것은 모델을 학습시키기 전에 수행되는 전처리이며 이 단계는 필수입니다.

마찬가지로 테스트 아키텍처는 필수이며 모델 오버트레이닝 전에 반드시 수행해야 합니다.

안타깝게도 그렇지 않습니다. 식균 작용은 현미경으로 볼 수 있지만 현미경이 도움이되지 않는 의학 과학은 적절한 실험을 통해 가설을 확인합니다.)

그건 그렇고, 환자들은 자신이 어떤 그룹에 속해 있는지 모릅니다 .))))

일반적으로 원인과 결과 관계를 이해하지 않고 유사한 조건은 이러한 관계를 검색합니다.

사유: