트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2843

 
Aleksey Vyazmikin #:


산사니치 포멘코, 샘플을 기대해야 하나요?

이게 무슨 일인가요?

 
СанСаныч Фоменко #:

알겠습니다. 머신 러닝 모델에 대해 피상적으로 잘 알고 계시군요.

사슬의 첫 번째 요소는 전처리로, 50~70%의 노동력이 소요됩니다. 이 단계에서 향후 성공 여부가 결정됩니다.

체인의 두 번째 요소는 일련의 훈련에 대한 모델 훈련입니다.

체인의 세 번째 요소는 훈련된 모델을 테스트 세트에서 실행하는 것입니다. 이러한 세트에서 모델의 성능이 3분의 1 이상 차이가 나면 모델을 다시 훈련합니다. 더 자주하지는 않더라도 한 번씩은 받게 됩니다. 과도하게 학습된 모델은 너무 정확한 모델입니다. 죄송합니다, 기본 사항입니다.


기본에 대한 우리의 생각이 다른 것 같네요. 죄송합니다. 그리고 우리는 서로 다른 언어를 사용하는 것 같습니다.
 
СанСаныч Фоменко #:

무슨 일이죠?

이전에 제가 쓴

트레이딩, 자동매매 시스템 및 트레이딩 전략 테스트에 관한 포럼

트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩

알렉세이 뱌즈미킨, 2022.12.08:44

샘플을 보내주실 수 있나요? 모델 트레이닝이 부실하다는 문제에 대해 같은 시각을 가지고 있으며, 귀하의 선택 방법이 저의 선택 방법보다 얼마나 나은지, 그리고 샘플에 맞는지 비교하고 싶습니다.


좋은 생각이라고 답장하셨지만 메시지를 지우셨습니다.

 
Andrey Dik #:

기본에 대한 생각이 다른 것 같습니다. 죄송합니다. 언어가 다른 것 같습니다.

지금 제가 이해하는 한, 저는 머신러닝 모델과 이러한 모델에 내장된 최적화에 대해 논의하고 있습니다. 신경망에서 시작하셨군요.

최적화 그 자체에 대해 논의하고 계신데, 이는 머신 러닝과 관련이 없습니다.


글로벌 최적화를 찾는 과정에서 행운을 빕니다.

 
СанСаныч Фоменко #:

지금 제가 이해하는 한, 머신러닝 모델과 그 모델에 내장된 최적화에 대해 논의하고 있습니다. 바로 신경망에서 시작되었습니다.

제 생각에는 머신 러닝과 관련이 없는 최적화에 대해 논의하고 계시는군요.


글로벌 최적을 찾는 데 행운을 빕니다.


나는 당신이 찾고 있고 과도하게 훈련 된 모델로 비참하게 실패하는 글로벌 최적이 필요하지 않습니다.)
약간 다른 관점에서 훈련을 살펴보세요. 모델, 예측자, 슈무딕터 및 기타 멋진 것들을 구축하고 모델을 훈련시킨 다음 OOS에서 작동하지 않습니다. 거기 있습니다, 그것은 다시 AO의 잘못입니다!
나는 책임감있게 선언합니다. AO의 잘못이 아니라 나쁜 모델입니다.
나는 정렬과 함께 무작위 AO를 추천합니다. 당신의 모델은 항상 약간 취하고 약간 훈련되지 않은 상태 일 것입니다.
 
СанСаныч Фоменко #:

최적화와 모델 재학습 사이에는 부인할 수 없는 연관성이 있다는 가장 중요한 아이디어에 도달했습니다. 모델은 항상 다소 "거친" 상태로 두어야 하며 글로벌 최적화가 필요하지 않습니다.

단순히 전역 최적값을 거부한다고 해서 과적합을 피할 수 있는 것은 아닙니다. 과적합은 기존의 규칙성을 해칠 정도로 특정 샘플에 모델을 지나치게 많이 적용하는 것을 말합니다. 이는 거의 모든 MO 알고리즘의 매우 높은 유연성 때문에 발생합니다. 따라서 이를 처리하는 표준 방법은 최적화 기준에 과도한 모델 유연성에 대한 페널티를 도입하는 것입니다(예: 올가미 회귀). 규범적인 방식으로 모델의 유연성을 제한할 수는 있지만, 수학적으로는 더 엄격한 페널티를 적용하는 것입니다.

그런데 이것은 사용자 지정 기준을 만들 수 있어야 하는 이유를 보여주는 좋은 예입니다.

전 세계적인 극단을 선호하는 것과 정체를 선호하는 것은 조금 다릅니다. 더 이상 기존의 변하지 않는 의존성을 희생하면서 특정 샘플에 과도하게 맞추는 문제가 아닙니다. 여기서 우리는 가격의 비고정성(처음에 말씀하신 것)으로 인해 의존도가 변하고 의존도의 작은 변화에도 충분히 좋은 상태를 유지할 수 있는 안정적인(견고한) 매개 변수 값을 찾아야 한다는 사실에 대해 이야기하고 있습니다.

모든 것을 한 더미에 섞을 필요는 없습니다.

산산치 포멘코 #:

허용 가능한 예측 변수 목록을 찾고 있을 때 - 바지 의미에서의 최적화. 그러나 그 의미는 상당히 다릅니다. "쓰레기 유입-쓰레기 배출"을 피하려고 노력합니다. 여기에는 글로벌 최적을 찾는 "올바른" 알고리즘을 찾는 것과는 질적인 차이가 있습니다. 글로벌 최적화는 쓰레기에 대해 수익성 있는 TS를 제공하지 않습니다.

바지 선택은 다중 기준 최적화의 예입니다. 길이, 크기, 색상, 원단, 가격, 브랜드 등에 따라 선택이 이루어집니다.) 파레토 표면이 만들어지지 않았지만 구매자의 머릿속에는 모든 기준이 하나의 타협으로 암묵적으로 혼합되어 있다는 것이 분명합니다. 기능 선택에서도 마찬가지입니다. 바지와의 중요한 차이점은 직관에 지속적으로 의존하면 예측할 수없는 실패로 이어질 수 있으므로 트레이드 오프 최적성 기준을 명시 적으로 공식화하는 것이 유용하다는 것입니다.

 

모델이 작동하는 경우, 알 수 없는 데이터에서 잘 작동하는 설정이 있습니다. 또한 OOS에서 만족스러운 성능을 제공하지 않는 설정이 있을 수 있습니다. 이 경우 일부에서는 이를 오버트레이닝이라고 합니다. 사실 추정 기준이 올바르게 선택되지 않았습니다. 올바른 기준은 작동하는 모델에 보라색 곡선을 제공합니다. 문제는 올바른 추정 기준의 최대화(전역 최대)에 있습니다. 즉, 올바른 기준의 전역 최대를 찾으면 보라색 곡선을 얻을 수 있습니다.

반대로 기준이 잘못 선택된 경우 잘못된 기준을 최대화하면 빨간색 곡선이 나타납니다.

이것은 모델이 작동한다는 가정하에 있지만 평가 기준이 얼마나 중요한지 알 수 있습니다.

그러나 모델이 작동하지 않는다면 기준이나 최적화 모두 도움이 되지 않습니다.

따라서 모델->기준->기준의 최적화는 다음과 같습니다.

 
Aleksey Nikolayev #:

바지 선택은 다중 기준 최적화의 예입니다. 길이, 크기, 색상, 원단, 가격, 브랜드 등으로 선택이 이루어집니다.) 파레토 표면이 만들어지지 않았지만 구매자의 머릿속에는 모든 기준이 하나의 타협점으로 암묵적으로 혼합되어 있다는 것은 분명합니다. 기능 선택에서도 마찬가지입니다. 바지와의 중요한 차이점은 직관에 지속적으로 의존하면 예측할 수없는 실패로 이어질 수 있으므로 트레이드 오프 최적성 기준을 명시 적으로 공식화하는 것이 유용하다는 것입니다.

바지 선택은 기준 중심 최적화의 좋은 예입니다. 모든 좋은 바지가 모든 사람에게 맞는 것은 아닙니다. 사용자 중심 최적화는 가장 잘 맞는 최상의 바지를 제공합니다(글로벌 최대 기준).

바지 -> 바지 평가 기준 -> 선택(바지 평가 기준의 최적화)

 
Aleksey Nikolayev #:

글로벌 극값을 단순히 거부한다고 해서 과트레이닝(과적합, 과적합)을 피할 수 있는 것은 아닙니다. 과적합은 기존의 규칙성을 해칠 정도로 특정 샘플에 모델을 지나치게 많이 적용하는 것을 말합니다. 이는 거의 모든 MO 알고리즘의 매우 높은 유연성 때문에 발생합니다. 따라서 이를 처리하는 표준 방법은 최적화 기준에 과도한 모델 유연성에 대한 페널티를 도입하는 것입니다(예: 올가미 회귀). 지시문 방식으로 모델의 유연성을 단순히 제한하는 것도 가능하지만, 수학적으로는 더 엄격한 페널티에 불과합니다.

그런데 이것은 사용자 지정 기준을 만들 수 있어야 하는 이유를 보여주는 좋은 예입니다.

글로벌 극단을 선호하는 것과 정체를 선호하는 것은 조금 다릅니다. 더 이상 기존의 변하지 않는 의존성을 희생하면서 특정 표본에 과도하게 맞추는 문제가 아닙니다. 여기서 우리는 가격의 비 고정성 (처음에 작성한 내용)으로 인해 의존도가 변하고 의존도의 작은 변화에도 충분히 좋은 상태를 유지할 수있는 안정적인 (견고한) 매개 변수 값을 찾아야한다는 사실에 대해 이야기하고 있습니다.

모든 것을 하나의 힙에 섞지 마세요.

바지 선택은 다중 기준 최적화의 예입니다. 길이, 크기, 색상, 원단, 가격, 브랜드 등으로 선택이 이루어집니다.) 파레토 표면이 만들어지지 않았지만 구매자의 머릿속에는 모든 기준이 하나의 타협으로 암묵적으로 혼합되어 있다는 것이 분명합니다. 기능 선택에서도 마찬가지입니다. 바지와의 중요한 차이점은 직관에 지속적으로 의존하면 예측할 수없는 실패로 이어질 수 있으므로 트레이드 오프 최적성 기준을 명시 적으로 공식화하는 것이 유용하다는 것입니다.

이 주제에 대한 누군가의 게시물을 보게 되어 반갑습니다!

 
Andrey Dik #:

모델이 작동하는 경우 알 수 없는 데이터에서 잘 작동하는 설정이 있을 수 있습니다. 또한 OOS에서 만족스러운 성능을 제공하지 않는 설정이 있을 수 있습니다. 이 경우 일부에서는 이를 오버트레이닝이라고 합니다. 사실 추정 기준이 올바르게 선택되지 않았습니다. 올바른 기준은 작동 모델에 보라색 곡선을 제공합니다. 문제는 올바른 추정 기준의 최대화(전역 최대치)에 있습니다. 즉, 올바른 기준의 전역 최대치를 찾으면 보라색 곡선을 얻을 수 있습니다.

반대로 기준을 잘못 선택하면 잘못된 기준을 최대화하면 빨간색 곡선이 나타납니다.

이것은 모델이 작동한다고 가정한 것이지만 평가 기준이 얼마나 중요한지 알 수 있습니다.

그러나 모델이 작동하지 않는다면 기준이나 최적화 모두 도움이 되지 않습니다.

따라서 모델->기준->기준의 최적화

저는 통합 기준과 파생 기준의 두 가지 유형을 구분합니다.
.

통합 기준의 예 : 잔액, 수익률 및 기타 이러한 기준은 프로세스의 중간 이벤트 (거래에서는 거래)의 결과를 고려하지 않고 요약 평가를합니다. 예를 들어, 최종 잔액이 10000 인 두 가지 결과, 한 경우에는 1000 개의 수익성있는 거래, 다른 경우에는 999 개의 비 수익성 및 1 개의 수익성있는 거래 예를 들어, 통합 기준은 두 경우 모두 동일하지만 결과가 달성 된 방식이 조정 적으로 다르다는 것이 분명합니다. 그래서 사람들은 종종 통합 기준에 대해 불평하고 재교육, 시장이 고정되지 않았다는 등의 이유로 불평하는 이유입니다.

파생 기준의 예로는 시작점에서 끝점까지 이어지는 균형선의 표준 편차가 있습니다. 이러한 기준은 적분 기준과 달리 프로세스의 중간 결과를 고려하므로 기준의 요구 사항을 명확하게 설명 할 수 있습니다.

적분 기준은 특정 유형의 시스템(예: 단위 시간당 트랜잭션 수가 실질적으로 상수인 경우)에 적용될 수 있으므로 적분 기준도 적합할 수 있습니다.

그러나 통합 기준과 파생 기준 모두 글로벌 최적값에 도달해야 합니다. 기준의 선택에 따라 향후 시스템의 견고성이 결정됩니다.

연구자가 글로벌 최대값이 아닌 중간값을 찾아야 할 필요가 있다고 생각하면 이 경우 모델 평가 기준을 즉시 수정해야 합니다.

사유: