트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 385

 
막심 드미트리예프스키 :


그게 그들이 당신에게주는 것입니까? 헤지펀드인건 알겠는데 가입하면 뭐 주나요?

나는 다른 모델로 운전해, 지금까지 당신이 했던 것과 같은 0.5

음, 0.5와 0.513은 물론 다릅니다. 거래에는 충분하지 않지만 여전히 그렇습니다. 그들은 스스로를 헤지펀드라고 부르는데, 그들이 어떤 법적 구조를 가지고 있는지 나는 모릅니다. 미국에는 공식적으로 그런 유형의 조직이 없는 것 같습니다. 하지만 제가 틀릴 수도 있습니다. 등록하면 일주일 전 시장 예측에 참여할 수 있습니다. 그러한 데이터 세트에서 누군가가 이에 대해 > 10k$를 모을 수 있지만 개인적으로 몇 백 달러만 벌었던 사람들을 알고 있습니다)))
 
알료샤 :
음, 0.5와 0.513은 물론 다릅니다. 거래에는 충분하지 않지만 여전히 그렇습니다. 그들은 스스로를 헤지펀드라고 부르는데, 그들이 어떤 법적 구조를 가지고 있는지 나는 모릅니다. 미국에는 공식적으로 그런 유형의 조직이 없는 것 같습니다. 하지만 제가 틀릴 수도 있습니다. 등록하면 일주일 전 시장 예측에 참여할 수 있습니다. 그러한 데이터 세트에서 누군가가 이에 대해 > 10k$를 모을 수 있지만 개인적으로 몇 백 달러만 벌었던 사람들을 알고 있습니다)))


저것들. 어떻게 이런 일이 발생합니까? 그들은 데이터 세트를 던졌습니다. 나는 그것에 대해 네트워크를 훈련시켜야 합니다. 속임수인 것 같은데, 기능 선택을 하셔야 합니다)

https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
막심 드미트리예프스키 :


저것들. 어떻게 이런 일이 발생합니까? 그들은 데이터 세트를 던졌습니다. 나는 그것에 대해 네트워크를 훈련시켜야 합니다. 속임수인 것 같은데, 기능 선택을 하셔야 합니다)

https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-data-science-select-features

등록 반 페이지에서 규칙을 읽으십시오. 세트를 다운로드하고, 학습하고, 테스트용으로 실행하고 그들에게 보내십시오. ID와 열 이름이 자신과 같도록 결과가 어떻게 보여야 하는지에 대한 예가 있습니다.
 
알료샤 :
등록 반 페이지에서 규칙을 읽으십시오. 세트를 다운로드하고, 학습하고, 테스트용으로 실행하고 그들에게 보내십시오. ID와 열 이름이 자신과 같도록 결과가 어떻게 보여야 하는지에 대한 예가 있습니다.

예, 나중에 시도하겠습니다. 간단히 말해서 이 데이터 세트는 아무 것도 저장하지 않으며 희망이 없으며 패턴이 없습니다)
 

numerai의 규칙은 올해 두 번 변경되었습니다.

이전에는 쉽고 좋았습니다. 기차 테이블에서 모델을 훈련하고, 테스트 테이블에서 오류를 확인하고, 예측을 보내고, 숨겨진 검사 테이블로 추정하고, 오류를 계산합니다. 숨겨진 테이블에서 오류가 가장 적은 사람이 승리합니다. 테스트 데이터 세트의 오류가 숨겨진 데이터 세트의 오류와 실제로 일치하는 것이 매우 좋았고 정확했습니다. 모델을 확인할 수 있습니다.

그런 다음 그들은 무언가를 변경했고 테스트 테이블의 오류는 더 이상 숨겨진 테스트 테이블의 오류와 상관 관계가 없습니다. 정상의 모든 지도자가 사라졌습니다. 무작위로 사람들이 승리하기 시작했고 운 좋게도 모델을 숨겨진 체크리스트에 넣었습니다. IMHO는 경쟁이 아닌 임의의 찌꺼기 인 numerai에서 실패합니다.

그런 다음 그들은 모든 적절한 것이 무작위 경쟁에서 버려지고 실수를 깨닫고 다시 무언가를 변경하는 것을 보았습니다. 이제 예측은 여러 기준에 따라 평가됩니다. 무엇보다도 "고유성" 기준이 저를 화나게 합니다. 누군가 이전에 비슷한 결과를 보낸 적이 있다면 귀하의 결과는 표절로 거부될 것입니다. 저것들. 여러 사람이 동일한 프레임워크를 사용하여 모델을 만드는 경우 일찍 일어나서 예측을 보낸 사람이 돈을 가져갈 것입니다.
이제 모델의 정확도는 이익을 계산할 때 일반적으로 쓸모가 없습니다. 오류 0이 발생하고 상단에서 1위가 되지만 상단은 다운로드를 위해 제공한 테스트 데이터의 결과를 표시하고 상단은 더 이상 숨겨진 체크리스트의 결과를 표시하지 않기 때문에 아무 것도 얻지 못할 수 있습니다.
그들의 경쟁의 현재 반복은 IMHO 넌센스, 투명성 없음, 모든 것이 혼란스럽습니다. 나는 그들이 대회에서 다시 뭔가를 바꾸기를 기다리고 있는데, 그것이 다시 적절하기를 바랍니다.

 
막심 드미트리예프스키 :

예, 나중에 시도하겠습니다. 간단히 말해서 이 데이터 세트는 아무 것도 저장하지 않으며 희망이 없으며 패턴이 없습니다)
이 테이블을 사용해보십시오. data_type=="validation"인 행에서만 모델을 훈련시키십시오. 모델을 평가하고 정상에 오르기 위해 사용되는 데이터입니다. 100% 정확도를 달성하면 상위 1위가 됩니다. 그런 치트에 대한 상금은 주어지지 않을 것입니다.
파일:
 
박사 상인 :
이 테이블을 사용해보십시오. data_type=="validation"인 행에서만 모델을 훈련시키십시오. 모델을 평가하고 정상에 오르기 위해 사용되는 데이터입니다. 100% 정확도를 달성하면 상위 1위가 됩니다. 그런 치트에 대한 상금은 주어지지 않을 것입니다.

오 좋아, 내일 해볼게.. 훈련하기 딱 좋음)
 
박사 상인 :
이 테이블을 사용해보십시오. data_type=="validation"인 행에서만 모델을 훈련시키십시오. 모델을 평가하고 정상에 오르기 위해 사용되는 데이터입니다. 100% 정확도를 달성하면 상위 1위가 됩니다. 그런 치트에 대한 상금은 주어지지 않을 것입니다.


다시 0.5



 

훈련 및 평가 데이터 세트의 결과가 어떻게 일치하는지 이해하는 것이 중요합니다. 거기에 분할 데이터 세트 블록이 있습니다. 논리적으로(제가 틀릴 수도 있음) 데이터가 무작위로 두 그룹으로 나뉘고, 모델은 첫 번째 그룹에서 훈련되고, 모델은 두 번째 그룹에서만 예측하고 평가합니다.

훈련이 진행 중인 것과 동일한 데이터를 예측하면 결과는 어떻게 됩니까?
그런 다음 훈련이 진행되지 않은 데이터를 예측하고 두 경우 모두 모델의 정확도를 비교합니다.

훈련된 데이터에 대해 100% 정확도로, 추정된 데이터에 대해 50% 정확도로 예측하면 모델이 너무 많이 과대적합되어 좋지 않습니다.

 
박사 상인 :

훈련 및 평가 데이터 세트의 결과가 어떻게 일치하는지 이해하는 것이 중요합니다. 거기에 분할 데이터 세트 블록이 있습니다. 논리적으로(제가 틀릴 수도 있음) 데이터가 무작위로 두 그룹으로 나뉘고, 모델은 첫 번째 그룹에서 훈련되고, 모델은 두 번째 그룹에서만 예측하고 평가합니다.

훈련이 진행 중인 것과 동일한 데이터를 예측하면 결과는 어떻게 됩니까?
그런 다음 훈련이 진행되지 않은 데이터를 예측하고 두 경우 모두 모델의 정확도를 비교합니다.

훈련된 데이터에 대해 100% 정확도로, 추정된 데이터에 대해 50% 정확도로 예측하면 모델이 너무 많이 과대적합되어 좋지 않습니다.


50%는 연습생에 대해서도 예측하고 분할 날짜를 제거하고 테스트와 동일한 세트를 제출했습니다.

음, 첫째, 여기 집합이 매우 크고 둘째, 기능의 특성이 전혀 알려져 있지 않고 벡터 및 숲과 같은 선형 모델은 분명히 여기에 적합하지 않습니다. 복잡한 비 네트워크를 만들어야합니다. 아마도 이것은 이유입니다. 나는 아직 이 스튜디오의 뉴런을 더 복잡한 것으로 수정하는 방법을 알지 못했습니다. 예를 들어 convolution은 다음을 시도합니다.

여기에서: https://gallery.cortanintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

읽어볼게, 해볼게.. 아직 그리드의 바보야.. )

사유: