트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1980

 
발레리 야스트렘스키 :
기억은 어떻게 구성되어 있습니까?

어디에 따라

바로 이해가 되셨다면 설명을 기다리겠습니다 :)

http://peterbloem.nl/blog/transformers

Transformers from scratch
  • peterbloem.nl
I will assume a basic understanding of neural networks and backpropagation. If you’d like to brush up, this lecture will give you the basics of neural networks and this one will explain how these principles are applied in modern deep learning systems. Self-attention The fundamental operation of any transformer architecture is the self-attention...
 

안녕하세요 여러분, 포럼 스레드에 직접 영상을 올리지 않고 제 블로그에 올렸습니다. ATTENTION 시장에 정말로 관심이 있는 사람들을 위한 규범적 어휘가 아닙니다 ...

https://www.mql5.com/en/blogs/post/739164

Говорим и показываем о рынке
Говорим и показываем о рынке
  • www.mql5.com
Оказывается пьяным меня смотреть ещё интересней. ВНИМАНИЕ в видео используется не нормативная лексика так что уберите детей от экрана телевизора. Ну и говорим собственно о рынке
 
마이클 마르쿠카이테스 :

안녕하세요 여러분, 포럼 스레드에 직접 영상을 올리지 않고 제 블로그에 올렸습니다. ATTENTION 시장에 정말로 관심이 있는 사람들을 위한 규범적 어휘가 아닙니다 ...

https://www.mql5.com/en/blogs/post/739164

직접 어필하는 맥심도 있어요!!!!!
 
막심 드미트리예프스키 :

그전에는 숲속만 헤매고 NN키 안썼는데.....

예, 저도 똑같습니다... 그래서 블록 다이어그램에 대해 이야기하는 이유는 적어도 이미지 수준에서 무엇이 작동하는지 이해할 수 있도록

 
mytarmailS :

예, 저도 똑같습니다... 그래서 블록 다이어그램에 대해 이야기하는 이유는 적어도 이미지 수준에서 무엇이 작동하는지 이해할 수 있도록

코호넨(VQ)의 층이 무엇인지 2일 동안 붙였습니다

그러나 이것은 단지 원시적인 자동 인코더임이 밝혀졌습니다.

블라디미르는 기사에서 그들에 대해 썼습니다.
 
막심 드미트리예프스키 :

어디에 따라

바로 이해가 되셨다면 설명을 기다리겠습니다 :)

http://peterbloem.nl/blog/transformers

내가 만들 수 없는 것은 이해할 수 없다고 Feynman은 말했습니다.

곱하는 것이 더하는 것보다 낫고 기호가 고려됩니다. 일반적으로 인수의 곱과 이것의 결과가 무언가) 단일 회계 기능이라고 가정해 보겠습니다.

요청, 키 및 값이 어떻게 구성되어 있는지 잘 이해되지 않습니다.

유사 병렬 처리 유형 및 훈련된 데이터에 대한 액세스와 입력 및 출력 결과 벡터의 스칼라 곱 간의 주요 차이점은 자가 주의라고 합니다. 이것에 뭔가가 있습니다. 그런 다음 이러한 스칼라 곱의 행렬이 훈련에 사용됩니다. 그리고 무게가 아닙니다.

나는 기사에서 짧고 긴 기억을 찾지 못했습니다.

일반적으로 추가 수정 매트릭스가 생성됩니다.

저는 옳다고 주장하지 않습니다.

 
발레리 야스트렘스키 :

내가 만들 수 없는 것은 이해할 수 없다고 Feynman은 말했습니다.

곱하는 것이 더하는 것보다 낫고 기호가 고려됩니다. 일반적으로 인수의 곱과 이것의 결과가 무언가) 단일 회계 기능이라고 가정해 보겠습니다.

요청, 키 및 값이 어떻게 구성되어 있는지 잘 이해되지 않습니다.

유사 병렬 처리 유형 및 훈련된 데이터에 대한 액세스와 입력 및 출력 결과 벡터의 스칼라 곱 간의 주요 차이점은 자가 주의라고 합니다. 이것에 뭔가가 있습니다. 그런 다음 이러한 스칼라 곱의 행렬이 훈련에 사용됩니다. 그리고 무게가 아닙니다.

나는 기사에서 짧고 긴 기억을 찾지 못했습니다.

일반적으로 추가 수정 매트릭스가 생성됩니다.

저는 옳다고 주장하지 않습니다.

이것은 다른 알고리즘입니다(지금 가장 멋진 것처럼). lstm에서와 같이 길고 짧은 메모리에 대한 정의가 없습니다.

길고 짧은 것은 lstm 셀이 어떻게 작동하는지 보기 위한 것입니다.

 
막심 드미트리예프스키 :

코호넨(VQ)의 층이 무엇인지 2일 동안 붙였습니다

그러나 이것은 단지 원시적인 자동 인코더임이 밝혀졌습니다.

블라디미르는 기사에서 그들에 대해 썼습니다.

Vladimir는 VQ에 대해 구체적으로 썼습니까? 또는 단순히?

그러나 메모리는 어떻습니까? 그녀는 그곳에서 어떻게 일합니까? , 영구적입니까 아니면 창에서 작동합니까(지표로), 정적입니까 아니면 재훈련입니까?

스캐폴딩과 유사한 작업을 수행할 수 있습니까?

백만 가지 질문이 있습니다

 
막심 드미트리예프스키 :

이것은 다른 알고리즘입니다(지금 가장 멋진 것처럼). lstm에서와 같이 길고 짧은 메모리에 대한 정의가 없습니다.

길고 짧은 것은 lstm 셀이 어떻게 작동하는지 보기 위한 것입니다.

아. 글쎄, 내가 이해하는 한 때때로 자기주의와 자원이 있습니다. 일반적으로 네트워크 아키텍처를 확장하면 성능이 어느 정도 향상됩니다. 여기에서 내가 이해하는 것처럼 다른 네트워크 논리의 조합과 확장을 통한 네트워크의 복잡성)) 그리고 그에 따라

변환기 학습의 병목 현상은 자기 주의의 내적 행렬입니다.   시퀀스 길이의 경우 는 다음을 포함하는 조밀한 행렬입니다.   t 제곱 요소.   표준 32비트 정밀도와   =   1000 16개의 이러한 매트릭스 배치에는 약 250MB의 메모리가 필요합니다.   단일 self-attention 작업을 위해 최소 4개(softmax 전후, 그라디언트 포함)가 필요하기 때문에 표준 GPU에서 최대 12개의 레이어로 제한되고 12GB를 차지합니다.

 
막심 드미트리예프스키 :

도쿠유 공부하고 이해하기 전에 생각해야지..

뇌를 위한 비타민을 사서 덜 마셔야 할 수도 있습니다)

아직 잘 모르겠어) 하지만 생각보다 어렵지는 않아

글쎄, 여기에서 우리는 다시 일반적인 블록 다이어그램으로 돌아갑니다. 먼저 이미지 수준에서 이해가 가능하도록 그려야합니다 ...

유형 -

첫 번째 분류기 (그것은 이것, 저것, 저것을 한다)

그런 다음 캐스터 를 출력에 연결합니다)) (이 작업을 수행합니다)

그런 다음 우리는 거기에서 무언가를 고려합니다 (그는 이것, 저것, 저것을 합니다)

캐스터 에게 다시 종료

등...


그리고 용어도 모르는 복잡한 헛소리를 즉시 읽으면 어떻게됩니까? 일반적으로 시장에 적합하다는 사실이 아닙니다 ...

따라서 정확히 해당 알고리즘의 작동 원리를 이해해야 하며, 제가 지적한 대로 블록 다이어그램 수준에서 정확히 무엇을 이해해야 하는지 알아야 합니다. 그러면 무엇이 무엇이고 무엇이 무엇인지에 대한 이해가 있을 것이며, 이해가 있을 때 무엇을 어떻게 개선할 수 있는지에 대한 이해가 있을 것입니다.

사유: