신경망 - 페이지 3

 
joo >> :

목적 함수 E(w1,w2)의 최소화/최대화의 의미는 전역 극값을 찾는 것입니다. 그리고 이러한 전지구적 극단값이 여러 개라면 NN 중 어느 쪽이 해당하는지가 우리에게 어떤 차이를 만들까요?

설상가상으로 지역 최소값/최대값 중 하나에 갇히게 되는 경우입니다. 그러나 이것은 더 이상 NN의 문제가 아닙니다. 이것은 최적화 알고리즘 문제입니다.


설명된 gpwr - 방법이 없습니다.


모든 로컬 최소값이 깊이가 동일하므로 전역적이라면 네트워크가 끝나는 위치는 중요하지 않다는 데 동의합니다. 그러나 내가 제공한 잡음 계열이 있는 네트워크의 단순화된 버전의 경우 표면 E(w1,w2)의 꼭짓점에도 로컬 최소값이 존재합니다. 따라서 계곡에서 끝나기 위해서는 초기 값에 대한 여러 옵션이 있는 유전자 최적화 또는 경사하강법이 필요합니다. 내 예제는 많은 수의 국소 최소값과 복잡한 (긴) 학습 프로세스로 이어지는 신경망의 병렬 수학적 장치를 설명하기 위한 것입니다. 이 학습 프로세스는 종종 다양한 최적화 방법을 사용하는 여러 단계로 구성됩니다. 전역(유전 알고리즘, 차등 진화, 입자 떼 최적화, 개미 군체 최적화) 및 로컬(경사 하강, 켤레 기울기, Levenberg-Marquardt, BFGS) 및 시간이 오래 걸립니다. .

신경망의 수학은 Kolmogorov 정리를 기반으로 합니다. n 변수 x[1]..x[n]의 모든 연속 함수는 단위 세그먼트의 연속 및 단조 매핑의 2n+1 중첩의 합으로 나타낼 수 있습니다.


모든 연속 함수는 무한 테일러 급수로 나타낼 수도 있습니다.


거듭제곱 급수는 Taylor 급수의 단순화된 버전입니다.



미지의 함수를 거듭제곱 급수로 나타내는 것은 신경망보다 수학적으로 더 간단합니다. 아래에서 설명합니다.

첫 번째 순서의 거듭제곱 급수를 살펴보겠습니다.


(1) y = f(x[1]..x[n]) = a[0] + sum(a[i]*x[i], i=1..n)


이것은 선형 함수가 아닌 다른 것입니다. y,x[1],..,x[n]이 같은 계열의 구성원이면 선형 자기회귀(AR) 모델이 있습니다. 단일 계층 신경망도 동일한 모델로 설명됩니다(1).

이제 2차 거듭제곱 급수를 살펴보겠습니다.


(2) y = f(x[1]..x[n]) = a[0] + sum(a[i]*x[i], i=1..n) + sum(b[i, j]*x[i]*x[j], i=1..n,j=1..n)


등. 거듭제곱 모델의 알려지지 않은 매개변수는 각각에 대한 함수 f(x[1]..x[n])의 편도함수인 계수 a[i],b[i,j],..입니다. x[i]를 입력합니다. 또한 모델의 출력은 이러한 계수의 선형 함수인 반면 동일한 출력은 입력 x[1]..x[n]의 비선형 함수입니다. 모델 a[i],b[i,j],..의 계수는 신경망 훈련의 경우와 같이 제곱 오차의 합을 최소화하여 찾습니다.


E(a[i],b[i,j],..) = sum( (t[k]-y[k])^2, k=1..p)


그러나 신경망의 경우 비선형 최소제곱법을 얻고 거듭제곱 급수의 경우 선형 최소제곱법을 얻습니다. 이 방법은 아주 간단하게 해결됩니다. E의 도함수를 찾습니다(a [i], b [i, j], ..) 각 계수 a[i],b[i,j],..에 의해 0으로 동일시합니다. 우리는 미지수 a[i],b[i,j],..를 가진 선형 대칭 방정식 시스템을 얻습니다. 이것은 Cholesky 방법으로 해결됩니다.

Kolmogorov 방법(신경망)과 비교하여 거듭제곱 시리즈 방법의 장점은 다음과 같습니다.

1. 훨씬 쉽고 빠른 모델 훈련: 단 한 번의 반복. 신경망 훈련은 다양한 최적화 방법을 조합하여 1000-100000번의 반복으로 수행됩니다.

2. 거듭제곱 급수를 학습한 결과는 명확합니다. 즉, 로컬 및 글로벌 모두인 하나의 최소값입니다. 순차 신경망 훈련은 다른 지역 최소값으로 이어지며, 이는 동일한 프로세스(시계열)의 다른 가중치와 다른 모델을 의미합니다.

아래는 "잡음이 많은" 훈련 데이터 t[k] = cos(x[k]) + rnd가 있는 거듭제곱 급수 y = a*x + b*x^2에 대한 표면 E(a,b)입니다.


신경망과 달리 여기에는 최소값이 하나만 있습니다.

거듭제곱에 기반한 비선형 모델의 단점은 거듭제곱의 차수가 증가함에 따라 계수 수가 급격히 증가한다는 것입니다. n이 입력 수(x[1]..x[n])라고 가정해 보겠습니다. 계수 nc의 수는 다음 공식에 의해 결정됩니다.

차수 = 1, nc = n+1

차수 = 2, nc = (n+1)*(n+2)/2

차수 = 3, nc = (n+1)*(n+2)*(n+3)/6

차수 = 4, nc = (n+1)*(n+2)*(n+3)*(n+4)/24

...

예를 들어, 12개의 입력이 있는 3차 프로세스 모델에는 455개의 계수가 있습니다. 그들의 발견 속도는 여전히 가중치가 더 적은 신경망의 학습 속도를 능가합니다. 여기서 문제는 거듭제곱 급수의 훈련 속도를 늦추는 것이 아니라 충분한 수의 훈련 세트 x[1..n][k],t[k]를 찾는 데 있으며, 이는 순서대로 모델 계수의 수를 초과해야 합니다. 변성을 피하기 위해. 실제로는 2차 또는 3차 거듭제곱 급수가 만족스러운 결과를 제공합니다.

 
gpwr >> :

저는 아직 그리드에 익숙하지 않아서 권위적으로 말할 수는 없지만,

하지만 포럼의 모든 메쉬 애호가는 선형 솔버(선형 방정식 시스템) 외에는 아무것도 하지 않으려고 합니다.

그런 다음 솔루션에 예측 불가능성을 도입하기 위해 입력과 출력을 반복하여 조정합니다(결국 결과는 완전 쓰레기입니다).


다른 사람들이 하는 일을 생각하고 이해하려고 노력하면서 나도 당신과 같은 결론에 이르렀습니다.

그러나 이런 식으로 해결하면 다음 질문에 답할 수 없습니다.

그러나 이 시스템에 뿌리가 없는 새로 수신된 데이터는 BUY 또는 SELL입니다.

모델을 정의하는 기능이 없기 때문입니다.


음영 영역에서 메쉬를 훈련시키십시오.

이 영역의 좌표가 입력될 때 그리드가 1을 제공하고 음영 처리되지 않은 영역의 좌표에 대해 0을 제공하도록 TE를 훈련합니다.

각 뉴런의 출력에는 훈련에 따라 상태를 취해야 하는 분류기가 있어야 합니다.

d보다 크면 true이고 d보다 작으면 true입니다(d는 각각 임계값임). (잘못된 부분이 있으면 엄밀히 판단하지 마세요)

 
gpwr >> :

신경망을 주의 깊게 연구하고 경사하강법에서 유전학에 이르기까지 다양한 학습 알고리즘을 사용한 결과 신경망의 수학적 장치가 이상적이지 않다는 결론에 도달했습니다.

이상을 손에 넣을 필요는 없습니다. 이 모든 것은 시장 진입의 신뢰성을 높이기 위해 몇 퍼센트의 움직임을 놓칠 수 있는지에 대한 질문과 일치합니다. 이상적으로는 100% 지그재그 ;-)를 따르고 싶습니다. 실제로 각 가장자리에 대해 최소 50%를 취하면 많은 사람들에게 성배가 될 것입니다.

사용 가능한 정보로 판단하면 그리드는 여전히 작동합니다. 모호성 문제는 구성, 메쉬 크기 및 초기화를 선택하여 해결됩니다. 원칙적으로 local minima 문제도 해결됩니다 - annealing 방법이나 동일한 유전적 방법(지역 계곡에서 뛰어내리는 것과 같은 "나쁜 유전자"를 받아들일 확률을 선택하지 않습니까?) 플러스, 그리드 위원회가 하나가 아니라 일하고 있다는 사실을 잊어서는 안 됩니다. 더 넓게 보면 모든 것이 지도 학습을 통해 완전히 연결된 역전파 그리드로 제한됩니까? 예를 들어 인용 부호와 신호를 입력 벡터로 유도하고 이를 코호넨에 적용해 보는 것은 어떻습니까?

 
gpwr писал(а) >>

안정적인 수익을 가져다주는 네트워크가 있나요?

"안정된 이익"이란 무엇을 의미합니까?

 
marketeer >> :

이상을 손에 넣을 필요는 없습니다. 이 모든 것은 시장 진입의 신뢰성을 높이기 위해 몇 퍼센트의 움직임을 놓칠 수 있는지에 대한 질문과 일치합니다. 이상적으로는 지그재그 ;-)를 따라 100%를 취하고 싶습니다. 실제로 각 가장자리에 대해 최소 50%를 취하면 많은 사람들에게 성배가 될 것입니다.

사용 가능한 정보로 판단하면 그리드는 여전히 작동합니다. 모호성 문제는 구성, 메쉬 크기 및 초기화를 선택하여 해결됩니다. 원칙적으로 local minima 문제도 해결됩니다 - annealing 방법이나 동일한 유전적 방법(지역 계곡에서 뛰어내리는 것과 같은 "나쁜 유전자"를 받아들일 확률을 선택하지 않습니까?) 플러스, 그리드 위원회가 하나가 아니라 일하고 있다는 사실을 잊어서는 안 됩니다. 더 넓게 보면 모든 것이 지도 학습을 통해 완전히 연결된 역전파 그리드로 제한됩니까? 예를 들어 인용 부호와 신호를 입력 벡터로 유도하고 이를 코호넨에 적용해 보는 것은 어떻습니까?


당신은 내 추론의 본질을 잘못 이해했습니다. 나는 훈련되지 않은 네트워크와 거래 결과 사이의 관계에 대해 이야기하지 않았습니다. 테스트 샘플의 오류가 더 이상 감소하지 않을 때까지 네트워크를 훈련해야 한다는 내용이 어디에나 기록되어 있습니다. 나는 Yatim에 동의하며 이 주제에 대해 논쟁하고 싶지 않습니다. 내 추론의 핵심은 네트워크의 병렬 구조가 최적화의 복잡성으로 이어지는 방법과 거듭제곱 계열을 기반으로 하는 비선형 모델이 신경망과 동일한 목표를 달성할 수 있지만 훨씬 더 간단한 수학적 장치와 빠른 학습 과정을 통해 명확한 결과를 얻을 수 있습니다. .

네트워크 위원회에 관해서는 내 의견이 있습니다. 이 모든 것이 쓸모가 없습니다. 다음은 네트워크 위원회를 믿는 모든 사람들을 위한 질문입니다. 하나의 네트워크가 60%의 경우에 올바른 신호를 제공한다고 가정해 보겠습니다. 다른 네트워크는 60%의 경우에도 올바른 신호를 제공합니다. 이제 이 두 네트워크를 결합하고 두 네트워크에서 동시에 선택한 올바른 신호를 계산해 보겠습니다. 즉, 두 네트워크 모두 "매수" 또는 "매도"를 나타내면 해당 신호 "매수" 또는 "매도"가 발행됩니다. 한 네트워크가 "매수"를 발행하고 다른 네트워크가 "매도"를 발행하면 신호가 발행되지 않습니다. 이 신호가 정확할 확률은 얼마입니까?

같은 질문을 다른 방식으로 공식화할 수 있습니다. 우리는 모든 사람들이 "화성에 생명체가 있다면?"이라는 질문에 대해 투표하는 과학자 회의를 합니다. 생물학적 관점에서. 유권자의 60%가 질문에 올바르게 답했습니다. (그런데, 저는 스스로 답을 모릅니다.) 우리는 같은 문제에 대해 투표를 하는 다른 과학자들의 모음을 취하지만, 천문학적인 관점에서 보면 그 중 60%만이 맞다. 그런 다음 우리는 두 회의(생물학자와 천문학자)를 하나로 결합하고 같은 질문을 합니다. 어떤 기적에 의해 답의 정확성이 60% 이상 증가한다고 말하면 통계를 연구해야 합니다.

 
gpwr писал(а) >>

당신은 내 추론의 본질을 잘못 이해했습니다. 나는 훈련되지 않은 네트워크와 거래 결과 사이의 관계에 대해 이야기하지 않았습니다. 테스트 샘플의 오류가 더 이상 감소하지 않을 때까지 네트워크를 훈련해야 한다는 내용이 어디에나 기록되어 있습니다. 나는 Yatim에 동의하며 이 주제에 대해 논쟁하고 싶지 않습니다. 내 추론의 핵심은 네트워크의 병렬 구조가 최적화의 복잡성으로 이어지는 방법과 거듭제곱 계열을 기반으로 하는 비선형 모델이 신경망과 동일한 목표를 달성할 수 있지만 훨씬 더 간단한 수학적 장치와 빠른 학습 과정을 통해 명확한 결과를 얻을 수 있습니다. .

네트워크 위원회에 관해서는 내 의견이 있습니다. 이 모든 것이 쓸모가 없습니다. 다음은 네트워크 위원회를 믿는 모든 사람들을 위한 질문입니다. 하나의 네트워크가 60%의 경우에 올바른 신호를 제공한다고 가정해 보겠습니다. 다른 네트워크는 60%의 경우에도 올바른 신호를 제공합니다. 이제 이 두 네트워크를 결합하고 두 네트워크에서 동시에 선택한 올바른 신호를 계산해 보겠습니다. 즉, 두 네트워크 모두 "매수" 또는 "매도"를 나타내면 해당 신호 "매수" 또는 "매도"가 발행됩니다. 한 네트워크가 "매수"를 발행하고 다른 네트워크가 "매도"를 발행하면 신호가 발행되지 않습니다. 이 신호가 정확할 확률은 얼마입니까?

같은 질문을 다른 방식으로 공식화할 수 있습니다. 우리는 모든 사람들이 "화성에 생명체가 있다면?"이라는 질문에 대해 투표하는 과학자 회의를 합니다. 생물학적 관점에서. 유권자의 60%가 질문에 올바르게 답했습니다. (그런데, 저는 스스로 답을 모릅니다.) 우리는 같은 문제에 대해 투표를 하는 다른 과학자들의 모음집을 취하지만, 천문학적인 관점에서 그 중 60%만 맞다. 그런 다음 우리는 두 회의(생물학자와 천문학자)를 하나로 결합하고 같은 질문을 합니다. 어떤 기적에 의해 답의 정확성이 60% 이상 증가한다고 말하면 통계를 연구해야 합니다.

예시가 별로...

알고리즘 구성(위원회)을 구축하는 방법에는 여러 가지가 있습니다. 당신은 투표를 제안합니다. 제 경험에 따르면 그것이 최선의 방법과는 거리가 멀고 간단한 무게 측정이 종종 더 낫다고 말할 수 있습니다.

단순 가중치가 도움이 되지 않으면 모든 기본 알고리즘에 대한 오류 함수는 동일 -> 계통 오류 입니다. 자기 상관(FunkOsh[i]||FunkOsh[i+1])은 일반적으로 0.8보다 큽니다. 그리고 기본 알고리즘의 오류 함수의 상관 관계는 1에 가까운 경향이 있지만, 그 대가로 무엇을 개선해야 합니까? 위원회는 기본 알고리즘이 서로를 보상할 것이라고 믿으며 구축됩니다. 최소한 어느 정도의 이점이 있으려면 오류 기능 간에 상관 관계가 없어야 합니다.

그리고 AdaBoost를 잊지 마십시오. 실제로 작동하지만 자체 함정이 있습니다.

 
gpwr >> :

이 포럼에 있는 대부분의 신경작가들이 그렇듯이, 당신은 선생님 없이 배우는 것에 대해 남겨진 댓글로 판단해 잊었을 것입니다. 왜, 거래에서 NN을 사용한다면, NN에게 무언가를 가르쳐야 하는 이유는 무엇입니까? 우리는 거래 방법을 적절하게 스스로 가르칠 수 없습니다. 네트워크 위원회에 대해 이야기할 때 각 NN이 서로 독립적으로 훈련된다는 것을 의미합니까? 그리고 왜 그들은 서로 신호를 별도로 제공합니까? NN을 구축할 때, 그리고 NN 위원회는 더욱 그렇습니다. 유일한 올바른 솔루션은 "비지도 학습"입니다. 뇌에는 뇌의 여러 부분과 12개 이상의 하위 부분이 있습니다. 각각은 기능을 수행하여 외부 정보를 처리합니다. 그리고 이 "위원회"의 소유자가 결정합니다. 어떻게 작동합니까? 이것은 네트워크 위원회가 서로 협력하여 기능해야 하기 때문에 가능합니다. 복합물에서는 그렇지 않으면 "분할된 성격"이 발생합니다.

 
StatBars >> :

나보다 약간 앞서있다 :)

 
gpwr >> :

네트워크 위원회에 관해서는 내 의견이 있습니다. 이 모든 것이 쓸모가 없습니다. 다음은 네트워크 위원회를 믿는 모든 사람들을 위한 질문입니다. 하나의 네트워크가 60%의 경우에 올바른 신호를 제공한다고 가정해 보겠습니다. 다른 네트워크는 60%의 경우에도 올바른 신호를 제공합니다. 이제 이 두 네트워크를 결합하고 두 네트워크에서 동시에 선택한 올바른 신호를 계산해 보겠습니다. 즉, 두 네트워크 모두 "매수" 또는 "매도"를 나타내면 해당 신호 "매수" 또는 "매도"가 발행됩니다. 한 네트워크가 "매수"를 발행하고 다른 네트워크가 "매도"를 발행하면 신호가 발행되지 않습니다. 이 신호가 정확할 확률은 얼마입니까?

같은 질문을 다른 방식으로 공식화할 수 있습니다. 우리는 모든 사람들이 "화성에 생명체가 있다면?"이라는 질문에 대해 투표하는 과학자 회의를 합니다. 생물학적 관점에서. 유권자의 60%가 질문에 올바르게 답했습니다. (그런데, 저는 스스로 답을 모릅니다.) 우리는 같은 문제에 대해 투표를 하는 다른 과학자들의 모음을 취하지만, 천문학적인 관점에서 보면 그 중 60%만이 맞다. 그런 다음 우리는 두 회의(생물학자와 천문학자)를 하나로 결합하고 같은 질문을 합니다. 어떤 기적에 의해 답의 정확성이 60% 이상 증가한다고 말하면 통계를 연구해야 합니다.

올바른 신호의 확률 (0.6 * 0.6) / (0.6 * 0.6 + 0.4 * 0.4) \u003d 69.23%, 이것은 이론상입니다)

과학자 모임의 예는 올바르지 않습니다. 확률에서 평균으로.

통계 외에도 수학의 다른 재미있는 부분이 있습니다 :)

 
gpwr писал(а) >> 테스트 샘플의 오류가 더 이상 줄어들지 않을 때까지 네트워크를 훈련해야 한다는 내용이 어디에나 기록되어 있습니다.

사실 모든 것이 훨씬 더 복잡합니다. 테스트 샘플에서 최소 오류로 훈련하면 네트워크가 과도하게 훈련될 가능성이 큽니다.....

사유: