市場のエチケット、あるいは地雷原でのマナー - ページ 81

 
この四捨五入を行う際、分布の中で0に等しい値の数を2で割ることを忘れないでください。
 
はい、わかりました(+/-0)。
 
Neutron >> :

ポイントは、同じトレーニングサンプルの統計データを打ち込むのではなく、1サイクルごとに1サンプルずつずらしていることです。そのため、学習結果が一致しないことがあります。なぜそうしたのかは覚えていませんが、本質は変わりません。どうやら、市場の準定常的なプロセスを示し、その影響を学習速度に反映させたかったようです。

同じ学習用サンプルで10回の実験を平均化した場合の結果を示します(図左)。

初期化回数がゼロのウェイトには統計的なばらつきがないことがわかります。

右の図は、12入力、隠れ層に5ニューロン、出力に1ニューロンというネットワークアーキテクチャで、学習サンプルが120サンプル、つまりあなたのケースをコピーしたものです。統計は50回の独立した数値実験から集めたものである。また、すべて正常に動作しています。

いや、最初の始値差を入力にしたのです(文脈から明らかだと思ったので)。平均がゼロであることは明らかです。次の差の振幅と符号を予測した。

定理については、私は好きでした。しかし、それは特殊なケースとして、私たちのネットワークに関係しているのです

あなたは、トレーニングサンプルの長さが無限大に傾いている場合の退化したケースを証明しました。この場合、MOがゼロのSVを表す入力データのベクトルに対して、重みがゼロになります - 統合されたSVの明日の最適な予測は、今日の現在の値ですしかし,有限長の学習サンプルを取れば,学習された重みは誤差の二乗を最小にする平衡状態に向かう.この言葉を証明する例として、SLAE(同じNS)の場合を考えてみましょう。この場合,重みは一意に定義され,学習サンプルに対する学習誤差は同値で0になり(未知数の数は方程式の数に等しい),重み(未知数における係数)は明らかに0にならない.

私の定理に対するコメントに同意します。実際、トレーニングセットのセット数を減らすと、重みがゼロから外れてしまう。しかし、相関を計算するために、無限の学習セットを使う必要はないので、この定理はネットワークにも適用できると思います。統計平均 R(m)=E{x[i]x[i+m]} は、利用可能なデータの合計(x[i]x[i+m])として算出される。この定理は、これらの和(相関)が0から有意に異なる場合にのみ、ネットワークが予測力を持つことを示す点で重要であり、そうでなければ、重みは0に収束してしまうのである。そのため、入力と出力の相関がゼロでない学習データを見つけることが重要である。相関の低い入力は、ネットワークの予測に役立たないので、捨てることができる。

私が理解する限り、上記のチャートにおけるあなたのトレーニングエラーは、2やトレーニングセットの数で割り切れるものではありません。そうなんですか?私のネットワーク上で貴社のインプットを実行し、すべてが正しく動作することを確認したいと思います。ネットワークの入出力に供給されたままファイルに保存して、ここに置いておいていただけませんか。データ量を減らすために、40サンプルの5-4-1ネットワークを使用することができます。

 

工事用カギと取引用シリーズの肩代わりを、異なるH


1.H=1(1スプレッド)


2.Н= 4


3. Н = 15


 
gpwr >> :

私の定理に対するコメントに同意します。実際、学習サンプルのセット数を減らすと、重みがゼロから外れてしまう。しかし、相関を計算するために、無限の学習セットを使う必要がないという理由で、この定理はネットワークに適用できると思います。統計平均 R(m)=E{x[i]x[i+m]} は、利用可能なデータの合計(x[i]x[i+m])として計算される。この定理は、これらの和(相関)が0から有意に異なる場合にのみ、ネットワークが予測力を持つことを示す点で重要であり、そうでなければ、重みは0に収束してしまうのである。そのため、入力と出力の相関がゼロでない学習データを見つけることが重要である。相関の低い入力は、ネットワークの予測に役立たないので、捨てることができる。

私の理解では、上記のグラフの学習誤差は、2で割ったりセット数で割ったりしていませんね。そうなんですか?私のネットワーク上で貴社のインプットを実行し、すべてが正しく動作することを確認したいと思います。ネットワークの入出力に供給されたままファイルに保存して、ここに置いておいていただけませんか。40サンプルの5-4-1ネットワークを使って、データを削減することができます。

エポックカウントを1000に増やし、ウェイトステップがすぐにフェードアウトしないようにiProp+の設定を微調整しました。また、学習誤差を2*エポック数で割ることを削除した。今では、よりNeutronに近い満足のいく結果が得られています。ランダムな重みの場合の学習誤差は、ゼロ重みの場合の2〜3倍であり、入出力間に相関があることを示している。しかし、エポック4から70まで、学習誤差がほとんど変化していないのは、やはり気に入らない。学習アルゴリズムの改良が必要です。市販のNSパッケージはほとんどiProp+を使っているので、このアルゴリズムは信頼しています。そうすると、遅くて複雑なMLとBFGSが残る。


 
gpwr >> :

私の定理に対するコメントに同意します。


あなたは数学が得意なのですから、市場のBP(BPではなく、一連のかぎ型取引)に対するネットワークの入力次元の最適化に関する別の定理を証明してみてはどうでしょうか。それは本当に役に立つことですよ。

 
paralocus >> :

数学が得意なのだから、市場のBP(できればBPではなく、一連のカギ取引)に対するネットワークの入力次元の最適化について、別の定理を証明してみたらどうだろう--それが本物だ!」。

試してみます。

 
gpwr писал(а)>>

私の定理に対するコメントに同意します。実際、トレーニングセットのセット数を減らすと、重みがゼロから外れてしまう。しかし、相関を計算するために、無限の学習セットを使う必要はないので、この定理はネットワークにも適用できると思います。統計平均 R(m)=E{x[i]x[i+m]} は、利用可能なデータの合計(x[i]x[i+m])として計算される。この定理は、これらの和(相関)が0から有意に異なる場合にのみ、ネットワークが予測力を持つことを示す点で重要であり、そうでなければ、重みは0に収束してしまうのである。そのため、入力と出力の相関がゼロでない学習データを見つけることが重要である。相関の低い入力は、ネットワークの予測に役立たないので、捨てることができる。

また、サンプル間には非線形相関があります。二層非線形NSでは引っかかり、あなたが証明した極限定理である線形識別器では引っかからないのです。

私が理解する限り、与えられたダイアグラムに対するトレーニングの誤差は、2やセット数で割り切れるものではありません。正しいですか?入力されたデータを私のネットワーク上で動作させ、すべてが正しく動作することを確認したいと思います。ネットワークの入出力に供給されたままファイルに保存して、ここに置いておいていただけませんか。40サンプルの5-4-1ネットワークを使って、データを削減することができます。

以下は、私が使用した入力のファイルです。

ファイル:
dif.zip  14 kb
 
Neutron >> :

また、サンプル間には非線形相関があります。二層非線形NSでは引っかかるが、あなたが証明した極限定理である線形識別器では引っかからない。

以下、入力データのファイルを添付しますが、これは私が使用したものです。

>> ありがとうございました。非線形相関については、いろいろと語られることがあります。もう少ししたら、感想を述べたいと思います。一方、「テトラガール」についての興味深い結論に興味をそそられます。未学習のネットワーク(「三女」)がサンプル外のデータでより正確な予測を示すという事実は、私を不安にさせる。未学習状態の分散は、学習状態の分散よりはるかに大きい。また、学習した状態がグローバルエントロピー最小(誤差の2乗)であれば、グローバル最小は1つだけなので、そのような状態の分散は0である。ネットワークには多くの非膨張状態が存在するため、同じ入力データに対して多くの異なる予測値が存在することになる。グラフを見ればわかると思います。全体として、興味深いが憂慮すべき結論である。

 

ここは、私自身も完全に理解しているわけではありません。

Alexander Ezhov,Sergey Shumsky"Neurocomputing")によると、汎化誤差Popt=w^2/ddは NSの入力次元、wは NSのすべての調整可能パラメータ数)が最小になる最適な長さが存在する。つまり、この観点から、P<Poptの 場合、NSは学習サンプルを「記憶」しているため、過学習であると言える。P>Poptの 場合、長さが長いとトレンドが反転する可能性が高くなり、サンプル間の相関が低下するため、あまり良いとは言えません。

一方、学習エポック数が過剰になるとNSが「引きずられ」、その結果、汎化誤差が再び大きくなり始めたり、引きずられなくなったり......ということがある。一般に、統計のセットを使って数値実験を行う必要がありますが、それ自体が非常に再帰的なものなのですでも、やらなければならないのです。学習ベクトルの最適な長さについて、上記の式を証明することで、事態はより簡単になります。gpwr、いじってみるか?