記事「ニューラルネットワークが簡単に(第17部):次元削減」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第17部):次元削減」はパブリッシュされました:

今回は、人工知能モデルについて引き続き説明します。具体的には、教師なし学習アルゴリズムについて学びます。クラスタリングアルゴリズムの1つについては既に説明しました。今回は、次元削減に関連する問題を解決する方法のバリエーションを紹介します。

主成分分析は、1901年にイギリスの数学者カール・ピアソンによって発明され、それ以来、多くの科学分野で成功裏に使用されてきました。

この手法の本質を理解するために、2次元データ配列の次元をベクトルに縮小することに関連する単純化されたタスクを使用することを提案します。幾何学的な観点から、これは平面の点の直線への投影として表すことができます。

下の図では、初期データは青い点で表されています。橙色と灰色の線上に2つの投影があり、対応する色の点があります。ご覧のとおり、最初の点から橙色の投影までの平均距離は、灰色の投影までの同様の距離よりも短くなっています。灰色の投影には、点の投影が重なっています。したがって、橙色の投影法は、すべての個々のポイントを分離し、次元(ポイントから投影までの距離)を縮小するときに失われるデータが少ないため、より好ましくなります。

このような線は主成分と呼ばれます。そのため、この方法は主成分分析と呼ばれます。

数学的な観点からは、各主成分は、サイズが元のデータの次元に等しい数値ベクトルです。1つのシステム状態を表す元のデータのベクトルと対応する主成分のベクトルの積は、分析された状態の投影点を直線上に生成します。

元のデータ次元と次元削減の要件によっては、複数の主成分が存在する場合がありますが、元のデータ次元を超えるものは存在しません。ボリュームの投影をレンダリングする場合、それらは3つになります。データを圧縮する場合、許容誤差は通常、データの最大1%の損失です。

主成分法

これは視覚的には線形回帰に似ていますが、これらはまったく異なる方法であり、異なる結果をもたらします。

作者: Dmitriy Gizlyk

 

Ещё одна область использования методов понижения размерности — это визуализация данных. К примеру, у Вас есть данные описания состояний некой системы, представленные 10 параметрами. И Вам необходимо найти способ визуализировать эти данные. Для восприятия человеком наиболее предпочтительными являются 2-х и 3-мерные изображения. Конечно, можно сделать несколько слайдов с различными вариациями 2-3 параметров. Но это не даст полного представления о картине состояний системы. И в большинстве случаев различные состояния в различных слайдах будут сливаться в 1-ну точку. И не всегда это будут одни и те же состояния.

従って、我々は、10個のパラメータから2次元または3次元空間にシステムのすべての状態を変換するのに役立つ、そのようなアルゴリズムを見つけたい。そして同時に、相互の位置を可能な限り保持したまま、システムの状態を分割する。そしてもちろん、情報の損失は最小限に抑えることができる。

ドミトリー、記事をありがとう!

この文章を読んで、3Dグラフを見ながら各軸のパラメータを順番に変えていく最適化の結果を 分析するプロセスをすぐに思い出したよ。結局のところ、私はパラメータの最適値だけでなく、他のパラメータへの影響も見たいのです。

この場合、主成分の方法は役に立つでしょうか?次元削減後のグラフはどのように見えるだろうか?そこから、各ポイントにおけるパラメータの値を抽出することは可能でしょうか?

 
Andrey Khatimlianskii 最適化の結果を 分析するプロセスをすぐに思い出したよ。結局のところ、あるパラメータの最適値だけでなく、他のパラメータへの影響も確認したいのです。

この場合、主成分の方法は役に立つでしょうか?次元削減後のグラフはどのように見えるだろうか?そこから、各点におけるパラメータの値をどのように抽出できるだろうか?

軸の位置が明確な場合(一義的に決定できる場合)には、はい、役に立ちます。位置のいくつかのバリエーションがあり、値が近い場合、最初の計算では軸の方向の結果が得られますが、これは常に正しいとは限りません。一般的に、次元削減は一様分布では機能しません。

ZY、この論文は信用に値するもので、著者は尊敬に値します。
 
Valeriy Yastremskiy #:

軸の位置が明確な場合(一義的に決定できる場合)には、はい、役に立ちますが、位置のいくつかのバリエーションがあり、値が近い場合、最初の計算は軸の方向の結果を与えますが、これは常に正しいとは限りません。一般的に、次元削減は一様分布では機能しません。

どうやら、この答えを理解するためには、その対象になる必要があるようだ。

ストラテジー・パラメータは軸上に配置され、それらは非常に異なる値を持ち、関連していることもあれば独立していることもあります。1つのチャートを分析し、すべての関係を一度に見たい。

 

「次元の削減」は、ほとんどの場合「サンプルの中で」しか機能しないことに気づかなければ、すぐに2次元の隅に追いやられることになる :)

しかし、この記事はPCAをMQLに移植するという点ではクールだ。
 
Andrey Khatimlianskii #:

どうやら、答えを理解するためには話題を提供する必要があるようだ。

ストラテジー・パラメーターは軸上に配置され、非常に異なる値を持つことも、関連することも、独立することもあります。私は1つのチャートを分析し、すべての関係を一度に見たいと思っています。

いいえ、PCAではすべての相関関係を一度に見ることはできません。PCAは最も強い相関を強調します。長期的な結果がパラメータに依存しない、つまり一定である場合、PCAは役に立たない。結果に対するパラメータの影響が段階的であったり、波のように一定であったりする場合は、もちろん分析が1つの波/ステップ内で行われない限り、PCAも役には立たない)。

 
Maxim Dmitrievsky #:

「次元の削減」は、ほとんどの場合「サンプルの中で」しか機能しないことに気づかなければ、すぐに2次元の隅に追いやられることになる :)

しかし、この記事はPCAをMQLに移植するという点ではクールだ。

alglibではあるが。)

 
Andrey Khatimlianskii 最適化の結果を 分析するプロセスをすぐに思い出したよ。結局のところ、あるパラメータの最適値だけでなく、他のパラメータへの影響も確認したいのです。

この場合、主成分の方法は役に立つでしょうか?次元削減後のグラフはどのように見えるだろうか?そこから、各点におけるパラメータの値をどのように抽出できるだろうか?

アンドリュー、状況は最初の投稿で示したグラフで説明できる。PCAでは、次元を1本の線に格下げしています。つまり、2つの座標から、次元削減ベクトルを掛け合わせると、1つの値、つまり「0」からオレンジ色の線上の点までの距離が得られます。この距離に転置行列を掛けることで、2次元空間におけるこの点の座標が得られる。しかし、そうすることで、当然、真の点から多少ずれた線上の点が得られる。こうして、縮小された空間の各点について、元の空間の座標を得ることができる。しかし、元のデータとは多少の誤差がある。

 
Dmitriy Gizlyk #:

アンドリュー、この状況は最初の投稿で紹介したグラフで説明できる。PCAでは、次元を1本の線に減らします。つまり、2つの座標から、次元削減ベクトルを掛け合わせると1つの値が得られます-「0」からオレンジ色の線上の点までの距離です。この距離に転置された縮小行列を掛け合わせることで、2次元空間におけるこの点の座標が得られる。しかし、そうすることで、当然、真の点から多少ずれた線上の点が得られる。このように、縮小された空間の各点について、元の空間の座標を得ることができる。しかし、元のデータとは多少の誤差がある。

回答ありがとうございます。

X軸がパラメーターの値で、Y軸が資金運用の結果だとすると、変換後に多くの情報が失われます。

そして最も不明なのは、これが3Dチャート上でどのように見えるかということです。次元はどのように下がるのでしょうか?

4次元の場合は?その結果はどうなるのか?

おそらく、ここには想像力か、すべてのプロセスに対する深い理解が必要なのだろう )

 
Andrey Khatimlianskii #:

お返事ありがとうございます。

X軸がパラメータの値で、Y軸がマネーでの実行結果である場合、変換後に多くの情報が失われます。

また、一番不明なのは、3Dチャート上でどのように見えるかということです。次元はどのように小さくなるのでしょうか?

4次元の場合は?結果はどうなるのか?

想像力を働かせるか、すべてのプロセスを深く理解する必要がありそうだ )

もちろん、パラメータが2つで結果が1つの場合は、この方法はあまり必要ない。パラメータが5つ以上になると、視覚化の問題が出てくる。4つのパラメータはビデオ(1つのパラメータは時間)3つのパラメータは体積画像で表現できる。そして、その結果、ボリュメトリック画像における濃度や色。

wikiからの説明も悪くない。

CRA問題の定式化

主成分分析問題には少なくとも4つの基本バージョンがある:

  • 低次元の 線形多様体によって データを 近似する
  • データの散らばり(平均 値からの 標準偏差)が最大に なる 直交射影で、より低次元の部分空間を見つける;
  • 直交射影において、点間のRMS距離が最大となる、より低次元の部分空間を見つける;
  • 与えられた多次元確率変数について、個々の座標 間の 相関が ゼロになるような座標の直交変換を構築する。
 
AIの未来はニューラルだと聞いていた。