01:20:00 このセクションでは、エッジ検出における非対称条件の必要性と、g ゼロが g プラスまたは g マイナスに等しい状況のタイ ブレーカーについて説明します。曲線のピークを見つけるために、ビデオではタイブレーカーを使用して放物線をエッジにフィッティングする方法が説明されており、この方法で計算された s の大きさが半分に制限されることが示されています。示されている別の方法は、小さな三角形モデルです。これは、2 つの線の傾きが同じであると仮定し、垂直位置と水平位置を推定して、s の式を導き出します。どちらの方法もサブピクセル精度を達成するためのものであり、ビデオは、三角形モデルが奇妙に見えるかもしれないが、特定の状況では効果的であることを示唆しています.
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
画像処理に関するこの講義では、スピーカーは、勾配方向の量子化を回避し、エッジ位置を決定する際の精度を向上させるさまざまな方法について説明します。内挿は、より正確な勾配方向を決定するためのルックアップ テーブルおよび量子化よりも好ましい方法として提案されています。さらに、別の勾配計算方法として、ステップ サイズを円で固定し、マルチスケール解析を使用する方法について説明します。講演者はまた、画像を回転させて勾配の y 成分をゼロに減らす反復アプローチについて説明し、特別な角度で回転する弦の概念を紹介します。生徒は、通常の宿題よりも多くの作業が必要になるため、クイズを早めに開始するように注意してください。
00:15:00 このセクションでは、導関数を推定するために使用されるさまざまな方法について説明することにより、講師がブロブ解析とバイナリ画像処理の基本を復習します。議論された最初のアイデアは、明るさの勾配を調べて変曲点をエッジとして識別し、次に導関数を調べてピークを探すというものでした。 e sub x のさまざまな近似など、導関数を推定するさまざまな方法が検討され、テイラー級数展開を使用して最低次数の誤差項が見つかりました。最後に、筋肉の電気信号解析について詳しく説明し、ノイズや信号の歪みによって高精度の 1 次導関数を探すときにプロセスがどれほど複雑になるかについて説明します。
00:55:00 講義のこのセクションでは、ファジー エッジの概念と、サブピクセルの回復とエイリアシングの問題の回避にファジー エッジが重要である理由について説明します。教授は、エッジがぼやける理由の 1 つは焦点ぼけであると説明しています。カメラのレンズの例を使用して、教授は、焦点が合っているオブジェクトは点としてキャプチャされるのに対し、焦点がわずかにずれている同じオブジェクトは、均一な明るさの円としてキャプチャされることを示しています。これを補うために、教授は単位ステップ関数と点広がり関数を導入し、これらを使用して均一な明るさの円を x と y の関数として記述する方法を説明します。
01:20:00 このセクションでは、反復アプローチを使用して画像を回転させ、勾配の y 成分をゼロに減らす方法について説明します。これを行うには、y 成分の大きさがゼロになるまで回転角度を繰り返し操作します。スピーカーは、一連のテスト角度を使用し、反復ごとに y 成分の大きさを減らす戦略を提案します。角度は、2 の逆べき乗になるように選択されます。これにより、乗算の数を 4 から 2 に減らすことができます。回転角度が十分に小さくなるまで、反復アプローチが繰り返されます。
01:25:00 このセクションでは、シータ i のタンジェントが i に対して 2 分の 1 であるという特性を持つ特殊な角度を介して回転することを含む弦の概念について説明します。反復プロセスには、その角度を変更し、ネガティブになったかどうかを追跡することが含まれます。最初に行うことは、x と y の符号と、y が x より大きいかどうかを確認するだけで簡単な最初の八分円に到達することです。次のレクチャーでは、マルチスケールとサンプリングについて説明します。スピーカーは視聴者に、典型的な宿題の問題よりも多くの作業が必要なため、クイズを早めに開始することを思い出させます。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
01:00:00 ビデオのこのセクションでは、講演者は物体検出における効率的でスケーラブルな並進検索に使用される検索パターンについて説明します。これらのパターンは六角形を中心に編成されており、実行される作業と解像度の点で 4 オーバー pi の利点があります。スピーカーは、ピーク検出が六角形のグリッドでどのように機能するかについても説明し、隣接するオブジェクトの検出を回避するソリューションを提供します。さらに、このビデオでは、オブジェクト、画像、明るさ、粒度、境界など、特許法で一般的に使用される用語と、グラフィックスや X 線画像などの可視光画像を超えた用途を定義しています。これらの用語の一般化は、特許の範囲とその潜在的な用途を広げることを目的としています。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
00:30:00 レクチャーのこのセクションでは、直角を維持しない方法で x と y を変換する際の勾配方向の問題に対処する方法について説明します。解決策は、勾配方向から等光面を計算し、それを変換して、等光面に直角に何かを構築することです。スピーカーは、モデル内のプローブを使用して特定の領域が合理的に一致するかどうかを判断し、実行時画像内のエッジの数がモデル内の何かと一致するかどうかに基づいてパーセンテージを計算することを含む、検査の追加トピックにも触れます。
00:35:00 このセクションでは、講師が透視投影とカメラ座標系を使用した 3D 世界での平面の投影について説明します。彼は、カメラとワールド座標系の間の平行移動と回転の関係について、正規直交行列を介して詳しく説明しています。次に講師は、世界のオブジェクト座標から画像座標への変換を探究し、除算を伴う場合の透視投影の非線形で乱雑な性質に注目します。ただし、彼は平面の特定のケースに焦点を当て、オブジェクト内でシステムを構築する方法を詳しく説明し、より単純な変換を可能にします。
00:40:00 このセクションでは、スピーカーは、z がゼロである座標系を使用して、3D サーフェスを 2D サーフェスに変換することについて話します。これらは、この場合に 3 列目を無視し、回転に変換して 1 つの行列を取得するのに便利な方法を示しています。次に、行列 R とは対照的に正規直交行列ではない行列 T を紹介します。最後に、3D での並進と回転の自由度と、回転に関するさまざまな考え方について説明します。
00:50:00 ビデオのこのセクションでは、講師がスケール ファクターのあいまいさとホモグラフィ、面白い種類の行列について説明します。ホモグラフィは写真測量で使用され、注意を平面に限定するときに適用されます。講師は、ハフ変換とその一般化についても話します。これは、カメラ映像から道路上のポイントをマッピングするときに使用されます。最後に、講師は NASA の雲室について説明し、人々がどのように素粒子を雲室に撃ち込み、その空間でイオン化された点の写真を撮ることによって研究したかについて説明します。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
00:45:00 レクチャーのこのセクションでは、ローカル フォースを加算して並進または回転の位置合わせを行うという概念について説明します。重みは、事前に定義することも、勾配の大きさや場の双極子などに依存することもできます。中心の周りのトルクを使用して回転を提供し、平面内の 2 つのベクトルの外積の z 成分を使用して、トルクのスカラーを提供できます。次に、直線までの距離と、x 素数と y 素数を計算するための直線に沿った座標系への回転について説明します。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
01:25:00 このセクションでは、講師が畳み込みの概念と、周波数領域での乗算との関係について説明します。彼らは、ピルボックス関数を使用して画像を畳み込む方法を説明していますが、焦点が合っていない画像を乗算すると正確な結果が得られないことに注意してください。次に、画像を使用して、画像間のエッジなどの特徴を照合してカメラの位置を特定することにより、オブジェクトとその位置に関する 3D 情報を作成する写真測量のトピックに移ります。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
00:55:00 このセクションでは、話者は、オメガ軸に投影された 2 点 r と r 素数の間の距離を決定する方法を説明します。慣性の式はこの距離から導き出され、軸が方向を変えると変化することが示されています。次にスピーカーは、内積、乗算の結合性、単位行列を使用して式を簡略化します。結果として得られる式は、慣性が r と単位行列を乗算し、オブジェクトのボリューム全体で積分した r の内積に等しいことを示しています。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
00:50:00 このセクションでは、講師が四元数を使用して回転を表現する方法を説明します。単純な四元数の乗算とは異なり、四元数にベクトルを前もって乗算し、後からその共役を乗算し、ベクトルの虚数部を抽出する操作により、3D でベクトルを回転するために適用できるゼロのスカラー部分を持つ四元数が得られます。講師は、4 x 4 行列を使用して四元数の乗算を表すことにより、この操作が元のベクトルの内積をどのように保持するかを示します。最終的に、結果として得られる 3 x 3 の正規直交回転行列を使用して、四元数を直接操作せずにベクトルを回転させることができます。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
00:40:00 このセクションでは、ビデオは 3D での一般的な線形変換の概念について説明します。これには 2D のような 6 つではなく 12 の要素が含まれるため、3 つの対応関係で判断することが難しくなります。さらに、ビデオでは、線形変換が失敗する 2 つの方法があることを説明しています。第一に、十分な対応がない場合、第二に、行列 N がゼロの固有値を複数持つ場合です。このビデオでは、特性方程式を解いて行列の固有値を見つける方法をさらに説明しています。
00:45:00 ビデオのこのセクションでは、講師がダイアティック積を使用して行列 M を計算する方法を説明します。これは、最も一般的な 4 x 4 行列 N の計算に使用される 3 x 3 行列です。 N を取得する効率的な方法です。M の行列式がゼロの場合、C1 がゼロであるため、問題を解くのが特に簡単になり、特別な教科書を必要とせずに方程式を解くことができることに注意してください。この特殊なケースは、ポイントの分布に関係しており、ポイントが同一平面上にある場合に発生する可能性があります。講師は、点がすべて平面内にある場合にこれがどのように等しく適用されるかを示し、問題を簡単に解決できるようにします。
00:50:00 ビデオのこのセクションでは、講演者は、同一平面上のシナリオで 2 つの平面を使用して、閉じた形式で絶対方向の問題を解決する方法を説明します。完全な 3D 回転は、2 つの単純な回転に分解できます。最初に一方の平面を回転させてもう一方の平面の上に配置し、次に平面内で回転させます。講演者は、クォータニオンを構築するために必要な軸と角度を見つけ、一方の座標系のすべての点を回転させて他方の座標系に合わせる方法を説明します。さらに、講演者は、最適化問題の外れ値を処理する際の課題と、誤差の絶対値などの誤差の 2 乗以外のものを使用すると、計算する作業が増え、結果を一般化することが困難になる可能性があることについて説明します。
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
講義 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (米国特許 6408109)
講義 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (米国特許 6408109)
「レクチャー 11: エッジ検出、サブピクセル位置、CORDIC、ライン検出 (US 6,408,109)」というタイトルのこの YouTube ビデオでは、マシン ビジョン システムにおけるエッジ検出とサブピクセル位置に関連するいくつかのトピックについて説明しています。講演者は、発明プロセスにおける特許の重要性と、それらが特許戦争でどのように使用されるかについて説明します。また、さまざまなエッジ検出演算子とその利点と制限についても説明します。ビデオには、デカルト座標を極座標に変換し、エッジ位置を決定するために使用される数式の詳細な説明が含まれています。このビデオは、特許の広範なクレームと狭いクレームを記述することの重要性と、時間の経過に伴う特許法の進化について議論することで締めくくられています。
講義 11 では、スピーカーはエッジ検出と導関数推定のためのさまざまな計算分子に焦点を当て、効率に重点を置きます。勾配の二乗和を計算するための Sobel および Roberts Cross 演算子が提示され、式と手法のバリエーションが説明されています。サブピクセル精度を達成するために、複数の演算子が使用され、放物線のフィッティングや三角形モデルの使用などの手法が提示され、曲線のピークが決定されます。さらに、レクチャーでは、量子化の代替案と、正方形グリッド上の勾配方向に関する問題について説明します。全体として、講義では、エッジ検出の優れたパフォーマンスを達成するために多くの詳細を考慮することの重要性が強調されています。
講義 12: ブロブ解析、バイナリ イメージ処理、グリーンの定理、導関数と積分
講義 12: ブロブ解析、バイナリ イメージ処理、グリーンの定理、導関数と積分
この講義では、教授は、知的財産、特許、商標、エッジ検出のための画像処理技術など、さまざまなトピックをカバーしています。この講義では、2D マシン ビジョンにおける精度の重要性と、ぼやけたエッジまたは焦点が合っていないエッジを検出するという課題が強調されます。教授は、混合偏導関数、ラプラシアン、およびサブピクセル補間を使用したエッジ検出を見つける方法と、ピーク検出におけるバイアス補償と補正キャリブレーションの手法について説明します。全体として、この講義では、これらのトピックとその実用的なアプリケーションの包括的な概要を提供します。
画像処理に関するこの講義では、スピーカーは、勾配方向の量子化を回避し、エッジ位置を決定する際の精度を向上させるさまざまな方法について説明します。内挿は、より正確な勾配方向を決定するためのルックアップ テーブルおよび量子化よりも好ましい方法として提案されています。さらに、別の勾配計算方法として、ステップ サイズを円で固定し、マルチスケール解析を使用する方法について説明します。講演者はまた、画像を回転させて勾配の y 成分をゼロに減らす反復アプローチについて説明し、特別な角度で回転する弦の概念を紹介します。生徒は、通常の宿題よりも多くの作業が必要になるため、クイズを早めに開始するように注意してください。
講義 13: オブジェクトの検出、認識、姿勢の決定、PatQuick (米国特許 7016539)
講義 13: オブジェクトの検出、認識、姿勢の決定、PatQuick (米国特許 7016539)
講義では、PatQuick の特許 (US 7,016,539) に重点を置いて、オブジェクトの検出、認識、姿勢の決定に焦点を当てています。この特許は、空間内のオブジェクトのポーズを検出して決定することを目的としており、モデルと呼ばれる抽象表現を使用して、さまざまなポーズや回転で実行時の画像と比較することで、以前の方法を改善します。この特許はまた、一般化された自由度のリストを組み込んで精度を高め、ローパス フィルタリングとエッジ検出を使用して境界点を取得し、しきい値処理を最終段階まで延期します。さらに、エッジ検出を使用してモデルを作成し、これらのモデルを表現するために必要な間隔とコントラストを備えたプローブを使用してモデルを作成するプロセスについて説明し、平行移動、回転、スケーリング、アスペクト比など、さまざまなバリエーションを可能にする自由度を考慮することの重要性を説明します。オブジェクトの寸法とパースペクティブ。
このビデオでは、ピーク検出や隣接するオブジェクトを検出するためのソリューションなど、オブジェクト検出における効率的でスケーラブルな並進検索に利用される六角形の検索パターンについて説明します。このビデオでは、ランタイム イメージ内の所定のパターンの存在とその多次元位置を特定するための特許である PatQuick についても説明しています。この方法では、プローブと事前に計算された勾配を使用してオブジェクトのポーズを一致させ、スコアリング関数を統合することで結果からエラーを取り除きます。このビデオでは、内積を使用して角度差を決定するための代替方法を探り、マルチスケール操作の複雑さとさまざまな粒度のプローブ選択を強調しています。この方法の精度は、探索空間の量子化によって制限されます。
講義 14: PatQuick、ハフ変換、ホモグラフィ、位置決定、マルチスケールでの検査
講義 14: PatQuick、ハフ変換、ホモグラフィ、位置決定、マルチスケールでの検査
この講義では、PatQuick アルゴリズムについて説明します。プローブを使用して多次元空間でスコアリング関数を生成することに焦点を当て、リアルタイム イメージ内のオブジェクトの姿勢を決定します。勾配の方向と大きさの観点から一致の品質を評価するために使用される一致関数も調べられ、精度と速度の間のトレードオフについて説明されているさまざまなスコアリング関数があります。この講義では、特に画像の縦横比を変更する変換を実行する場合に、計算の粒度を調整したり、正しい方向を取得するという課題に対処したりするなど、パターン マッチングのプロセスをより効率的にするために使用されるさまざまな方法についても詳しく説明します。講義では、ホモグラフィと写真の線を検出するためのハフ変換のトピックにも触れます。
講義では、ハフ変換、拡張ガウス半変換、位置決定、マルチスケール サブサンプリング、SIFT など、コンピューター ビジョンに関連するさまざまなトピックを取り上げます。ハフ変換は線とエッジの検出に使用されますが、拡張ガウス半変換はハフ変換のより洗練されたバージョンです。講義では、ハフ変換を使用してセル タワーの位置などの円を検出する方法についても説明します。さらに、スピーカーは、品質を犠牲にすることなく作業負荷を軽減するためのサブサンプリング画像について説明し、複数の画像から 3D 情報を生成する際に広く使用されている、シーンのさまざまな画像で対応する点を見つける方法である SIFT を紹介します。最後に、講演者は音楽理論について簡単に説明し、最後に提案を提出するよう促し、遅滞しないことについて引用します。
講義 15: アライメント、PatMax、ディスタンス フィールド、フィルタリング、サブサンプリング (米国特許 7065262)
講義 15: アライメント、PatMax、ディスタンス フィールド、フィルタリング、サブサンプリング (米国特許 7065262)
ビデオでは、パターン認識とオブジェクト検出に関連するいくつかの技術と特許について説明します。そのような手法の 1 つに PatMax があります。これは、引力ベースのシステムを使用してランタイム イメージのポーズを繰り返し改善します。別の手法では、ピクセル グリッド上にベクトル フィールドを生成して、実行時の画像の位置合わせを改善します。この講義では、エッジ検出のための距離フィールドの使用と、ベクトル フィールド内の力ベクトルを調べることによるシードされたエッジの拡張についても説明します。講演者はまた、マルチスケール パターン マッチングの使用と、線を一連の画像座標に適合させる際の数学的手順についても説明します。最後に、複数のスケールを効率的に計算するための特許が紹介されています。
講義 15 では、講師は画像の効率的な畳み込み、フィルタリング、およびサブサンプリングのためのさまざまな手法とショートカットについて説明します。これらには、スプライン区分多項式を使用したフィルター カーネルの近似、畳み込みとしての導関数の使用、繰り返し 3 階差分を取ることによる画像の圧縮、および x 方向と y 方向の畳み込みの組み合わせが含まれます。講演者は、画像の干渉やエイリアシングを回避するために、画像サンプリングの前にローパス フィルタリングを行うことの重要性についても言及しています。
講義 16: 高速畳み込み、ローパス フィルター近似、積分画像 (米国特許 6457032)
講義 16: 高速畳み込み、ローパス フィルター近似、積分画像 (米国特許 6457032)
講義では、帯域制限、エイリアシング、ローパス フィルター近似、ぼかし、積分画像、フーリエ解析、畳み込みなど、信号処理に関連するさまざまなトピックについて説明します。スピーカーは、エイリアシング アーティファクトを回避するために、サンプリングの前に信号をローパス フィルター処理することの重要性を強調しています。また、ブロック内の画素の和を効率的に計算する積分画像の考え方や、ローパスフィルタを近似する際の計算量を削減するさまざまな手法についても紹介します。最後に、sinc 関数を近似するために使用されるバイキュービック補間とその計算コストについて説明します。
この講義では、講演者は、畳み込み、ローパス フィルターの近似、積分画像に関連するさまざまなトピックについて説明します。彼らは、値を左から右に加算し、減算して平均を求めることで計算時間を節約する方法など、畳み込みのさまざまな実装について説明しています。ローパス フィルター近似の線形補間の限界と、3 次補間などのより高度な方法と比較した劣等性についても説明します。ピルボックスの概念と、周波数範囲を制限する上でのその価値が紹介され、スピーカーは、理想的なローパス フィルターと、デフォーカスがベッセル関数にどのように影響するかについて話します。この講義では、DSLR カメラ レンズのローパス フィルター近似の使用と、写真測量の概念についても触れます。
講義 17: 写真測量、方向、慣性軸、対称性、方向
講義 17: 写真測量、方向、慣性軸、対称性、方向
この講義では、深度の手がかり、カメラのキャリブレーション、2 つの座標系間の変換の確立など、写真測量に関連するさまざまなトピックについて説明します。講演者は、対応する測定値を使用して 2 つのシステム間の座標変換を見つける問題にアプローチする方法を説明し、変換の正確な逆を確認することの重要性を強調します。この講義では、2D および 3D 空間で慣性軸を見つけ、軸に投影された 2 点間の距離を決定する方法についても説明します。全体として、このセクションでは、写真測量とそのアプリケーションの包括的な概要を提供します。
写真測量では、左手座標系と右手座標系の点群に座標系を構築し、2 つを関連付ける必要があります。講師は、慣性行列または慣性軸を決定し、基底ベクトルを確立する方法を説明します。また、対称オブジェクトによってもたらされる課題と、内積、長さ、角度の保持などの回転のプロパティについても説明します。さらに、この講義では、平行移動をなくして誤差項を最小限に抑えることで、回転を求める問題を単純化する方法についても説明します。最後に、講師は、ベクトル計算を使用して類似の形状を持つ 2 つのオブジェクトを整列する方法を説明し、回転の他の表現を調べることを提案します。
講義 18: 回転とその表現方法、単位クォータニオン、回転の空間
講義 18: 回転とその表現方法、単位クォータニオン、回転の空間
この講義では、回転を表現する際の課題について説明し、ハミルトンの四元数の有用性を紹介します。単位四元数は、3 空間での回転に直接マッピングされるため、特に便利です。これにより、回転空間とその空間での最適化の議論が可能になります。四元数は複素数に似た性質を持ち、内積、三重積、長さ、角度、利き手が保持されるため、回転を表すのに特に役立ちます。講義では、回転を表すさまざまな方法、ベクトルを回転させて回転を構成できることの重要性、行列、オイラー角、ジンバル ロックなどの従来の方法の限界についても説明します。最後に、講義では、回転の最適化とモデルへの適合、回転空間の分析と視覚化のための新しい方法の開発など、この分野で進行中の研究について説明します。
この講義では、教授は、2 つの座標系間の座標変換、または 2 つの座標系で測定された対応する点を持つ 2 つのオブジェクト間の最適な回転と平行移動を見つける問題について説明します。この講義では、クォータニオンを使用して宇宙船のカメラをカタログの方向に合わせ、相対的な向きの問題を解決する方法について説明します。回転を表す四元数の効率、および 4 次元空間での回転の表現にアプローチするためのさまざまな方法について説明します。さらに、この講義では、さまざまな多面体のさまざまな回転グループを調査し、定期的な空間サンプリングを実現するために正しい座標系を選択することの重要性を強調します。
講義 19: 閉じた形式の絶対方向、異常値とロバスト性、RANSAC
講義 19: 閉じた形式の絶対方向、異常値とロバスト性、RANSAC
この講義では、単位四元数を使用して写真測量で回転を表す、四元数と正規直交行列表現の間で変換する、回転対称性を扱う、対応関係のない方法で変換、スケーリング、および回転を調整するなど、絶対方向のさまざまな側面について説明します。講義では、外れ値とライン フィッティングおよび測定プロセスにおけるロバスト性の問題についても説明し、外れ値が存在する場合の測定の信頼性を向上させる方法として RANSAC (Random Sample Consensus) 法を紹介します。講義は、外れ値と最適化に関連する課題を含む、同一平面上にあるシナリオで 2 つの平面を使用して、閉じた形式で絶対方向の問題を解決することについての議論で締めくくられます。
絶対方向に関するこのビデオでは、講師は実際のデータの外れ値の問題について説明し、RANSAC の使用を提案します。RANSAC は、外れ値に対処するためのランダムなサブセット フィットを含むコンセンサス手法です。講師はまた、立方体に球を刻んでランダムな点を投影する方法、球の表面をテッセレーションする方法、正多面体で点を生成する方法など、球上の点の均一な分布を実現する方法についても説明します。さらに、講師は、ライブラリ内の複数のオブジェクトを効率的に認識するために回転空間をサンプリングする方法、オブジェクトをそれ自体と整列させるために必要な回転数を見つける方法、および例またはクォータニオン乗算を通じて回転を見つける問題に取り組む方法についても説明します。
MIT 6.801 マシン ビジョン、2020 年秋。講義 20: 回転の空間、規則的なテッセレーション、クリティカル サーフェス、双眼鏡ステレオ
講義 20: 回転空間、規則的なテッセレーション、臨界面、両眼ステレオ
講義のこのセクションでは、通常のテッセレーション、クリティカル サーフェス、双眼鏡ステレオ、3 次元空間での変換のパラメーターの検索などのトピックについて説明します。講師は、球をテッセレーションする最良の方法は、三角形のテッセレーションの双対を使用して、いくつかの五角形でほぼ六角形の形状を作成することであると説明しています。また、マシン ビジョンでは難しいが、まっすぐな棒から家具を作成するために使用できる重要な表面についても説明します。双眼鏡ステレオの説明では、講師が 2 つのカメラの関係、エピポーラ線の概念、2 つのカメラの交点を見つけて世界の点を決定する方法について説明します。また、2 つの光線間の誤差を計算して交差を決定し、世界の誤差と画像の誤差の間の変換係数を考慮しながら画像の誤差を最小限に抑える方法についても説明します。最後に、四元数を使用してベースラインを表すことにより、空間内の剛体オブジェクトの位置と方向を復元するベースラインと D を見つける方法について説明します。
講義では、回転空間、規則的なテッセレーション、臨界面、双眼鏡ステレオなど、さまざまなトピックを取り上げます。回転については、インストラクターが数値アプローチの使用、特異点の問題、および単位四元数を使用する利点について説明します。通常のテッセレーションでは、特定のサーフェスが双眼鏡ステレオで問題を引き起こす可能性があることを示し、問題を軽減するためにエラー測定と重みを使用することを提案しています。スピーカーは二次曲面にも触れ、「大胆不敵な反射」を含む新しい宿題の問題を紹介します。