机器学习和神经网络 - 页 13

 

第 12 讲:Blob 分析、二值图像处理、格林定理、导数和积分



第 12 讲:Blob 分析、二值图像处理、格林定理、导数和积分

在本次讲座中,教授涵盖了一系列主题,包括知识产权、专利、商标和边缘检测的图像处理技术。该讲座强调了 2D 机器视觉中准确性的重要性以及检测模糊或散焦边缘的挑战。教授介绍了使用亚像素插值法寻找混合偏导数、拉普拉斯算子和边缘检测的方法,以及峰值寻找中的偏差补偿和校正校准技术。总体而言,本讲座全面概述了这些主题及其实际应用。

在本次图像处理讲座中,演讲者讨论了避免梯度方向量化和提高确定边缘位置准确性的各种方法。建议将插值作为比查找表和量化更精确的梯度方向确定的首选方法。此外,将步长固定为圆圈并使用多尺度分析作为替代梯度计算方法进行了讨论。演讲者还解释了一种迭代方法来旋转图像以将梯度的 y 分量减少到零,并介绍了通过特殊角度旋转的弦的概念。提醒学生尽早开始测验,因为它比典型的家庭作业问题更多。

  • 00:00:00 在本节中,教授讨论了即将到来的测验,该测验更长,并且比家庭作业问题重要两倍。测验涵盖了到目前为止的课程内容,更侧重于最近的材料。然后,教授简要讨论了知识产权和专利,并提到了不同类型的专利,例如实用新型专利和外观设计专利。还讨论了专利持有人与政府之间的社会契约,专利持有人在一定年限内获得有限的垄断权,以换取对如何做某事的确切解释。讨论最后触及专利诉讼中最佳模式的法律概念。

  • 00:05:00 保护您的品牌或徽标,您可以使用商标来做到这一点。在不违反版权法的情况下使用一小部分受版权保护的材料(例如用于教育目的)和逆向工程软件存在例外情况。版权法过去保护作者有生之年加一定年限,但后来更新为作者有生之年加 75 年或更长时间。商标法保护比版权更严格的品牌和徽标。

  • 00:10:00 在本节中,演讲者讨论了公司名称和徽标注册商标的规则,强调它必须在该领域是唯一的,不能是常用词。商标还可以包括形状、标记和颜色,可以用来保护公司。演讲者还谈到了商业秘密的概念,即公司对其产品的细节保密,尽管它没有法律保护。讲者随后介绍了一项与边缘发现相关的低级专利,并提到一旦找到边缘,就可以执行更复杂的图像处理任务,用于物体识别和确定位置和姿态。演讲者指出,在 2D 机器视觉世界中,准确性非常重要,必须近乎完美地工作。

  • 00:15:00 在本节中,讲师通过讨论用于估计导数的各种方法来回顾斑点分析和二值图像处理的基础知识。讨论的第一个想法是查看亮度梯度以将拐点识别为边缘,然后查看正在搜索峰值的导数。检查了各种估计导数的方法,例如 e sub x 的不同近似值,并使用泰勒级数展开找到了最低阶误差项。最后,讲座深入探讨了肌肉电信号分析,以及在寻找由于噪声和信号失真而导致的高精度一阶导数时,该过程会变得多么复杂。

  • 00:20:00 在本节中,讲师讨论了在选择边缘算子的长度以检测边缘时所涉及的权衡。他解释说,使用太长的运算符会导致不同的特征相互作用,从而使检测边缘变得困难。这种权衡适用于检测立方体图像中的边缘,其中边缘彼此非常接近。然后,讲师解释了如何使用应用两次的一阶导数的卷积来计算二阶导数,并展示了如何使用此方法来检查结果的准确性。最后,他解释了检查设计用于推导导数的计算分子的不同方法的重要性。

  • 00:25:00 在讲座的这一部分,教授解释了使用二维模板寻找混合偏导数的过程。模板涉及翻转其中一个功能并将其叠加在另一个功能之上以识别重叠区域,从而产生 2x2 模板。教授指出,在使用未翻转的计算模板时,注意符号反转很重要。他们还指出,混合偏导数可以被认为是旋转坐标系中的二阶导数。总的来说,本节提供了在二维中寻找混合偏导数的清晰而详细的解释。

  • 00:30:00 在本节中,拉普拉斯算子的主题被重新引入为二阶导数算子,其中两个算子在正交方向上相加以获得中心对称微分算子的拉普拉斯算子的近似值。然后引入这两个算子的加权和,为中心对称微分算子创建更平滑的拉普拉斯算子版本,并且这个新算子在应用于图像时计算效率更高。此外,还讨论了确定这些加权系数值的技术,例如最低阶误差项或总和等于零。

  • 00:35:00 在本节中,演讲者讨论了使用矩形像素而不是六边形像素的问题。他解释了人们关注效率的情况,例如使用无线电频率对我们银河系中心的黑洞进行成像。演讲者还区分了线性和非线性运算符,并讨论了罗伯特在旋转坐标系中计算导数时使用模板的方法。此外,他还解释了非最大抑制,即在各处应用边缘运算符以在各处获得弱响应但在边缘获得强响应的概念。

  • 00:40:00 在本节中,演讲者讨论了边缘检测的概念,并强调了对边缘检测应用阈值的缺点。相反,演讲者建议去除梯度方向上除最大值以外的所有内容以识别边缘点。演讲者还谈到了非极大值抑制和打破平局的不对称性问题。最后,演讲者解释了如何将抛物线拟合到边缘响应曲线以确定亚像素边缘位置。演讲者承认曲线形状的选择是任意的,但解释了在大多数情况下拟合二阶多项式如何作为一个好的猜测。

  • 00:45:00 在本节中,我们将学习使用亚像素插值进行边缘检测。梯度方向告诉我们边缘的方向,然后我们对其进行量化以帮助将潜在的边缘点投影到实际的边缘位置。然后我们可以执行偏差补偿,以使用抛物线或三角方法更准确地估计边缘位置。通过这样做,我们可以找到边缘的峰值并通过取离原点最近的点来提高精度。

  • 00:50:00 在讲座的这一部分,演讲者讨论了一种用于亚像素边缘检测的寻峰校正校准方法。本质上,该方法涉及通过实验移动边缘并测量峰值查找方法相对于实际峰值的准确性,以便为该方法创建校正查找表。演讲者还讨论了边缘形状如何不同,并演示了如何使用单参数拟合来近似形状。尽管存在这些差异,但对于亚像素边缘检测精度,只需要对该方法进行小的修正。

  • 00:55:00 在讲座的这一部分,教授讨论了模糊边缘的概念,以及为什么它们对于亚像素恢复和避免混叠问题很重要。教授解释说,模糊边缘的原因之一是散焦。以相机镜头为例,教授展示了聚焦的物体将被捕捉为一个点,而稍微偏离焦点的同一物体将被捕捉为亮度均匀的圆。为了弥补这一点,教授引入了单位阶跃函数和点扩散函数,并解释了如何使用它们来将均匀亮度的圆圈描述为 x 和 y 的函数。

  • 01:00:00 在本节中,演讲者解释了失焦的影响以及如何通过叠加边缘和圆圈来几何计算响应。圆的扇形面积和三角形的面积用于找出两个形状之间的差异。 Theta 用于计算面积,并解释细节以演示零和一之间的响应。

  • 01:05:00 在本节中,演讲者讨论绘制图表以使用算法计算准确确定边缘位置的误差。他们提到这个错误可能很小但不为零,并且对于高精度来说是必不可少的。演讲者随后讨论了避免梯度方向量化的方法,由于两种尺寸的间距,这可能会带来尴尬。他们讨论了这可能会导致略有不同的错误贡献,并提出了几种避免这种情况的方法。本节最后讨论专利侵权及其避免方法,重点是使发明与众不同而不是更好。

  • 01:10:00 在视频的这一部分,讲师讨论了避免量化某些专利中存在的梯度方向的首选方法。他不使用该方法,而是建议进行插值以避免梯度方向的量化。通过插值,可以平滑地逼近值,并且可以精确地确定梯度方向。讲师认为这种方法是精度上的提升,不需要建lookup table或者对bias graph进行量化修正。这种方法的缺点是使用了插值法,因此与了解准确的测量值相比缺乏准确性,但在许多情况下可以忽略不计。

  • 01:15:00 在讲座的这一部分,演讲者讨论了一种梯度计算的替代方法,该方法涉及固定步长而不是更改步长。该方法使用一个圆来确定像素间距,并提供更连续的梯度方向和更少的量化。然而,这种方法需要双线性或双三次插值,并且由于需要考虑更多像素,因此可能需要额外的工作。此外,演讲者还谈到了多尺度分析在查找图像中的锐利边缘和模糊边缘方面的作用。最后,演讲者简要介绍了笛卡尔坐标到极坐标变换的首选实现方式,其中涉及旋转坐标系。

  • 01:20:00 在本节中,演讲者讨论了一种使用迭代方法旋转图像以将梯度的 y 分量减少为零的方法。要做到这一点,旋转的角度被反复操纵,直到 y 分量的大小减少到零。演讲者提出了一种策略,即使用一系列测试角度并在每次迭代中减小 y 分量的大小。选择角度,使它们是 2 的倒数幂,这样可以将乘法次数从四次减少到两次。重复迭代方法,直到旋转角度足够小。

  • 01:25:00 在本节中,演讲者解释了和弦的概念,它涉及通过特殊角度旋转,这些角度具有一个属性,其中 theta i 的正切是 i 的二分之一。迭代过程涉及通过该角度进行更改并跟踪它是否为负数。要做的第一件事是将它带到第一个八分圆,这很简单,只需查看 x 和 y 的符号以及 y 是否大于 x。下一个讲座将涵盖多尺度和采样,演讲者提醒观众尽早开始测验,因为它比典型的家庭作业问题更难。
 

第 13 讲:物体检测、识别和姿势确定,PatQuick(美国专利 7016539)



第 13 讲:物体检测、识别和姿势确定,PatQuick(美国专利 7016539)

讲座的重点是对象检测、识别和姿势确定,重点是 PatQuick 专利(美国 7,016,539)。该专利旨在检测和确定空间中物体的姿态,并改进了以前的方法,使用称为模型的抽象表示与不同姿态和旋转的运行时图像进行比较。该专利还结合了一系列广义自由度以提高准确性,并使用低通滤波和边缘检测来获取边界点,将阈值处理推迟到最后阶段。此外,讲座还讨论了使用具有所需间距和对比度的边缘检测和探针创建模型来表示这些模型的过程,解释了考虑平移、旋转、缩放和纵横比等自由度的重要性,这些自由度允许在对象维度和视角。

该视频讨论了用于对象检测中高效且可扩展的平移搜索的六边形搜索模式,包括峰值检测和检测相邻对象的解决方案。该视频还讨论了 PatQuick,这是一项用于确定运行时图像中是否存在预定模式及其多维位置的专利。该方法使用探针和预先计算的梯度来匹配对象的姿势,并且评分函数的集成消除了结果中的错误。该视频探讨了使用点积确定角度差的替代方法,并强调了多尺度操作的复杂性和不同粒度的探头选择。该方法的准确性受到搜索空间量化的限制。

  • 00:00:00 在本节中,我们将介绍专利 7016539,该专利旨在检测、识别和确定空间中物体的姿态,以及检查物体。它要解决的问题是需要使用机械来操纵物体,但没有关于物体的准确边缘信息。现有技术有四个不同的组成部分,其中之一是二值图像处理,涉及从背景中区分对象以创建二值图像,从而使处理更容易,所需的内存更少。可以对某些低级二值图像处理操作进行局部计算,例如求二值图像的面积、周长和质心,甚至可以并行计算欧拉数,这可以通过并行硬件来实现。

  • 00:05:00 在本节中,讲师讨论了对象检测、识别和姿势确定的各种方法。介绍了阈值化方法,该方法涉及基于某些参数区分图像中的前景和背景。然而,这种方法有局限性,因为前景和背景之间可能没有明显的区别。二元模板方法涉及使用主图像或黄金模板来定义对象并通过阈值计算模板。归一化相关涉及尝试匹配的所有可能位置以找到两个图像之间的合适匹配。这就是计算机视觉的早期研究项目 Cognac 的成名之处。

  • 00:10:00 在本节中,演讲者讨论了使用相关性进行对齐的过程,相关性是一种与对象检测和识别相关的方法,涉及移动图像以找到对齐,其中移动图像与其他图像之间的差异是尽可能小。然而,目前,由于计算费用,只考虑平移,因为该方法需要分析每个可能位置的每个像素。此外,演讲者将相关性与基于梯度的方法联系起来,这涉及计算偏移量,并讨论了如何使用它通过最小化时间变化来最大化相关性。

  • 00:15:00 在本节中,讲座的重点是识别物体并确定其姿态,特别是在为制造过程的下一步对准集成电路的情况下。演讲者讨论了确定对齐的各种方法,并指出差平方和和相关性是常用的方法,但也有一些缺点。特别是,即使图像之间的对比度不同,相关性也可以给出很高的匹配度,并且对于什么构成匹配没有明确的阈值。尽管存在这些问题,相关性由于其计算效率仍然很受欢迎。此外,演讲者指出,可以通过结合基于梯度的方法来改进这些方法,这些方法已用于光学鼠标。

  • 00:20:00 在本节中,讲座讨论归一化相关及其在图像识别中的作用。归一化相关用于消除图像亮度的任何偏移,并使该过程对光学设置的变化不太敏感。归一化方法计算两个图像的相关性并将其归一化以消除对比度的偏移,由此该方法计算峰值,以便用户可以衡量相关性的成功与否。因此,高相关性分数表示匹配良好,而低相关性分数表示匹配不佳。虽然这种方法可能成本很高,但在早期,它是康耐视的名声。

  • 00:25:00 在本节中,视频讨论了一项与对象检测和识别相关的专利,专门用于确定图像中是否存在预定模式并确定它们在多维空间中的位置。该专利是对以前方法的改进,包括使用称为模型的模式的抽象表示,将其与不同姿势、旋转等的运行时图像进行比较。比较产生匹配分数,与接受阈值以延迟决策,直到有更多信息可用。该专利还提供了一个广义自由度列表,而不仅仅是平移和旋转,以提高其对物体部分或缺失部分的准确性。

  • 00:30:00 在本节中,将讨论名为 PatQuick 的对象检测、识别和姿势确定专利,该专利侧重于获取潜在匹配项。该部分深入探讨了该专利如何使用低通滤波和边缘检测来获取不同分辨率下的边界点。然后,该过程通过连接具有一致方向的相邻边界点来组织链中的点来继续。该专利与其他方法不同,因为它将边缘链接在一起,即使它们很弱,并将阈值化推迟到最后。

  • 00:35:00 在本节中,演讲者讨论了使用边缘检测创建对象识别模型,以及创建具有所需间距和对比度的探针来表示这些模型的过程。将模型拟合到边缘,这些探针用于检测模型与正在分析的图像之间是否存在匹配。探针被用作识别高对比度区域的证据,这种方法有助于减少需要分析的像素数量。在确定探针的邻居顺序的上下文中也讨论了打破平局。

  • 00:40:00 在本节中,演讲者讨论了如何将运行时图像中观察到的梯度与模型中观察到的梯度进行比较的不同示例。他解释说,即使在照明或材料发生变化的情况下,梯度的方向也更有可能保持不变。演讲者还介绍了权重的概念,这有助于确定每个探针的重要性。虽然手动分配权重在考虑对象对称性方面很有用,但它需要人工干预并且不常用。最后,演讲者定义了模型中的不同对象,包括探针、它们的位置、方向和权重,以及用于提高计算效率的编译探针对象。

  • 00:45:00 在本节中,演讲者解释了如何将编译的探测对象映射到图像上以及如何使用模型。编译探针是一组专门针对图像坐标的探针,它与探针之间的主要区别在于编译探针中的偏移量是一个以像素为单位的整数,而不是实变量。演讲者还讨论了映射的概念,即必须找到具有许多自由度的变换,它包括除平移之外的所有变换。为了对梯度进行评分,使用了分级函数,该函数考虑了梯度的极性、对比极性和梯度两个方向之间的 90 度差。

  • 00:50:00 在本节中,演讲者解释了如何使用考虑梯度方向和幅度的函数来评估探针与运行时图像中对应点的匹配程度。然而,他指出,对比度反转会使基于方向的度量对噪声的鲁棒性降低,而使用更宽的斜率可以增加接受随机对齐的机会。为了处理自由度,演讲者提供了用于旋转、缩放和剪切调整的参数和函数示例。总体而言,对象检测过程需要考虑各种因素,因为不同的情况可能需要不同的方法。

  • 00:55:00 在本节中,我们将了解对象检测、识别和姿态确定中的广义自由度。这些自由度——例如平移、旋转、缩放和纵横比——允许对象尺寸和视角的变化。在并非完全二维的空间中工作时,重要的是要考虑这些度数,这会使图像显示为菱形而不是矩形。然而,在考虑缩放比例时必须注意计算成本,更合理的方法是在对数比例尺中工作。此外,探测最小外接矩形可以减少某些操作的计算量。姿势的多维空间要求我们需要确定某些值之间的接近度,这是通过识别两个姿势在该空间中的接近程度来完成的。

  • 01:00:00 在视频的这一部分,演讲者解释了用于对象检测中高效且可扩展的平移搜索的搜索模式。这些模式围绕六边形组织,以在完成的工作与分辨率方面提供超过 pi 的 4 个优势。演讲者还讨论了峰值检测如何在六边形网格上工作,并提供了避免检测相邻物体的解决方案。此外,该视频还定义了专利法中常用的术语,例如物体、图像、亮度、粒度和边界,以及它们在可见光图像之外的应用,例如图形和 X 射线图像。这些术语的概括旨在扩大专利及其潜在应用的范围。

  • 01:05:00 在本节中,视频讨论了 PatQuick 的一项专利,这是一种用于确定运行时图像中是否存在至少一个预定模式实例以及用于确定每个存在实例的多维位置的方法.该专利结合了检查和识别的可能性,其中针对每个对象运行该过程,并且大多数不会是很好的匹配,但一个会用于识别。视频还提到了梯度的使用,它是一个向量,它给出了指定粒度下亮度最大变化的方向和幅度,以及模型,一组要找到的模式的数据编码特征,可以是从真实图像或 CAD 绘图创建。

  • 01:10:00 在本节中,演讲者解释了 PatQuick 的方法如何在物体的某些部分被遮挡或缺失的情况下工作,从而使其可用于检查目的。该方法使用探针来匹配对象的姿势,虽然理论上可以在每次匹配时计算梯度,但预先计算它以提高效率是有利的。评分函数的积分用于计算随机匹配对分数的偏移量,尽管计算起来很麻烦,但有必要从结果中消除错误并减少噪声。该方法主要有方法权利要求,法律情况发生变化,导致只有方法权利要求。

  • 01:15:00 在本节中,演讲者讨论了使用点积而不是使用正切函数来确定单位向量之间角度差的替代方法。但是,这种方法产生的绝对值很大,不如原来的方法。演讲者还讨论了量化方法的缺点,以及在使用更精细的量化以获得更准确的结果之前需要搜索整个姿势空间以找到潜在的匹配项。本节最后提到需要讨论不同的评分函数。

  • 01:20:00 在本节中,演讲者讨论了在要求结果准确或快速时寻找匹配项所涉及的不同计算。他们深入研究运行多尺度操作的复杂性,这些操作针对不同的粒度使用不同的探针和模型。探针不局限于像素网格,而是从边缘点导出,这提供了比使用亮度对比度更可靠的结果。此外,这种方法的准确性受到搜索空间量化的限制,可以在未来讲座中涵盖的另一项专利中超越。
 

第 14 讲:PatQuick 检测、霍夫变换、单应性、位置确定、多尺度



第 14 讲:PatQuick 检测、霍夫变换、单应性、位置确定、多尺度

在本讲座中,将讨论 PatQuick 算法,重点是使用探针在多维空间中生成评分函数,从而确定实时图像中物体的姿态。还检查了用于根据梯度的方向和幅度对匹配质量进行评分的匹配函数,并讨论了不同的评分函数以在准确性和速度之间进行权衡。本讲座还深入探讨了用于使模式匹配过程更高效的不同方法,包括调整计算粒度和解决获得正确方向的挑战,尤其是在执行改变图像纵横比的变换时。讲座还涉及单应性主题和用于检测照片中线条的霍夫变换。

讲座涵盖了与计算机视觉相关的一系列主题,包括霍夫变换、扩展高斯半变换、位置确定、多尺度子采样和 SIFT。霍夫变换用于线和边缘检测,而扩展高斯半变换是霍夫变换的更复杂版本。该讲座还解释了如何使用霍夫变换来检测圆圈,例如手机信号塔的位置。此外,演讲者还讨论了子采样图像以在不牺牲质量的情况下减少工作量,并介绍了 SIFT,这是一种在场景的不同图像中寻找对应点的方法,广泛用于从多张图片生成 3D 信息。最后,演讲者简要讨论了音乐理论,并以提醒提交建议和一句关于不要拖延的名言作为结尾。

  • 00:00:00 在本节中,演讲者讨论了 PatQuick 算法以及使用探针在多维空间中生成评分函数。该算法着眼于图像中的少量点,可以处理大量的自由度。所讨论的专利是相关的,并且是基于物理的机器视觉方法的一部分。所描述的算法主要限于涉及二维表面的情况,例如集成电路和印刷电路板。

  • 00:05:00 在本节中,演讲者讨论了 PatQuick 技术中的训练步骤,其中向系统显示图像,然后它会自动计算模型。这是至关重要的一步,因为它节省了资源和时间,而不是为每个视觉任务手工编写代码。然后将模型映射到实时图像上,并通过平移、旋转、缩放、倾斜和纵横比确定姿势。为对象收集的证据是累积的,最终的结果是局部操作的总和。然而,这种方法的局限性在于姿态空间的量化,这会影响精度。

  • 00:10:00 在本节中,演讲者讨论了处理不同大小和形状的图案可能产生的潜在六维空间。虽然平移有两个自由度,旋转有一个,但缩放、倾斜和纵横比各有一个自由度,使总数达到 6。但是,由于将空间量化到一个合理的数量,处理所有六个参数变得不切实际级别的数量,例如 100,导致总共有 10 到 12 个空间。演讲者还继续解释了用于根据梯度的方向和幅度对匹配质量进行分级的匹配函数,并强调了该函数的一些缺点,包括与背景噪声匹配的可能性。

  • 00:15:00 在本节中,讲师讨论了 PatQuick 算法中用于在准确性和速度之间进行权衡的各种评分函数。不同的评分函数具有不同的特征,例如归一化值、有意义的分数,或者只是值越大匹配越好。讲师解释说,他们丢弃负权重,并使用梯度的方向来计算分数。重点是编译的探针和不同的翻译。该讲座还强调了称为 s1b 的评分函数的第二个版本,它消除了乘法的需要并且只处理具有正权重的探针。

  • 00:20:00 在本节中,演讲者讨论了用于 PatQuick 优选实施例的不同功能。一个函数考虑了梯度方向,并根据随机匹配减去一项以改善结果。另一个函数直接使用梯度幅度并且没有归一化,这意味着它的绝对值不会很重要。这些函数用于 PatQuick 中的候选解决方案和精细扫描步骤。演讲者指出,虽然优选实施例具有不同的功能,但也给出了其他实施方案。

  • 00:25:00 在讲座的这一部分,演讲者讨论了使模式匹配过程更高效所涉及的一些细节。一个重要的考虑因素是计算的粒度,可以通过降低分辨率来调整计算粒度,直到获得满意的结果。演讲者还谈到了规范化的问题,解释说对于某些任务,不需要规范化,因为这是一个计算问题。此外,演讲者解决了获得正确方向的挑战,因为该过程在很大程度上依赖于梯度方向,尤其是在执行改变图像纵横比的变换时。

  • 00:30:00 在讲座的这一部分,演讲者讨论了在以不保持直角的方式变换 x 和 y 时如何处理梯度方向的问题。解决方案是从梯度方向计算等光度,对其进行变换,并构造与等光度成直角的东西。演讲者还谈到了额外的检查主题,其中涉及在模型中使用探针来确定某个区域是否合理匹配,并根据运行时图像中有多少边与模型中的某些部分匹配来计算百分比。

  • 00:35:00 在本节中,讲师讨论了使用透视投影和相机坐标系在 3D 世界中投影平面。他通过一个正交矩阵详细阐述了相机和世界坐标系之间的平移和旋转关系。然后,讲师探讨了从世界对象坐标到图像坐标的转换,并注意到涉及除法时透视投影的非线性和混乱性质。然而,他专注于平面的特殊情况,并详细说明了如何在物体中建立系统,从而实现更简单的转换。

  • 00:40:00 在本节中,演讲者谈到使用 z 为零的坐标系,将 3D 表面变成 2D 表面。他们演示了如何在这种情况下忽略第三列,并方便地折叠平移到旋转以获得单个矩阵。然后他们介绍了矩阵 T,与矩阵 R 不同,它不是正交矩阵。最后,他们讨论了 3D 中平移和旋转的自由度以及考虑旋转的不同方式。

  • 00:45:00 在视频的这一部分,演讲者讨论了矩阵中的旋转、平移和约束,特别是在透视投影到平面的情况下。变换矩阵有九个独立元素,但由于正交性和正交性等约束,只有六个自由度。尽管可以使用线性最小二乘法拟合校准数据,但也必须强制执行约束,这在已发表的作品中经常被忽视。这些概念对于以后讨论 3D 变换很重要。

  • 00:50:00 在视频的这一部分,讲师讨论了比例因子歧义和单应性,这是一种有趣的矩阵。单应性用于摄影测量,并在将注意力限制在平面上时应用。讲师还谈到了 Hough 变换及其推广,它在根据摄像机镜头绘制道路上的点时使用。最后,讲师介绍了 NASA 云室以及人们如何通过将基本粒子射入云室并拍摄该空间中电离点的照片来研究基本粒子。

  • 00:55:00 在本节中,讲师讨论了图像分析过程自动化的历史,特别是为了检测威尔逊气泡室照片中的线条或弧线。霍夫变换是作为一种解决方案而开发的,用于处理检测间距不均匀或尺寸不均匀的线条的挑战,因此线条从图像空间映射到线条的参数空间。讲师解释了累加器阵列的概念,以计算每个可能的参数组合的证据,并寻找与图像中的线条相对应的峰值。从参数空间到图像空间的映射可以很好地估计直线,即使证据只是一个气泡。

  • 01:00:00 在本节中,讲师解释了霍夫变换的概念,这是一种检测图像中是否存在简单对象(例如直线、圆或椭圆)的技术。霍夫变换通过将图像空间映射到参数空间来工作,其中变换空间中的每个点代表原始空间中的一条线。变换是对称的,因此原始空间中的所有线都映射到参数空间中的唯一交点。讲师举例说明图像中的气泡如何给出可能的直线的证据,并通过在参数空间中找到它们的变换,人们可以积累证据以找到与变换空间中的直线对应的峰值。

  • 01:05:00 在本节中,讲师解释了霍夫变换,它用于图像中的线和边缘检测。霍夫变换为变换的可能参数创建了一个空间,每个点对应一条特定的线,即使线不规则且分布不均,也可以帮助收集证据。然而,霍夫变换可能不再用于边缘检测,因为有更好的方法。讲座还简要提到了扩展高斯半变换,它是霍夫变换的更复杂版本,具有权衡和需要处理的小技巧。此外,讲座还讨论了圆圈,以及霍夫变换如何通过确定信号的时间提前量来检测手机信号。

  • 01:10:00 在本节中,演讲者讨论了如何使用霍夫变换的扩展来解决涉及圆的问题,例如确定与 GPS 坐标的距离。通过测量时间提前量并根据给定的半径构建可能位置的圆圈,可以使用累加器阵列更新数据并逐渐积累识别圆圈位置的证据。该方法可以推广到更大的参数空间,包括具有不同半径的锥体,并且空间中的每个点对应于平面中特定位置的不同圆。最终结果应该包含许多圆形交叉点,表明手机信号塔的真实位置。

  • 01:15:00 本节讲座讨论了广义半变换的思想,涉及原始参数空间和证据积累以创建得分面;这在检测边缘或纹理等特征时很有用,这些特征可能仅在特定比例或特定噪声级别下才明显。通过在较低的分辨率下工作或降低尺寸,我们可以降低计算成本并提高准确检测特征的能力。然而,当处理高维问题和高噪声水平时,这种方法可能会成为一项昂贵的任务。

  • 01:20:00 在本节中,演讲者讨论了不同的子采样图像方法,以便在不牺牲图像质量的情况下减少细胞数量和工作量。他们探索了“r”的不同值以及它们如何影响子采样的水平,“r”等于二的平方根之一是常用的值,因为它将单元格数量减少了两个并将间距增加了二的平方根。演讲者还介绍了 SIFT,一种在场景的不同图像中寻找对应点的方法,广泛用于从多张图片生成 3D 信息。 SIFT 使用一种不太激进的子采样方法,每个八度音程有多个步骤,为图像中的每个点创建唯一的描述符。

  • 01:25:00 在本节中,演讲者简要讨论了将一个八度音阶分为八个音符的音阶,并提到尽管它们的间隔不等,但有充分的理由不总是使用二分之一。演讲者还提醒听众提交他们的建议,并分享了幸运饼干中关于不要拖延的名言。
 

第 15 讲:对齐、PatMax、距离场、过滤和子采样(美国专利 7065262)



第 15 讲:对齐、PatMax、距离场、过滤和子采样(美国专利 7065262)

该视频讨论了与模式识别和对象检测相关的多项技术和专利。一种这样的技术是 PatMax,它使用基于吸引力的系统迭代地改进运行时图像的姿势。另一种技术涉及在像素网格上生成矢量场以改进运行时图像对齐。本讲座还涵盖了使用距离场进行边缘检测以及通过查看向量场中的力向量来扩展种子边缘。演讲者还讨论了多尺度模式匹配的使用以及将线拟合到图像坐标集所涉及的数学步骤。最后介绍了一项高效计算多尺度的专利。

在第 15 讲中,讲师介绍了用于图像的高效卷积、过滤和子采样的各种技术和快捷方式。这些包括使用样条分段多项式逼近滤波器内核,使用导数作为卷积,通过重复取三次差分来压缩图像,以及组合 x 和 y 方向卷积。演讲者还提到了在图像采样之前进行低通滤波以避免图像中的干扰和混叠的重要性。

  • 00:00:00 在本节中,视频讨论了另一种在二维图像中查找对象的模式,称为 PatMax。它与之前的模式 PatQuick 不同,它假设人们已经大致了解事物的位置,而是旨在通过迭代最小二乘法逐步改进该位置。使用 PatMax 的动机是最大化能量,灵感来自磁偶极子之间的力。然而,这种方法背后的直觉是完全错误的,更好的类比是将事物与弹簧连接起来。该专利还部分涉及对齐,并引用了旧 AI 实验室的其他专利和出版物。

  • 00:05:00 在本节中,视频解释了模式识别系统的训练过程,该系统使用边缘检测生成边缘偶极子并创建二维矢量场。然后系统使用吸引过程迭代地为运行时图像找到一个好的姿势,假设已经获得了起始姿势。客户端映射用于将不在正方形网格上的像素位置映射到正方形像素阵列,并且有 RMS 误差和检查评估等措施用于确定对象是否处于良好状态。最后,该视频描述了场偶极子列表如何生成用于与运行时图像对齐的探针。

  • 00:10:00 在本节中,讲师讨论了使用在像素网格上生成的场来改进对齐。该姿势与之前的专利相反,特征检测是在运行时图像而不是模型上进行的。该领域的目的是将运行时图像的离散结果映射回该领域,使其比转换整个图像更便宜,这是之前专利的情况。该场是通过一个新过程生成的,该过程将一个人引向运行时图像中的对象与训练图像中的对象匹配的对齐方式。该讲座研究了该领域是如何被概括的,并强调了计算该领域所涉及的不同步骤。

  • 00:15:00 在本节中,视频讨论了初始化和填充距离场以进行边缘检测的过程,这是机器视觉中称为距离图的常用技术。初始化涉及给场偶极子一个值,该值对应于边缘的距离及其方向。填充边缘附近的其余方块的过程是一个迭代过程,其中根据计算的几何形状确定和调整附近方块的值。距离场本质上是沿着每条边的凹槽,表明它离边缘有多远。最终目标是连接每个边缘,以便系统进入较低的能量状态。

  • 00:20:00 在讲座的这一部分,演讲者讨论了通过查看相邻像素并使用矢量场计算到边缘的力和方向来扩展种子边缘的过程。他们解释说,有时力之间的角度变得太大,表明存在角,在这种情况下,矢量将不再指向原始边缘像素。附加信息,例如对比度方向和矢量方向,可以帮助扩展边缘的匹配过程。目标是最小化系统中的能量,类似于使用弹簧机械系统建模。演讲者指出,对于边缘,通常很难确定我们与边缘上特定点的匹配程度如何,这将需要更复杂的模型来跟踪。

  • 00:25:00 在本节中,演讲者讨论了代表使用运行时图像进行特征检测的算法的机械模拟。系统使用来自图像上许多检测到的特征的一组力进行自我调整,机械弹簧向外拉伸并使用比例变换进行调整。然后系统计算杂波和覆盖率以评估运行时图像与模型的匹配程度。该系统的最终目标是通过系统地移动所有运行时偶极子来减少能量,它涉及一个大型最小二乘系统,该系统具有使用一组累加器的自然计算方法。

  • 00:30:00 在本节中,讲师讨论了模式匹配的各个方面,包括仅平移和平移和旋转案例。讲师解释说,模式匹配中使用的张量是一个多维数组,允许对齐的自由度。讲师还谈到了多尺度模式匹配,这涉及在低分辨率下工作以获得起始姿势,然后使用它来执行高分辨率模式匹配。讲师指出,模式匹配方法可以应用于从电视摄像机到电子显微镜的一系列实用设备。最后,讲师讨论了专利中的权利要求,指出权利要求非常广泛,可能会受到现有技术的挑战,但从属权利要求提供了更具体的细节。

  • 00:35:00 在讲座的这一部分,演讲者讨论了一项对齐过程的专利,该过程依赖于多个组件,包括低分辨率误差值和初始猜测。该过程称为 PatMax,无需第一次猜测即可以低分辨率搜索完整的姿势空间,这与所讨论的专利不同,后者需要第一次猜测并具有捕获范围。出于计算原因,此过程的姿势空间与 PatMax 相反。对齐过程旨在避免像素级别的阈值化和量化,而是专注于亚像素精度。演讲者还谈到了涉及机械弹簧的物理模拟。

  • 00:40:00 在本节中,演讲者讨论了对象检查的过程以及它如何涉及匹配和确定训练图像和运行时图像之间的转换。检查基于与训练图像相比运行时图像中缺失和额外的特征,以及由于背景纹理导致的图像混乱。还解释了距离场的生成,重点是当图像中存在边角时它是如何变化的。讨论了计算距离变换的过程,包括在离散世界中工作的挑战以及以快速有效的方式逼近欧氏距离的方法。

  • 00:45:00 在讲座的这一部分中,讨论了将局部力相加以提供平移或旋转对齐的概念。权重可以预定义或取决于梯度幅度或场偶极子,以及其他变化。围绕中心的扭矩用于提供旋转,取平面中两个向量的叉积的 z 分量可用于提供扭矩的标量。然后讲座描述了到一条线的距离,并解释了旋转到与一条线对齐的坐标系中以计算 x 和 y 素数。

  • 00:50:00 在本节中,演讲者讨论了使用两个参数 rho 和 theta 来参数化平面中的线族,这是一个双参数族。此参数化在直线拟合中很有用,其目标是找到一条高精度拟合边缘点的直线。演讲者解释了如何使用微积分来最小化距离的平方,并展示了如何将 x bar 和 y bar(线上各点的平均质心)与 rho 和 theta 联系起来。此外,讲座还涉及将坐标移动到质心并找到 theta 和 rho 之间的强关系以确定直线的参数。

  • 00:55:00 在本节中,讲师解释了使用 Hesse 范式方程找到将直线拟合到一组图像坐标的最小二乘解的数学步骤。通过取关于 theta 的导数并将其设置为零,可以获得包含两倍角度的正弦和余弦的解,可以使用三角恒等式简化该解。这种方法优于拟合 y 等于 mx 加 c,因为它独立于坐标系选择,可用于将短边片段组合成较长的边片段。讲师随后介绍了一项通过避免昂贵的卷积来高效计算多尺度的专利。

  • 01:00:00 在本节中,讲师讨论了为多尺度目的计算滤波器的有效方法。诀窍是用样条分段多项式逼近内核,并取 n 加一阶差分,这样很容易与零进行卷积,从而得到支持度较小的稀疏内核。本讲座还涵盖了 n 加第一个和,它是 n 加第一个差分的倒数,以及卷积和微分的性质。总的来说,该讲座提供了一些快捷方式和技巧的见解,可以使大图像与大内核的卷积更容易、更高效。

  • 01:05:00 在本节中,讲师讨论了卷积的特性和优势,特别是如果允许分布而不是函数,如何将导数视为卷积。这允许使用卷积属性,例如交换性和结合性,它们在信号处理中非常强大。讲师还描述了一个使用卷积使模式稀疏且卷积成本低的示例,其中涉及计算导数和查找非零值的位置。只需要与两个值进行卷积,这是一个显着的优势。

  • 01:10:00 在本节中,讲师解释了对图像进行三次差分以对其进行压缩的技术。通过重复取第三个差值,可以生成一组小而稀疏的值,与使用完整的原始图像相比减少了计算量。这可用于控制滤波器的带宽和比例,而无需改变所需的计算量。讲师使用一维函数演示了此技术,然后展示了一个抛物线示例,其中由于不连续而导致末端更加复杂。

  • 01:15:00 在讲座的这一部分中,讨论了不同的过滤技术,以提高子采样图像的计算效率,同时避免混叠伪影。探索了使用样条近似滤波器(例如高斯函数和同步函数)的方法,重点是减少计算时间和非零值的数量。此外,还提出了一种在 x 和 y 方向上组合卷积运算的技术,它需要更少的中间内存,并允许更有效的一维卷积级联。强调了这些主题与边缘检测和多尺度图像处理的相关性。

  • 01:20:00 在本节中,演讲者讨论了一种方解石晶体,它是双折射的,具有两个取决于偏振的折射率,这会导致图像的两个副本看起来非常靠近。这在相机中用于抑制更高频率的内容并改善采样。但是,移除此滤镜会导致图像出现干扰和混叠,以及拍摄对象的颜色和形状发生变化。演讲者指出,图像采样前低通滤波的改进减少了这些问题,但考虑图像混叠的影响仍然很重要。
 

第 16 讲:快速卷积、低通滤波器近似、积分图像(美国专利 6457032)



第 16 讲:快速卷积、低通滤波器近似、积分图像(美国专利 6457032)

讲座涵盖与信号处理相关的各种主题,包括带宽限制、混叠、低通滤波器近似、模糊、积分图像、傅里叶分析和卷积。演讲者强调了在采样之前对信号进行低通滤波以避免混叠伪影的重要性。本讲座还介绍了积分图像的概念,它可以有效地计算块内的像素总和,以及在逼近低通滤波器时减少计算量的各种技术。最后,讲座讨论了用于逼近 sinc 函数的双三次插值及其计算成本。

在本讲座中,演讲者讨论了与卷积、低通滤波器近似和积分图像相关的各种主题。他们解释了卷积的不同实现方式,包括一种通过从左到右添加值并减去平均值来节省计算时间的方法。还讨论了低通滤波器近似的线性插值的局限性及其与三次插值等更高级方法相比的劣势。介绍了药丸盒的概念及其在限制频率范围方面的价值,演讲者谈到了理想的低通滤波器以及散焦如何影响贝塞尔函数。讲座还涉及到 DSLR 相机镜头的低通滤波器近似的使用和摄影测量的概念。

  • 00:00:00 在本节中,演讲者讨论了采样波形以及对其进行频带限制的重要性。当对波形进行采样时,令人惊讶的是我们可以捕捉到一些关于它的信息,因为波形具有无限支持并且我们只能获得离散样本。然而,如果频率内容有限,奈奎斯特定理指出我们可以通过以足够高的频率采样来完全重建它。标准是我们的采样速度足够快,以便信号的最高频率分量小于 fs 的二分之一。最后,频带限制非常重要,因为它允许我们捕捉波形的本质而不会出现混叠伪像。

  • 00:05:00 在本节中,解释了信号处理中混叠的概念。当高于某个阈值的频率内容被采样并且与较低频率内容无法区分时,就会发生混叠。这无法在采样后修复,因此必须通过抑制较高频率内容来事先完成。为此,重要的是在采样之前对信号进行低通滤波。然而,真正的低通滤波很难实现,因此必须进行近似。

  • 00:10:00 在这节课中,演讲者讨论了通过预采样滤波等方法进行模糊的概念,并介绍了积分图像的思想。他解释说,boxcar 滤波器可用于执行块平均,计算块内像素的总和,但这种方法的计算量可能很大。为了解决这个问题,可以在 1D 和 2D 情况下使用积分图像来更有效地计算总和。积分图像不仅限于图像,因为它也适用于其他类型的矩阵,如积分梯度。

  • 00:15:00 在本节中,讲师解释了如何使用积分图像计算矩形的总和。讲师展示了通过四次内存访问和三个算术运算,我们可以获得任何块的总数,并且与其大小无关。该技术可用于识别和分块平均。讲师还讨论了傅立叶分析以及如何使用移动平均线对块进行平均。

  • 00:20:00 在讲座的这一部分,演讲者讨论了使用 sinc 函数作为低通滤波器近似值的缺点。 sinc 函数没有足够积极地衰减高频,也没有足够快地到达第一个零,这使得它成为低通滤波器近似的一个糟糕选择。此讨论与相机特别相关,相机在采样前执行滤波操作,块平均被建议作为 sinc 函数的潜在替代方案。块平均计算成本低,可以执行两次以期获得更好的低通滤波器近似值。

  • 00:25:00 在本节中,讲师讨论了变换域中滤波器的属性以及它们与图像中的步长不连续性的关系。讲师解释说,阶跃函数的变换随着频率的增加而下降,这意味着具有阶跃不连续性的图像将产生不会快速下降的高频内容。讲师指出,这是离散傅里叶变换的一个问题,因为它假设数据是周期性的,因此它在数据回绕时引入了阶梯边缘不连续性。为了解决这个问题,讲师建议切趾,这涉及将图像乘以波形以使两端匹配。一种常见的变迹滤波器是反余弦波形。

  • 00:30:00 在本节中,视频介绍了处理应用于图像的 dft 的不同方法,其中一种是假设图像的外部周期性地重复自身或者是镜像,尽管这不是一个完美的解决方案由于导数不连续的可能性。讨论的另一种方法是使用近似滤波器进行低通滤波。然后视频涉及近似低通滤波所需的某些属性,例如单位脉冲和分布的筛选属性。

  • 00:35:00 在讲座的这一部分,演讲者讨论了单位冲量及其与卷积的关系。虽然单位冲量在数学上不能正确定义为卷积的极限,但可以通过计算其卷积并在 epsilon 趋于零时取极限来确定与单位冲量的卷积效果。演讲者指出,卷积可以连接到导数,并且线性移位不变算子和导数算子密切相关。他们解释说,导数本质上可以被视为卷积,两个卷积之一被翻转。

  • 00:40:00 在本节中,讲师讨论了低通滤波器近似以及它们如何改进相机中使用的像素平均方法。他解释说,在模拟域中采样之前需要进行额外的低通滤波,并建议使用双折射材料来创建特殊滤波器。该滤波器涉及两个移位图像,它们建模为与脉冲的卷积,从而产生原始图像的两个略微移位的版本。当使用傅立叶变换进行分析时,滤波器不会随频率下降,但会在 pi 超过 epsilon 时下降,从而允许选择适当的 epsilon 值。

  • 00:45:00 在本节中,讲师讨论了低通滤波器的概念,并介绍了一种使用比像素间距更厚的板来切割高频的技术。该板切割高频但不切割其他频率。讲师解释说,将这个极其简单的抗混叠滤波器与块平均滤波器一起使用可以减少图像中高频内容引起的波纹效应。然后讲师介绍了专利和积分图像的思想,旨在减少计算量以获得良好的低通滤波,同时最小化支持的大小。讲师演示了如何使用卷积表示积分并提供单位脉冲的傅里叶变换。

  • 00:50:00 在本节中,视频重点介绍了卷积的概念及其与傅立叶变换域中微分和积分的关系。解释了可以通过对一级导数或脉冲进行卷积来获得二阶导数。此概念适用于过滤过程,其中如果过滤器是稀疏的,则可以将其分成多个部分以减少计算量,这在使用常量函数或多项式近似值时会发生。通过对与稀疏滤波器卷积的结果进行积分或求和,可以用更少的计算高效地获得所需的答案。

  • 00:55:00 在本节中,讲师讨论了 sinc 函数的逼近,它非常适合低通滤波器,但会一直持续下去,因此无法完全表示它。讲座介绍了二维图像的双三次插值,其中像素发生旋转,需要进行插值。该方法涉及使用四个部分,其中曲线由三次方描述。四阶导数用于滤波,其结果远优于使用最近邻或线性插值。据解释,逼近同步函数会产生计算成本,使其无法使用。

  • 01:00:00 在本节中,块平均示例用于通过移动块并将块下方的任何内容相加来说明卷积的简单实现。通过从左到右添加值然后减去平均值来阻塞较大的段时,另一种实现显示可以显着节省计算时间。还讨论了线性插值,它可以被认为与卷积有关,它通过创建一个函数来使用直线连接离散网格上的点。

  • 01:05:00 在本节中,演讲者讨论了低通滤波器近似的线性插值方法及其局限性,特别是在噪声和图像测量方面的变化。他解释说,该方法涉及两个 boxcar 的卷积,这是一个模仿同步函数的线性函数。他还指出,这种方法不如更先进的方法,例如用于低通滤波器近似的三次插值法。此外,他解释说,最近邻近似法是一种分段常数函数,其精度甚至低于线性法。

  • 01:10:00 在讲座的这一部分,演讲者讨论了卷积背景下低通滤波器近似和积分图像的概念。他们解释了最近邻插值如何对应于 boxcar 的卷积,以及对自然图像使用旋转对称坐标系的好处。然后他们介绍了药盒的概念及其在限制频率范围方面的价值。药丸盒的逆变换也被证明是旋转对称的,根据光学中常用的贝塞尔函数而变化。

  • 01:15:00 在本节中,讲师讨论了理想的低通滤波器,即扩展函数对脉冲的响应。此函数的第一个零与同步函数不同,用于根据 Aries 解析标准进行解析。当失焦时,讲师显示扩散函数变为药盒,这在空间频域中变为贝塞尔函数。然后他得出结论,散焦通过改变贝塞尔函数影响焦点。

  • 01:20:00 在讲座的这一部分,演讲者讨论了低通滤波器近似的使用以及高频内容的减少,这可能会由于零点的存在而导致完全消除某些频率。演讲者还谈到了如何通过查看频域来确定 DSLR 相机镜头的步长,以及顺序进行的两个透视投影与单个透视投影不同的效果。最后,引入稍微失焦的图像并将它们卷积作为确定图像是否已被修改的方法的概念。

  • 01:25:00 在本节中,讲师讨论了卷积的概念及其与频域乘法的关系。他们解释了如何使用 pillbox 函数对图像进行卷积,但警告说乘以散焦图片不会产生准确的结果。然后讲座过渡到摄影测量的主题,它使用图像创建关于物体及其位置的 3D 信息,方法是匹配图像之间的边缘等特征以精确定位相机的位置。
 

第 17 讲:摄影测量、定向、惯性轴、对称、定向



第 17 讲:摄影测量、定向、惯性轴、对称、定向

本讲座涵盖与摄影测量相关的各种主题,包括深度线索、相机校准和建立两个坐标系之间的转换。演讲者解释了如何使用相应的测量来解决在两个系统之间找到坐标变换的问题,并强调了检查变换的精确逆向的重要性。本讲座还讨论了在 2D 和 3D 空间中找到惯性轴以及确定投影到轴上的两点之间的距离。总的来说,本节全面概述了摄影测量及其应用。

摄影测量需要在左手坐标系和右手坐标系中的点云上建立坐标系,并将两者相关联。讲师解释了如何确定惯性矩阵或惯性轴并建立基向量。他们还讨论了对称对象和旋转属性带来的挑战,例如点积、长度和角度的保持。此外,讲座还介绍了如何通过消除平移和最小化误差项来简化寻找旋转的问题。最后,讲师解释了如何使用矢量微积分将两个具有相似形状的对象对齐,并建议探索其他旋转表示法。

  • 00:00:00 在本节中,演讲者介绍了摄影测量法,其中涉及使用图像测量和重建三维表面。该领域起源于地图制作,并在摄影术发明后得到普及。演讲者讨论了摄影测量的四个经典问题,包括寻找两个不同坐标系之间的关系,以及寻找单个坐标系与可能移动或变化的物体之间的关系。演讲者指出,虽然机器视觉通常更关心第二个问题,即涉及从二维图像恢复三维,但由于其封闭形式的解决方案,首先解决 3D 问题可能更有优势。

  • 00:05:00 在本节中,讲师解释了摄影测量的两种应用类型:2D 到 3D 和 3D 到 2D。前者涉及从图像中恢复三维信息并确定空间中两个相机之间的关系以对齐它们。后者涉及相机校准,这是使用相机进行精确测量所必需的,并通过从平面捕获规则图像间隔来创建地形图。讲师还讨论了几种深度线索,包括双眼立体,这是通过两只眼睛感知深度的能力。

  • 00:10:00 在本节中,讲师解释了如何使用两个相机使用相似三角形建立深度线索。通过在两个相机中对物体进行成像并比较生成的图像,位置之间的差异可用于计算物体的深度。该讲座还指出,图像中的视差可用于计算深度,因为距离与视差成反比。最后,该部分涉及对误差的敏感性以及测量差异时的微小差异可能导致多大误差的主题。

  • 00:15:00 在视频的这一部分,讲师讨论了摄影测量和使用两个相机测量 3D 位置。他们解释说,增加基线或焦距可以提高测量精度,但对这些数量有限制,例如确保相机相距不太远。他们还提到了如果相机未在特定几何形状中完美对齐,则校准相机的挑战。然后,讲师继续讨论绝对方向的主题,以及如何补偿激光雷达或航拍相机等设备的方向,这些设备可能不会保持恒定的姿态。最后,他们指出,讨论假设图像中存在有趣的点,而忽略了匹配问题。

  • 00:20:00 在本节中,讲师解释了如何找到两个坐标系的旋转和平移,以便在 3D 中投影光线并找到它们之间的交点。他以在左坐标系和右坐标系中测量的点为例,指出这可以适用于任何两个坐标系,而不管它们的标签如何。讲师强调需要六个数字来完全指定变换,三个用于旋转,三个用于平移,并解释说每个都有三个自由度。他写下变换公式,强调旋转不必表示为标准正交矩阵。

  • 00:25:00 本讲座讨论了旋转和正交矩阵的属性,这对于理解如何计算对象的旋转和平移至关重要。该讲座还讨论了如何强制正交约束消除反射以及如何轻松获得旋转矩阵的逆矩阵。还提供了一个物理模型,以便更好地可视化左右坐标系中的点如何叠加和排列。

  • 00:30:00 在本节中,演讲者讨论了如何使用相应的测量来解决在两个系统之间找到坐标转换的问题。这个问题可以用最小二乘法来解决,目标是最小化左坐标系和右坐标系中变换后的向量之间的距离。这可以被认为是能量最小化问题,系统会尝试调整自身以最小化能量。演讲者强调了检查从右系统到左系统的变换是从左系统到右系统的变换的逆过程的重要性。将平移和旋转问题分开可以将问题简化为一次只有三个自由度。

  • 00:35:00 在本节中,演讲者解释了如何使用对象上的点的测量值来构建坐标系。第一步是选择一个点作为原点并将其连接到第二个点以创建一个轴。前两点之间的间隔被归一化以创建 x 轴,第三个点用于定义 xy 平面。 y 轴是通过移除向量在 x 轴方向上从第一个点到第三个点的分量,并使生成的向量垂直于原始向量来创建的。 z 轴定义为 x 和 y 的叉积,因为它垂直于两个向量。此过程允许创建坐标系并测量对象在两个坐标系中的点。

  • 00:40:00 在本节中,演讲者解释了如何建立坐标系和解决旋转问题。为此,他们使用三元组单位向量来定义左右坐标系。然后,他们采用两个云点,构建一个轴,并将单位向量相互映射,以找到将它们放在一起的变换。然后他们使用 3x3 矩阵将单独的方程式粘在一起并解决旋转问题。他们提到,通过删除翻译,只剩下三个自由度可供寻找。

  • 00:45:00 在本节中,演讲者讨论了摄影测量中坐标系之间映射点所涉及的约束。虽然两个系统之间的三个对应关系对于只有三个未知数的解决方案来说似乎就足够了,但矢量等式意味着每个约束值三分。因此,我们有九个约束条件。然而,旋转只有三个自由度,导致信息过多。演讲者随后讨论了一个临时解决方案,该解决方案涉及有选择地挑选要转换的点,这是不精确的。另一种解决方案涉及使用奇异值分解 (SVD) 来找到对来自所有对应关系的信息进行均匀加权的最佳变换矩阵。

  • 00:50:00 在本节中,讲师讨论了在 2D 和 3D 空间中寻找惯性轴的概念。他解释说,可以通过计算距离的平方乘以质量的积分来找到最小惯性轴,而垂直轴具有最大惯性,并且在 3D 中,存在第三个轴,即鞍点。他指出,如果确定了这些轴,则可以为所讨论的对象建立坐标系。还讨论了用于查找从轴到原点的距离的公式,以及选择质心作为原点以将查找平移的问题与查找旋转的问题分开。

  • 00:55:00 在本节中,演讲者解释了如何确定投影到轴 omega 上的两点 r 和 r prime 之间的距离。惯性公式是从这个距离推导出来的,并显示随着轴改变方向而变化。然后演讲者使用点积、乘法结合律和单位矩阵简化了公式。由此产生的公式表明,惯性等于 r 与自身乘以单位矩阵并在物体体积上积分的点积。

  • 01:00:00 在这一部分,讲师解释了如何在左手和右手坐标系中在点云上建立坐标系,然后将两者联系起来。这是通过计算惯性矩阵或惯性轴来完成的,这是一个简单的三乘三矩阵的特征值特征向量问题。发现三个相互垂直的轴 - 最大轴、最小轴和鞍轴。这些轴用来建立基向量,右手坐标系也用同样的方法。用于执行此操作的方法是最小二乘问题,因为它平等对待所有点并将问题最小化。

  • 01:05:00 在讲座的这一部分,演讲者讨论了处理对称物体时摄影测量中的临时方法的局限性。演讲者解释说,一些物体,例如球体、四面体和八面体,在所有方向上都具有相同的惯性,因此很难使用依赖伸长率的临时方法来确定它们的方向。此外,演讲者指出,使用对应关系来确定方向是一种更准确但更具挑战性的方法,因为它需要知道每个点的对齐方式。演讲者还解释了旋转的属性,包括点积、长度和角度的保持。

  • 01:10:00 在本节中,教授讨论了向量的三重乘积,即由这些向量形成的平行六面体的体积。如果旋转这些矢量,如果旋转不是反射,则它们的体积将被保留。反射会改变三重乘积的符号,从而改变体积,从而导致左手定则而不是右手定则。在设置最小二乘问题以找到两个坐标系之间的转换时,此原则很重要,其中需要选择偏移和旋转以最小化两个系统之间的误差。

  • 01:15:00 本节讲师讲解如何将求平移的问题从求旋转简化。他们通过将坐标移动到质心并从原始坐标中减去它们来消除平移来实现这一点,从而使旋转问题更容易解决。然后,讲师将新坐标代入误差公式并对项进行分组,最终得出一个更简单的问题。讲座以为翻译选择什么偏移量的问题结束。

  • 01:20:00 在这一节中,讲座的重点是将寻找平移的问题与寻找旋转的问题分开。平移的公式是质心在右坐标系中的位置与旋转后左坐标系质心的位置之间的差异。下一个目标是最小化剩余的误差项,这涉及找到正确的旋转。通过最大化取决于旋转的剩余项,本讲座的目的是找到正确的旋转,当想象一团点连接到具有尖刺、寿司状外观的质心时,这在直觉上是有意义的。

  • 01:25:00 在本节中,讲师解释了如何使用矢量微积分对齐具有相似形状的两个对象。通过获取对象的相应脊柱并使用它们之间的点积来确定角度,可以对齐对象。然而,这带来了如何使用微积分解决旋转问题,而不必处理因添加约束而变得复杂的矩阵。讲师建议查看其他旋转表示,使对齐问题更容易。
 

第 18 讲:旋转及其表示方式、单位四元数、旋转空间



第 18 讲:旋转及其表示方式、单位四元数、旋转空间

本讲座讨论了表示旋转的挑战,并介绍了哈密顿四元数的用途。单位四元数特别有用,因为它们直接映射到三个空间中的旋转,允许讨论该空间中的旋转和优化空间。四元数具有类似于复数的属性,并且对于表示旋转特别有用,因为它们保留点积、三重积、长度、角度和旋向。本讲座还讨论了表示旋转的不同方法、能够旋转矢量和组合旋转的重要性,以及传统方法(如矩阵、欧拉角和万向节锁)的局限性。最后,讲座介绍了该领域正在进行的研究,包括优化和拟合模型的旋转,以及开发用于分析和可视化旋转空间的新方法。

在本次讲座中,教授讨论了寻找两个坐标系之间的坐标变换或两个物体之间的最佳拟合旋转和平移的问题,并在两个坐标系中测量了相应的点。该讲座探讨了使用四元数将航天器相机与目录方向对齐并解决相对方向问题。讨论了四元数在表示旋转方面的效率,以及在四维空间中表示旋转的不同方法。此外,讲座探讨了不同多面体的各种旋转组,强调了选择正确坐标系以实现规则空间采样的重要性。

  • 00:00:00 在本节中,演讲者讨论了处理旋转的挑战,因为它们不像平移那样可交换。目标是开发一种有用且通用的方法来处理摄影测量和机器人技术中的旋转。汉密尔顿的四元数提供了一种更通用的方法来表示旋转,特别是当限于单位四元数时,它可以直接映射到三个空间中的旋转。这允许讨论该空间中的旋转和优化空间。应用广泛,从机器人技术到生物医学科学,演讲者旨在为涉及测量不同坐标系中的两个物体或移动的一个物体的问题开发一种封闭形式的解决方案。

  • 00:05:00 在本节中,介绍并解释了旋转主题。欧拉定理指出,刚性物体的任何旋转都有一个特性,即有一条线是不变的,这就是轴。平行轴定理指出,绕任何轴的任何旋转都等效于绕通过原点的轴的旋转加上平移。为了简化事情,将平移和旋转分开很方便。旋转速度比有限旋转本身容易得多,因为角速度只需要一个矢量和一个速率。最后,有限旋转不通勤,对于 n = 3,存在三个自由度。

  • 00:10:00 在本节中,讲师解释说最好将旋转视为保留某些平面。例如,可以保留 xy 平面,同时将其中的内容移动到不同的位置。讲师还指出,叉积具有三个自由度并表示为向量,因为它们垂直于相乘的两个向量。存在旋转表示法,一种有用的方法是轴和角度表示法,其中轴是单位向量,旋转的度数由角度表示。吉布斯矢量是另一种将轴和角度组合成单个矢量的符号,尽管它不再是单位矢量并且在 theta 等于 pi 时膨胀。

  • 00:15:00 在本节中,讲师解释了表示旋转的各种方式,包括欧拉角、正交矩阵、指数形式、立体图和复矩阵。每种方法都有自己的约束,欧拉角有 24 种不同的定义,令人困惑。然而,单位四元数是表示旋转的最流行和最有用的方法,因为它们具有许多优点,例如紧凑、易于插值、不受 Gimbal lock 的影响。能够在不同的旋转表示之间进行转换也很重要。

  • 00:20:00 在本节中,演讲者讨论了旋转矢量并在旋转坐标系中找到其位置以及组合旋转的问题。演讲者介绍了 Rodriguez 的公式,该公式通过获取一个向量并将其绕给定轴旋转一个角度来解决第一个问题。通过将问题分解为 2D 问题,演讲者展示了旋转公式在平面中如何简单,但在 3D 中更复杂。演讲者解释说,轴和角度符号对于可视化旋转很有用,但合成很难实现。

  • 00:25:00 在本节中,讲师讨论了旋转的不同表示形式,包括使用投影技术将球体映射到平面上,从而保留角度和形状。他还提到了能够旋转矢量和组合旋转以及具有轴和角度等直观表示的重要性。然而,他指出,旋转矩阵和轴角等一些表示可能是多余的或不是很直观。讲师还强调了避免奇点和确保计算效率同时能够在图形中插入方向的重要性。

  • 00:30:00 在本节中,讲师讨论了在计算机图形中表示和插值旋转的挑战,以及对可以有效采样和平均的旋转空间的需求。他指出了使用矩阵、欧拉角、万向节锁和其他传统方法的局限性,并介绍了四元数作为更实用的解决方案。他解释了四元数如何避免冗余和奇点,以及如何以数学上优雅且计算效率高的方式组合、插值和采样它们。他还强调了该领域的一些未解决问题和正在进行的研究,包括优化和拟合模型的旋转,以及开发用于分析和可视化旋转空间的新方法。

  • 00:35:00 在本节中,演讲者解释了四元数创建背后的历史及其在数学中的意义,尤其是在旋转方面。他解释说,来自都柏林的数学家威廉·汉密尔顿 (William Hamilton) 正试图找到一种方法来以允许除法的方式表示三元组数字,因此他从复数中寻找灵感。汉密尔顿最终发现四元数,或具有一个实部和三个虚部的数,可以解决这个问题。然后演讲者继续解释表示四元数的不同方式,包括作为空间向量或四乘四矩阵。

  • 00:40:00 在本节中,讲师讨论了表示四元数乘法的不同方法,包括使用矩阵以及使用标量部分和三个虚部。讲师强调乘法是不可交换的,并展示了如何将乘法表示为矩阵和向量的乘积。讲座还重点介绍了一些基本结果,包括四元数乘法不是可交换的而是结合的。

  • 00:45:00 在本节中,演讲者解释了四元数的属性,这些属性使它们成为表示旋转的有用方法。四元数具有类似于复数的性质,包括涉及虚部取反的共轭。点积可以表示为一个范数,一个四元数乘以它的共轭得到一个没有虚部的实数,可以用来除法。在单位四元数的情况下,逆就是共轭。四元数也可以通过省略标量部分来表示向量,并且在这个空间中有许多有趣的属性。

  • 00:50:00 在本节中,讲师解释了如何使用四元数表示旋转。与简单的四元数乘法不同,四元数与向量的预乘、后乘及其共轭以及提取向量的虚部的操作给出了具有零标量部分的四元数,可用于在 3D 中旋转向量。通过使用四乘四矩阵表示四元数乘法,讲师随后展示了该运算如何保留原始向量的点积。最终,生成的三乘三正交旋转矩阵可用于旋转向量,而无需直接操纵四元数。

  • 00:55:00 在本节中,讲师讨论了定义旋转的属性以及如何使用四元数表示旋转。四元数是保留点积、三重积、长度、角度和旋向的旋转的四维表示,这使其成为旋转的适当表示。旋转的组合在四元数表示法中很简单,而在轴角和欧拉角中却很困难。四元数的矢量部分与旋转轴平行,便于确定轴心。讲师解释了如何在轴角和四元数表示之间进行转换,并确定球体的另一侧表示相同的旋转,这是摄影测量中计算平均值的基本知识。

  • 01:00:00 在这节课中,演讲者讨论了寻找两个坐标系之间的坐标变换或两个物体之间的最佳拟合旋转和平移的问题,并在两个坐标系中测量了相应的点。使用带有弹簧的物理模拟,系统希望最小化误差的平方和以找到旋转和平移。求平移的第一步是将左系旋转后的质心取到右系的质心,这样比较直观,不需要对应关系。然后使用翻译公式来简化表达式以最小化误差项。中项是唯一可以改变的,通过最大化它,系统可以最大化相应点的点积。

  • 01:05:00 在本节中,讲师讨论了如何使用四元数符号将航天器相机与目录方向对齐。他们使用四元数将方向映射到具有目录方向的相机中的恒星,目标是最大化这两个四元数的点积。但是,由于这会导致四元数的值很大,因此需要施加额外的约束。讲师解释了关于四元数的两种微分方法,用于最小化两个四元数方向之间的差异。

  • 01:10:00 在这节课中,教授讨论了根据数据构造的四乘四实对称矩阵的特征向量和特征值。与过去要求最小特征值不同,由于正弦翻转,我们需要选择最大特征值对应的特征向量。该矩阵是对称的,这意味着它有九个独立的量,其行列式的三次项为零。虽然它有16个独立的量,但是其中有10个是独立的,这使得这个矩阵很特别。这允许它简化为三次方程,这使得求解更容易。教授还指出,与五阶方程不同,三次方程和四次方程可以用封闭形式求解。

  • 01:15:00 在本节中,讲师讨论了四元数作为表示旋转的一种方式的理想属性。这些属性包括旋转矢量和轻松组合旋转的能力、直观的非冗余表示、计算效率以及插值方向和对旋转范围取平均值的能力。讲师随后将相对方向介绍为使用世界上两点的方向数据找到两个坐标系的基线和相对方向的问题。四元数也可用于描述机器人操纵器的运动学,并有助于避免坐标系对齐问题,尤其是在手腕处。

  • 01:20:00 在本节中,演讲者讨论了与正交矩阵相比,四元数在表示旋转方面的效率,证明四元数乘法对于组合来说更快,但对于旋转向量来说更慢。他指出,四元数也比矩阵更容易重新归一化。然后演讲者讨论了如何通过将多面体投影到旋转球体上来对四个维度的旋转空间进行采样,从而对空间进行规则和均匀的采样。

  • 01:25:00 在本节中,讲座讨论了在四维空间中表示旋转的不同方法,例如使用坐标系来简化旋转组的表达式。本讲座还探讨了不同多面体的各种旋转组,使用这些组提供空间的规则空间采样,以便用户可以尝试不同的方向进行搜索或平均。然而,需要注意的是,这些方法可能需要技巧才能实现更精细的采样,选择正确的坐标系至关重要。
 

第 19 讲:封闭形式的绝对方向、异常值和稳健性,RANSAC



第 19 讲:封闭形式的绝对方向、异常值和稳健性,RANSAC

本讲座涵盖了绝对方向的各个方面,包括使用单位四元数表示摄影测量中的旋转、四元数和正交矩阵表示之间的转换、处理旋转对称性以及以无对应的方式协调平移、缩放和旋转。本讲座还讨论了线拟合和测量过程中的异常值和鲁棒性问题,并介绍了 RANSAC(随机样本一致性)方法,作为在存在异常值时提高测量可靠性的一种方法。本讲座最后讨论了在共面场景中使用两个平面解决封闭形式的绝对方向问题,包括与异常值和优化相关的挑战。

在这个关于绝对方向的视频中,讲师讨论了真实数据中的异常值问题,并提出使用 RANSAC,一种涉及随机子集拟合的共识方法来处理异常值。讲师还讨论了实现球体上点均匀分布的方法,包括在立方体中内接球体并投影随机点、细分球体表面以及在正多面体上生成点。此外,讲师还介绍了对旋转空间进行采样以有效识别库中多个对象的方法、查找将对象与自身对齐所需的旋转次数,以及通过示例或四元数乘法解决查找旋转问题的方法。

  • 00:00:00 在讲座的这一部分,演讲者讨论了使用单位四元数来表示摄影测量中的旋转。单位四元数允许对最不严重的问题采用封闭形式的解决方案,从而提供一种获得最佳答案的客观方法,而其他符号则更难做到这一点。特别重要的两个操作是旋转的合成和矢量的旋转,它们都可以使用讨论的公式表示。演讲者还使用 Rodriguez 的公式将此符号与轴和角度符号相关联。总的来说,使用单位四元数可以更有效地表示摄影测量中的旋转。

  • 00:05:00 在视频的这一部分,演讲者讨论了四元数和标准正交矩阵表示之间的转换。将四元数转换为矩阵的公式涉及一个四乘四矩阵,其中既有斜对称部分,也有对称部分。演讲者解释说,第一行和第一列是不相关的,因为它们代表一个特殊的四元数,它是一个标量部分为零的向量。要将正交矩阵转换回四元数,演讲者建议使用三乘三子矩阵的迹。该方法以两个余弦项形式的方程式结束,使我们能够求解矩阵之间夹角的余弦值。

  • 00:10:00 在本节中,讲师讨论了从矩阵 R 的对角元素计算旋转矩阵的不同方法。虽然一种方法以旋转矩阵的轨迹为中心,但它在 theta 等于零附近遇到问题。相反,最好使用非对角线元素,它们都取决于大于二的 theta 的正弦值。然后讲座继续给出一个完整的反演公式,计算各种和与差并取平方根。这种方法的问题是正弦歧义,但讲座建议选择最大的数值精度并解决它。

  • 00:15:00 在本节中,演讲者讨论了四元数和旋转矩阵之间直接和间接的转换过程,以及如何在坐标转换中考虑比例。他们解释了使用最小二乘问题求解旋转和缩放因子以及最小化四个和的过程。演讲者强调了在拼接从连续摄像机位置获得的地形片段时考虑比例的重要性,并解释了如何在这些情况下找到最佳结果。

  • 00:20:00 在本节中,演讲者讨论了旋转中的对称性问题,其中用于计算旋转的方法应该能够反转以获得旋转矩阵的逆。演讲者还探讨了另一个优于以前方法的错误术语,因为它不需要对应关系并且可以将质心映射到质心。该方法涉及通过将误差项相对于比例因子的导数设置为零并求解比例因子来找到比例因子,这通过使比例因子比应有的小一点来避免作弊。

  • 00:25:00 在本节中,讲师解释了如何以无对应的方式处理平移、缩放和旋转。使用质心方法,比例因子可以计算为两个点云的大小之比。在旋转部分,讲师简要介绍了关于四元数 q 最大化矩阵 N 的负行列式的微积分问题。可以使用拉格朗日乘数找到解决方案,但也可以使用称为 Rall 商的更简单的方法,该方法除以 q 的长度以防止它变得无限大。所得函数在任何阵列上都是恒定的,给出了使其尽可能极端的射线方向。

  • 00:30:00 在本节中,演讲者解释了如何通过对方程进行微分并将其置零来找到使 sigma 最大化的矩阵。使用比率公式进行微分,演讲者随后展示了 q 是一个特征向量,并解释了可以通过选择与最大特征值对应的特征向量来最大化矩阵。这种方法的唯一约束是特征向量必须满足从对应数据中获得的约束。然而,与正交矩阵不同,这个约束更容易处理。

  • 00:35:00 在本节中,讲师讨论了摄影测量问题所需的对应数量。他们的目标是找到六件事:平移旋转和缩放,这意味着每个对应关系三个约束,因此只需要两个对应关系。但是,只有两个对应关系,只有五个约束;因此,需要三个对应关系才能实现这一点。此外,讲师提到了推广转换以匹配从三个点获得的九个约束的可能性;然而,他们指出这些限制是非常多余的。

  • 00:40:00 在这一部分,视频讨论了 3D 中一般线性变换的概念,它涉及 12 个元素,而不是 2D 中的 6 个元素,很难用三个对应来确定。此外,该视频还解释了线性变换失败的两种方式。首先,如果没有足够的对应关系,其次,如果矩阵 N 具有多个零特征值。该视频进一步解释了如何求解特征方程以找到矩阵的特征值。

  • 00:45:00 在视频的这一部分,讲师解释了如何使用二乘积计算矩阵 M,二乘积是一个三乘三矩阵,用于计算四乘四矩阵 N,这是最获得 N 的有效方法。值得注意的是,如果 M 的行列式为零,则问题变得特别容易解决,因为 C1 为零,无需任何特殊教科书即可求解方程。这种特殊情况与点的分布有关,并且可能在点共面时发生。讲师展示了如果所有点都在一个平面上,这同样适用,从而使问题易于解决。

  • 00:50:00 在视频的这一部分,演讲者解释了如何在共面场景中使用两个平面解决封闭形式的绝对方向问题。完整的 3D 旋转可以分解为两个简单的旋转,首先旋转一个平面,使其位于另一个平面之上,然后进行平面内旋转。演讲者解释了如何找到构建四元数所需的轴和角度,并旋转一个坐标系中的所有点以将它们对齐到另一个坐标系。此外,演讲者还讨论了在优化问题中处理离群值的挑战,以及使用误差平方以外的其他东西(例如误差的绝对值)如何导致需要计算更多的工作以及难以推广结果。

  • 00:55:00 在这一节中,讲师讨论了线拟合和其他测量过程中的异常值和鲁棒性问题。他介绍了 RANSAC(Random Sample Consensus)方法,该方法涉及随机抽取点样本并使用最小二乘法找到最佳拟合,然后检查落在带内的点数并根据噪声和离群值与离群值的比率。重复该过程,直到获得良好的拟合。讲师指出,在存在异常值的情况下,使用 RANSAC 可以提高测量的可靠性。

  • 01:00:00 在视频的这一部分中,讲师讨论了真实数据存在的离群值问题以及如何使用共识方法(也称为 RANSAC)对其进行处理。该方法涉及获取随机子集、执行拟合并寻找命中次数最多的单元格,这些单元格可以衡量可能没有封闭形式解决方案的对象的方向。讲师强调,这种方法在许多应用中都很有用,而不仅限于绝对方向。此外,讲师提到,凸面附近复杂物体的表示也可用于检测物体并找到它们的方向。

  • 01:05:00 在本节中,讲师讨论了球体上采样点实现均匀性的困难。由于极地区域的浓度高于其他区域,因此无法通过使用均匀分布生成器对 theta 和 phi 进行采样来实现点的均匀分布。建议的解决方案是在立方体中刻上一个球体,并将立方体中的随机点投射到球体上。然而,这仍然会导致球体与立方体相切的点密度更高。为解决此问题,讲师建议使用规则实体对球体表面进行细分,或将重量引入角附近的点以收缩它们的聚集。

  • 01:10:00 在视频的这一部分,讲师讨论了在球体表面获得均匀分布的点的方法。一种方法是在立方体中均匀生成点并将它们投影到球体表面,同时丢弃离原点太近或太远的点。另一种方法是使用正多面体划分球体并在这些形状上均匀生成点。然而,这种方法需要细分以获得更精细的划分,这与生成实际上均匀分布的第一种方法不同。

  • 01:15:00 在本节中,讲师讨论了如何找到对各种对象的旋转空间进行采样的统一方法,这是库中多个对象的识别过程的一部分。讲师解释说,为了提高效率,他们不想对旋转空间的某些部分进行比其他部分更密集的采样,他们的目标是找到一种统一的采样空间方式。他们首先讨论具有旋转对称性的六面体及其旋转。讲师解释说,目的是找到旋转方法,以便轻松找到不同模型之间的点对应关系。

  • 01:20:00 在本节中,演讲者讨论了如何找到使对象与自身对齐所需的旋转数,然后使用两种方法生成一组旋转:几何方法和四元数乘法。发现了一个有趣的新旋转,其轴为 (1, 1, 1),角度为 2π/3,并显示为将立方体的角与自身对齐。

  • 01:25:00 在本节中,演讲者提供了两种解决旋转问题的方法。第一种方法是查看示例并将它们相加得到总共 24 个旋转。第二种方法是实现四元数乘法,并通过采用成对乘积来构建一个表,看看你是否最终得到了新的东西。然后演讲者提到下一个讨论将涉及相对方向,这与双眼视觉更相关。
 

麻省理工学院 6.801 机器视觉,2020 年秋季。第 20 讲:旋转空间、规则曲面细分、临界曲面、双目立体



第 20 讲:旋转空间、规则曲面细分、临界曲面、双目立体

讲座的这一部分涵盖的主题包括规则曲面细分、临界曲面、双目立体和寻找三维空间中的变换参数。讲师解释了镶嵌球体的最佳方法是使用三角形镶嵌的对偶,创建带有一些五边形的近似六边形形状。他们还讨论了关键表面,这些表面很难用于机器视觉,但可以用来用直棍制作家具。在双目立体的讨论中,讲师解释了两个相机之间的关系,对极线的概念,以及如何找到两个相机的交点来确定世界上的一个点。他们还解释了如何计算两条光线之间的误差以确定它们的交点并最小化图像误差,同时考虑世界误差和图像误差之间的转换因子。最后,他们讨论了如何找到基线和 D,以使用四元数表示基线来恢复刚性物体在空间中的位置和方向。

讲座涵盖了各种主题,包括旋转空间、规则镶嵌、临界曲面和双目立体。对于旋转,讲师讨论了数值方法的使用、奇点问题以及使用单位四元数的好处。通过常规镶嵌,他们展示了某些表面如何导致双目立体问题,并建议使用误差测量和权重来缓解问题。演讲者还谈到了二次曲面,并介绍了一个涉及“无畏反射”的新作业问题。

  • 00:00:00 在视频的这一部分,演讲者讨论了基于柏拉图和阿基米德立体(它们在球体上的投影面积相等)对球体表面进行镶嵌。表面的镶嵌可以使用正多边形作为小平面来完成,通常使用三角形、正方形和五边形。多边形的面积不相等,因此,细分的表面有很多分区。这种细分方法在讨论旋转时很重要,演讲者解释了这些实体的旋转组。该视频还提到了测地圆顶的使用,它基于将二十面体细分为许多三角形区域以创建规则结构。

  • 00:05:00 在本节中,讲师讨论了各种规则的镶嵌细分,这些镶嵌是将表面划分为大小相等的形状的方法。虽然方形镶嵌通常用于平面,但它们并不适合球体,三角形镶嵌也存在问题。讲师强调了一个更好的选择:三角形镶嵌的对偶,具有近似六边形和一些五边形的形状。此外,讲师解释了临界曲面,即一张纸的双曲面。这些表面很难解决机器视觉问题,但它们具有明显的直纹特征,可用于用直棍制作家具。最后,讲师讨论了方程中有两个负号的两张双曲面。

  • 00:10:00 在本节中,讲师讨论了可以用两张纸或三个负号创建的不同类型的表面。他还解释了存在的各种特殊情况,例如双曲面、圆锥、抛物面和平面。接下来,讲师解释了使用两个相机从 2D 计算 3D 的问题,以及理解两个相机的几何结构需要相对方向的必要性。讲座最后提到双目立体如何适用于自动驾驶汽车,如果基线不是刚性的,可能需要再次执行校准,但同样的过程也适用于前后图像的运动结构。

  • 00:15:00 在本节中,讲师解释了通过找到两个相机的交点来确定世界中的一个点的概念、如何选取坐标系以及与此概念相关的几何图形。讲师强调基线是在右坐标系中测量的,素数表示它是如何从左坐标系转换而来的。当该点连接到基线时,它定义了一个平面,并且两个相机系统中的平面图像投射成一条直线,该点沿着该直线的某处成像。本讲座还介绍了对极线的概念,以及它们如何帮助找到导致距离测量的差异。

  • 00:20:00 在本节中,讲师讨论了双目立体设置中两个相机之间的关系,其中涉及一个相机相对于另一个相机的基线和旋转。旋转具有三个自由度,但由于比例因子不明确,问题减少为五个自由度而不是六个,与绝对方向一样。基线被视为一个单位向量,只为该组件提供两个自由度。讲师解释说,确定基线的绝对长度需要额外的信息,例如成像对象的大小知识。

  • 00:25:00 在本节中,讲师讨论如何确定确定测量所需的对应数量。他解释了从图像点创建电线并将它们穿过项圈以对其进行约束的机械类比。讲师解释说,如果只使用两个对应关系,仍然有自由度,这意味着可以改变相机旋转。添加第二个对应关系会降低自由度,但仍然不够。答案是五个,这给每个对应关系一个约束,允许他们将相机方向的垂直差异归零。景深与水平视差成反比。该仪器可以通过调整垂直差异来设置,这就是几十年来光学设备的设置方式。

  • 00:30:00 在讲座的这一部分,演讲者讨论了使用一系列移动和调整以收敛来找到三维空间中的变换参数的过程,这可能是一个痛苦而复杂的过程。然而,在实践中,重要的是要有五个以上的点,以确保准确性并最大限度地减少图像位置测量的误差。这个非线性问题导致七个二阶方程,一旦求解可以给出七(128)个解中的两个。虽然这对大多数人来说是个古玩,但对理论应用感兴趣的人会发现弄清楚它很有趣。最后,讲座讨论了从对应中找到基线和旋转参数时三个向量的共面性质。

  • 00:35:00 在本节中,解释了以三个向量为边构造平行移液管并通过三元积确定其体积的概念。当三个向量共面时,物体是平面的,没有三维体积,使其期望值为零或共面条件。讨论了一种潜在的方法,用于最小化每个对应关系的三重乘积的平方和,以估计基线和旋转,误差最小。然而,这不是一种可靠的方法,因为它具有高噪声增益并且可能产生不正确的答案。为了最小化测量误差并确定比例因子,当测量和基线或旋转不完美时,焦点将转移到最小化两条射线之间的最小间隔。

  • 00:40:00 在本节中,讲师讨论如何计算两条射线之间的误差并确定它们的交点。他解释说,两条射线之间的距离的最小方法必须垂直于这两条射线,这意味着它平行于叉积。通过添加向量并将它们设置为零,可以使用点积将方程转换为标量方程,提供三种不同的约束。然后,讲师继续讨论如何通过删除某些项来简化方程式,以及如何计算伽马、贝塔和阿尔法,这将有助于确定相交或几乎相交的光线的距离。

  • 00:45:00 在本节中,演讲者讨论了三个量(alpha、beta 和 gamma)在计算旋转空间中的三维位置时的重要性。虽然 gamma 只是距离误差,但 alpha 和 beta 可以是负数,表示相交线段是否可能在观察者后面,这在物理上通常是不合理的。演讲者提到,由于涉及五阶方程,目前无法实现封闭形式的解决方案,但仍然可以实现最小化图像误差。通过丢弃具有负 alpha 或 beta 的解决方案并使用五次求解器,可以最大限度地减少图像中的错误。

  • 00:50:00 在本节中,演讲者讨论了在考虑世界误差和图像误差之间的转换因子的同时,最小化双目立体误差平方和的问题。这取决于解决方案并迭代解决。从左坐标系向右旋转的三重积用于引入四元数。演讲者解释了如何使用具有零标量部分的四元数将三重乘积从右坐标系旋转到左坐标系。表示向量的四元数之间的乘法公式简化为点积和叉积。引理在没有证据的情况下陈述了将乘数之一移动到另一侧的方法。

  • 00:55:00 在本节中,演讲者解释了如何找到基线并恢复刚性物体在空间中的位置和方向,给定从不同视点拍摄的物体的两张图像。演讲者定义了一个新的量,它是基线和旋转的乘积,并用一个四元数来表示基线,将问题简化为求基线和D。虽然有8个未知数,但只有五个自由度,所以说话者采用了各种约束。他们还讨论了允许交换左右坐标的有趣对称性。权重是 3D 空间误差与图像位置误差之间的关系,很难计算但可以调整。

  • 01:00:00 在本节中,演讲者讨论了一个优化问题,该问题涉及根据良好的初步猜测计算权重,然后重新计算这些权重并再次解决问题。他们还涉及左右阵列之间的对称性,以及它在数值计算中的作用,以及三重乘积中旋转和平移之间的对称性。最终,这种对称性意味着如果一个人有一个近似解,他们可以利用这个对称性生成其他近似解。此外,在搜索解决方案的过程中,可能会发现多个版本都产生相同的结果,这有助于加快搜索过程。

  • 01:05:00 在本节中,讲师讨论了使用数值方法计算旋转空间,该方法需要使用简单的最小二乘封闭形式解假设其中一个未知值。另一种方法是使用非线性优化包,例如调整参数直到方程尽可能接近零的 Marquardt 方法。然而,这些方法不被认为具有针对此问题的封闭形式的解决方案。此外,讲师解释说旋转存在问题,因为由于正交矩阵法,有九个数字和只有三个自由度,导致吉布斯向量在 theta 等于 pi 处出现奇点。

  • 01:10:00 在本节中,演讲者讨论了使用单位四元数来表示旋转,并指出它们有四个数字和三个自由度。他建议添加额外的约束以减少它们的冗余,并指出此包允许添加这些约束。他还谈到了结合两个旋转和矢量变换的公式,这有点复杂。此外,演讲者强调,有一个四页的简介总结了您需要了解的有关四元数的所有信息。最后,他讨论了误差度量的使用,以及在考虑较大的 z 值以避免较大误差时权重的必要性。

  • 01:15:00 在本节中,演讲者解释说,某些类型的表面可能会导致双目立体方法在确定物体方向时出现问题。这些“临界表面”是一个多世纪前发现的,可能会导致歧义和对错误的高度敏感。演讲者举了一个U形山谷的例子,不同的地物图像之间的角度不会随着飞机沿表面移动而改变,因此无法区分不同的位置。演讲者指出,一张纸的双曲面是二次曲面的常见示例,可能会导致双目立体出现问题,因为一张纸的减号数量正确,并且与其他表面非常相似。

  • 01:20:00 在本节中,演讲者讨论了二次曲面,特别是构成该曲面一个版本的两个相交平面。每个平面都有一个线性方程,相乘得到两个平面的组合。其中一个平面穿过投影的中心,这意味着它投影成一条线。这更奇怪,因为这意味着平面是一个问题,在人造结构中很常见。讲者提到下次要讲“无畏反思”,又引入一道新的作业题。
 

第 21 讲:相对方向、双目立体、结构、二次曲面、校准、重投影



第 21 讲:相对方向、双目立体、结构、二次曲面、校准、重投影

本讲座涵盖与摄影测量相关的主题,包括相对方向、二次曲面、相机校准以及图像点与已知 3D 对象之间的对应关系。讲师解释了解决失真问题和获取f和tz等参数的各种方法。他们还强调了寻找完整旋转矩阵时正交单位向量的重要性,并提供了使用更稳定的公式寻找 k 的解决方案。讲师强调了理解齐次方程的重要性,这在机器视觉中至关重要。

本讲座涵盖与计算机视觉和校准相关的各种主题,包括使用平面目标进行校准、校准外部方向的模糊性、表示旋转参数的冗余以及通过噪声增益比确定给定参数的统计特性。本讲座解释了求解二次方程的公式,并介绍了一种涉及迭代的近似方法。平面目标案例作为校准和机器视觉应用的常用方法进行讨论。讲座还涉及形状和识别的表示,以及 3D 空间中的姿态确定。

  • 00:00:00 在本节中,演讲者讨论了相对方向,这是摄影测量中四个问题中的第二个,以及它与双目立体、运动视觉和运动结构的相关性。演讲者开发了一个解决方案,但注意到有些曲面无法确定相对方向,尤其是二次曲面。然后,本讲座深入探讨了特定类型的二次曲面,例如椭圆体、一张或两张纸的双曲面以及具有虚构形状的曲面。演讲者解释说,如果一个表面没有常数项,这意味着右手系统的原点,或者运动视觉中时间 2 的相机位置,在表面上。此外,如果为 r 代入负 b,其中 b 是两个相机之间的距离,它也会产生一个解,这意味着表面穿过双眼。

  • 00:05:00 在讲座的这一部分,演讲者讨论了二次曲面方程的性质和含义,该方程在立体对中的左右相机位置之间是对称的。该方程式没有常数项,这意味着没有缩放并且整个基线都在表面上。这表明该表面是直纹表面并具有两个直纹,使其对制造很有意义。该方程涵盖各种特殊情况,包括平面,其中一个平面作为对极平面穿过两个坐标系的原点。这个平面的形象是一条直线,不是特别有意思,但另一个平面是任意的,可以是任何东西。

  • 00:10:00 在本节中,讲师讨论了重建地形图或从运动中恢复结构时的歧义问题,因为这两个问题在数学上是相同的。虽然这个问题更容易出现在狭窄的视野中,但在高噪声增益的情况下它仍然会被放大。为了解决这个问题,建议使用大视野,这就是为什么蜘蛛头,一组安装在一起以获得宽视野的相机,被创建用于航拍。然后讲师转到内部方向,这实际上是相机校准。虽然以前使用消失点进行校准的方法有效,但要解决径向畸变问题并不十分准确且具有挑战性。讲师建议需要一种更通用的方法来解释径向失真。

  • 00:15:00 在本节中,讲师讨论了设计镜头所带来的权衡,包括径向畸变,这会导致极坐标出现错误,图像可能会出现在一条直线上的其他地方,而不是它应该出现的位置。这种失真通常使用多项式来近似,二次项通常足以获得不错的结果。讲座接着介绍了过去用于测量镜头畸变的铅垂线法。

  • 00:20:00 在本节中,演讲者讨论了图像中可能出现的不同类型的失真,包括桶形失真和枕形失真,以及它们与 k1 符号的关系。演讲者还提到了使用多项式近似在失真和未失真坐标之间进行转换的可能性,以及这如何影响最终优化和使用的坐标系。演讲者指出,现代成像系统不存在切向畸变,因为它们通常是旋转对称的,只会出现径向畸变。

  • 00:25:00 在本节中,讲师讨论了相机校准中的潜在并发症,例如失真的偏心和倾斜的图像平面。对于像航空摄影这样的高质量作品,需要考虑这些因素。讲师解释说,由于相机制造的机械性质,可能会出现小错误,这会影响放大倍率和图像失真。这可以通过更复杂的失真模型来补偿,Tsai 的校准方法涉及使用平面或三维的校准对象。讲师还解释说,在过去,更多的是在制造过程中对相机进行微调,但在现代,使用软件解决方案和模型扩展来处理畸变。

  • 00:30:00 在本节中,演讲者讨论了确定 3D 对象上图像点和已知点之间对应关系的过程。然而,与消失点法不同,我们不太可能使用卷尺来确定标定对象和相机之间的关系。因此,除了找到相机参数外,我们还需要添加外部方向来解决标定物体在空间中的位置以及它如何旋转的问题。虽然外部方向增加了更多未知数,但它会产生更准确的结果。内方位涉及透视投影方程和主点、主距离。这样做的策略是消除困难的参数并找到一种方法来修改测量以减少对径向畸变的依赖,然后在求助于数值方法之前找到某些参数的近似解。

  • 00:35:00 在视频的这一部分中,演讲者解释了在双目立体声中计算相对方向时如何为迭代解获得良好的初始猜测。虽然应牢记既定原则,但在此阶段允许违反这些原则,因为最初的猜测不是答案。演讲者解释说,使用 xi 和 yi 坐标的行号和列号,并以像素大小表示 f,便于确定初始猜测的过程。还讨论了外部方向,包括准确已知的校准对象的旋转和平移。通常用于将校准对象中的位置转换为相机对象中的位置的方程式被反转并用于尝试恢复未知的旋转和平移参数。

  • 00:40:00 在视频的这一部分,演讲者讨论了处理径向失真和获取 f 和 tz 的挑战。建议的解决方案是在极坐标中工作,其中径向畸变仅改变长度,而不改变角度,并使用未知数较少的方程。该方程涉及已知的标定物体和图像坐标的坐标分量,以及r和tx和ty的未知分量。可以形成一个线性方程来近似主点的位置,这是解决问题所必需的。

  • 00:45:00 在本节中,演讲者讨论了确定图像传感器主点的过程以及齐次方程在机器视觉中的使用。为了确定主要点,演讲者建议假设一个中心点并丢弃太靠近中心的对应关系,因为小错误会显着影响它们的方向。假定中心点后,演讲者解释说需要八个方程来找到每个对应关系的八个未知数,并且这些方程是齐次的,结果为零。虽然齐次方程在传统教育中经常被忽视,但它们在机器视觉中至关重要,了解如何使用它们至关重要。

  • 00:50:00 在本节中,演讲者讨论了通过固定一个未知数并将其设置为选择值,将未知数减少到七个来求解齐次方程的方法。这意味着至少需要七个对应关系,并且希望有更多的对应关系来估计误差。然后可以使用伪逆等技术求解超定线性方程组。最后,计算比例因子以使计算出的向量成为单位向量,作为对已识别对应关系的健全性检查。该方法为除 F、Tz、径向畸变和 Tz 之外的所有未知数提供了初步估计,这需要进一步分析。

  • 00:55:00 在本节中,讲座解释了找到与相对方向、双目立体、结构、二次曲面、校准和重投影相关的 f 和 tz 的过程。该讲座强调了寻找完整旋转矩阵时正交单位向量的重要性。当存在两个非正交向量时,需要进行小的调整以产生一对正交向量。然后讲座继续解释二次方程如何在求 k 时出现问题,因此使用了另一个更稳定的公式。

  • 01:00:00 在本节中,讲师讨论了求解二次方程的公式以及由于减去几乎相等大小的量而在计算中可能发生的潜在精度损失。讲师介绍了一种涉及迭代的近似方法,可以提供一个简单的解决方案。讨论还包括平面目标案例,由于其高精度和易用性,它通常用于校准和机器视觉应用。讲师解释说,在目标上安装了一个具有精确确定的特征角的图案,以测量组件沿两个不同轴的旋转,从而实现高精度的车轮定位。

  • 01:05:00 在本节中,讲师讨论了使用平面目标进行校准,这允许构建具有已知 x、y 和 z 值的坐标系。这种方法的方程式具有更少的未知数,只需要五个对应而不是七个,使其成为一种更有效的方法。但是,如果 y 平移为零,此方法可能会变得不准确,建议将 tx 设置为 1 以获得更准确的解决方案。本讲座还涉及通过平面情况下的两个旋转矩阵来恢复前两个。

  • 01:10:00 这部分讲师解释了以前找x和y方向步长纵横比关系的难点。需要另一个参数来缩放 x 相对于 y,因为不同的东西控制水平和垂直间距。讲座提到使用代数会造成混乱,因此可以使用制造商的规格表来精确找到纵横比。讲师还解释说,通过透视投影方程和已知的未知数 f 和 tz,可以使用一个对应关系来计算它们。但是,在尝试使用平面校准目标时存在深度变化问题。

  • 01:15:00 在本节中,讲师讨论了在计算机视觉中校准外部方向的模糊性。由于比例因子模糊,不可能分别确定焦距和平移,因此需要深度变化。讲师解释说,如果校准目标未以 45 度角安装,则外部方向不明确。最后,讨论了主点和径向畸变,需要进行非线性优化以最小化预测图像坐标和实际图像坐标之间的误差。为此推荐使用 MATLAB 内置的 LM Diff 包。

  • 01:20:00 在这节课中,演讲者讨论了表示旋转参数的冗余问题,并提出了欧拉角、吉布斯向量和单位四元数等解决方案。然而,单位四元数对于三个自由度具有四个数字是多余的。演示者建议添加另一个方程和一个误差项,该误差项与四元数的大小和四元数之间的差异成正比,以强制执行约束。该讲座还提到了噪声增益问题以及在没有分析方法的情况下使用蒙特卡洛方法解决该问题。

  • 01:25:00 在本节中,演讲者通过多次摆弄输入来解释如何通过噪声增益比来确定给定答案的统计特性。它允许人们分析参数空间中的答案分布,并发现由于对噪声测量的敏感性,径向失真的高阶系数等某些因素很难确定。下一个要讨论的主题是形状和识别的表示,以及 3D 空间中的姿态确定,使用迄今为止在模式中的 2D 识别和姿态确定中建立的知识。
原因: