论文部分内容阅读
大多数三维物体都有一个自然向上的朝向,我们称之为正朝向。将物体摆正到其正朝向是一个重要的问题。首先,它有助于物体的识别。而且,这也是物体匹配、检索、形状分析等许多图形学问题中的第一个步骤。另外,这也有助于生成具有高识别度的物体预览图,来帮助三维形状数据库的管理。然而,由于各种各样的原因,现有数据库中的许多模型都没有处在其正朝向。本文提出了一种基于机器学习的方法,使用三维卷积网络来预测物体的正朝向。当给定足够量的三维物体及其正朝向的方向向量时,该预测问题可以建模为回归问题。本方法借助于深度网络的学习能力,可以处理一般性的三维物体,而不需要对其形状做对称性、平行性等假设。除了网格模型外,本方法还可以处理能够被体素化的其他种类的数据,例如隐式曲面和点云。与基于卷积网络的方法相比,过往方法的劣势在于它们受限于其预先假设的规则。但是,这些规则并不总是成立。因此,基于学习的方法更适用于一般的物体。尽管已有工作中已经使用了数据驱动的方法,但是其学习过程基于人工设计的稳定性、可见性和平行性等特征,这些特征对一般物体的正朝向估计并不适用。相比之下,神经网络通过端到端的学习方式,直接从原始数据中提取高层知识,而不依赖于物体的对称性等正规性质。但是,单一的卷积网络难以对一般的物体都起作用。核心问题在于,每种物体的正朝向有其特殊的性质。这种情况在机器学习中被称为干扰现象,会导致泛化能力不足。也就是说,应该使用不同的策略来处理不同品种的物体。因此在本文提出的系统中使用了分治的方法。对于每一个形状,首先通过一个网络对其分类,然后才将它传入在对应品种上训练的正朝向回归网络进行预测。另外,本文使用了基于距离的聚类方法来减少所需网络的个数,以及测试中增强的方法来提高准确率。丰富的实验展示了本方法的有效性和高效性。本系统在测试集上达到了90%以上的正确率,并对训练集以外的物体品种具有一定的泛化能力。并且实验表明本系统可以处理一些其它方法无能为力的情况。此外,利用本方法处理一个模型,平均时间不超过0.15秒,比现有方法高效得多。因此更方便应用于机器人学任务等需要即时反馈的问题。