【摘 要】
:
我国目前共有1445种鸟类[1],其中不乏像白鹮、丹顶鹤等濒危物种。由于鸟类动作比较灵活,对鸟类影像资料的收集大多是通过相机进行拍照,这大大限制了鸟类教育宣传、保护和行为研究的工作开展。三维重建技术可以给上述工作提供强有力的帮助,它是指通过一定方式获取物体三维形状,从而可以更加直观的从各个视角对物体进行观察。常采用的三维重建方式包括,CAD建模和激光建模等。但这些方式存在一定的局限性,比如建模软件
论文部分内容阅读
我国目前共有1445种鸟类[1],其中不乏像白鹮、丹顶鹤等濒危物种。由于鸟类动作比较灵活,对鸟类影像资料的收集大多是通过相机进行拍照,这大大限制了鸟类教育宣传、保护和行为研究的工作开展。三维重建技术可以给上述工作提供强有力的帮助,它是指通过一定方式获取物体三维形状,从而可以更加直观的从各个视角对物体进行观察。常采用的三维重建方式包括,CAD建模和激光建模等。但这些方式存在一定的局限性,比如建模软件的专业门槛、需要被扫描对象配合且扫描时间长、扫描仪购置成本高等。近年来,随着计算机技术的发展,研究人员开始将计算机视觉技术应用于物体三维重建中,并在医学成像[2]和自动驾驶[3]等领域取得了巨大成功。这些方法一般通过物体二维图像恢复其三维形状,对给定图像的数量和质量有比较严苛的要求,如多张输入图像、背景单一、物体清晰可见等,而鸟类图像一般都是野外拍摄,干扰因素多。此外,这些方法对待重建物体形状也有一定要求,对于像鸟类这样形变程度大的物体,现有方法难以取得令人满意的重建结果。最后,现有大多数方法在模型优化时,需要给定物体真实三维形状来约束模型优化过程(即强监督学习),而对于鸟类,其真实三维形状是未知的,并不能满足这个要求。针对以上问题和挑战,本文以鸟类为研究对象,构建基于弱监督学习的单视角鸟类三维重建方案。本文主要研究内容如下:·针对鸟类三维重建网络编码器的改进:通过一种全新的数据增强方法和在编码阶段引入侧旁约束使网络模型在编码阶段更加关注目标物体的形状信息。同时设计一种特征融合方法,将不同尺度特征进行融合,预测重建精度更高的鸟类三维形状。·针对鸟类三维重建网络解码器和损失函数的改进:通过分析鸟类数据集的特点,本文发现不同种类的鸟类差异非常大。即使是同一种鸟类,处于非张翅和张翅状态下的差异也十分明显。因此,本文通过设计一个基于级联结构的形变预测器,逐步预测形变结果。此外,本文还提出一种自适应损失函数,根据可视关键点的位置生成边约束,保障弱监督信号下的模型优化过程。·针对数据集长尾问题的改进:通过分析鸟类数据集数据分布特点,本文发现张翅和非张翅两种状态下的鸟类数据极度不均衡。为了提高模型对处于张翅状态下鸟类数据的重建精度,本文设计一种基于薄板样条插值的数据扩充技术,使数据集中两种状态下的鸟类数据量平衡。
其他文献
BP神经网络(BPNN)被广泛称为现阶段最受欢迎的神经网络之一,它是一种监督式学习的网络[1]。BPNN通过学习训练样本输入和输出的关系进行建模,它对网络权重进行连续调整,以达到减小预测值和真实值差异的作用。它只需要较少的计算和训练,就能隐式检测因变量和自变量间的关联[2],从而计算变量间的复杂关系,对不可见数据进行良好的泛化和预测。但随着大规模数据集在各行业的出现,BPNN逐渐暴露出缺陷与不足,
意图识别任务本质上属于自然语言处理中的文本分类任务。意图识别任务按场景可分为口语意图识别和文本意图识别。口语意图识别使用语音识别输出的文本作为输入,因此口语意图识别的准确率会受到语音识别准确率的影响。通常,语音识别的准确率会受到环境噪声的影响,一般采用语音增强和语音降噪可以解决大部分问题。然而说话人口语表述方式的多样性以及每个人发音的独特性使得语音识别系统的识别内容距离用户的真实表述内容还存在一定
随着神经网络算法的不断发展和突破,神经网络算法越来越广泛的被应用在图像识别,自动驾驶,语音识别等诸多领域。卷积神经网络是从人工神经网络中派生出来的一种神经网络,它非常适合于图像的平移,比例的缩放等形式的图像变化操作。一方面,在卷积神经网络前向推理计算过程中,存在着复杂计算和高带宽访存的问题,使用通用处理器平台实现深层卷积神经网络前向推理计算过程的方法,无法保证提供足够的计算能力。另一方面,尽管使用
随着计算机图形学技术的蓬勃发展,越来越多的虚拟现实产品被运用到军事、航空、航天和娱乐领域,为这些领域的生活生产带来极大的便利。而基于沉浸式投影系统的虚拟现实技术由于其成本低、沉浸感强、空间显示范围广和适用性强等优势,得到了越来越广泛的研究和运用。这类虚拟现实系统一般由投影仪和投影屏幕构成,为了提升虚拟现实场景的沉浸性和真实性,常常采用曲面形式的投影屏幕。目前,基于沉浸式投影系统的虚拟现实技术有着广
近年来,随着通信技术的高速发展和移动终端设备的大量普及,人们越来越依赖移动设备进行工作和生活,移动应用程序也就变得越发重要。对于移动应用程序(Application,App)开发方来说,要想让App在充斥着大量同类产品的应用市场中脱颖而出,就必须使其具备丰富的图形用户界面(Graphical User Interface,GUI)和令人愉悦的用户体验(User Experience,UX)。那么如
深度学习是自动驾驶,人脸识别,生物医学图像处理以及机器人视觉等研究领域的突破性技术。虽然基于深度学习的神经网络模型以及相应的训练算法在许多大型的公开数据集中都有显著的表现,但是其往往都受限于昂贵的硬件设备,而无法应用在类似手机这种小型的设备中。知识蒸馏可以通过以学生网络学习教师网络的方式,使小规模的神经网络也能有着和大规模网络相似的效果,它相对于其他的模型压缩算法适用场景更加广泛。因此,本文重点研
当下,二维人脸识别已广泛应用于生活中,如刷脸支付、考勤管理等,但其存在防伪性差、误识率高等缺点。故人脸识别的研究重心逐渐转向三维人脸识别,其关键基础在于三维人脸模型的采集。其中,基于双目视觉的三维采集由于建模速度快、精度高成为该领域的热点,包含被动测量和主动测量。前者在自然光源下捕获目标图像,通过匹配立体图像中对应的点以恢复三维信息,如何提高立体匹配的精度是其中的关键。然而,被动三维测量难以满足高
近年来随着深度学习、计算机视觉技术的迅速发展,室内智能小车被广泛应用在社会生产生活中的多个领域,并逐渐形成了以激光雷达为主、多种感知设备共同协作的室内感知控制方案。单线激光雷达凭借其结构简单、成本低、精确度高、稳定性好等特点广泛应用于室内机器人感知系统中。单线激光雷达感知虽然可以有效的进行地图构建和定位,但是导航过程中单线激光雷达仅能获取单一平面稀疏激光点云,对非扫描平面障碍物感知不足与非均匀刚体
步态识别作为一种新兴的生物特征识别技术引起了广泛的关注和研究。与传统的生物特征识别技术相比,其难以伪装,具有非接触性、隐蔽性等特点,逐步在安防,医疗等领域中发挥了重要的作用。然而在实际场景中,遮挡或者携带物都会改变行人的行走特征,并且拍摄视角的变化也会改变行人轮廓的形状,从而影响识别结果。本文针对现有的步态识别方法在多个不同视角下的识别率不高问题,使用深度学习技术来展开研究。本文主要工作及创新点如
为解决空域日益拥堵、空中交通流量日益增加等问题,美国联邦航空管理局提出了自由飞行的概念。伴随该概念的提出,空中交通管制问题变得尤为复杂。随着我国民用航空运输事业的蓬勃发展及民航运输需求日益增加,为保证自由飞行条件下飞行器的安全,进行飞行冲突解脱策略的研究显得十分重要。现有飞行冲突解脱方法包括最优控制类冲突解脱方法、概率类冲突解脱方法以及数学规划类冲突解脱方法,这些传统冲突解脱方法存在着效率较低、计