论文部分内容阅读
随着大数据时代的来临,越来越多的数据需要被存储和处理,这不仅需要海量的存储设备,还需要计算机拥有强大的数据处理能力,从而高效地完成数据处理任务。在这样的时代背景下,深度学习应运而生,并迅速应用到制造、医学,交通、金融等各个领域。深度学习技术的快速发展以及大规模带标注图像数据集的广泛使用,使得计算机视觉技术在图像处理方面有非常大的突破,尤其是在目标检测领域。
计算机视觉中的目标检测任务主要包括两大部分:目标对象的定位和分类。目标定位是对目标对象进行特征提取,并将提取到的特征利用有锚框或者无锚框的方式进行定位,进而预测目标对象在图像中的位置。之后,目标分类模块将检测到的对象进行分类,得到最后的分类结果。一方面,在二维目标检测任务中,图像的构成普遍比较复杂(例如,图像中包含单一或许多目标对象,图像背景信息复杂,目标物体难以区分),目标检测任务也会变得相对困难。另一方面,从人的视角出发,图像中存在的对象不仅包含二维信息,还包含相应的三维信息。所以在研究提取二维目标信息的同时,也需要对目标对象的三维信息进行提取,从而重构三维目标对象。基于此,本文分别针对二维目标检测任务,联合二维目标检测和三维重构任务,提出了基于深度学习的目标检测改进算法。
对于二维目标检测任务,本文提出了一种基于新型级联并行检测器的Grid R-CNN的目标检测算法。该算法通过并行有锚分支和无锚分支的方式来构建检测器。在有锚分支中,检测器将Grid R-CNN的目标定位方法与GA-RPN的形状预测模块方法相结合来预测更精确的锚框形状。在无锚分支中,检测器通过并行一个FSAF分支以减少重叠锚框的数量,进而获取高质量锚框。最后,本文使用检测器级联的方法,通过训练不断提高Intersection-over-Union(IoU)阈值的检测器来完成锚框确定和目标分类,从而进一步提高目标检测的准确度。经实验证明,提出的算法在Pascal VOC2007和COC02017两个数据集上的表现总体上好于对比算法。
在二维目标检测与三维重构任务方面,本文提出了一种基于对抗融合Mesh R-CNN的联合二维目标检测和三维重构算法。该算法首先使用DCGAN模型根据真实图片生成对抗图片,然后通过GA-RPN进行二维目标检测。为了获取鲁棒性更强的体素,该算法通过Pix2Vox实现二维像素到三维体素的转换并进行体素融合,提高三维体素生成的质量。最后,使用顶点对齐和主邻域聚合网络(Principal Neighborhood Aggregation network,PNA)来进一步细化三维网格,从而得到目标物体的最终三维网格模型。实验结果表明,提出的算法在Pix3D数据集上的表现总体优于对比算法。
本文针对二维目标检测任务以及联合二维目标检测和三维重构任务,分别提出了相应的创新性算法,这两种算法的实验验证都取得了较好的效果,具有一定的理论创新性和应用价值。
计算机视觉中的目标检测任务主要包括两大部分:目标对象的定位和分类。目标定位是对目标对象进行特征提取,并将提取到的特征利用有锚框或者无锚框的方式进行定位,进而预测目标对象在图像中的位置。之后,目标分类模块将检测到的对象进行分类,得到最后的分类结果。一方面,在二维目标检测任务中,图像的构成普遍比较复杂(例如,图像中包含单一或许多目标对象,图像背景信息复杂,目标物体难以区分),目标检测任务也会变得相对困难。另一方面,从人的视角出发,图像中存在的对象不仅包含二维信息,还包含相应的三维信息。所以在研究提取二维目标信息的同时,也需要对目标对象的三维信息进行提取,从而重构三维目标对象。基于此,本文分别针对二维目标检测任务,联合二维目标检测和三维重构任务,提出了基于深度学习的目标检测改进算法。
对于二维目标检测任务,本文提出了一种基于新型级联并行检测器的Grid R-CNN的目标检测算法。该算法通过并行有锚分支和无锚分支的方式来构建检测器。在有锚分支中,检测器将Grid R-CNN的目标定位方法与GA-RPN的形状预测模块方法相结合来预测更精确的锚框形状。在无锚分支中,检测器通过并行一个FSAF分支以减少重叠锚框的数量,进而获取高质量锚框。最后,本文使用检测器级联的方法,通过训练不断提高Intersection-over-Union(IoU)阈值的检测器来完成锚框确定和目标分类,从而进一步提高目标检测的准确度。经实验证明,提出的算法在Pascal VOC2007和COC02017两个数据集上的表现总体上好于对比算法。
在二维目标检测与三维重构任务方面,本文提出了一种基于对抗融合Mesh R-CNN的联合二维目标检测和三维重构算法。该算法首先使用DCGAN模型根据真实图片生成对抗图片,然后通过GA-RPN进行二维目标检测。为了获取鲁棒性更强的体素,该算法通过Pix2Vox实现二维像素到三维体素的转换并进行体素融合,提高三维体素生成的质量。最后,使用顶点对齐和主邻域聚合网络(Principal Neighborhood Aggregation network,PNA)来进一步细化三维网格,从而得到目标物体的最终三维网格模型。实验结果表明,提出的算法在Pix3D数据集上的表现总体优于对比算法。
本文针对二维目标检测任务以及联合二维目标检测和三维重构任务,分别提出了相应的创新性算法,这两种算法的实验验证都取得了较好的效果,具有一定的理论创新性和应用价值。