论文部分内容阅读
近年来,形变部件模型和卷积神经网络等卷积检测模型在目标检测领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和检测过程中卷积运算巨大的计算开销,却限制了其在诸多实际场景中进一步地应用。幸运的是,GPU通用并行计算技术日益成熟,为加速卷积检测模型提供了可行的解决方案。在深入研究卷积检测模型,分析其性能瓶颈后,本文在不损失检测精度的前提下,利用数学理论和并行技术对卷积检测模型实现了算法和硬件的双重加速。在算法层面,本文通过应用卷积定理,将空间域中的卷积运算转换为频率域中的点乘运算来降低模型计算复杂度,同时利用启发式装箱算法有效地平衡了存储开销和计算开销之间的矛盾。在PASCAL VOC数据集上的实验表明,此频域加速算法能够在保证检测精度的情况下有效地加速卷积检测模型。在硬件层面,本文在详细地分析频域加速算法并行性的基础上,使用Open CL对其进行了GPU加速实现,并采用内存访问优化、数据传输优化、控制流优化等OpenCL优化方法提高GPU实现的性能。实验结果表明,相对于传统CPU实现,本文GPU实现能够加速效果明显,而相对于完善优化的CPU实现亦能有一定的性能提升。此外,本文还研究了HOG特征的GPU加速实现和优化问题。实验结果表明,本文GPU实现相比于CPU能够取得一定的加速效果。