卷积检测模型的GPU加速研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:QB582
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,形变部件模型和卷积神经网络等卷积检测模型在目标检测领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和检测过程中卷积运算巨大的计算开销,却限制了其在诸多实际场景中进一步地应用。幸运的是,GPU通用并行计算技术日益成熟,为加速卷积检测模型提供了可行的解决方案。在深入研究卷积检测模型,分析其性能瓶颈后,本文在不损失检测精度的前提下,利用数学理论和并行技术对卷积检测模型实现了算法和硬件的双重加速。在算法层面,本文通过应用卷积定理,将空间域中的卷积运算转换为频率域中的点乘运算来降低模型计算复杂度,同时利用启发式装箱算法有效地平衡了存储开销和计算开销之间的矛盾。在PASCAL VOC数据集上的实验表明,此频域加速算法能够在保证检测精度的情况下有效地加速卷积检测模型。在硬件层面,本文在详细地分析频域加速算法并行性的基础上,使用Open CL对其进行了GPU加速实现,并采用内存访问优化、数据传输优化、控制流优化等OpenCL优化方法提高GPU实现的性能。实验结果表明,相对于传统CPU实现,本文GPU实现能够加速效果明显,而相对于完善优化的CPU实现亦能有一定的性能提升。此外,本文还研究了HOG特征的GPU加速实现和优化问题。实验结果表明,本文GPU实现相比于CPU能够取得一定的加速效果。
其他文献
Internet技术和视频压缩技术的发展使得视频会议、可视电话等视频应用应运而生。与此同时,当视频内容涉及到国家机密、个人隐私时,人们又总是希望视频信息能够保密传输。与文
随着制造业的飞速发展,生产生活中对金属部件的需求日益增大,而机械生产加工精度的高标准使得生产车间对金属部件的质量检测和实时监控自动化水平的要求也不断加强。金属部件