论文部分内容阅读
随着计算机视觉的研究越来越深入,研究人员开始将其在工业领域上拓展应用,而图像的识别与定位是计算机视觉中至关重要的一个环节。冶炼镁还原工艺作为计算机视觉的应用领域之一,对采集目标检测的准确性和实时性的要求较高。然而已有的方法很难满足计算机视觉在该领域的精确度和检测速度的要求。深度学习的卷积神经网络具有可以进行自主学习图像特征的特点,所以在计算机视觉中相比于其他的传统方法有着较大的优势。因此,本文以深度学习为基础,对图像的识别与定位及其在冶炼镁还原过程中的应用进行了详细的描述与分析。本文以目标检测的代表算法Faster RCNN和YOLO为研究重点,在冶炼镁工业环境中验证了两种算法的可行性,对比了两种算法的优劣性,同时以实验产生的问题为基础对算法进行了优化。针对工业数据采集不完善的问题,本文以迁移学习和数据扩充等方式,解决了数据集不充分造成的检测精度不达标。针对数据集中存在的多尺度信息问题,根据原有算法中先验锚点与优化后K-means聚类算法生成的锚点,对网络结构的AP值和IOU关系进行对比分析,实验验证了K-means聚类生成的锚点表现情况要优于先验锚点。同时针对图片中存在多尺度信息时检测精度不足的问题,优化后的锚点可以有效提高该类问题的检测精度。其次将区域建议网络和优化后网络对候选区域提取的质量进行了比较,验证了改进的网络提取候选区域的质量要优于原有的区域建议网络。最后针对非极大值抑制算法进行优化,通过实验验证经过优化的非极大值抑制算法可以对误检情况进行有效的降低。实验结果表明本文在Faster RCNN网络上进行的优化操作能够精确、高效的检测到罐盖和工人,同时在公开数据集上进行鲁棒性测试,验证网络的普适性。本文实现了图像的识别与定位。一方面在Caffe框架下对深度学习的检测算法进行了实现,完成了检测系统的搭建。另外针对定位信息的获取,在ROS环境中对Kinect进行标定实现小误差范围内的位置信息获取,完成了定位系统的搭建。