【摘 要】
:
本文针对自然场景下的数字字符检测与识别问题,结合计算机视觉相关技术,将检测与识别问题分为区域提取和识别两个过程。具体的工作包含以下几个方面。将无监督特征表达用于自然场景下的数字字符检测问题。选取了K-means与Bo F无监督特征表达用于数字字符检测问题,设计了神经网络结构作为字符区域的判别器。通过滑动窗口法去判别并标记字符区域,最后利用字符区域提取算法筛选出最终的字符区域。通过实验比较了两种无监
论文部分内容阅读
本文针对自然场景下的数字字符检测与识别问题,结合计算机视觉相关技术,将检测与识别问题分为区域提取和识别两个过程。具体的工作包含以下几个方面。将无监督特征表达用于自然场景下的数字字符检测问题。选取了K-means与Bo F无监督特征表达用于数字字符检测问题,设计了神经网络结构作为字符区域的判别器。通过滑动窗口法去判别并标记字符区域,最后利用字符区域提取算法筛选出最终的字符区域。通过实验比较了两种无监督特征的性能,K-means的性能要高于Bo F。利用K-means特征的判别器正确率为96.57%,检测精确度为0.8626。实验也验证了无监督的数字字符检测方法的合理性。将有监督的Faster R-CNN模型用于自然场景下的数字字符检测问题。应用预训练的VGG16深度卷积模型,进行迁移学习,在有监督的方式下,继续学习抽取高层次特征。最后经过实验证明了有监督的数字字符检测办法的有效性,且性能要优于无监督特征表达的数字检测方法,其精确度要高出0.081。利用检索进行数字字符识别。由于检索的数据集的样本较少,利用仿真的方式对数据集进行扩充。对数字字符样本叠加误差模型,模拟真实自然场景下的划痕、光照、污损的情况。使用K-means与Bo F无监督特征构建特征码书,同时选取了单字典与多字典的码书用于对比。最后通过实验测试了基于检索的数字识别方法的性能,其最优模型的正确率为90.78%。本文针对自然场景下的数字字符检测与识别问题,研究了两种具有差异的数字字符检测方法,以及一种基于检索的数字识别方法,并将检测与识别方法结合,具有一定的理论价值。本文方法也可应用于钢厂的字符检测与识别问题中,具有一定的应用价值。
其他文献
随着计算机视觉的不断发展,目标检测与跟踪技术也成为了研究的重点。无人机对车辆跟踪无论是在交通领域,还是在公共安全领域都有着重要用途。在无人机对车辆跟踪时,会出现车辆行驶环境复杂、车辆容易出现遮挡和车辆在不同光照强度下引起的颜色变化以及车辆在不同运动状态下形状变化的情况,上述情况降低了车辆跟踪算法的精度。鉴于此,本文以无人机在高度15-20米内,拍摄的视频为研究对象,展开对视频中车辆跟踪方法的研究与
随着工业自动化及仓储物流自动化的发展,码垛机器人越来越普遍的应用于各种生产环节中。码垛机器人主要的控制方式有示教编程、离线编程和模板匹配算法等,技术较为成熟,目前广泛应用于限定工作场景下,能够对目标物进行准确位姿估计与识别。但是,当目标物存在相互遮挡、不规则码放和室外复杂环境光照场景时,现有方法容易产生偏离误差,难以满足工业自动化需求。为解决码垛机器人复杂场景下自动作业的问题,设计了基于视觉深度学
随着机器人技术发展和医疗水平提高,机器人辅助手术模式广泛应用于微创外科手术。单孔手术通过单一切口将器械送入病人腹腔内,具有创伤小,失血少,恢复快等优点。继多孔微创手术机器人研发成功并商业化后,单孔凭借其从端器械工作空间要求更低,创伤更小,术后恢复效果更佳等优势成为外科微创手术机器人主要发展方向。在腹腔微创手术中,为了增大器械工作空间,提高姿态灵活性,单孔悬挂臂带动器械以手术切口为支点进行远心运动,
形状匹配是目标识别系统中不可或缺的步骤,其中基于轮廓片段的目标识别是一个很有前途和必要的研究方向。本文以轮廓片段为中心,研究了目标物体的轮廓提取算法、轮廓分段的获取算法、轮廓分段的可信度评价以及轮廓分段的加权相似度匹配算法。全文的主要研究内容如下:研究了轮廓提取算法。为了消除彩色图像传输中的噪声等因素的影响,对图像进行灰度图像增强操作来提升图片质量,将灰度化后图像先平滑降噪,再进行锐化增强处理,使
基于视频的人体行为识别是计算机视觉领域的一个热门研究方向,在智慧安防、人机交互、视频检索等方面有广阔的应用前景。基于视频的人体行为识别存在时空特征交互困难、视频帧大量冗余、环境噪声多等问题。本文提出一种时空增强长短时记忆算法(STA-LSTM)用于视频行为识别,该网络主要包含注意力、3D卷积、LSTM网络等部分。主要工作如下:(1)针对时空特征交互困难问题,提出基于C3D特征提取网络,利用Spor
本文针对虚拟像平面相机模型的虚拟图像生成和光心定位等问题展开研究。首先研究虚拟图像生成问题,一般方法为k-NN方法,采用加权平均法求解像素点灰度值,本文提出了一种基于三角面片拟合的生成方法,以像素点坐标及其灰度值构成一个三维坐标系,将图像生成问题转换为在该坐标系下的局部曲面拟合问题,以像素点在曲面上的坐标值为其灰度值,从几何角度解释了像素点灰度值的物理含义。其次研究光心定位问题,一般方法为利用多幅
随着旋翼飞行器应用范围越来越广泛以及计算机视觉技术和人工智能技术的快速发展,越来越多的专家学者将旋翼飞行器作为载体与人工智能技术结合研究。飞行器视觉着陆技术作为一个飞行器智能化的关键技术受到了广泛关注,如何能够使飞行器更准确地降落在指定位置,需要展开进一步研究。本文选取四旋翼飞行器作为研究对象,对飞行器视觉着陆全过程展开了深刻的研究,包括地标与相应识别算法的设计、飞行器位姿估计方法的研究、着陆过程
火炮作为现代战争的常规武器对战场局势有着十分重要的作用,其中膛线作为火炮身管内壁上的关键结构,可以使弹丸旋转提高射程、精度和威力。在火炮使用过程中膛线会发生磨损,其磨损程度基本决定了火炮使用寿命,而在火炮生产过程中,膛线尺寸也是火炮身管是否合格的重要判断标准。因此如何实现火炮膛线的精准、快速、自动化测量,对于提高火炮的生产效率、保证射击准确度以及准确预估剩余使用寿命都有着至关重要的意义。目前国内膛
熔融沉积成型技术(FDM)是目前广泛采用的3D打印技术。为了进一步扩大这项技术的应用领域,人们开发了各种各样的打印线材。然而,打印制品的性能不仅仅取决于所使用的材料,还与熔丝的微观结构有关。本文仿造贝壳结构提出了一种新的合成打印线材的方法。采用喷涂工艺、横向剪切法和FDM打印技术实现控制打印样品中纳米填料的排列方向。首先研究了喷涂工艺对氧化石墨烯(GO)分布均匀性和密度的影响。研究表明:适当提高喷
3D人体姿态估计是在计算机视觉任务中最热门的研究领域之一,通过利用图像信息或视频信息来估计其中的人体关节点位置,并构成完整的人体姿态。随着科技水平的提高,对于人机交互的要求越来越高,可以产生图像信息的智能设备逐渐引入到人们日常生活中。所以,3D人体姿态估计任务具有很高的研究价值。近年来,深度神经网络在计算机视觉任务中有很多成功应用,其也成为了3D人体姿态估计任务的最佳选择。在3D人体姿态估计的研究