基于文本中心线和字符热力图的弱监督场景文本检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhongminghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为沟通和协作的重要工具,在社会中扮演着重要的角色。同时在现代化社会中,由于图片和视频等数字化内容的快速发展,对其中的文本进行检测和识别往往可以提供给人们很重要的信息,利用这些信息能够辅助使用该信息的主体更好的完成任务。因此对于图片和视频中的场景文本进行检测和识别具有重要的意义。而在场景文本的检测和识别过程,对场景中的文本进行定位(即场景文本检测)是首要任务,因此场景文本检测具有重要的研究意义。本课题研究的内容便是对图片中的场景文本进行检测。本文在研究过程中采用文本中心线和字符热力图作为文本表现形式,并使用编码和解码网络作为主干网络,其中在编码和解码网络中,由于不同的解码层具有不同尺度的输出,这些不同尺度的输出对类别信息有着不同的激活特性。所以为了使不同解码层的类别信息得到更充分的利用,本文对解码结构中相邻解码层的特征进行局部特征融合,并对局部融合后的特征利用基于自注意力机制的网络结构进行特征增强。实验结果表明采用文本中心线和字符热力图作为文本表现形式,并将解码结构中相邻两层的特征进行局部特征融合和特征增强的场景文本检测效果,相比于原有方法的场景文本检测效果会有一定的提升。由于在局部特征融合增强的特征中,只包含相邻解码层的融合增强特征,这些特征的表现能力具有局限性,因此为了能够更好的利用编码和解码结构中包含的语义信息,本文采用全局特征融合的方式将编码结构中的最后一层特征和经过局部特征融合增强后的特征进行进一步融合,并对融合后的特征采用基于自注意力机制的网络进行增强。实验结果表明经过局部特征融合增强后的特征,继续进行全局特征融合和特征增强,场景文本检测效果的效果会有进一步的提升。由于本文采用分割预测的方式来实现场景文本检测,并没有采用直接回归文本框的形式,因此需要采用文本实例生成方法将对应的文本分割结果转换成对应的文本框,用于后续的测试评估和成果展示。考虑到本文采用的文本表现方式以及现有方法存在的问题,因此本文提出一种适合文本中心线和字符热力图的文本实例生成方法用于形成文本边框。实验结果表明本文的文本实例生成方法相比于原有的文本实例生成方法,检测效果会有一定的提升。
其他文献
大多常规的行人重识别数据集都是在较短时间跨度内收集的,这期间行人的服饰与外观基本不会发生改变。但在例如商场监控、罪犯追踪等很多现实应用中,同一个人的衣服可能会更换,不同的人也可能穿着相似的衣服,常规的行人重识别方法过于依赖行人的服装信息来进行行人匹配,不适用于这种服装变化场景下的行人重识别任务。本文针对服装变化的行人重识别问题进行探究,基于深度卷积生成式对抗网络提出了一种特征解耦方法,用于分离服装
研究一个组织的架构对于了解该组织的运作方式、定义组织的性质、发现其关键节点、发掘核心部门和锁定重要人物以及判断该组织运行状况、刻画组织全貌等方面都有着重要作用,在情报咨询、商业调查、投资分析、打击非法组织等方面有着广泛的应用。现有的组织架构构建算法多是基于对单一数据源的分析,这种方法的缺陷在于很难刻画出目标组织的架构全貌。针对以上问题,本文提出了课题研究目标,即构建出一个基于多源数据的,包含信息采
近年来智慧教育获得快速发展,使得学习者可以获得丰富的学习资源以及自由的学习时间,也使平台积累了海量的在线教学和学习数据,这些数据进一步被用于优化教学质量,从而受到广泛的关注。然而,当前在线教育平台仍然存在以下问题:(1)在线课程质量良莠不齐,评价标准亟需规范;(2)同类型课程数量众多,使得学习者难以区分不同课程之间的优劣,无法真正为学习者推荐个性化的课程资源。因此,在线教育亟需规范在线课程评价标准
随着人类科技水平与经济快速发展,人类社会城镇化进程逐渐加快,与此同时人类的心脏疾病的发病率也在逐年上升。目前广泛采用的12导联心电图通过采集人体胸前和肢端的心电信号生成心电图,12导联心电设备主要的缺点是覆盖的胸前点位数量少,并且没有背部电位缺少足够的敏感性和特异性,无法准确的描述分析一些复杂的心脏电生理活动。256导联心电采集是一种使用大量电极覆盖患者胸部和背部的采集方法,相比12导联其可以提供
计算机视觉中的深度目标检测技术是一项非常重要的技术,为了准确提取有价值的信息,对视频或图像中的物体进行定位和分类非常重要。然而,存在着一些问题,基于云的深度学习模型运行响应延迟较长,而且由于移动网络的不稳定性和有限的网络带宽,这些都会影响用户体验。同时,由于移动设备资源有限,深度学习模型对设备的算力和存储能力要求很高,不能直接部署在资源有限的移动设备上。因此如何将深度学习任务部署到边缘计算环境中是
医学概念编码是给临床医疗文本中的医学相关概念分配标准医学术语对应的编码。由于编码量大以及人工编码成本高效率低等原因,实现医学概念自动编码具有重要的研究意义和应用价值,因此本文开展了基于深度学习的医学概念自动编码方法的研究。目前基于深度学习的医学概念自动编码方法主要分为以下两类:一类是基于文本分类的医学概念自动编码方法,受分类标签空间影响,这类方法对于标准术语词典所含标准医学术语个数敏感;另一类是基
在农业生产中,植物病害是影响农作物最终产量和品质的一个关键因素,因此及时准确地检测出作物的病害情况,在农业领域意义重大。以往对于农田作物病害的检测十分依赖专业的植保人才,近年来,通过无人机进行数据的快速采集,之后再利用深度学习、数字图像处理等技术对图像进行病害识别的方案得到了越来越多的关注。本文针对在使用图像实例分割模型进行叶片级别的病害识别时需要进行大量标注的问题,提出了一种先通过叶片边缘将密集
近年来,我国人口老龄化趋势不断加速,老年人养老产业供需缺口持续扩大,养老服务种类繁多复杂,老年人对智能化的养老方式的需求难以满足,而物联网技术的蓬勃发展、物联网应用的大规模出现给智慧养老提供了新方案,但具体应用下物联网设备冗多繁杂、异构化,缺乏可配置、可扩展的统一接入方案,养老智能场景缺乏用户开发能力,难以满足老年人自定义需求。本文针对以上问题,研究物联网技术在智慧养老领域的应用。本文首先研究了基
随着计算机技术的快速发展,软件规模和复杂度也日益增大,随着开发需求的激增,为了降低软件开发的难度,缩短开发周期,研究学者们将目光投向了软件自动化开发上。在智能化软件开发中,代码补全实现了由编译器根据上下文中现有代码建议下一个可能的代码Token,例如方法调用或对象字段。近年来随着深度学习的应用,该方向涌现出大量科研成果,推进了软件智能化发展。在现有研究中,大多将代码视作语言文本送入自然语言处理中的
现阶段基于云端的视频监控技术日渐成熟,然而将监控设备采集到的图像或视频数据传输至云端或数据处理中心进行数据分析将会对监控网络的服务器与带宽造成较大负担,因此,面向变电站监控场景及智能化监控识别需求,结合人工智能图像分析与处理的方法,开展边缘智能计算技术研究至关重要。首先,分析并总结国内外有关目标检测技术与边缘计算技术的研究方案以及技术路线,同时基于现有边缘计算设备讨论模型搭建与边缘部署的可能性,分