基于深度学习的自然场景文字检测方法研究

来源 :广东工业大学 | 被引量 : 6次 | 上传用户:xiang879154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文字可以表达高级的图像语义内容,它是人类理解自然场景图像的关键元素,在无人驾驶技术中,对道路的交通标志、路牌等字符图像的自动识别是急需要解决的关键技术,因此,对自然场景中的文字进行检测与识别的研究具有较强的实际应用价值。自然场景文字检测是自然场景光学字符识别(OCR)中非常重要的一个前处理环节,所有的文字识别图片都是来源于文字检测到的区域。在传统的光学字符识别中,处理的对象通常是分辨率较高的图像,具有背景相对简单、颜色单一并且排版规整的特点,因此文字检测和文字识别的难度较小。与传统的文字识别相比,自然场景文字检测任务更为复杂也更具有挑战性:一方面,自然场景中的文字具有多样性,比如大小、颜色、字体、方向和排列组合方式都有可能不同;另一方面,自然场景中的背景复杂,比如光照强度、分辨率、噪声和物体遮挡等诸多不确定的因素,给自然场景中的文字检测带来非常大的困难。本文首先介绍了基于最大稳定极值区域(MSER)[1]的自然场景文字检测算法,基于最大稳定极值区域的算法在处理背景复杂的图像时不具有鲁棒性的缺陷,本文引入一种基于深度学习的通用目标检测算法(Single Shot Multibox Detector,SSD[2])对自然场景中的文字进行检测。SSD无法对自然场景中的极端高宽比的文字进行检测。本文第三章和第四章针对SSD的这一缺陷进行了改进,提出了一种自然场景中水平方向文字检测的算法(Text-HD)和另一种自然场景中任意方向(多反向)文字检测的算法(Text-OD),两种算法都是通过一个单网络模型直接对目标进行分类和位置回归。Text-HD在default boxes(预选框)上设计了专门针对极端高宽比文字的尺度比,而且在Textbox层专门设计了“长”型(1*5)的卷积核,能够高效的对不同高宽比的自然场景中的水平方向文字进行检测。Text-OD将Textbox层的“长”卷积改成3*5,同时用回归四边形的方法替代了水平文字检测的水平边界包围框的方法,对自然场景中的多方向文字进行了完美的匹配,而且在保证较高的检测率的同时也能达到较快的检测速度,该算法除了非极大值抑制(NMS)[3]处理以外没有其他的后处理操作。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘要:自动翻转回墨印章是由载有印文的胶皮、铜板与能够使印文面盖印时朝向纸面备用时翻转至储墨盒内的印章架子组成的一种半自动的盖印装置。在盖印装置作用下其盖印印文清晰、印章不易变形,因使用时不用外置印台不脏手、当印迹不清晰时易更换印文面、利于携带等优点给使用者带来诸多方便,而被广为使用。不法分子在伪造印章类案件中不可避免会出现伪造自动翻转回墨印章盖印情况。笔者组织检察院及公安同行对自动翻转回墨印章盖印
随着人口老龄化及城镇化进程的加速,我国心血管病危险因素流行趋势明显,导致了心血管病的发病人数持续增加。为了避免致命的后果,需要在睡眠期间对老年人进行健康监测,以检测
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
21世纪,世界文明快速发展,科学技术在总结前人经验的基础上也在快速发展,人类对未知事物的认知速度在加快。推进科技进步的就是人才,优秀人才的培养,就需要依靠教育,而传统教育只是传授固定知识,使学生的理论基础知识得以加强,动手实践能力较差。课外活动是课堂内容的延伸,可以让学生从中学到课堂中学不到的知识,并学以致用。课外活动为学生的各项能力发展提供了一种更直接的途径,可以弥补课堂教学的不足。因此,丹阳市
随着中国基金市场地飞速发展,我国开放式基金也得到了快速发展,现在已经成为我国证券市场上最主要的机构投资者之一。开放式基金在飞速发展过程中,基金投资者从以前的不熟悉
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>神经科监护病室多数收治危重患者,其护理模式具有严格的封闭性,通过提升护理人员人文精神的意识和应用,不仅提高患者的治疗质量,还促进和谐的医患关系,现报告如下。临床