基于实例分割的场景图像文字检测

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wwh447
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人类历史上信息传播的重要方式,文字直接承载着丰富而高级的语义信息。自然场景图像中的文字检测,对于场景理解、图像检索、人机交互等视觉任务都有巨大帮助。尽管电子文档图像中的文字检测方法已经较为成熟,但是在更复杂的场景中,文字检测任务依然面临严峻的挑战。本文中,我们结合近年来非常热门的深度学习技术,对自然场景图像中的文字检测任务进行探究。为了使系统在复杂场景图像中的检测也具有鲁棒性,本文提出了一种基于实例分割思路的文字检测算法。本文中重点关注的检测对象是拉丁文字,检测单元是单词级别的图像块。从流程上,本算法可以分为三个步骤:文字特征图预测、文字实例分割和文字包围框计算。其中,文字特征图包含文字显著性图和文字实例风车图,我们设计了一个多任务的深度全卷积网络模型来预测;文字实例分割是在文字特征图基础上计算而来,我们提出了一个基于图剪枝的图像分割算法来实现;为了与通用检测算法进行对比,我们在文字实例分割的结果上计算了文字实例包围框。在工程上,我们实现了一个基于本算法的场景图像文字检测系统,该系统能够在任意拍摄条件、背景场景、文字形态的图像中,定位文字实例的位置,并输出每个文字实例的包围矩形坐标。本文在ICDAR 2015文字图像数据集上进行实验,计算并分析本算法的精确率、召回率和和谐平均数,结果表明,本文算法在这些衡量指标上均大幅度地优于现有算法,验证了基于实例分割的文字检测算法的有效性和优越性。除此之外,本文论述比较了实例分割算法与通用物体检测算法,并分析了实例分割算法在文字检测问题上的优越性。
其他文献
随着信息和网络通信技术的发展,大量的消费电子产品、移动手持设备和个人电脑进入消费者家庭内部。但是这些设备彼此孤立,不能实现媒体的传输和共亨,造成了“三大信息孤岛”
视频序列中的运动目标检测与跟踪是计算机视觉领域的一个主要研究方向,在视觉导航、智能监控、人机交互、医疗诊断和安全监控等众多领域中有着广阔的研究和应用前景。目前静
针对用于文本表示的向量空间维数过大、包含语义信息不足及向量空间中词形统计的局限性,阐述了引入概念的优势。通过介绍语义词典WordNet的结构、概念间的多种关系、概念链的
随着计算机网络技术的快速发展,信息安全问题日益突出,其核心技术基础之一的数字签名技术,被广泛地应用于军事、通信、电子商务和电子政务等领域,它在身份认证、数据完整性和
图书馆网站所提供的服务在高校的教学和科研方面有着重要的作用。如何进一步满足高校教师和学生新的需求是高校网站建设出现的新课题。这些新的需求包括师生因科研或学习方面
数字半色调技术是基于人眼的视觉特性和图像的成色特性,利用数学、计算机等工具,在二值设备或有限灰度级设备上实现图像再现的一门技术。该技术广泛应用于打印技术、数字图像
粗糙集理论(Rough Set theory, RS)是由波兰华沙理工大学Pawlak教授于上世纪80年代初提出的一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各类不
立体视觉是计算机视觉领域的研究热点之一,随着计算机技术的发展,立体视觉在机器人视觉、自主车导航、工业测量、物体识别及军事领域得到了广泛的应用。而立体匹配是立体视觉
天灾人祸都可能给信息系统带来毁灭性打击,造成数据丢失。此时,可以从备份中恢复数据。但随着数据量的爆炸性增长,传统的数据备份方案面临着越来越多的问题,包括时间、空间效
从神经生物学到统计物理学,从工程技术到经济社会等各种领域,关于复杂网络的研究最基本的议题都离不开结构。网络的拓扑结构是构建复杂系统模型、研究系统性质、功能和行为的