自然场景中文本信息提取方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:htcp6600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中不仅包含大量的图形信息,而且存在丰富的文本信息。这些文本信息对场景内容的描述与理解有重要的价值,是场景图像检索的关键线索。因而迫切需要一种自动化的工具,通过自然场景中文本认知获取场景中的文本信息,为检索、查询、浏览场景图像资料和理解场景内容服务,提高图像资料的管理效率。自然场景中文本认知是指在对文本所依存的环境无限制或较少限制的条件下,对自然场景中文本的识别与理解。尽管传统文档分析技术已经取得了巨大的成果,但是通常只能处理文档上的文本字符,无法处理自然场景中文本字符。因此自然场景中文本认知逐渐成为研究的热点。本文对自然场景中文本认知的相关技术进行研究,重点研究自然场景中文本信息提取方法。自然场景中文本信息提取是在图像中检测文本的存在,确定文本区域的位置,并将文本区域中的字符提取出来。论文通过对图像中文本特点的分析,提出基于模糊同质性映射的文本信息提取方法,能够同时处理人工文本和场景文本,具有较强的通用性。该方法采用基于学习的文本检测方法和基于文本像素密度的文本定位方法确定图像中的文本区域,并通过多尺度变换与模板匹配的方法提取字符。与其他文本信息提取方法相比具有以下优点:图像的同质性在很大程度上与图像的局部信息相关,能够反映文本区域的本质特征;模糊理论较好描述了人类视觉中的模糊性和随机性,因此更适于处理背景复杂的图像;多尺度变换与模板匹配充分利用文本区域的结构特征,降低颜色复杂文本字符的提取难度。本文着重对以下问题进行了研究:1.对图像空间映射进行了研究,将同质性映射引入文本检测,并提出了改进的同质性映射定义。空间映射能够增强文本区域的特征,提高文本检测的性能。重点比较了不同类型空间映射对文本检测的影响,实验结果表明同质性映射能够更准确地刻画文本区域与非文本区域之间的差异,为文本检测奠定基础。2.提出了基于模糊同质性映射的文本检测方法。在同质性定义的基础上,利用模糊理论处理图像本身所具有的模糊属性,将二者相结合定义模糊同质性映射,充分反映图像区域的局部均匀程度,适用于背景比较复杂的自然场景中文本检测,尤其适用于一些背景与文本区域视觉特征近似的图像。3.为了提取文本区域内的字符信息,需要获得文本区域的范围和确切位置,提出基于文本像素密度的文本定位方法,并利用文本区域的特点和几何统计信息对文本候选区域进行筛选。图像中文本字符尺寸的差异给文本定位造成很大困难,采用多分辨分析技术,将多个文本定位结果融合得到多分辨分析下的文本定位结果。通过在ICDAR’2005开放测试集上测试,实验结果表明该文本定位方法具有较好的性能。4.提出了多尺度变换与模板匹配的文本提取方法。由于图像中文本的诸多变化,传统字符分割技术无法正确分割自然场景中的文本字符。首先通过定义文本区域的标准模板、存在模板和多尺度变换来描述文本区域的变化,然后给出了多尺度变换与模板匹配的文本提取算法。将该方法应用到车牌精确定位与字符分割中,实验表明,该方法对具有确定存在形式的文本区域及其各种形变具有很好的定位和字符分割能力,同时该方法有很强的抗干扰能力,尤其对断裂和粘连字符的分割具有较好的效果。本文提出的自然场景中文本信息提取方法并没有限制文本类型,既可以处理人工文本,也可以提取场景文本,是对通用文本信息提取方法研究的初步探索,取得了一定的研究成果。自然场景中的文本信息提取无论应用于智能人机接口还是为基于内容的图像检索服务,都将具有广泛的应用前景。
其他文献
在工业生产中,经常要将若干种原料按一定比例混合起来,这就是配料。以前,采用的是人工配料,即操作人员将各种原料依次在磅秤上称量,然后依次加入到搅拌器进行搅拌,使各种原料
<正> 谭鑫培在我国京剧历史上具有非常重要的地位,是继往开来的表演艺术大师。他在同与之合作的艺术家的共同探索中,在既尊重又逐渐培养、改变观众的欣赏心理和美学趣味的情
本文以平朔露井联采矿区特厚煤层综放开采条件为依据,在总结前人研究成果的基础上,运用理论分析、相似模拟、现场实测等方法,对露井联采条件下特厚煤层综放工作面的煤岩运移
<正> 干什么工作大多是越干越顺手,越容易,唯独创作,越写越艰难。作家要用自己的作品通过一场漫长的人生考试,还要率领自己的人物们一次次坠入深渊,一次次登上绝顶,反复经受
期刊
<正>戴森工程对传统吸尘器的吸头进行了全面的改造,最终打造出了能将大小尘垢一网打尽的戴森Fluffy DC74无绳真空吸尘器,让尘垢和微观粒子无所遁形。与传统的条状硬质毛刷吸
介绍了上海大剧院钢屋盖整体提升的施工工艺、三大系统及钢屋盖的制作与组装。
目的:对中药竹茹炮制前后样品中多糖的含量进行对比。方法:采用紫外—分光光度法以硫酸—苯酚显色后,于491nm下测定。结果:该多糖的平均回收率为102.22%,RSD为2.05%。对炮制
目的探讨全血γ-干扰素释放试验在涂阴肺结核快速诊断中的应用价值。方法研究对象共分两组:肺结核组374例(其中涂阴肺结核组254例)、其他肺部疾病组156例,应用全血γ干扰素释
本文利用不对称误差修正模型研究当原油价格变化时,国内汽油价格的反应机制问题。文章通过因果关系检验确定油价波动的传导方向,即原油价格的波动弓f起汽油价格的波动。通过对
玻化砖因具有绿色环保、花式多样、图纹清晰、色泽光亮、耐磨性好、防污力强等优异性能而受到广泛应用。但这种饰面材料易产生起壳、空鼓、脱落等通病。通过工程实例,对通病