论文部分内容阅读
自然场景中不仅包含大量的图形信息,而且存在丰富的文本信息。这些文本信息对场景内容的描述与理解有重要的价值,是场景图像检索的关键线索。因而迫切需要一种自动化的工具,通过自然场景中文本认知获取场景中的文本信息,为检索、查询、浏览场景图像资料和理解场景内容服务,提高图像资料的管理效率。自然场景中文本认知是指在对文本所依存的环境无限制或较少限制的条件下,对自然场景中文本的识别与理解。尽管传统文档分析技术已经取得了巨大的成果,但是通常只能处理文档上的文本字符,无法处理自然场景中文本字符。因此自然场景中文本认知逐渐成为研究的热点。本文对自然场景中文本认知的相关技术进行研究,重点研究自然场景中文本信息提取方法。自然场景中文本信息提取是在图像中检测文本的存在,确定文本区域的位置,并将文本区域中的字符提取出来。论文通过对图像中文本特点的分析,提出基于模糊同质性映射的文本信息提取方法,能够同时处理人工文本和场景文本,具有较强的通用性。该方法采用基于学习的文本检测方法和基于文本像素密度的文本定位方法确定图像中的文本区域,并通过多尺度变换与模板匹配的方法提取字符。与其他文本信息提取方法相比具有以下优点:图像的同质性在很大程度上与图像的局部信息相关,能够反映文本区域的本质特征;模糊理论较好描述了人类视觉中的模糊性和随机性,因此更适于处理背景复杂的图像;多尺度变换与模板匹配充分利用文本区域的结构特征,降低颜色复杂文本字符的提取难度。本文着重对以下问题进行了研究:1.对图像空间映射进行了研究,将同质性映射引入文本检测,并提出了改进的同质性映射定义。空间映射能够增强文本区域的特征,提高文本检测的性能。重点比较了不同类型空间映射对文本检测的影响,实验结果表明同质性映射能够更准确地刻画文本区域与非文本区域之间的差异,为文本检测奠定基础。2.提出了基于模糊同质性映射的文本检测方法。在同质性定义的基础上,利用模糊理论处理图像本身所具有的模糊属性,将二者相结合定义模糊同质性映射,充分反映图像区域的局部均匀程度,适用于背景比较复杂的自然场景中文本检测,尤其适用于一些背景与文本区域视觉特征近似的图像。3.为了提取文本区域内的字符信息,需要获得文本区域的范围和确切位置,提出基于文本像素密度的文本定位方法,并利用文本区域的特点和几何统计信息对文本候选区域进行筛选。图像中文本字符尺寸的差异给文本定位造成很大困难,采用多分辨分析技术,将多个文本定位结果融合得到多分辨分析下的文本定位结果。通过在ICDAR’2005开放测试集上测试,实验结果表明该文本定位方法具有较好的性能。4.提出了多尺度变换与模板匹配的文本提取方法。由于图像中文本的诸多变化,传统字符分割技术无法正确分割自然场景中的文本字符。首先通过定义文本区域的标准模板、存在模板和多尺度变换来描述文本区域的变化,然后给出了多尺度变换与模板匹配的文本提取算法。将该方法应用到车牌精确定位与字符分割中,实验表明,该方法对具有确定存在形式的文本区域及其各种形变具有很好的定位和字符分割能力,同时该方法有很强的抗干扰能力,尤其对断裂和粘连字符的分割具有较好的效果。本文提出的自然场景中文本信息提取方法并没有限制文本类型,既可以处理人工文本,也可以提取场景文本,是对通用文本信息提取方法研究的初步探索,取得了一定的研究成果。自然场景中的文本信息提取无论应用于智能人机接口还是为基于内容的图像检索服务,都将具有广泛的应用前景。