复杂背景图像中文本检测与定位研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:frigate999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于复杂背景图像中的文本类型变化多样、背景错综复杂等原因,复杂背景图像文本定位一直是一个具有很大难度和挑战性的研究课题。本文在总结现有主要文本定位方法的基础上,对复杂背景图像中的中文和英文文本定位方法进行了研究,提出了一种有效的用于中文文本定位与英文文本定位的解决方案。本文提出的文本定位方法主要由图像分割、候选文本区域生成、文本分类三大部分组成。在图像分割部分,探讨了一些现有常用的图像分割算法,并提出了一种改进的基于均值漂移的图像分割算法,通过实验发现,该分割算法能够很好的将背景与文本分割开,并且图像分割后的背景显得均匀,这样可以使得连通区域数更少,降低文本提取过程的复杂度。在候选文本区域生成部分的文本区域鉴定阶段,提出了三个限制条件:基于文本角点信息的限制条件、基于x轴投影的限制条件以及基于文本不会出现在图像边界的限制条件。另外,在文本区域合并阶段,提出了一种刷子算法,该刷子算法能够很好地将分散的英文字符合并成一个完整的英文单词以及将一个汉字的不同部件合并成一个完整的汉字。实验结果表明,本文所提出的候选文本区域生成算法能够快速、完整的得到图像中的候选文本区域。在文本分类部分,针对中英文的不同特性,分别提取不同特征送入AdaBoost分类器进行文本分类。在英文文本分类中,提出了两种不同策略提取方向梯度直方图(HOG)特征以及局部二值模式(LBP)特征并比较了它们的分类效果,选择了将HOG特征与LBP特征组合一起作为英文文本分类特征。另外,在中文文本分类中,针对中文文本的特性,提取图像的Gabor特征以及均值、方差、能量、熵、惯量、局部统一性这6种纹理特征进行分类,并与HOG+LBP特征的分类效果进行了比较测试。实验结果表明,所提取的这些特征能够很好地表征中英文文本的特性,可以有效地定位复杂背景图像中的文本区域。利用ICDAR2003数据库中251幅测试图像对英文文本定位方法进行测试,定位的准确率为0.71,召回率为0.65;利用自建的100幅中文测试图像对中文文本定位方法进行测试,定位的准确率为0.72,召回率为0.68;结果验证了本文方法的有效性。
其他文献
通过树种适应性评价的研究,可以确定一个地区适宜栽植的树种。本文主要以保存率(越冬死亡率)、冻害率、抽条率、病虫害发生率和生长势、人为影响等作为评价指标,采用抽样调查的
互联网思维运用到传媒行业,其核心理念是用户中心、产品化、平台化、社交化和社群化。西方传统媒体在新兴媒体的压力之下积极寻求变革之路,在互联网思维指导下不断进行观念革
随着各种服务的不断推陈出新,各大城市商业银行服务器的数量不断急增,系统平台、数据库平台及软件应用平台也日趋复杂和多样化。商业银行往往把注意力集中在业务系统的发展,而忽
近年来,由于世界能源形势和环境问题,新能源尤其是太阳能发电和风力发电发展迅速,小型风光互补系统也日渐应用到人们日常生活中,越来越受到人们的重视。但对于小型风光互补系