论文部分内容阅读
在这个信息爆炸的时代,人们获取信息的渠道越来越依赖于基于内容的检索技术。图像通常包含有丰富的信息,而其中的文字信息往往显得尤为重要。从图像中提取文字信息已经成为近年来计算机视觉领域的热门研究课题。作为文字提取技术中的核心前端模块,文字检测技术极其关键。然而由于自然场景中背景的复杂性,文字大小的不确定性,易受光照、遮挡等因素的影响,自然场景图像中的文字检测问题变得非常困难。本文针对自然场景图像中的文字检测算法,从候选文字连通分量提取、中文文字特征设计和字符合并三个方面进行算法的改进。a)在采用最大稳定极值区域作为候选文字连通分量的方法中,为了保证后面进行文字和非文字连通分量分类的正确率,以及减少相应的运算量,在提取连通分量阶段,采用统计特征分析的方法将嵌套结构的最大稳定极值区域去冗余。b)在对中文文字分类进行提取特征时,经过仔细观察汉字的笔画结构特征,通过对连通分量进行骨架化处理,在骨架化的基础上提出了连通分量规则度特征用于文字与非文字连通分量的分类。c)在字符合并时,通过对传统的基于启发式规则的合并方法进行分析研究,提出了基于C4.5决策树的合并方法,该方法通过对样本的训练学习得到相应参数的值,并且学习出更为有效的合并规则。本文在上述几个方面对文字检测算法进行改进。在文字检测常用的数据集上进行的仿真实验表明:本文提出的检测算法在背景较为复杂、光照不均等干扰的图像中取得较为理想的检测效果,显著地提高了自然场景图像中文字检测的准确率和召回率。