论文部分内容阅读
随着智能终端的普及以及网络技术的发展,移动互联网逐渐全面接轨人们的生活,文本信息正广泛地以图片的形式被记录和传播,因此从图像中提取文本为人们接收环境信息提供了极大的便捷。文本检测作为提取文本信息的基础,其鲁棒性和准确性将直接影响后续的文本识别和图像应用。自然场景图片存在大量干扰因素,给检测带来了诸多不确定性。所以自然场景文本检测具有挑战性和实用价值。本文的主要研究工作如下:(1)图像增强和候选区域提取。选用最稳定极值区域(Maximally Stable Extremal Regions,MSER)方法提取文本候选区域。通过分析MSER检测的局限性,发现MSER对低对比度图像的检测性能较差,且只检测灰度通道会损失大量图像信息。因此本文提出一种图像评估方法,根据灰度分布和边缘投影判断图像是否属于低对比度图,并对低对比度图像采取对比度增强处理。采用RGB和基于感知的光照不变(Perception-based Illumination Invariant,PII)颜色通道以及显著图代替灰度通道实现多通道MSER检测,可以充分利用图像的颜色信息并消除细小遮挡物的影响。(2)提取候选区域特征并分类。提取Gabor特征、局部二值模式(Local Binary Pattern,LBP)特征和方向梯度直方图(Histogram of Oriented Gradient,HOG)特征三种纹理特征,并针对纹理特征的局限性,结合使用笔画相关特征——边界角点数和笔画面积比。针对笔画相关特征在实际应用产生的检测偏差问题,提高分类效果。分别使用AdaBoost和支持向量机(Support Vector Machine,SVM)对不同特征结合进行性能测试,选取最佳特征组合和分类器。(3)融合多通道信息并合并文本行。多通道MSER导致候选区域分布在各个通道且存在差异,针对这一问题采取多通道信息融合方法。融合后,单个字符对应多个候选区域,严重影响文本行聚合,通过分析候选区域的重叠类型和颜色变化率,对重叠的候选区域进行去重处理。针对文本行中字符的临近性原则和相似性,采取搜索范围约束方法,并结合霍夫变换原理将字符单量合并成文本行,得到最后的检测结果。使用ICDAR2015公开数据库对算法进行检测,可得到79.3%的准确率和72.8%的召回率,检测效果有所提升。