论文部分内容阅读
随着多媒体技术,信息技术日新月异的发展,越来越多的信息通过图像进行传输。图像中的文字作为传达语义的重要载体,包含了非常丰富的内容。在这些技术高速渗透国人政治与经济生活的时代,它们不但给人们带来了极大的方便,同时也对信息安全,信息管理带来了极大的挑战。因此面对海量的图像,如何高效率的对图像内容进行提取成为人们必须解决的问题。
文字提取技术能够实现把图像中的文字提取出来,从而可以自动对图像中的内容进行标记,为信息监管带来极大的方便。然而文字风格各异,大小不同,如何设计一种文字提取算法确保对大部分文字都能准确的识别就显得尤为重要。典型的文字提取算法有边缘检测法,数学形态学处理法,角点检测法,纹理检测法等等。其中边缘法和数学形态学法对文字字体,大小不敏感,对大部分文字提取都有效。
本文从基于边缘检测和形态学相结合的算法思路入手,针对文字提取的思想进行了深入的研究,并提出了有效的改进算法,切实解决了一些原有算法无法解决的问题,得到了一些研究成果,主要工作如下:
1基于边缘检测,形态学和颜色定位方法对简单字符的提取算法进行了研究。以车牌号码为例对简单字符提取思想进行了验证,利用增加的颜色定位算法进行了改进,文字提取效果的准确度和完整度得到提升。
2对复杂背景下的文字进行了提取研究,提出了具有自适应阈值选取功能的边缘提取算法,增强了算法的鲁棒性,还提出了基于等价像素点形成的最大外接矩形连通域算法,克服了基于区域膨胀生长的连通域算法的不精确性和对不同大小尺度文字的敏感性。
3对动态图像的文字切换帧捕获采用了基于改进的多帧结合的方法,在原有多帧结合捕获文字切换帧的基础上,加入了验证帧算法对初步捕获的帧进行验证,最终提取出可信度很高的文字切换帧,提高了帧捕获准确度。
4对动态图像的字幕提取采用了连通域膨胀连接的思想,克服视频文字分辨率较低而不容易准确提取的困难。