论文部分内容阅读
视频中的文本信息对于视频内容的检索具有非常重要的价值。由于受到背景复杂度、字符与背景的对比度、字符分辨率、字符排列方向和字体大小等因素的影响,对视频文本提取的处理难度比较大。虽然国内外众多学者在这一方面进行了研究,但效果并不是很令人满意。本文主要围绕国内外涉及比较少的视频文本提取的关键技术——视频文本的定位、跟踪和分割等三个方面进行了深入研究,并系统的提出了视频中文本提取的相关算法。本文主要做了以下工作:(1)为了准确定位文本区域,滤除虚假区域,提出了基于小波模极大值的算法对视频图像帧进行预处理,并引入两阶段分类验证来定位视频中的文本区域。两阶段分类验证包括一个级联分类器和一个一类支持向量机(1-SVM,one class support vector machine)分类器。级联分类器首先对文本和非文本区域进行粗分类,而1-SVM分类器则关注级联分类器输出的文本区域,根据统计特征进行更细致的验证判决,从而大大提高了定位的准确性,降低了漏检率。(2)为避免对每一帧图像都进行文本定位,同时为了提高文本定位的准确率,提出了一种基于稳健模板匹配准则的文本跟踪技术。为了减少匹配误差的计算量,进一步提高文本跟踪的处理速度,引入了多分辨率匹配算法加速文本匹配过程。(3)针对当今视频中文本区域分辨率比较低且受光照影响比较大的问题,为了在提高文本图像的精度的同时减少光照对文本图像的影响,提出了一种基于亚像素的文本分割算法。进而配合使用改进的Niblack阈值分割算法和连通区域分析技术,去除非文本噪声的影响,从而有效地将清晰的文本从背景中分割出来。