论文部分内容阅读
近年来多媒体的发展和智能移动设备的普及更是使得数字图像、数字视频无处不在,相应的数字处理技术也有了很大的进步。人们的生活越来越离不开数字化的媒体,同时对数字化的媒体进行处理的技术的革新也有助于人们更轻松愉快的生活。文字是生活中必不可缺的内容,也是数字图像、数字视频中的重要组成部分。从数字图像、视频中定位并识别文本内容有助于快速理解图像或视频中的内容,有助于图像和视频的检索。在智能移动设备上的文本定位和识别可以辅助阅读,也可用于智能交通,旅游指路等用途。本论文主要研究了自然场景中的视频文本检测定位问题。主要研究内容为构建基于背景复杂度的模糊分类器和设计三种背景复杂程度的文本定位算法。自然场景中的文本图像的背景是千变万化的,针对各种各样的自然场景文本图像的复杂背景,单一的算法很难做到适用于所有复杂程度的背景,所以本文提出了构建基于自然场景背景复杂度的模糊分类器的方法。通过训练将自然场景文本图像根据背景的复杂程度分为简单背景图像、中等复杂背景图像和复杂背景图像,检测时分类器为检测到的文本图像根据背景的复杂程度分配类标签以标记该文本图像所属的类别。针对自然场景的简单背景文本图像采用笔画边缘检测和形态学的算法,由于背景非常简单,文本在图像中对比度大,通过检测自然场景图像的笔画特征和形态学运算可以定位到文本区域。针对中等复杂背景的自然场景文本图像采用基于金字塔分解的笔画边缘检测和形态学算法,利用金字塔分解克服中等复杂背景的文本图像中的字符大小不一和稍微复杂背景物体的干扰,定位出文本区域。针对复杂背景的文本图像采用笔画变换和连通域分析的算法,在复杂的背景的情况下根据文本字符的笔画宽度是相似不变的这一特征利用笔画宽度变换算法生成笔画宽度图像,再利用连通域分析和规则过滤掉噪声干扰,定位出文本区域。最后根据基于背景复杂度的模糊分类器的分类结果自适应的选择文本定位的算法进行文本定位,既保证了文本定位的准确性,又提高了检测的效率。