论文部分内容阅读
基于内容的图像检索技术是近些年理论研究的一大热点,而文字信息是视频图像中重要的语义线索。由于视频图像中文字具有尺度不一、字体形态多变、方向多变和背景复杂的特点,所以准确快速地将视频图像中的文字提取出来是基于内容的图像检索的关键步骤和技术难点。本文对视频图像的文字提取方法做了较系统的研究,主要工作如下:首先,本文总结出视频图像中文本的一般性特点。并对基于纹理的文本检测方法、基于区域的检测方法、基于边缘的文本检测方法和基于机器学习的文本检测方法进行了深入的探讨,归纳了视频特征提取的主要特征。其次,本文提出了基于笔划的文字提取方法。通过对各类文字笔划均具有对称边缘的特点与多文字区域的几何特征的认识,根据二阶边缘检测算子捕捉边缘点亮暗变化趋势的能力,使用高斯型拉普拉斯算子寻找出与文字笔划宽度相呼应的亮暗呈相反变化的所有的“边缘点对”,并构建来自笔划等窄带区域的“对称边缘点对”样本集。从样本集的分布规律中自适应地定出文字笔划搜索窗的尺度及方向。利用最小生成树算法实现由系列搜索窗得到的所有笔划子区域的关联聚类,通过剪枝、伪区域鉴别和阈值分割,将文字以行(含非水平行)或列的形式提取出来。再次,本文提出了基于文字区域的关键帧提取方法。关键帧是包含一组镜头中关键内容的图像帧,通过基于文字的关键帧提取步骤能够极大的减少图像的冗余。本文针对文字检索系统的特点在文字提取工作的基础上提出了基于文字区域的关键帧提取方法。最后,本文对基于笔划的文字提取和基于文字的关键帧提取进行了详尽地评价与分析。同时,为适应移动互联网的发展趋势,本文将该方法成功地移植到移动平台。实验表明,本文方法对复杂背景下的不同的语言类型、亮暗类型、文字行方向及文字尺度具有适应性和鲁棒性,且平均识别率较高、平均误检率较低、平均运行速度较快。因此,所提方法在应对文字提取问题上具有良好的适应性和鲁棒性。