基于图像背景复杂度模糊分类的文字检测算法研究

来源 :北京印刷学院 | 被引量 : 2次 | 上传用户:deathzdw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来多媒体的发展和智能移动设备的普及更是使得数字图像、数字视频无处不在,相应的数字处理技术也有了很大的进步。人们的生活越来越离不开数字化的媒体,同时对数字化的媒体进行处理的技术的革新也有助于人们更轻松愉快的生活。文字是生活中必不可缺的内容,也是数字图像、数字视频中的重要组成部分。从数字图像、视频中定位并识别文本内容有助于快速理解图像或视频中的内容,有助于图像和视频的检索。在智能移动设备上的文本定位和识别可以辅助阅读,也可用于智能交通,旅游指路等用途。本论文主要研究了自然场景中的视频文本检测定位问题。主要研究内容为构建基于背景复杂度的模糊分类器和设计三种背景复杂程度的文本定位算法。自然场景中的文本图像的背景是千变万化的,针对各种各样的自然场景文本图像的复杂背景,单一的算法很难做到适用于所有复杂程度的背景,所以本文提出了构建基于自然场景背景复杂度的模糊分类器的方法。通过训练将自然场景文本图像根据背景的复杂程度分为简单背景图像、中等复杂背景图像和复杂背景图像,检测时分类器为检测到的文本图像根据背景的复杂程度分配类标签以标记该文本图像所属的类别。针对自然场景的简单背景文本图像采用笔画边缘检测和形态学的算法,由于背景非常简单,文本在图像中对比度大,通过检测自然场景图像的笔画特征和形态学运算可以定位到文本区域。针对中等复杂背景的自然场景文本图像采用基于金字塔分解的笔画边缘检测和形态学算法,利用金字塔分解克服中等复杂背景的文本图像中的字符大小不一和稍微复杂背景物体的干扰,定位出文本区域。针对复杂背景的文本图像采用笔画变换和连通域分析的算法,在复杂的背景的情况下根据文本字符的笔画宽度是相似不变的这一特征利用笔画宽度变换算法生成笔画宽度图像,再利用连通域分析和规则过滤掉噪声干扰,定位出文本区域。最后根据基于背景复杂度的模糊分类器的分类结果自适应的选择文本定位的算法进行文本定位,既保证了文本定位的准确性,又提高了检测的效率。
其他文献
多载波码分多址(MC-CDMA)技术是下一代移动通信的核心技术之一。它结合了正交频分复用(OFDM)和码分多址(CDMA)技术的优点,能够把宽带频率选择性衰落转化为每个子载波的平坦信
随着人们需求的提升和多媒体技术的进步,电影产业逐步向数字化的方向迈进。而传统的JPEG等压缩技术无法满足数字电影的要求。在这种背景下,新一代静止图象压缩标准JPEG2000便应
随着遥感技术的不断发展,多光谱图像数据的压缩越来越多的受到关注。由于多光谱图像使用目的不同,使用者可能只对图像中的部分区域感兴趣,在压缩中,可以根据不同的使用目的,对使用
为了提高无线系统数据速率,现在都广泛地采用物理层自适应调制编码(AMC)和链路层自动重传请求(ARQ)协议相结合的跨层设计,这种设计方法能大大提高系统频谱利用率。本文在Nakaga
随着网络多媒体技术的飞速发展,电子文档的版权保护问题变得极为重要。作为解决版权保护和防篡改问题的一种有效方法,数字水印技术已成为学术界研究的热点。本文介绍了文档水印
随着经济的发展,人们生活质量的提高,可视电话使人们通话时能达到面对面交流的效果,是一种发展前景看好的多媒体通信设备。而语音传输又是可视电话中一项最重要的功能。本文所采