基于文本图像二值算法的优化研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:hutao95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时间的推移纸质文献资料越来越多,需要占用越来越多的空间来存放,导致搜索、使用起来不方便,因此需要将其数字化后存储以便于管理与应用。为了将这些文献变成数字化,一般会将它们拍摄、打印成文本图像,然后对这些文本图像进行二值化,保留下它们的文本信息后再进行后续的处理。二值化作为数字化的关键步骤,它的准确程度直接影响了后续步骤的处理效率和准确率,因此对文本图像进行准确的二值化是十分重要的。但是,许多的纸质文献因其年代久远,文献本身会出现一些难以避免的损伤,比如纸张的旧化,一些使用后留下的痕迹,存放时间过长使得背面的字迹浸透过来等等。因此,对这些文献的文本图像进行二值化时,难度会大幅度增加。所以,最近十多年来,二值化算法不断的进步,只为提高二值化的准确度,以及对这些历史文献的文本图像的适应能力。而文本图像由于数量巨大,不断有不同类型的文本图像出现,这也大大增加了二值化算法对这些文本图像的适应难度。这些二值化算法对于不同的文本图像二值化准确度各有不同,很难有一种二值化算法,能够适应现有的以及以后可能出现的所有类型的文本图像,单纯的研究一种二值化算法不是十分理想的解决方案。因此,我们提出一种基于文本图像二值化算法的优化方法,用以优化现有二值化算法所得结果的准确度以及它本身的适应性,该算法希望在保留现有二值化算法的优点的同时,提高它对各种类型文本图像的适应能力,同时也能够给它所擅长类型的文本图像二值化准确度带来再次提升。首先,我们通过K-means算法得到了文本图像的分类信息。然后,对文本图像使用二值化算法进行二值化后,对其结果进行连通区域检测,标记出每一个独立的连通区域。最后,对每一个连通区域中的像素重新进行分类,去除被错误二值化的背景像素,达到优化二值化算法准确度的目的。对于文本图像的处理来说,更加准确的二值化结果能够大大保证后期字符识别等操作的准确性,提高后续工作的工作效率,这对于实际问题中的应用十分重要。
其他文献
随着我国铁路跨越式大发展,动车组的应用成为我国铁路客运高速化的发展的方向,传统管理和检修方式已经不能适应铁路运输的要求。铁路跨越式大发展不仅为我们提供了新的机遇,同时
学位
无人飞行器(Unmanned Aerial Vehicle,缩写成UAV)是多学科交叉的结晶,其导航技术系军民两用技术,倍受各国的重视。UAV通常利用雷达或视觉传感器,借助GPS或惯导系统进行导航。视觉
正交频分复用(OFDM)是一种多载波传输技术,常用于抗频率选择性衰落或窄带干扰。多输入多输出天线(MIMO)技术可以在不增加带宽的情况下成倍提高通信系统的容量和频谱利用率。
未来无线通信要求高达100Mbps甚至更高的数据传输速率,以满足各种多媒体业务的需求。要实现这一目标,存在两个最严峻的挑战:多径衰落信道和带宽效率。正交频分复用OFDM(Ortho
正交频分复用(Orthogonal Frequency Division Multiplex,OFDM)技术,在通信中具有许多优越性,包括较好的抑制通信过程中产生的时延扩展以及多径衰落和具有很高的频谱利用率,
近年来,随着计算机网络通信技术的日益普及,图像等多媒体信息的交流已达到前所未有的深度和广度,图像数据的交换和传输变成一个相对简单的过程;然而,网络信息的全透明性和易
IMS是3GPP提出的用于提供各种实时应用和服务的体系结构,需要端到端QoS的支持。在IMS框架下,核心网络的信令和数据都基于IP承载,所以IMS的QoS有赖于其承载网IP网络的QoS。但传统
机会网络依靠节点移动带来的相遇机会进行通信,这就需要网络中的中间节点进行合作转发才能保证消息成功送达到目的节点,因此,节点的合作程度对机会网络的性能具有非常重要的
合成孔径雷达(SAR)是一种具有高分辨力的成像雷达,具有全天时和全天候工作能力,随着SAR技术的发展,其分辨力越来越高,被广泛应用于民用和军事领域。实时成像雷达是目前各国研