论文部分内容阅读
随着时间的推移纸质文献资料越来越多,需要占用越来越多的空间来存放,导致搜索、使用起来不方便,因此需要将其数字化后存储以便于管理与应用。为了将这些文献变成数字化,一般会将它们拍摄、打印成文本图像,然后对这些文本图像进行二值化,保留下它们的文本信息后再进行后续的处理。二值化作为数字化的关键步骤,它的准确程度直接影响了后续步骤的处理效率和准确率,因此对文本图像进行准确的二值化是十分重要的。但是,许多的纸质文献因其年代久远,文献本身会出现一些难以避免的损伤,比如纸张的旧化,一些使用后留下的痕迹,存放时间过长使得背面的字迹浸透过来等等。因此,对这些文献的文本图像进行二值化时,难度会大幅度增加。所以,最近十多年来,二值化算法不断的进步,只为提高二值化的准确度,以及对这些历史文献的文本图像的适应能力。而文本图像由于数量巨大,不断有不同类型的文本图像出现,这也大大增加了二值化算法对这些文本图像的适应难度。这些二值化算法对于不同的文本图像二值化准确度各有不同,很难有一种二值化算法,能够适应现有的以及以后可能出现的所有类型的文本图像,单纯的研究一种二值化算法不是十分理想的解决方案。因此,我们提出一种基于文本图像二值化算法的优化方法,用以优化现有二值化算法所得结果的准确度以及它本身的适应性,该算法希望在保留现有二值化算法的优点的同时,提高它对各种类型文本图像的适应能力,同时也能够给它所擅长类型的文本图像二值化准确度带来再次提升。首先,我们通过K-means算法得到了文本图像的分类信息。然后,对文本图像使用二值化算法进行二值化后,对其结果进行连通区域检测,标记出每一个独立的连通区域。最后,对每一个连通区域中的像素重新进行分类,去除被错误二值化的背景像素,达到优化二值化算法准确度的目的。对于文本图像的处理来说,更加准确的二值化结果能够大大保证后期字符识别等操作的准确性,提高后续工作的工作效率,这对于实际问题中的应用十分重要。