论文部分内容阅读
古文献有重要的历史和学术研究价值。随着古文献研究的不断深入,不同版本间的差异性比对研究已成为古文献学的重要研究内容。目前,差异性比对研究大多采用人工方式,效率较差。利用图像技术进行差异性比对是提高效率和准确度的有效途径。但由于现存的古文献大多质量较差,使得到的图像不清晰、信息不完整,加之存在手工抄录随意性较大,字体间存在重叠、粘连,古文字类型多样(如小篆、隶书、楷书等)等因素,导致古文献文字图像切分以及不同版本差异比对的研究中有很多难点。根据古文献和古汉字的特点,本文提出了用于文字图像分割的列切分算法和两种字切分算法以及用于差异性比对的算法。列切分采用基于统计的投影循环过滤算法。字切分算法包括基于分段投影的多步切分算法和基于可变窗口的多步切分算法。差异性比对采用基于特征提取的滑动窗口比对算法。基于统计的投影循环过滤算法是先对古文献做纵向上的投影,并统计出每一列中黑色像素个数,然后采用循环过滤的方法对统计结果做分析处理,直到分离出比较均匀的列。该算法在较多噪点等多种复杂情况下,取得了很好的效果。基于分段投影的多步切分算法是在列切分的基础上,首先采用投影切分方法分割相离字。对未得到切分的非相离字,依次采用分段投影切分法、顶底部笔画特征切分法进行切分,并在切分完成后采用上下文检验的方法做切分检验。其中,分段投影切分法采用二分的思想把存在粘连、重叠的字段分为左右两部分,分别投影并分析投影数组获取字段的切分路径;顶底部笔画特征切分法是根据汉字顶底部笔画的特点找到过度切分和不足切分并以此调整切分路径。实验表明,该方法在字体间有较多重叠、粘连等复杂情况下,能很好的用于古文献中手写汉字的分割。基于可变窗口的多步切分算法同样是在列切分的基础上,首先采用投影切分法切分相离字。然后采用可变窗口的方法切分非相离字。实验表明,该方法充分利用了前景点像素信息,提高了手写古汉字的切分正确率。基于特征提取的滑动窗口比对算法是在文字切分的基础上应用于古文献差异性比对的方法。该方法首先对手写汉字做归一化处理;然后采用小波变换、距离计算、波峰分析的方法提取特征向量;最后采用滑动窗口比对方法比对每一组图像,并标记出内容不同的位置。在实验中该算法有很高的标记正确率,基本满足应用的需要。