古文献文字图像分割与差异性比对算法研究

来源 :兰州交通大学 | 被引量 : 8次 | 上传用户:pdiudiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古文献有重要的历史和学术研究价值。随着古文献研究的不断深入,不同版本间的差异性比对研究已成为古文献学的重要研究内容。目前,差异性比对研究大多采用人工方式,效率较差。利用图像技术进行差异性比对是提高效率和准确度的有效途径。但由于现存的古文献大多质量较差,使得到的图像不清晰、信息不完整,加之存在手工抄录随意性较大,字体间存在重叠、粘连,古文字类型多样(如小篆、隶书、楷书等)等因素,导致古文献文字图像切分以及不同版本差异比对的研究中有很多难点。根据古文献和古汉字的特点,本文提出了用于文字图像分割的列切分算法和两种字切分算法以及用于差异性比对的算法。列切分采用基于统计的投影循环过滤算法。字切分算法包括基于分段投影的多步切分算法和基于可变窗口的多步切分算法。差异性比对采用基于特征提取的滑动窗口比对算法。基于统计的投影循环过滤算法是先对古文献做纵向上的投影,并统计出每一列中黑色像素个数,然后采用循环过滤的方法对统计结果做分析处理,直到分离出比较均匀的列。该算法在较多噪点等多种复杂情况下,取得了很好的效果。基于分段投影的多步切分算法是在列切分的基础上,首先采用投影切分方法分割相离字。对未得到切分的非相离字,依次采用分段投影切分法、顶底部笔画特征切分法进行切分,并在切分完成后采用上下文检验的方法做切分检验。其中,分段投影切分法采用二分的思想把存在粘连、重叠的字段分为左右两部分,分别投影并分析投影数组获取字段的切分路径;顶底部笔画特征切分法是根据汉字顶底部笔画的特点找到过度切分和不足切分并以此调整切分路径。实验表明,该方法在字体间有较多重叠、粘连等复杂情况下,能很好的用于古文献中手写汉字的分割。基于可变窗口的多步切分算法同样是在列切分的基础上,首先采用投影切分法切分相离字。然后采用可变窗口的方法切分非相离字。实验表明,该方法充分利用了前景点像素信息,提高了手写古汉字的切分正确率。基于特征提取的滑动窗口比对算法是在文字切分的基础上应用于古文献差异性比对的方法。该方法首先对手写汉字做归一化处理;然后采用小波变换、距离计算、波峰分析的方法提取特征向量;最后采用滑动窗口比对方法比对每一组图像,并标记出内容不同的位置。在实验中该算法有很高的标记正确率,基本满足应用的需要。
其他文献
随着互联网用户和规模爆炸式增长,如何让用户更快捷的搜索到需要的信息成了学术界和搜索引擎公司共同关注的问题。搜索引擎上用户查询的形式是多种多样的,如何正确的分析查询
随着计算机和互联网的迅速普及,人类进入了信息时代,各种信息资源呈现出了爆炸式地增长。在大量的信息中帮助用户更加准确地找到他们想要的信息就成为了信息检索的重要任务。
目前,搜索引擎以及在线音乐网站主要采用文本关键词匹配的方式搜索相关的音乐,其中用作文本关键词的信息可以是音乐名称、演唱者、专辑名称或者歌词等。然而,这种以文本关键词为
车牌自动识别技术通过实时监控经过监控区域的车辆,对违章车辆进行自动抓拍和自动识别车牌号码,然后对违章车辆信息进行处理。它的出现大大缓解了交通事故的增加和警务人员的
分析震动数据从而识别震动目标类型和震动目标位置,在周界安全防护领域具有重要的研究意义。在了解国内外地面震动目标识别和定位技术的基础上,本文研究了基于时间序列相似搜
随着网络的普及以及WEB2.0的迅速发展,互联网已经成为世界上规模最大的公共数据源。与此同时电子商务的迅猛发展,给人们的生活带来了极大的便利。越来越多的人们开始选择网上
中医舌诊是中医临床进行辨证论治过程中的一个重要步骤。舌下络脉诊断是通过观察舌下络脉的形色变化来判断人体健康状况的一种古老诊断方法,是中医舌诊的重要组成部分。利用
无线传感器网络(Wireless Sensor Networks,WSN)是物联网研究和应用的关键技术,属当前国内外的研究前沿,具有重要的理论研究和应用价值。随着无线传感器网络技术的发展,多接收节
基因表达式编程算法(Gene Expression Programming,GEP)是一种新型的处理高维的、不确定性因素的智能进化算法,它能够挖掘出隐藏在数据中的知识,如规则、模型等,并且不需要任
基于内容的图像检索是多媒体搜索引擎的一项重要技术,在给定查询图像的前提下,依据内容信息或指定的查询标准,在图像数据库中搜索并查找出符合查询条件的相应图像。传统的基于内