论文部分内容阅读
随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中,OCR (Optical Character Recognition)识别后的蒙古文字符会发生识别错误。因此,对蒙古文文档进行错误校正具有非常重要的研究意义。本文首先根据蒙古文的语言特点制定规则库,将大量国标码形式的语料根据规则转换为智能编码形式的语料,完成蒙古文语料库的构建。其次,对语料库进行训练,建立N-gram语言模型,并用平滑算法解决数据稀疏问题。然后,对比原始蒙古文文档和对应的识别结果,统计字符识别情况,建立OCR字符混淆模型,将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果,校正后OCR的系统错误率由1.91%降低到0.66%。