基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:gdgyhpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中,OCR (Optical Character Recognition)识别后的蒙古文字符会发生识别错误。因此,对蒙古文文档进行错误校正具有非常重要的研究意义。本文首先根据蒙古文的语言特点制定规则库,将大量国标码形式的语料根据规则转换为智能编码形式的语料,完成蒙古文语料库的构建。其次,对语料库进行训练,建立N-gram语言模型,并用平滑算法解决数据稀疏问题。然后,对比原始蒙古文文档和对应的识别结果,统计字符识别情况,建立OCR字符混淆模型,将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果,校正后OCR的系统错误率由1.91%降低到0.66%。
其他文献
汽车工业与国民经济发展总体水平的关系密不可分,基于汽车零部件精密装配的自动化生产关键技术研究,以精密零部件的定位和组装问题为中心向汽车工业的其他领域扩展。由于精密
为定量评价使用生成对抗网络生成的恒星和星系图像的质量,提出了感知损失函数与Mode score相结合的双样本评价方法。通过对几种常用的生成图像定量评价方法的优缺点的分析以及对感知损失函数进行的改进,得到了能够定量评价生成图像多样性和视觉质量的双样本评价模型。为了验证提出方法的有效性,分别采用Inception score,Kernal MMD,Wasserstein distance及双样本评价方
目前,“产教融合、校企合作”,进一步完善校企合作育人机制,提高技术技能人才培养质量,是当前推进人力资源供给侧结构性改革的迫切要求。在中等职业教育阶段开展“现代学徒制
为了避免使用用户接收机的初始坐标信息和求导与迭代计算带来的复杂性,研究了一种GPS静态伪距方程的代数解算方法。通过直接求解伪距方程,有效简化了计算,在保证一定精度的前