基于知识图谱的OCR转换文本纠错方法研究与应用

来源 :北方民族大学 | 被引量 : 4次 | 上传用户：sccd920141

【摘要】

：

【作者】

：

张笑文

【出处】

：

北方民族大学

【发表日期】

：

2020年01期

【关键词】

：

OCR 文本纠错深度学习知识推理 TF-IDF

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大规模数据的获取是大数据与人工智能研究的基础,其中文本类数据主要来自规整好的文本资源和包含丰富文本信息的图像文件。图像文件中大量可用文本信息的提取是数据获取的前提。当前针对图像文件的文本信息提取大多是基于OCR技术实现的,然而OCR是一种基于图象识别的技术,在图像文件转换过程中往往存在识别错误,为了提高图像文件转换后的文本可用性,避免繁琐的人工校正,本文提出了一种针对OCR识别的领域文本纠错方法,并从以下几个方面进行了研究:(1)提出了一种针对OCR转换文本进行纠错的方法。通过对TF-IDF算法进行改进,结合余弦相似度计算设计了一种对多候选字列表进行权重生成并排序的筛选算法,结合本文设计的错误规则推理模型和特征交叉算法,设计了一种针对OCR转换文本进行错误判断及纠正的方法,并在实际应用场景中进行了推理和验证。(2)探索了汉字构造属性在OCR转换文本纠错中的启发作用。本文设计构建了一个关于汉字构造属性的汉字知识图谱,利用汉字知识图谱辅助知识推理模型对汉字与汉字之间在OCR转换时的错误规则进行预测,有效的提高了模型的推理能力。(3)设计了一种根据数据类型进行差异化编码的知识推理模型。通过多种深度学习模型对知识图谱中不同数据类型实体进行针对性处理,使特征矩阵的语义程度更加丰富,对经过差异化编码处理的不同数据特征矩阵进行矩阵拼接,利用ConvE图卷积模型对特征矩阵进行卷积学习。本文在收集的OCR转换错误规则数据集和Movielens公开数据集上进行了实验评估,实验表明,针对当前主流的知识推理模型,本文提出的知识推理模型在MRR、Hist@1、Hist@2等指标上取得了重要的提升。(4)引入了一种对三元组特征矩阵进行特征强化的算法。通过将关系矩阵与头尾实体矩阵进行特征交叉,得到更具代表性的头尾实体矩阵作为卷积预测网络的输入。通过将该算法集成到错误规则推理模型中,有效的提升了模型在数据集上的实验指标。为了验证针对OCR转换文本纠错方法的有效性,本文设计实现了一个OCR文本纠错系统对其进行了实际使用场景下的验证。

其他文献

计算机软件数据接口的应用分析

本文将主要以计算机软件数据接口的概念及基本原则为出发点,然后对其应用所存问题进以分析,最后就其优化措施进行相应探讨。

期刊

计算机软件数据接口应用

日本新自由主义结构改革与工人阶级贫困化

20世纪80年代以来,日本工人阶级的人数和比例不断提高,初次分配和二次分配的基尼系数、相对贫困率和绝对贫困率持续增大,表明日本工人阶级贫困化日益加剧。从国家垄断资本主

期刊

日本工人阶级贫困化国家垄断资本主义新自由主义结构改革

PPP模式发展现状研究

2014年以来,PPP模式在我国进入了一个飞速发展阶段。由于相关政策体制的不完善,在许多PPP项目中,PPP的核心理念并没有很好的落到实处,金融财务风险也没有得到合理的配置。本

期刊

PPP现状发展核心理念

有机催化的不对称sp~3-sp~2氧化偶联反应

近年来,两个C-H键的直接氧化偶联已经成为构建新的C-C键的有效方法。但是,如何在转化过程中控制反应的对应选择性仍然是一个巨大的挑战,因为不管是把两个未活化的C-H键偶联成

学位

氧化偶联反应不对称催化硫脲催化剂四氢异喹啉αβ不饱和γ-丁内酰胺

西安地区职业女装市场调查与分析

通过市场调研,从消费者的心理、社会背景、所需服装的发展走势等方面,分析西安地区职业女装市场的现状及存在问题.给出了相应的建议和对策,为职业女装的生产经销及开发提供可

期刊

西安地区职业女装服装市场调查分析

二次锂离子电池电解质研究的进展

综述了二次锂离子电池电解质研究的发展概况 ,介绍了电解质溶剂、溶质及固体电解质的研究情况 ,讨论了电解质应具备的性质及发展方向 .

期刊

二次锂离子电池电解质研究进展

宪法变迁的逻辑结构分析

宪法变迁是宪法实施过程中的一种宪法变化现象,是事实与规范之间的一个概念,这决定了宪法变迁的逻辑结构也必须从规范层面和事实层面进行把握。从规范层面来讲,宪法变迁主要

期刊

宪法变迁实质主义宪法刚性修改程序宪法性事实

川藏铁路红层路基粗颗粒改良填料力学性质及变形预测

随着我国“川藏铁路”等一批西部地区铁路的兴建,红层填料的利用、红层路基沉降控制等问题,已成为亟需解决的工程问题。四川、云南、贵州等西南地区满足设计规范要求的优质(A组、B组填料)填料匮乏,而红层作为路基填料具有易风化、遇水易软化、填料密实度对含水量很敏感等特点,工程性质差,属C组填料。对铁路路基而言,路基本体及基床底层不得采用工程性质较差的红层填料,必须通过填料改良及采用特殊施工处理才能加以利用。

学位

川藏铁路路基红层泥岩改良填料大型直剪试验动三轴试验永久变形预估模型

吉林省晚三叠世—早白垩世花岗岩类三大成因构造类型及其地质找矿意义

吉林省晚三叠世—早白垩世花岗岩类侵入活动十分频繁,依据区域地质构造的演化和相应的岩石组合及所获之测年资料,可划分出三大成因构造类型:裂解型;走滑型,包括走滑拉分—张

期刊

吉林省中生代花岗岩构造类型找矿意义

电子注激励石墨烯表面等离子体波产生渡越辐射的研究

太赫兹波的特性对天文学、雷达、通信(宽带通信)、电磁武器、电子对抗、医学成像(无标记的基因检查、细胞水平的成像)、安全检查(生化物检查)和无损检测等领域产生了深远影响

学位

太赫兹源石墨烯表面等离子体波渡越辐射电子注

基于知识图谱的OCR转换文本纠错方法研究与应用

其他学术论文