【摘 要】
:
大规模数据的获取是大数据与人工智能研究的基础,其中文本类数据主要来自规整好的文本资源和包含丰富文本信息的图像文件。图像文件中大量可用文本信息的提取是数据获取的前提。当前针对图像文件的文本信息提取大多是基于OCR技术实现的,然而OCR是一种基于图象识别的技术,在图像文件转换过程中往往存在识别错误,为了提高图像文件转换后的文本可用性,避免繁琐的人工校正,本文提出了一种针对OCR识别的领域文本纠错方法,
论文部分内容阅读
大规模数据的获取是大数据与人工智能研究的基础,其中文本类数据主要来自规整好的文本资源和包含丰富文本信息的图像文件。图像文件中大量可用文本信息的提取是数据获取的前提。当前针对图像文件的文本信息提取大多是基于OCR技术实现的,然而OCR是一种基于图象识别的技术,在图像文件转换过程中往往存在识别错误,为了提高图像文件转换后的文本可用性,避免繁琐的人工校正,本文提出了一种针对OCR识别的领域文本纠错方法,并从以下几个方面进行了研究:(1)提出了一种针对OCR转换文本进行纠错的方法。通过对TF-IDF算法进行改进,结合余弦相似度计算设计了一种对多候选字列表进行权重生成并排序的筛选算法,结合本文设计的错误规则推理模型和特征交叉算法,设计了一种针对OCR转换文本进行错误判断及纠正的方法,并在实际应用场景中进行了推理和验证。(2)探索了汉字构造属性在OCR转换文本纠错中的启发作用。本文设计构建了一个关于汉字构造属性的汉字知识图谱,利用汉字知识图谱辅助知识推理模型对汉字与汉字之间在OCR转换时的错误规则进行预测,有效的提高了模型的推理能力。(3)设计了一种根据数据类型进行差异化编码的知识推理模型。通过多种深度学习模型对知识图谱中不同数据类型实体进行针对性处理,使特征矩阵的语义程度更加丰富,对经过差异化编码处理的不同数据特征矩阵进行矩阵拼接,利用ConvE图卷积模型对特征矩阵进行卷积学习。本文在收集的OCR转换错误规则数据集和Movielens公开数据集上进行了实验评估,实验表明,针对当前主流的知识推理模型,本文提出的知识推理模型在MRR、Hist@1、Hist@2等指标上取得了重要的提升。(4)引入了一种对三元组特征矩阵进行特征强化的算法。通过将关系矩阵与头尾实体矩阵进行特征交叉,得到更具代表性的头尾实体矩阵作为卷积预测网络的输入。通过将该算法集成到错误规则推理模型中,有效的提升了模型在数据集上的实验指标。为了验证针对OCR转换文本纠错方法的有效性,本文设计实现了一个OCR文本纠错系统对其进行了实际使用场景下的验证。
其他文献
本文将主要以计算机软件数据接口的概念及基本原则为出发点,然后对其应用所存问题进以分析,最后就其优化措施进行相应探讨。
20世纪80年代以来,日本工人阶级的人数和比例不断提高,初次分配和二次分配的基尼系数、相对贫困率和绝对贫困率持续增大,表明日本工人阶级贫困化日益加剧。从国家垄断资本主
2014年以来,PPP模式在我国进入了一个飞速发展阶段。由于相关政策体制的不完善,在许多PPP项目中,PPP的核心理念并没有很好的落到实处,金融财务风险也没有得到合理的配置。本
近年来,两个C-H键的直接氧化偶联已经成为构建新的C-C键的有效方法。但是,如何在转化过程中控制反应的对应选择性仍然是一个巨大的挑战,因为不管是把两个未活化的C-H键偶联成
通过市场调研,从消费者的心理、社会背景、所需服装的发展走势等方面,分析西安地区职业女装市场的现状及存在问题.给出了相应的建议和对策,为职业女装的生产经销及开发提供可
综述了二次锂离子电池电解质研究的发展概况 ,介绍了电解质溶剂、溶质及固体电解质的研究情况 ,讨论了电解质应具备的性质及发展方向 .
宪法变迁是宪法实施过程中的一种宪法变化现象,是事实与规范之间的一个概念,这决定了宪法变迁的逻辑结构也必须从规范层面和事实层面进行把握。从规范层面来讲,宪法变迁主要
随着我国“川藏铁路”等一批西部地区铁路的兴建,红层填料的利用、红层路基沉降控制等问题,已成为亟需解决的工程问题。四川、云南、贵州等西南地区满足设计规范要求的优质(A组、B组填料)填料匮乏,而红层作为路基填料具有易风化、遇水易软化、填料密实度对含水量很敏感等特点,工程性质差,属C组填料。对铁路路基而言,路基本体及基床底层不得采用工程性质较差的红层填料,必须通过填料改良及采用特殊施工处理才能加以利用。
吉林省晚三叠世—早白垩世花岗岩类侵入活动十分频繁,依据区域地质构造的演化和相应的岩石组合及所获之测年资料,可划分出三大成因构造类型:裂解型;走滑型,包括走滑拉分—张
太赫兹波的特性对天文学、雷达、通信(宽带通信)、电磁武器、电子对抗、医学成像(无标记的基因检查、细胞水平的成像)、安全检查(生化物检查)和无损检测等领域产生了深远影响