【摘 要】
:
随着现代化信息传播及处理方式的演变,文本类信息数量剧增。依靠人力校对文本内容这一环节亟需计算机的辅助。文本校对任务的方向常常以字词错误为基础,鉴于中文文本字词错误随着文本类信息同时增长,文本语义类错误难以使用传统方法查找,两种错误类型均影响了信息传播的准确度及影响力,处于信息爆炸式产生的互联网环境迫切需要中文文本自动化校对方法。这不仅关乎众多工作的严谨性,还体现了人们对文字书写规范的重视度。综合文
论文部分内容阅读
随着现代化信息传播及处理方式的演变,文本类信息数量剧增。依靠人力校对文本内容这一环节亟需计算机的辅助。文本校对任务的方向常常以字词错误为基础,鉴于中文文本字词错误随着文本类信息同时增长,文本语义类错误难以使用传统方法查找,两种错误类型均影响了信息传播的准确度及影响力,处于信息爆炸式产生的互联网环境迫切需要中文文本自动化校对方法。这不仅关乎众多工作的严谨性,还体现了人们对文字书写规范的重视度。综合文本自动校对方法的广阔前景和必要性,本文对相关理论和技术进行了比较详细的分析和研究。主要工作及成果如下:(1)提出了一种面向字词类错误的校对方法。分析字词类错误的造成方式、错误种类及错误分布,借鉴N元文法、音形相似字库、词语编辑距离、最短路径算法和双向长短时记忆网络提出基于N元文法和上下文语言模型的字词错误校对方法。该方法分为四步:首先基于音形相似字库对每个词语建立候选词语集;然后使用二元词语模型作为候选词语的搭配权重建立候选句子集并使用哈希表进行存储;其次,使用K-最短路径算法求解句子集;最后使用三元字模型初步筛选流畅度较优的句子,并基于双向长短时记忆网络训练的词向量,将流畅度标准差低于阈值的句子区分出来。(2)提出了一种语义校对方法。分析上下文语义表征方法对文本词语和句子语义校对的影响,针对目前语义校对缺乏充足平行语料的困境,提出基于上下文语义表征的端到端的校对方法,并建立语义错误句子生成器,扩充校对平行语料库。该模型使用多重卷积神经网络搭建语义表征端和语义纠错端,而端内模块的校对工作使用注意力机制进行实现。在模型训练之前,使用迁移学习将英译中翻译模型的解码器参数用于校对模型的语义纠错端的初始化。在输入数据之前,将本文所提方法用于训练数据中字词错误的过滤。在校对结果的输出阶段,使用三元字模型对集束算法所输出的句子进行选优。(3)基于BERT模型提出了基于RC-Attention机制的上下文校对模型。该方法为端到端校对模型,语义表征和纠错端使用了Transformer架构捕获上下文语义特征。针对校对任务引入了一种基于多头注意力的RC-Attention机制,用于区分待校对句子的正误部分,并生成校对结果。在模型训练阶段,使用本文扩充的校对语料、降噪自动编码以及参数微调方法提升校对模型的性能。最后,采用PYQT5框架设计并实现基于C/S的校对系统,不仅适应客户端开发的常规需求,还将系统页面和算法逻辑进行分离,使得本文的校对系统较为简洁且易扩展。
其他文献
横梁式货架是目前应用最广泛的货架。梁柱节点作为横梁式货架的重要部件之一,是联系托盘横梁和立柱的枢纽,其性能的优劣对货架实际工程应用中的安全性具有决定性的影响。目前
感应式磁声成像(Magnetoacoustic Tomography with Magnetic Induction,MAT-MI)是一种融合了超声成像技术、电磁技术和多物理场探测的新型成像手段,兼具高对比度、高空间分辨
粘土湿型砂具有取材方便、资源丰富、易于造型、成本低廉等特点,是铸造生产中最常用的造型材料。为了防止铸件产生化学粘砂现象,提高铸件表面质量,减少后续清理工作量,通常在
《能源宪章条约》(Energy Charter Treaty,以下简称ECT)是国际合作解决能源问题的里程碑,尤其是其中第26条——投资者和东道国争端解决条款,对国际能源投资实践产生了深远影响。自1998年ECT正式生效以来,截至2019年12月,根据ECT提起的仲裁案件共计122起案件。能源投资作为能源合作的重要领域,是“一带一路”倡议的重要内容。随着“一带一路”倡议的推进,区域内的能源投资发展
在进化计算中,人工蜂群算法是一种适应性更强、全局搜寻能力更优、收敛速度更快且控制参数极少的新型群智能优化算法,因此备受专家和学者的关注,并将其应用于科学研究和工程优化等众多领域,且优化效果较好。但是由于基本人工蜂群算法的蜜源选取机制随机性较强,致使算法容易陷入局部极值而停滞搜索,算法后期收敛速度缓慢。断路器是配电系统中用于保护和控制电路、分配和传输电能以及现场总线双向通信的重要电子器件。现阶段常采
随着当前各领域对高精度实时导航定位的需求日益增长,卫星钟差数据的准确性是制约其广泛应用的重要因素之一,建立高精度的钟差预报模型对高精度实时定位有重要意义。人工神经网络在处理非线性数据时有较大优势,但是网络中模型参数的随机初始化会导致建模结果不稳定,使目标方程陷入局部最小值。MEA算法仿照人类的思维进化,利用趋同和异化操作,其全局寻优和收敛较快的优势,可很好地解决神经网络的初始参数选择问题。相比于静
氮化镓(GaN)材料因其特殊的宽禁带(3.39e V)特性而具有强大的抗击穿能力、高电子迁移率、适应较高的温度环境等方面的优势。因此它在蓝光LED、节能照明灯、射频器件、功率放大器
后评价在工程项目周期管理中占据着非常重要的作用,为项目管理者的决策提供了重要的参考依据。对于火电建设项目发展来说,不仅直接关系到人们日常生活,而且还严重影响着整个国民经济的发展,所以对火电项目展开后评价有着非常重要的现实意义。本文在研究中对国内外已有的研究成果进行了汇总分析,并且在此基础之上对火力项目的后评价方法进行了探索和分析,并针对火电发电项目后评价的发展现状及特点进行了分析。文中阐述了项目后
车辙(永久变形)是常见的路面早期病害,以往关于路面永久变形的研究通常将轮胎路面接触荷载进行一定简化,而本文旨在研究真实轮胎路面复杂接触应力对路面永久变形的影响。本文
随着数控机床向高速度、高精度、高柔度方向的迅速发展,除了要求机床重量轻、成本低、使用方便和具有良好的工艺可能性外,还着重要求机床具有愈来愈高的加工性能。机床的加工