中文文本错误自动校对方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wenhui10005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentworderror)。孤立词错误是一些拼写上的错误;上下文依赖的词错误,又称文本错误,本身没有拼写上的问题,即它是个正确的词,但该词不是当前文本所需要的。与孤立词错误校对技术比较,文本错误校对技术更加复杂,因为它涉及到几乎所有自然语言处理技术。汉语的语言特点决定了它只存在上下文依赖错误,文中称为中文文本错误,而没有孤立词错误。本文围绕中文文本错误的自动校对问题进行了深入研究。传统的文本错误由人工进行校对,耗费大量人力、物力、财力,无法适应信息社会的需要。因此,中文文本错误自动校对模型的研究具有广泛的社会应用背景和促进社会进步的实用价值。 本文首先讨论了文本校对任务的一般解决方案、常用方法及校对方法的评价标准;通过对实验结果,详尽地分析了校对工作中的关键问题,进而提出本文的基于受限N元文法与权重动态分配的中文错误校对模型的总体框架。 其次,本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误检测部分。利用中文文本错误的字词特性及错误检测中的常用方法,提出了基于受限N元文法的文本错误自动检测方法。由于发生错误的字词很可能造成其周边文本的语义断续,该方法首先设定被检测词的局部文本窗口,通过观察被检测词的前项概率和后项概率,寻找局部文本上的语义断点,从而确定可能存在文本错误的可疑文本区间。区分因文本错误造成的数据稀疏同因训练语料规模过小造成的正常数据稀疏是文本校对中的难题,本文采用三种平滑策略来解决,即收缩文本窗口、后延平滑及词聚类平滑。本文还通过大量实验数据分析说明了错误断点阈值对自动检测方法性能的影响。实验显示,该错误检测方法的错误警告准确率高于其他相比较的检测模型。另外,本文还探索了利用词的语义知识对文本错误进行自动检测的方法,分析汉语词的语义氛围,提出词语义支持集的概念,利用语境信息给出词语义节点投票函数,并将词语义节点投票机制运用于文本错误的自动检测,详细讨论了投票阈值对该错误检测方法性能的影响。 再次,本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误修正部分。在编辑距离及易混淆集的概念基础上,给出错误字符易混淆集的自动构建方法及中文文本最小编辑距离算法;分析了易混淆集字符的分类特征,进而给出易混淆集中候选字符的权重动态二次分配算法,提出基于字符权重动态自动分配的错误修正策略。通过实验数据,分析了这种权重分配算法的效率及对错误修正策略的影响。在同一开放测试集上,对多个文本错误修正平台进行了测试并比较,数据表明本文的基于字符权重动态自动分配的错误修正策略优于其它相比较的错误修正模型。 最后,为降低文本中的专有名词对校对模型性能的干扰,本文讨论了中文人名的构成规律、姓氏用字规律,分析了中文人名存在的上下文环境信息,从而提出校对环境下的统计加规则的中文人名自动识别方法。实验表明该方法可以使人名识别的准确率和召回率达到90%以上,基本满足校对模型的需要。鉴于确定多义词词义对利用语义知识进行文本校对工作的重要性,本文还对Karov的基于相似度转移的多义词词义排岐算法进行了改进,改进后的算法取得了较好的汉语多义词的排岐效果。为验证本文提出的错误检测与修正模型的合理性和可操作性,本文还完成了一个校对模型的验证系统。
其他文献
上世纪90年代以来,随着计算机网络在应用中的日益普及,出现了众多各具特色的工作流产品。相对于工作流产品市场的繁荣,工作流的相关理论研究则显得有些滞后。特别是工作流建
作为Internet网络存在的核心,路由技术必然是网络领域研究的重点。人们对它的研究也一直没有中断过。针对骨干路由器面临的性能问题,人们提出了基于硬件的网络交换方案。另外
信息系统是一个组织运作的核心。信息系统的安全管理工作是一个动态循环演化的过程。风险评估作为其中的一个重要环节,为信息系统安全管理动态模型的持续改进提供了目标和要求
随着计算机网络、数据库、多媒体等技术的飞速发展和日益普及,因特网上的可用信息以惊人的速度增加,仅Google搜索引擎能索引到的网页就高达80亿张以上。因特网信息表现为文本、
粗糙集理论是一种新的处理模糊和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来在机
在信息技术飞速发展的今天,互联网技术与移动互联网技术日益更新并不断推陈出新,因而对各个平台间数据交换与数据解析提出了新的需求和高标准,此时,JSON技术凭借其良好的性能
动态电子轨道衡是一种自动对铁路货车实行不停车、不摘钩连续称重的大型工业计量设备。动态电子轨道衡作为一种对装载大宗散装货物的列车在行进中进行自动称量的新型现代化计
本文深入分析了多协议标签交换技术以及虚拟专用网的基本工作原理,给出了两者的发展趋势,探讨了将两者结合在一起的可能性以及需关注的问题。针对MPLSVPN网络的构建,阐明了所采
通航问题是三峡工程实施关键问题之一,通过设计论证:在三峡大坝建设大型双线五级连续船闸。三峡船闸是世界上规模最大、最复杂的船闸,由于上下游水位落差大,船闸必须适应多级数、
在现代科技的发展过程中,随着处理器技术的发展和通信、控制、消费类电子产品等嵌入式应用的发展,嵌入式系统逐渐深入到人们生活的方方面面。各类嵌入式系统产品之间往往通过某