自然语言处理之汉语文本自动校对

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kongzathu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,如何保证这些文本的正确性,显得越来越重要。汉语文本自动校对系统的研究已成为一项亟待解决的紧迫课题。本文在对目前汉语文本校对技术的深入研究和分析的基础上,在汉语文本自动校对领域进行了初步的探讨,在文本校对理论研究和技术实现上进行了有益的尝试,并提出了对汉语文本校对的改进方法。针对标点符号错误的校对,本文提出了以标点符号使用规则为驱动,针对常见的错误类型,在分词和词性标注的基础上,结合上下文信息,进行查错的方法。并根据规则产生纠错建议。实验结果显示本文提出的这种算法可以解决大部分的标点符号错误,并能给出正确的纠错建议。对于汉语文本查错部分,本文在归纳总结错误类型的基础上,对早期的查错方法进行了改进。利用汉语文字错误数据稀疏性的特点,采用一种在大规模现代汉语语料库的支持下,基于疑错窗口进行查错的方法。这样有针对性地查错,避免了大量计算,降低了算法的复杂度,并提高了召回率。对于汉语文本纠错部分,本文充分利用汉语文本错误的特点,对早期的纠错建议产生算法进行了改进和扩展。本文通过构造字词混淆集、易混淆词典对易混淆词、别字以及多字替换等错误产生纠错建议,通过将教研室已有的词典重构成按字驱动的词典来对漏字、多字、易位等错误产生纠错建议。实验结果证明,该算法是一个行之有效的方法。最后本文提出了这些算法在实验系统中的一些不足之处以及下一步的工作方向。
其他文献
随着Internet 上信息的急剧增长,传统的信息服务方式已不能满足人们的需要,个性化信息服务成为目前的研究热点。本文在讨论各种现有用户建模技术及相应的个性化信息推荐方式
在科学技术飞速发展的今天,计算机给人们的生产和生活带来了极大的便利,随着人们对计算机依赖越来越大,计算机软件的安全问题也越来越引起人们的重视。计算机软件面临着盗版、攻
本文从采购计划如何降低采购成本入手,通过对基于成本最优为目标的采购计划编制算法的研究,以及对采购计划的评估指标进行分析,得出了通过采购计划实现企业主动控制采购成本
随着自动控制技术和网络通信技术的不断发展,通过网络实现工业企业远程监控、远程管理,以达到资源共享和管理决策的目的,已成国内外工业控制研究的热点。 本文通过对泵站远程
  在参与肇庆市一站式政务服务网的数据交换平台的课题开发时,本文作者面临着如何在物理上分离的,逻辑上是对等的业务系统通过Internet网络进行数据交换的问题,另外一方面,该一
视景仿真具有逼真的仿真效果,在工业设计、军事演习等方面已得到广泛的应用,但是大部分视景仿真都是针对某一特定的要求进行全程的设计,视景仿真的通用性并不强,仿真代码的重
随着信息化技术的发展和数字化产品的普及,以计算机技术、芯片技术和软件技术为核心的嵌入式系统再度成为当前研究和应用的热点,通信、计算机、消费电子技术合一的趋势正在逐步
随着空间数据获取技术的迅速发展,空间数据规模呈爆炸增长,但空间数据的利用率却较低。为了提高空间数据利用率,需充分研究空间数据的形状特征、拓扑关系和方位关系,进行空间对象
WLAN,即无线局域网,是将计算机网络用无线设备加以实现,并保证其相互通信的一门技术。它是于1990年之后出现的,并以方便、经济、简单实用为特点,使之迅速的发展起来。然而,由
传统的计算机网络安全解决方案包括对操作系统进行安全加固,使用防火墙和入侵检测系统,这些方法都有其自身的不足之处。 本文在分析了传统安全解决方案的不足之处的基础之