基于领域语料库的中文自动分词系统的研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:yuanwenrui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是中文信息处理中的一个重要环节,长期以来一直是人们研究的热点和难点。在中文信息处理中,分词广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。本文介绍了中文自动分词现状和存在的困难,以及目前常用的一些切分算法,在对常用的中文分词算法分析比较的基础上,采用基于词典的正向减字最大匹配算法;建立了具有三级索引的首字Hash表的词典结构,该结构与改进的正向最大匹配法形成统一;在歧义处理方面,本文采用了统计和规则相结合的歧义消除策略实现了通用语料的交集型歧义、组合型歧义以及专业语料的组合型歧义的识别和消除。 本文对词典文件进行了重组,通过计算首字偏移量的方法建立索引表,并根据词长由长到短的顺序形成词语链,进一步缩小了匹配范围、减少了匹配次数;对正向减字最大匹配算法进行了改进,其匹配算法的时间复杂度是O(n),n为词表中以某字为首字的平均词的个数。实验显示,相比其它的算法,有效的提高了切分速度。 作者对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性,并在VC++6.0集成开发环境中实现了完整的基于计算机领域语料库的中文自动分词系统。最后分析比较了现有的中文分词算法和本文所描述的分词算法在分词效率和精度的差异,并以有针对性的文本为例进行了测试,对所用方法进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域的分词和歧义处理,都将具有一定的参考价值和良好的应用前景。
其他文献
多Agent协作技术主要研究一组自治的Agent在分布式开放的动态环境下,通过相互的交互、协商等智能行为完成复杂的控制或任务求解。基于合同网的多Agent协作模型是通过Agents彼
学位
TCP应用于无线环境时,由于丢包多是由无线误码引起而不一定是拥塞丢包,其拥塞控制算法出现了不适应性,因此需要新的算法来修正。为了在Windows环境下测试新算法,我们需要修改TCP
随着Internet技术的发展及其应用的深入,网络功能不断强大,网络管理已成为网络系统的关键部分。网络规模的增大、网络元素数量的不断增加以及它们之间连接关系越来越复杂,使得网
随着网络和其它信息技术的广泛应用,网络系统的安全变得至关重要。入侵检测系统是保护网络系统安全的关键技术和重要手段,但现行的入侵检测不仅对新的攻击或特征未知的入侵无
随着信息技术在企业信息系统中的广泛使用,传统的封闭式系统暴露出很多难以克服的缺点,系统功能单一、结构死板、难以部署和更新的局限性阻碍了企业信息化的深入发展。为克服这
无线自组网相较于传统网络具有自组织和动态网络拓扑的特点,可广泛应用于军事通信、紧急救灾等场景。这些特点使无线自组网面临诸多威胁,比如窃听、篡改报文和拒绝服务等,因此安
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的有效获取成为各行业有效利用网络信息资源的
随着Internet的飞速发展和信息经济、网络经济等概念的提出,电子商务受到人们越来越多的关注。通俗地说,所谓电子商务就是指在电子技术的基础上进行的商务活动。其目的是替代传
在CAD/CAM造型系统中,由于NURBS作为一个统一的数学模型,既可以表示自由曲线曲面,又可以表示一些传统的几何曲线而成为工业产品制造中的一个标准。但NURBS方法的权因子、参数化、