【摘 要】
:
自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、词法分析、语法分析和语义分析等。其中,自
论文部分内容阅读
自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、词法分析、语法分析和语义分析等。其中,自动分词是语言处理其它方面的关键和前提。特别是随着中国计算机科学的发展,中文自动分词已经成为一项基础性课题。很多机构如公司、院校都成立了专门的研究部门,希望在中文自动分词技术有所突破。目前分词算法大概有几十种,可以归纳为三类:基于字符串匹配的机械分词、基于概率论和信息论的统计分词和基于理解的分词方法。由于中文自身的复杂性,中文自动分词有两个难点很难解决——歧义识别和未登录词识别。解决某一个难点已经成为评价一个分词系统好坏的重要标志之一。其它重要标志还包括分词准确率、召回率、分词速度等。
本文开始介绍了机械分词技术、统计分词技术。然后,提出并实现了一个基于后缀数组和句子字词表的分词方法。后缀数组是信息检索领域的通用高效技术,本文系统利用SAI_,M模型得到高频词条,经减枝后,用Berkeley DB把它们组织成一个分词词典。分词算法在利用句子字词表进行分词的同时,还能发现歧义,歧义句子采用最大句频原则进行切分。实验结果表明,本文系统的分词速度能达到50kb/s,分词准确率达到90%,值得进一步的研究。
本文最后总结了全文内容,并分析了本文系统存在的问题,提出了改进方法。
其他文献
现代计算系统应用对计算机提交可信服务的能力提出了巨大的挑战。容错技术作为保证系统高可信性的主要技术,其直接开发是非常困难的。而采用中间件技术,不仅尽可能多地屏蔽容
随着软件需求的激增,软件规模和复杂度的不断增大,传统的软件开发模式面临着前所未有的挑战,人们开始探索新的软件开发技术来适应软件发展的要求。软件复用是解决这一软件危
在软件开发过程中,各种拷贝-粘贴-修改的编辑操作非常普遍。这种方式的代码重用往往使得代码基中出现很多重复或者相似的代码片段,也就是所谓的克隆代码。它虽然方便了开发者,
“课程思政”是落实立德树人根本任务的重要形式,是思政课程的重要支撑,是思想政治工作的重要载体.本文分析了传统课程思政及其不足,探讨了新时代背景下的“课程思政”建设途
随着通讯和计算机技术的发展,人们对现代科技产品的依赖性逐渐增加。在Internet改变着人类工作生活的同时,移动通信技术在最近的几年发展迅速,已经成为世界上发展最快的技术
以玉米作物为对象,基于作物生理、生态学理论、实验数据,利用系统分析原理和数学建模技术,研究玉米栽培管理的知识表示体系。把玉米生产视为一个由作物、环境、技术、经济等
无人机在获取影像的时候,由于外部和内部的原因,导致影像的光照不均匀,其具体表现是单张影像内部的色彩不均匀和相邻影像的同名影像色彩不一致。同名影像的色彩差异最终影响影像
农产品市场要搞活农产品流通必须有设施先进、功能完备的大型综合性批发市场作为平台和先进的信息化管理手段。设计并实现针对农产品批发市场管理的软件,对于提高市场管理的
本文通过对广东南华工商职业学院为主体的高职院校学生党员教育管理现状进行调查,在调研分析的基础上,提出利用互联网搭建教育管理平台和建立长效联系机制,同时加速打造线上