基于语境的汉语自动分词技术研究及实验分析

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:lb_124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当代科技革命的主要特征,是以计算机为支持手段进行信息处理。随着计算机的广泛应用,计算机已由过去的数据处理、信息处理发展到现在的知识处理,对语言文字的信息处理。而语言是人类最重要的交际工具,是信息最主要的负荷者。在我国,将计算机应用于事务处理、办公自动化、印刷排版、情报检索、机器翻译、人机对话等方面,都离不开中文,因为所有这些方面的信息,都是以中文作为其载体的,因而语言文字的信息处理成为我国信息化建设的“瓶颈”。 中文信息处理技术是重要的计算机应用技术,它已渗透到计算机应用的各个领域,如计算机网络、数据库技术、软件工程等。国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。我国软件产业发展的重点是中文信息处理软件,中文信息处理的发展已经得到国家的重视。 自然语言处理是人工智能的重要分支。词是自然语言处理系统中重要的知识载体与基本操作单元。在书面汉语中词与词之间没有明显的切分标志。于是在中文信息处理中汉语自动分词这一研究领域应运而生,并成为中文信息处理中的基础课题。 书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻译、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。通过对自动分词技术的深入研究,开发出高质量,多功能的分词系统,必将促进中文信息处理系统更加广泛的应用。 汉语自动分词是汉语信息处理的前提,是目前中文信息处理中的难点之一,它也是中文自然语言理解、机器翻译中最基本的一步。而汉语自动分词的难点在于对歧义字段的切分。这主要是因为汉语自动分词的划分往往存在着歧义性,需用到一定的语境知识,需要在一定的语境上下文参照下确定它的真实含义,而语境上下文的利用反过来又依赖于一个个切分好的词,这样就有一个分词与语境相互依赖的关系。 为了进一步提高汉语自动分词的准确性,本文通过分析汉语特点,提出了基于语境的汉语自动分词方法。通过改进的最大分词算法来对中文进行初切分,然后对于有歧义切分句子进行消歧处理,运用词的语境知识,也就是上下文信息来处理,同时对未登录词也进行了相应的处理。这样,分词不仅考虑了汉语的词法知识,还考虑到了汉语分词过程中词所在的语境知识,即上下文信息,进而提高分词的准确率。
其他文献
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘提取的知识可以表示为概
随着工nternet的迅速发展,开发基于Browser/Server的服务器端的程序已经成为Web应用程序开发的重点。虽然现在应用EJB平台开发应用软件可以满足程序开发的需要,但由于在开发期
如何在模糊或不断变化的需求下,控制软件开发风险,实现快节奏的软件开发,是软件人员急需问题。但是直到20世纪90年代末,敏捷软件开发方法的出现,对于这一问题的解决提出了有效的方
我国铁路信息化工程是引入监理制度较早的领域之一,但受多种因素制约,铁路信息化工程监理仅停留在形式上。近年来,随着国家对信息化工程监理制度的逐步确立以及铁路运输体制的改
网站通过多 Agent 协同合作为用户提供智能化、个性化的服务,它能够满足用户多样化的需求,因此在实践中得到了广泛的应用。本文运用基于工作流的多 Agent 调度技术,提高了网站的
随着web2.0的发展,互联网迎来了一个数据爆炸的时代,搜索引擎的关键字搜索已经不能满足用户的个性化需求,取而代之的是推荐引擎的出现。推荐引擎带给了用户更为个性化的内容,用户
本论文研究内容是国家某预研课题的一部分,目的是研究RISC微处理器的体系结构和方法,设计兼容于PowerPC指令集的32位嵌入式微处理器。做为一款百万门级的处理器“龙腾R2”,其测
图纸识别技术是近些年计算机应用领域的热点之一。特别在建筑领域中存在着大量的工程图纸,对这些图纸若实现计算机的自动识别,就能够完成对图纸上建筑工程量信息和数据的自动计
由于本体在表述语义方面的优势,越来越多的本体被开发出来,那么如何将本体集成就成为一个急需解决的问题,在集成过程中一个非常重要的步骤就是如何找到源本体和目标本体的映射关
最近几年,对等计算(Peer-to-Peer,简称P2P)迅速成为计算机界关注的热门话题之一,P2P模型与传统的C/S模型相比,其优势在于降低了对服务器的依赖和它的分散控制。一些P2P模型甚至不