论文部分内容阅读
当代科技革命的主要特征,是以计算机为支持手段进行信息处理。随着计算机的广泛应用,计算机已由过去的数据处理、信息处理发展到现在的知识处理,对语言文字的信息处理。而语言是人类最重要的交际工具,是信息最主要的负荷者。在我国,将计算机应用于事务处理、办公自动化、印刷排版、情报检索、机器翻译、人机对话等方面,都离不开中文,因为所有这些方面的信息,都是以中文作为其载体的,因而语言文字的信息处理成为我国信息化建设的“瓶颈”。
中文信息处理技术是重要的计算机应用技术,它已渗透到计算机应用的各个领域,如计算机网络、数据库技术、软件工程等。国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。我国软件产业发展的重点是中文信息处理软件,中文信息处理的发展已经得到国家的重视。
自然语言处理是人工智能的重要分支。词是自然语言处理系统中重要的知识载体与基本操作单元。在书面汉语中词与词之间没有明显的切分标志。于是在中文信息处理中汉语自动分词这一研究领域应运而生,并成为中文信息处理中的基础课题。
书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻译、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。通过对自动分词技术的深入研究,开发出高质量,多功能的分词系统,必将促进中文信息处理系统更加广泛的应用。
汉语自动分词是汉语信息处理的前提,是目前中文信息处理中的难点之一,它也是中文自然语言理解、机器翻译中最基本的一步。而汉语自动分词的难点在于对歧义字段的切分。这主要是因为汉语自动分词的划分往往存在着歧义性,需用到一定的语境知识,需要在一定的语境上下文参照下确定它的真实含义,而语境上下文的利用反过来又依赖于一个个切分好的词,这样就有一个分词与语境相互依赖的关系。
为了进一步提高汉语自动分词的准确性,本文通过分析汉语特点,提出了基于语境的汉语自动分词方法。通过改进的最大分词算法来对中文进行初切分,然后对于有歧义切分句子进行消歧处理,运用词的语境知识,也就是上下文信息来处理,同时对未登录词也进行了相应的处理。这样,分词不仅考虑了汉语的词法知识,还考虑到了汉语分词过程中词所在的语境知识,即上下文信息,进而提高分词的准确率。