论文部分内容阅读
随着社会信息化的发展,人们很容易获得海量信息。但是要处理海量信息,靠人工是不可能的,必须依靠计算机的帮助。和西方语言不同,中文中的词与词之间没有明显的切分标志。所以,要使计算机能够处理中文文本,就必须先进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作,但其结果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现,现有的中文自动分词系统还没有达到令人满意的效果。本文分析了当前中文分词已经实际使用的算法,各种分词词典组织形式,并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统计相结合的中文分词算法,解决了一部分条件下的人名,地名,机构名,数量词等类型的未登录词以及交集型歧义引起的切分错误问题。本文采用了统计和词典相结合的复合分词方法,在多个方面进行了改进。在统计方面,通过对第一次分词结果中碎片的统计,识别出在文本中出现过超过一次的未登录词,并将其加入临时词典;对词典的组织结构进行了改进,把单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织结构,根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点,采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储,并在词条中加入词频信息用于歧义消解,扩展词典则包括数量词词典,姓氏词典,临时词典,停用字词典等,它们将分别用于数量词和命名实体识别等;通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量;使用改进的正向最大匹配分词法对文本进行第二次分词,并使用统计的方法消除部分歧义;最后使用规则的方法,在机械分词结果中识别出在文本中只出现一次的未登录词。由于命名实体中人名识别的上下文限定条件最多,所以识别效果最好,机构名组成结构最复杂,识别效果也最差,所以本文是依次进行人名,地名和机构名的识别。通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力,基本上可以满足中文信息处理实际应用的要求。