论文部分内容阅读
大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领域中发挥着重要作用。 本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下: 1、提出了一种基于规则的汉语基本名词短语识别算法——基于扩展词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识别的正确率达到94.48%。 2、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法。规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法在一定程度上弥补了规则方法和统计方法的不足,识别的F指数达到89.51%,均高于单纯一种方法得到的结果。 3、在借鉴英语指代消解算法的基础上,结合汉语自身特点,提出了基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的分析比较,条件随机场模型在性能上优于其它两种模型。