论文部分内容阅读
名词复合短语(Noun Compounds, NC)作为语言中一种普遍的语法现象,近年来为自然语言处理领域的人们所关注。目前,对其研究范围主要包括:边界识别、语法分析、语义分析及其分类。本文的主要工作包括汉语名词复合短语的问题域的确定、名词复合短语的边界识别、名词复合短语的类别识别、名词复合短语和命名实体的一体化分析,以及名词复合短语的应用。本文首先对名词复合短语边界识别进行了研究。使用三种方法对边界进行识别,并对开发集上的识别结果进行比较分析,获得了边界识别的最优模型——基于候选集的最大熵模型。此外,根据名词复合短语的内外部知识(内部知识指短语内部词串属性,外部知识指短语所在上下文环境)提取了由26个特征值构成的特征模板进行模型训练,测试集上F值为89.2%。对于名词复合短语分类的研究,本文结合汉语中名词复合短语的语义特点及其在语言分析中的应用,构建了一个汉语名词复合短语分类体系。值得一提的是短语级命名实体符合名词复合短语定义,完全可以视为名词复合短语,从而为后文提出的一体化分析系统提供理论依据。短语分类依赖于短语本身的识别,为此本文从两个角度对其进行研究:一是两者共同识别;二是分类基于边界识别。结果表明,共同识别使得短语本身识别准确率下降,而基于短语识别保留了边界识别的准确率的同时使得类别识别效果得到提升。最后,本文对名词复合短语和命名实体的一体化分析进行了研究。由于命名实体与名词复合短语在组成结构、语法语义特点和应用领域上十分相似,短语级命名实体更是名词复合短语的一部分。为此,对短语级命名实体的识别可依赖于名词复合短语类别的识别。此外,本文还引入了多种扩展命名实体类别,将其应用到实际信息抽取系统中,取得了较好的效果。对于研究工作中的每一种课题类别,本文都尝试从多角度、以多模型解决问题,以期从研究结果的对比中加深对问题本质的认识,从而优选最适合的模型来搭建名词复合短语分析系统平台。