论文部分内容阅读
词义消歧是自然语言处理任务的重要环节,影响计算机对文本语义的理解。从规则到概率模型,从表面的搭配到语义层面的理解,词义消歧方法不断深入语言的本质,越来越符合人类的认知模型。词义消歧的知识也可以从机读词典、义类词典、语料库等知识源中通过不同的方法获取。因此,有必要将这些可用于词义消歧的知识提取出来,构建不同的知识库,将这些知识融合,便于用来进行词义消歧。本文使用《现代汉语语法词典》、《现代汉语语义词典》、《人民日报》语料库、HowNet等知识源,参考已有的消歧方法,进行创新或改进,从现有的自然语言处理知识源中提取可用于词义消歧的知识,构建三个知识库:条件随机场模型库、情景词库和区别性词典属性库,并使用这些知识进行消歧实验,具体工作包括以下几个方面:1.使用《人民日报》语料库设计了标点句库,将包含多义词不同义项的标点句分文件存放,为之后构建条件随机场模型、构建规则和进行消歧实验奠定基础。2.创建了条件随机场模型库,将条件随机场训练的模型文件作为消歧知识存储。文中使用条件随机场分别对整个文本、多义词高频义项语料、多义词低频义项语料训练模型文件并用于测试,发现使用低频义项句库训练的模型文件消歧效果更好,并能够找到一个阈值,便于判别标注结果的正误。3.构建了情景词库,从标点句库中分别提取共现词、搭配词、指示词三类词义消歧特征,其中运用了词袋、依存句法树以及种子优选法。我们还使用这三类词进行了封闭测试,得到三类词对消歧的影响因子,并设计了顺序消歧和综合消歧两种开放测试。4.设计了区别性词典属性库,对《现代汉语语法词典》和《现代汉语语义词典》中的多义词字段进行分析并融合,分为共有词库和独有词库,并从中提取肯定性区别特征。此外,还使用其中的示例字段,与HowNet、标点句库、语料库在线相结合,制定稀疏多义词或者多义词稀疏义项的模板。5.针对以上三种知识库分别设计了知识库构建程序和消歧实验程序,并通过实验评估知识库中存储的消歧知识的消歧效果。综上所述,本文分析了从不同知识源中提取的消歧知识,并对这些知识进行了初步的融合,力图构建一个面向词义消歧的知识库体系,便于今后词义消歧工作的进一步研究与开展。