论文部分内容阅读
词汇的歧义性是自然语言的固有特征,词义消歧作为自然语言处理的一个基础任务,其结果对信息检索、机器翻译和信息抽取等上层任务具有直接影响。通过大规模语料训练的词向量包含了丰富的语义和句法信息,将其加入词义消歧模型中,可以提高模型的准确率。随着神经网络的发展和计算机处理能力的提高,神经网络在许多自然语言处理任务中取得了重大进展,但基于神经网络的中文词义消歧研究相对较少,且已有的少数工作忽略了目标词的外部知识。故本文对于中文词义消歧任务,分别从统计机器学习方法和神经网络方法进行研究,具体工作如下:(1)提出了基于词向量的支持向量机(Support Vector Machine,SVM)中文词义消歧模型。使用词向量表示的上下文词特征和词性特征代替之前统计机器学习方法中的复杂特征,作为SVM分类器的输入特征。本文使用ngram2vec模型训练的中文词向量,在词向量训练时将字特征和ngram特征加入到上下文特征中。该模型在SemEval 2007 task5中文采样词词义消歧任务中宏平均准确率为80.44%,相对于该数据集中机器学习模型的最好结果,宏平均准确率提高2.56%;在郑州大学构建的汉语词义标注语料库中微平均准确率达到83.18%。(2)提出了基于语言知识和神经网络的中文词义消歧模型。首先提出了基于双向长短时记忆网络(Bidirectional Long Short Term Memory,Bi-LSTM)的中文词义消歧模型,模型使用Bi-LSTM建模目标词上下文语义信息,通过softmax函数进行词义分类。然后提出了融合词典信息的中文词义消歧模型,将词典中的释义和例句作为外部知识添加到神经网络模型中,借助外部知识辅助词义判断。模型通过两个Bi-LSTM分别建模目标词的上下文信息和词典信息,使用注意力算法建模两者之间的语义关系,最后综合上下文信息和词典信息进行中文词义消歧。该模型在SemEval 2007语料中宏平均准确率达到85.28%。