论文部分内容阅读
问答系统是目前自然语言处理领域中的研究热点之一,它以精准的答案直接回答用户以自然语言方式表达的问题。在问题分析时,提取问题中的关键词对于理解其语义至关重要;在问题检索时,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,面向问答的问句关键词提取技术研究对提升问答系统的性能有着积极作用,能够为问答系统带来更好的用户体验。本文重点研究了两类问句关键词提取技术:无监督的关键词提取方法和有监督的关键词提取方法。有监督的关键词提取方法又分为:基于特征选择的机器学习方法和自动学习特征的深度学习方法。基于图模型的关键词提取算法发展较为迅速。本文提出了基于依存分析排序的无监督方法提取关键词,引入词向量,从语义的角度衡量词语的相似度,引入依存句法分析,从句法结构的角度来表示两个词语之间的关联度,利用基于图的排序算法,更加准确地对候选词语进行排序,提高关键词抽取的效果。基于特征选择的机器学习方法提取关键词,将依存句法特征应用到关键词提取技术中,通过特征分析,选取最有效的特征,利用最大熵模型训练分类器,来判断候选词是否为关键词。实验结果表明,依存句法特征有助于提高关键词提取的效果。自动学习特征的深度学习方法提取关键词,能够让机器自动学习关键词的特征,并将特征学习融入到模型建立的过程中,避免了特征工程。在我们的研究中,利用LSTM模型构建神经网络层次,将目标词语的上下文信息都输入到模型中,更好地利用了词语的语义信息。同时,为了解决人工标注训练数据不足,无法满足模型训练需求的问题,我们提出了两段式的训练方法。实验证明了深度学习的关键词提取方法的有效性。