论文部分内容阅读
在很多自然语言处理任务和应用中,相关性计算是最重要的环节之一。随着微博和微信等移动社交应用的用户越来越多,互联网上产生了大量的短文本信息。面对急剧增长的短文本,从短文本中针对用户有效挖掘有价值信息显得越来越重要。由于短文本有着区别于长文本的文本短、书写不规范等特点,传统的文本处理方法并不能很好地适用于短文本。本文主要研究短文本会话任务,这是短文本匹配问题的一种。给定一条短文本消息和它的一组候选回复,短文本会话任务的目标是从候选回复中选出最合适的一条回复。本文提出了多层次特征融合的短文本匹配方法,该方法采用了基于搜索排序的短文本会话模型,构建了三类来自不同匹配层次的匹配特征,本文称之为浅层匹配特征、深层匹配特征和规则匹配特征。首先,本文构建了向量空间模型、潜在语义索引模型和BM25模型三种匹配模型,生成了六个浅层匹配特征。这些特征能够衡量查询消息和候选回复之间单词层面的匹配度和浅层的语义相关度。其次,基于词向量技术和句子向量技术,本文构建了两种新的匹配模型用于生成深层匹配特征。相比浅层匹配特征,这些特征能够识别更深层、更复杂的匹配关系。最后,根据实际问题的特殊情况,本文定义了四种基于规则的匹配特征,这些特征能够处理查询消息和候选回复之间的一些特殊匹配情况。为了融合不同层次的匹配特征,对候选回复生成唯一的匹配评分,本文构造了基于Ranking SVM算法的学习排序模型。为了深入探讨不同层次匹配特征的效果,本文在公开的短文本会话数据集上做了评测实验。实验结果表明,单独的任何一种特征都不能取得最好的结果,当采用本文所提出的多层次匹配特征融合的方法时,实验结果有了显著地提高,达到了现有模型的最好效果。