论文部分内容阅读
高校迎新工作中,因涉及到的相关部门和程序较多,所以在相应入学事务的解释上极难做到统一。如何为新生提供一致的、实时的、交互性强的入学服务,使新生入学事务的办理效率提高,是该场景中亟待解决的问题。本论文以高校迎新为应用场景,构建的机器人问答系统实现了部分替代人工解答新生问题的目标,给新生提供了一种更智能化的答疑解惑新途径。这不仅能提升高校新生入学服务的质量和效率,而且对政府机关的办事大厅、交通旅游集散地等的类似需求及相关问题也具有积极意义。通常,机器人问答系统融合了自然语言处理技术和信息检索技术,根据问答内容的开放程度,可以将其分为开放领域型和封闭领域型两大类。本文研究了封闭领域型的机器人问答系统,并重点改进了相关智能算法。本文构建的高校迎新机器人问答系统,主要包含问答库构建、问题理解、问题检索、答案抽取四大模块,涉及的关键技术包括文本预处理、词向量、卷积神经网络、长短期记忆网络以及Flask。其中问题理解和问题检索是核心,主要指完成对问句的语义理解,进一步抽象为如何有效地提高原始问题文档的分类准确度、如何有效地提高新生问句与问答库中问句的匹配率,这是本文的研究重点。因此,作者本人的主要工作是改进并实现了基于双通道卷积神经网络的问题分类模型和特征融合的问句相似度计算模型,同时完成了重庆理工大学迎新机器人问答系统的构建。基于双通道卷积神经网络的问题分类模型,主要使用了词向量技术和卷积神经网络技术。其中,词向量模型是由Google提出的Skip-Gram模型和CBOW模型,卷积神经网络的优化目标为提高分类准确率。本文提出一种结合词性贡献度和词向量模型应用场景的双通道卷积神经网络模型,通过引入词性概率和词向量权重两个因子,改善传统方法中短文本表示特征稀疏及不精确的问题,同时选取双通道的输入模式以丰富网络输入信息,协同达到分类的最优效果。特征融合的问句相似度计算模型运用卷积神经网络和双向长短期记忆网络分别提取文本的局部特征和全局特征,再将两种特征融合完成问句间的相似度计算。该模型将不同粒度的特征互补融合,解决了卷积神经网络不考虑词在上下文中关系的问题,也避免了传统循环神经网络梯度消失或梯度爆炸的问题,提高了相似度计算的准确率。实验表明,本文所述的机器人问答系统检索答案的准确率相比于传统问答系统提高了11%,验证了本文改进算法的可行性。