论文部分内容阅读
人机对话系统又称为聊天机器人、虚拟助理,它以对话的形式向用户提供搜索、订餐、购物等多种服务。近年来,随着深度学习的发展,基于循环神经网络的人机对话模型逐渐成为主流趋势。端到端的Seq2Seq模型,可以将输入自动编码为上下文表示,然后将其解码为相应的输出,因而在对话系统中取得了显著效果。然而,Seq2Seq模型只能捕获当前输入的上下文信息,而对整个对话过程的上下文无法把握,因而无法处理多轮对话的情况。在多轮对话系统中,实时地提取对话的全局上下文信息并给出合理的答复,对于提供长期友好的人机交互有着重要作用。在长时间的对话过程中,通常会涉及多个对话场景的切换。不同对话场景上下文的不一致性,使得并非所有的上下文信息,都有利于当前应答的生成。因此,实时地感知对话场景的变化,以作出符合当前场景的正确应答,是人机多轮对话系统需要着重考虑的问题。本文旨在基于端到端的深度神经网络技术,实现能够充分理解对话上下文的非目标驱动人机多轮对话系统,具体研究工作分为以下几个方面:第一,以固定场景下的多轮对话为基础,构建基于层级编码与神经注意力机制的固定场景多轮对话模型,以学习对话中句子级与场景级的上下文向量表示。在固定场景下,场景的上下文随着对话的进行逐渐变化。场景级上下文向量将对话的全局上下文信息矢量化,是对话场景感知的关键元素。第二,构建基于场景上下文的场景感知多轮对话模型,以处理长轮次多场景的多轮对话问题。在长轮次的对话中周期性地记录场景上下文向量,在生成对话时,根据场景上下文相似度匹配,为多个场景分配不同的权重,结合多个场景的上下文信息,以生成符合当前场景的应答。第三,基于电影、电视剧剧本构建带有场景分割的多轮对话语料库,以解决当前公开多轮对话语料库不足的问题。基于爬虫技术和文本预处理方法,将剧本转换为结构化的多轮对话数据。通过对比实验,本文提出的模型在多个评估指标上取得了较好效果。