论文部分内容阅读
客服系统是连接企业与客户之间的重要桥梁。长期以来,移动运营商在人工客服业务中积累了大量客户接触数据,然而这些非结构化的文本数据往往没有得到合理利用。在传统客服亟待转型升级的背景下,智能客服正在逐步取代人工客服。智能客服的关键环节在于用户来电意图识别,如何应用数据科学方法,充分挖掘这些文本数据的语义信息,明晰用户来电诉求、准确识别客户意图及来电偏好,对节约运营商的人力成本、缓解客服压力至关重要。因此,用户意图识别研究具有积极的现实意义。目前,多轮对话的意图识别是口语理解中的热点问题。现有研究大多是基于经人工整理后噪声较小的英文公开语料库,对于中文口语现有研究大多是单轮对话,针对多轮对话文本数据的意图识别研究较少。因而,本文通过神经网络结构的深度学习方法,就移动客服热线口语文本中的用户意图识别进行实证研究。在口语文本表示方面,本文主要采用Skip-Gram模型获得词向量的表示,并以长短时记忆网络(LSTM)作为分类的基准模型,分别构建层次化网络模型、层次注意力网络模型进行意图识别。经比较后,选择效果较好的层次注意力网络模型对用户的深层意图做进一步识别,以探究层次注意力网络模型的稳健性。研究表明:(1)在文本表示方面,利用移动领域的口语文本进行词向量预训练,能够增强意图识别效果;(2)在模型结构方面,层次注意力网络模型可以有效捕捉多轮对话的语义信息,相比长短时记忆网络(LSTM)具有更好的意图识别效果。本文的创新点在于以多轮对话为切入点,分析文本构成及对话特征,为口语文本建立了层次注意力网络模型,已有文献中尚未对口语文本的意图识别进行类似探索。同时也存在一些不足之处:模型在口语文本的数据质量噪声大、类别不平衡情况下的稳健性有待进一步研究。