论文部分内容阅读
随着互联网以及物流业的迅速发展,网络购物已经逐渐成为人们日常生活中必不可少的购物方式,它具有方便、快捷等特点,买家足不出户便可以购买所需要的商品。卖家通常以在线客服的形式向买家提供咨询服务,为了节约成本,单个客服人员通常会同时与多个买家进行交流,致使服务质量下降。为此人们提出了一种客服机器人问答系统,该系统将客服聊天记录作为知识库对问题进行检索,经过排序之后返回答案供客服人员参考。答案排序技术是影响问答系统性能的重要因素,当前的客服机器人通常依赖单一方面的相关度计算作为排序策略,而局限于单一的相关度计算会忽略其他许多方面对答案排序的影响,比如句法、语义和上下文等多个层次的特征,从而使返回的答案往往不能够准确回答用户提出的问题,导致客服人员的工作效率降低。因此,提高客服机器人的答案排序性能是亟待解决的问题。为了解决这一问题,本课题将排序学习方法引入客服机器人的答案排序任务中,将排序问题转化为机器学习中的分类问题,并针对在线客服环境下的真实语料选取特征,提出了一种客服机器人答案排序学习方法。客服机器人处理的会话通常具有以下两个特点:第一,会话语句较为精简与口语化,属于短文本范畴;第二,每个语句具有独自的上下文环境,具备交互式问答的特点。针对以上两个特殊性,本课题从语义、句法两个层次为排序学习方法选择了多类排序特征。语义层次的特征包括:基于知网的语义相关度计算、基于词共现方法的语义相关度计算、基于维基百科的语义相关度计算和基于同义词词林的语义相关度计算;句法层次的特征包括:基于BM25模型的相似度计算、基于TF/IDF模型的相似度计算、基于词汇数目比的相似度计算等。然后基于客服机器人会话的交互式特点,根据会话中的上下文信息对各类特征进行了扩展,最后提出一种基于用户反馈的排序模型对排序学习方法作了补充。本课题对客服机器人进行了设计与实现,并设计实验证明了以下两个结论:首先,对基于单一相关度的方法与基于排序学习的方法作了对比,结果表明基于排序学习的方法在排序效果上远远优于单一相关度方法,由此说明考虑多重特征对答案进行排序要优于仅仅依靠单一特征的排序;其次对扩展了上下文特征的排序与未扩展特征的排序进行了对比,结果表明利用上下文信息对特征扩展之后会进一步提高客服机器人的排序性能。