论文部分内容阅读
聊天机器人是一个用来模拟人类对话或聊天的程序,它涉及数据挖掘领域的聚类、分类、答案推荐等多方面知识。在对话系统的知识库构建过程中,需结合特定业务场景,利用精准的领域知识,以确定的簇数目进行聚类。而在实际应用场景中,由于缺乏领域专家知识,很难将语料库数据进行精确而有效的分类或聚类。 论文主要基于电商数据平台,包括商品交易、基金、技术服务、在线教育等多个领域的10G多的千万级别的session;首先利用PPBD(Pre-Processing Business Data)算法从原始的语料库(日志文件)中提取QA(问答)二元组,然后通过分词、去停用词、生成词典获取词向量;并利用混合聚类算法—HCKAP(Hybrid Clustering based K-means and Affinity Propagation)算法和聚类簇质量评估算法—Agg_criterion的迭代使用过程完成知识库的构建,进而利用对问句对分类和推荐模块构建基于电商平台的自动对话系统。论文提出的HCKAP算法以吸引子传播算法确定聚类簇数目,结合基于更适合文本聚类的EMD(Earth Mover’s Distance)距离以用于k-means聚类算法的策略。而论文提出的Agg_criterion算法,引入了聚合度函数,结合同质性和标准互信息对HCKAP算法给出的聚类簇进行质量评估,通过不断迭代完成整个聚类过程。 论文对问句进行分类中使用了基于规则和基于na?ve bayes分类的两种分类方法;同时,对比了EMD度量方式和余弦相似度度量,实验表明,EMD算法比余弦相似性更为合适。在答案推荐模块中,需对候选答案进行打分、排序,实验对比了rulai推荐和wuxiang推荐两种模型,利用召回率作为评估准则。实验表明,两种推荐模型在Recall&3上所取得的精度相差不大,rulai推荐在Recall&1上所取得的效果更为理想。