基于EMD的聚类分类在对话系统中的应用研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:david_lau82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聊天机器人是一个用来模拟人类对话或聊天的程序,它涉及数据挖掘领域的聚类、分类、答案推荐等多方面知识。在对话系统的知识库构建过程中,需结合特定业务场景,利用精准的领域知识,以确定的簇数目进行聚类。而在实际应用场景中,由于缺乏领域专家知识,很难将语料库数据进行精确而有效的分类或聚类。  论文主要基于电商数据平台,包括商品交易、基金、技术服务、在线教育等多个领域的10G多的千万级别的session;首先利用PPBD(Pre-Processing Business Data)算法从原始的语料库(日志文件)中提取QA(问答)二元组,然后通过分词、去停用词、生成词典获取词向量;并利用混合聚类算法—HCKAP(Hybrid Clustering based K-means and Affinity Propagation)算法和聚类簇质量评估算法—Agg_criterion的迭代使用过程完成知识库的构建,进而利用对问句对分类和推荐模块构建基于电商平台的自动对话系统。论文提出的HCKAP算法以吸引子传播算法确定聚类簇数目,结合基于更适合文本聚类的EMD(Earth Mover’s Distance)距离以用于k-means聚类算法的策略。而论文提出的Agg_criterion算法,引入了聚合度函数,结合同质性和标准互信息对HCKAP算法给出的聚类簇进行质量评估,通过不断迭代完成整个聚类过程。  论文对问句进行分类中使用了基于规则和基于na?ve bayes分类的两种分类方法;同时,对比了EMD度量方式和余弦相似度度量,实验表明,EMD算法比余弦相似性更为合适。在答案推荐模块中,需对候选答案进行打分、排序,实验对比了rulai推荐和wuxiang推荐两种模型,利用召回率作为评估准则。实验表明,两种推荐模型在Recall&3上所取得的精度相差不大,rulai推荐在Recall&1上所取得的效果更为理想。
其他文献
本论文主要研究了ARINC(美国爱瑞克)公司定义的ARINC615数据加卸载协议(以下称为ARINC615协议),并且给出了在特定的硬件环境下该协议的实现方法,最后对该协议进行了初步测试。ARINC
P2P网络(Peer-to-Peer network,对等网络)技术是Internet上实施分布式计算的新模式,其致力于合理、高效地组织和利用Internet上大量分布的计算、存储以及信息等资源,充分释放互
近年来,随着无线通信的迅猛发展,传感器网络(Wireless Sensor Network,WSN)作为一项新兴的信息采集技术日益得到重视。无线传感器在很多领域和应用中都得到了有力的推动和普及。
随着互联网的迅速发展,网上聚集了海量的数据信息,人们淹没在信息海洋中,无法从中快速获取对自己有用的或者感兴趣的信息,出现了“信息过载”现象。推荐系统作为搜索引擎之后的一
作为信息安全的主要领域,图像加密算法一直是研究的热点。同时,作为多媒体的一种重要形式,图像越来越多地被应用于信息的交流中。因此,保证图像信息的安全,成为人们关注的焦
服务计算(Service Computing)是跨越计算机技术、信息技术、商业服务和商业管理等领域的新型计算学科。在服务计算环境中各代理之间是相互独立的,各代理通过构建信任关系实现
虚拟植物是利用计算机技术在三维空间内模拟植物结构以及生长发育过程的一门新兴学科,把人类对现实中真实植物的视觉等感官印象通过数学方法抽象为对植物形态学的一系列认识,便
近年来,在地图数据领域,如何管理海量的地理信息、提高信息的使用效率和搜索效率已经成为当前计算机界的热门课题。元数据管理系统是地理信息系统中进行信息整合的工具,如何设计
随着网络技术的发展,互联网的用户数量越来越多,传统的集中式的C/S网络模式因存在服务器单点失效和负载过大的问题面临着越来越多的问题和挑战,P2P网络作为一种新型的网络模式应
指纹识别技术,作为一种通过计算机实现的身份识别手段,是当今社会应用最为广泛的生物特征识别技术之一。在指纹样本的采集过程中,由于指纹可能存在干燥、划痕等因素影响,获取