多层次特征融合的短文本匹配方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xuxiaoxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多自然语言处理任务和应用中,相关性计算是最重要的环节之一。随着微博和微信等移动社交应用的用户越来越多,互联网上产生了大量的短文本信息。面对急剧增长的短文本,从短文本中针对用户有效挖掘有价值信息显得越来越重要。由于短文本有着区别于长文本的文本短、书写不规范等特点,传统的文本处理方法并不能很好地适用于短文本。本文主要研究短文本会话任务,这是短文本匹配问题的一种。给定一条短文本消息和它的一组候选回复,短文本会话任务的目标是从候选回复中选出最合适的一条回复。本文提出了多层次特征融合的短文本匹配方法,该方法采用了基于搜索排序的短文本会话模型,构建了三类来自不同匹配层次的匹配特征,本文称之为浅层匹配特征、深层匹配特征和规则匹配特征。首先,本文构建了向量空间模型、潜在语义索引模型和BM25模型三种匹配模型,生成了六个浅层匹配特征。这些特征能够衡量查询消息和候选回复之间单词层面的匹配度和浅层的语义相关度。其次,基于词向量技术和句子向量技术,本文构建了两种新的匹配模型用于生成深层匹配特征。相比浅层匹配特征,这些特征能够识别更深层、更复杂的匹配关系。最后,根据实际问题的特殊情况,本文定义了四种基于规则的匹配特征,这些特征能够处理查询消息和候选回复之间的一些特殊匹配情况。为了融合不同层次的匹配特征,对候选回复生成唯一的匹配评分,本文构造了基于Ranking SVM算法的学习排序模型。为了深入探讨不同层次匹配特征的效果,本文在公开的短文本会话数据集上做了评测实验。实验结果表明,单独的任何一种特征都不能取得最好的结果,当采用本文所提出的多层次匹配特征融合的方法时,实验结果有了显著地提高,达到了现有模型的最好效果。
其他文献
随着移动通信技术的不断发展,尤其是第三代移动通信技术的快速发展,智能手机逐步发展成为具有强大功能的新一代移动终端。建立简单高效的应用平台系统对于组织和管理智能手机软
心脏病长期以来都是人类健康的头号杀手。心电图(ECG)提供了心脏功能活动的重要信息,能够帮助诊断一些常见的心脏疾病。传统的ECG自动识别算法通过检测QRS波群、P波、T波等波
近年来,随着社交网络、电子商务网站的兴起,人们的消费习惯正在慢慢地发生变化,越来越多的人开始通过互联网获取推荐的服务信息并线下消费体验服务,为了满足用户日益增长个性化消
学位
数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机
通过工作流管理系统对工作流程的管理和控制,可以实现企业经营过程的计算机化,为企业实现更好的经营目标提供了一个重要手段。但传统的工作流管理系统只专注于工作流程的运转
当前,SUN公司提出的J2EE已经日渐成为企业Web应用的开发标准。J2EE以组件技术为基础,具有N层体系结构,为非常广泛的领域构建了一个完整的、面向对象的、易维护可扩展的应用架
在磁盘驱动器中,定位和精确跟踪磁道对读写磁盘数据至关重要。当前硬盘工业的发展趋向于小型化和微型化。随着记录密度的不断增长,需要伺服系统能可靠的跟踪磁道。精确的寻道
通信系统中的一个固有问题是干扰。作为4G的代表技术之一的LTE-Advanced对资源利用率的要求更高,希望能够使用接近于1的频率复用因子,因此小区间干扰问题更需要得到解决。异
随着互联网的高速发展,搜索引擎成为互联网用户查找信息的第一入口,作为搜索引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正以指数级的速度不断膨胀,网页采