基于异质图正交矩阵分解的文本距离计算应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:changlang0p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本距离计算作为自然语言处理中一项基础且重要的工作,一直是该领域研究的热点之一,在信息查询、文档分类、自动问答系统等任务中起着举足轻重的作用。文本距离计算模型中最基础的方法是基于词袋的方法,但它没有考虑词组与词组之间的语义关系,即对词的同义性和多义性无法识别,因此有较大的局限性。近年来有学者提出基于带权矩阵分解(WTMF)方法,该方法在计算文本距离时将缺失词汇也考虑进去,对数据稀疏的问题起到了一定的缓解作用,间接地提高了文本距离计算的准确度,对相关任务的改善起到了较大的作用,并在一定程度上弥补了传统方法的不足。但是,此方法仅考虑了文本和词之间的关系,并没考虑文本和文本之间的关系,也没有抑制高频词对文本的过度影响。此外,在模型迭代过程中可能编入重复信息,使得一些信息重复出现造成信息冗余,对文本距离的计算造成影响。鉴于此,本文基于以上问题对文本距离计算作了两类改进:第一,在WTMF模型的基础上提出了两类改进:一是考虑词与词之间的关联性,构建了一个带权无向图,通过对词频和词权重进行规范化来抑制高频词的过度影响;二是通过矩阵正交化进行转换,使得模型迭代的过程中去除重复写入的信息,使其具有更好的区分度。并在公开数据集上进行了实验,通过实验结果分析对比,本文所提方法比WTMF方法效果显著。第二,本文将改进后的模型应用到异质媒体链接任务中和新闻微博摘要任务中。在这两个任务中,融合文本距离计算的方法,并在公开数据集上进行实验,结果显示所提出的方法确实取得了显著效果。
其他文献
本文阐述了公路砌体施工中勾缝施工的要求及出现的问题,提出了确保砌体工程质量采取的技术措施及注意事项,以延长砌体工程的使用寿命。
随着社会的发展,我国的水资源缺乏,能源消耗严重,不利于我国经济的发展。文章论述了节能节水理念下建筑给排水设计的意义,并针对节能节水理念下的建筑给排水设计进行研究。
翻译是大学英语教学中非常重要的一部分,内容涉及古今中外文化传统与社会发展的方方面面。但由于大学英语课时少,翻译练习耗时长,翻译教学往往被忽略。本文将基于"对分课堂"
2004年4月1日实施的《最高人民法院关于适用〈中华人民共和国婚姻法〉若干问题的解释(二)》(以下简称《司法解释(二)》)对夫妻一方婚前债务性质、婚后夫妻共同债务推定及举证责任分
报纸
本文通过借鉴国内各大主机厂构型管理成功的技术经验,分析构型管理过程的流程及其关键要素,针对公司目前构型管理存在的问题,从统一数据源、构型标识、构型控制和构型纪实等
发展铁路客货运输必须坚持以社会需求为服务内容,以旅客货主满意为服务标准,全方位提高客货服务质量,转变观念夯实基础,创新服务方式,不断完善和强化,包括管理标准,作业制度
通过对目前电动自行车插头插座的结构及功能进行综合分析,创新设计了一种安全型的电动自行车插头插座,在满足现有电动自行车所需功能的前提下,在结构上避免了传统插头插座所
植物甾醇是一种混合物,以往的定性方法有:化学特征反应鉴定法、薄层层析法、红外光谱法等,它们普遍存在的缺点是:鉴定能力低,对样品的纯度要求高,有的甚至安全性很差。因此,