论文部分内容阅读
文本距离计算作为自然语言处理中一项基础且重要的工作,一直是该领域研究的热点之一,在信息查询、文档分类、自动问答系统等任务中起着举足轻重的作用。文本距离计算模型中最基础的方法是基于词袋的方法,但它没有考虑词组与词组之间的语义关系,即对词的同义性和多义性无法识别,因此有较大的局限性。近年来有学者提出基于带权矩阵分解(WTMF)方法,该方法在计算文本距离时将缺失词汇也考虑进去,对数据稀疏的问题起到了一定的缓解作用,间接地提高了文本距离计算的准确度,对相关任务的改善起到了较大的作用,并在一定程度上弥补了传统方法的不足。但是,此方法仅考虑了文本和词之间的关系,并没考虑文本和文本之间的关系,也没有抑制高频词对文本的过度影响。此外,在模型迭代过程中可能编入重复信息,使得一些信息重复出现造成信息冗余,对文本距离的计算造成影响。鉴于此,本文基于以上问题对文本距离计算作了两类改进:第一,在WTMF模型的基础上提出了两类改进:一是考虑词与词之间的关联性,构建了一个带权无向图,通过对词频和词权重进行规范化来抑制高频词的过度影响;二是通过矩阵正交化进行转换,使得模型迭代的过程中去除重复写入的信息,使其具有更好的区分度。并在公开数据集上进行了实验,通过实验结果分析对比,本文所提方法比WTMF方法效果显著。第二,本文将改进后的模型应用到异质媒体链接任务中和新闻微博摘要任务中。在这两个任务中,融合文本距离计算的方法,并在公开数据集上进行实验,结果显示所提出的方法确实取得了显著效果。