论文部分内容阅读
一般地,在进行对象建模时通常有两种模式:基于统计的方法和基于结构的方法。在统计模式识别中,研究对象常表示为特征向量。特征向量的表示形式具有数学运算上的优势,但另一方面它缺乏对关系的表现力,且定长的特性限制了该表示方法的灵活性。在结构模式识别中,研究对象通常用图模型表示。图结构不仅能表示对象的特性,还可以刻画对象的不同部分之间的关系,从拓扑结构方面表示规模大小各不相同的研究对象。但类似向量和、积、距离等运算在图结构上并没有统一规范的定义,原本线性时间复杂度的运算通常需要指数级的时间。基于图在表示复杂结构化数据时的优越性,图数据在各类应用领域中大量出现。作为图挖掘的中心研究问题,图的相似性衡量受到了格外关注。传统图比较方法存在计算时间随着图规模增加而大大增加或为了简化图表示而忽略部分拓扑信息等问题。近年来,图核成为图比较的一种有效方式。核方法通过映射将基本线性算法扩展到复杂非线性算法,从而解决数据中非线性运算规范问题,使得原本适用于向量的标准算法也适用于图。本文首先研究了国内外现有的定义于不同子结构的图核模型,它们能够有效地进行图之间的比较。然而大多数图核存在以下局限性:(a)图核定义时所涉及的图结点大多为单标签的,而很多时候结点会有多个属性或同时属于多个类别;(b)图结构中边通常描述了蛋白质的结构信息或化合物原子间化学键的存在与否,其语义信息通常被忽略;(c)大部分图核的计算仍然需要多项式的时间复杂度;(d)现有图核多作用于蛋白质和分子数据,相比于文本或图像中的高维特征,其标签数量较少。而当结点类型空间较大时,其计算所得的相似度将趋近于零。根据现有技术的不足,本文进行了图核的相关研究和扩展,提出了两类基于语义的图核:基于LDA主题模型和邻居哈希的图核以及基于Word2vec语言模型和Weisfeiler-Lehman同构检测的图核,并将算法应用于文本分类任务以证明方法的有效性和高效性。前者利用主题模型从潜在语义层面即主题维度来描述文档,通过图结构刻画特征词项之间的空间关系,利用邻居哈希运算的定义使得该图核能高效计算图的相似性,从而体现原文档的相似性。后者从语言模型出发,根据相似的上下文将字面上无关的词项连接起来,获取词项的语义词向量。通过图结构表示特征词项之间的空间关系,以图数据之间的相似程度体现原始文本的相似性。本文以两个开放的语料库为实验数据,分别应用上述两种方法进行文本分类任务。实验结果表明,两类图核模型在体现出较好的分类准确率的同时,在计算效率上有较大提升。