基于非监督语义编码的图核模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：peterqiu123

【摘要】

：

一般地,在进行对象建模时通常有两种模式：基于统计的方法和基于结构的方法。在统计模式识别中,研究对象常表示为特征向量。特征向量的表示形式具有数学运算上的优势,但另一方

【作者】

：

彭莉

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2015年期

【关键词】

：

知识表示主题模型语言模型图核

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

一般地,在进行对象建模时通常有两种模式：基于统计的方法和基于结构的方法。在统计模式识别中,研究对象常表示为特征向量。特征向量的表示形式具有数学运算上的优势,但另一方面它缺乏对关系的表现力,且定长的特性限制了该表示方法的灵活性。在结构模式识别中,研究对象通常用图模型表示。图结构不仅能表示对象的特性,还可以刻画对象的不同部分之间的关系,从拓扑结构方面表示规模大小各不相同的研究对象。但类似向量和、积、距离等运算在图结构上并没有统一规范的定义,原本线性时间复杂度的运算通常需要指数级的时间。基于图在表示复杂结构化数据时的优越性,图数据在各类应用领域中大量出现。作为图挖掘的中心研究问题,图的相似性衡量受到了格外关注。传统图比较方法存在计算时间随着图规模增加而大大增加或为了简化图表示而忽略部分拓扑信息等问题。近年来,图核成为图比较的一种有效方式。核方法通过映射将基本线性算法扩展到复杂非线性算法,从而解决数据中非线性运算规范问题,使得原本适用于向量的标准算法也适用于图。本文首先研究了国内外现有的定义于不同子结构的图核模型,它们能够有效地进行图之间的比较。然而大多数图核存在以下局限性：(a)图核定义时所涉及的图结点大多为单标签的,而很多时候结点会有多个属性或同时属于多个类别；(b)图结构中边通常描述了蛋白质的结构信息或化合物原子间化学键的存在与否,其语义信息通常被忽略;(c)大部分图核的计算仍然需要多项式的时间复杂度；(d)现有图核多作用于蛋白质和分子数据,相比于文本或图像中的高维特征,其标签数量较少。而当结点类型空间较大时,其计算所得的相似度将趋近于零。根据现有技术的不足,本文进行了图核的相关研究和扩展,提出了两类基于语义的图核：基于LDA主题模型和邻居哈希的图核以及基于Word2vec语言模型和Weisfeiler-Lehman同构检测的图核,并将算法应用于文本分类任务以证明方法的有效性和高效性。前者利用主题模型从潜在语义层面即主题维度来描述文档,通过图结构刻画特征词项之间的空间关系,利用邻居哈希运算的定义使得该图核能高效计算图的相似性,从而体现原文档的相似性。后者从语言模型出发,根据相似的上下文将字面上无关的词项连接起来,获取词项的语义词向量。通过图结构表示特征词项之间的空间关系,以图数据之间的相似程度体现原始文本的相似性。本文以两个开放的语料库为实验数据,分别应用上述两种方法进行文本分类任务。实验结果表明,两类图核模型在体现出较好的分类准确率的同时,在计算效率上有较大提升。

其他文献

基于EMD的虹膜识别方法研究

以信息化、数字化、网络化为特点的社会的发展对国家以及社会生活安全性提出了全新的要求,在这种环境下,传统的安全技术遭到了巨大的挑战。而生物特征认证技术是解决信息化、

学位

虹膜识别经验模式分解内蕴模态函数特征提取局部二值模式

组播视频会议系统研究与实现

IP网络技术和信息处理技术的迅猛发展使得视频会议系统得到了广泛的关注。视频会议系统作为一种新型的通信和交流工具,突破了地域的限制,可以提供更为便捷、灵活、全面的视音

学位

组播视频会议系统TAPI

GeTrust：基于担保的结构化P2P网络信任模型

P2P网络作为一种建立在应用层的新型覆盖网络,相比传统的C/S型网络,具有无中心化、自治以及匿名等特点。但是由于节点的行为不受约束,导致节点间缺乏信任,P2P网络也遭受着各

学位

对等网络信任模型担保抵押激励机制计算复杂度

优化Ad hoc网络传输性能的分布式拓扑控制算法研究

Ad hoc网络是指在没有固定基础设施的情况下,由具有无线通信功能的节点自组织形成的多跳的无线网络。它适用于需要临时架设网络的场所,具有广阔的发展前景。在Ad hoc网络中,

学位

Ad hoc网络拓扑控制定向天线网络仿真

无线传感器网络的定位算法研究

无线传感器网络(Wireless Sensor Networks,WSN)是集无线通信、嵌入式计算于一体的新兴的分布式自组织数据采集网络,通常布设在特定的区域完成一些特定的功能。在军事、环境

学位

无线传感器网络定位多维标度householder变换

基于时序网络的蛋白质复合物挖掘与疾病基因预测研究

生物网络模块化结构识别和人类疾病基因预测在生物信息学领域具有重要研究价值。本文从蛋白质相互作用网络的拓扑特征出发,认为网络中节点的模块归属性可以由它的周围邻居节

学位

蛋白质网络蛋白质复合物邻居节点紧密度模块相互作用网络

基于客户端水印嵌入方案的数字水印协议的研究

随着计算机网络和数字技术的快速发展，传统媒体逐步向数字媒体转变，出现了越来越多的数字作品。但是，数字作品易于篡改、易于复制，使得盗版问题非常严重。因此，设计安全、有效的数

学位

数字水印协议通信协议客户端水印嵌入方案

一种数据流频繁闭合项集挖掘算法的研究

随着信息技术的飞速发展,许多领域产生的数据是在时间维度上严格有序、在数值上不断变化的无限的数据序列,由此产生数据流模型。数据流频繁项集挖掘作为数据流挖掘的一个新兴

学位

数据流在线挖掘频繁闭合项集有序字典序树差集结点

基于服务复制和表决的容忍入侵技术研究

近几年来,随着计算机网络及分布式系统的大量应用,网络入侵的方式层出不穷,计算机网络的安全问题越来越成为人们广泛关注的焦点。传统的安全技术,如入侵防御和入侵检测技术无

学位

网络安全容忍入侵复制技术表决机制

玻璃缺陷检测系统实验研究

在玻璃的生产线上,不允许玻璃上出现大量的明显的缺陷,否则会影响其质量。因此,开发一套低成本的玻璃检测系统便有极大的科研价值。本文所做的工作就是为一厂家开发检测系统

学位

图像处理边缘检测中值滤波

基于非监督语义编码的图核模型研究

其他学术论文