基于子图关联规则的链接预测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fdghghjhghjjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据挖掘方法主要是找单个实体属性之间的关联,但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体,它们之间的边表示相互关系,边可以是有向或无向,这使得图可以很好的表示实体以及实体之间的关系。定义的灵活性,使得图可以用于各种过程的模型化。用图可以表示一些实体之间的关系在一段时间内的变化过程。这种表示既可以是静态的,也可以是时序的。时序网络是由一个静态图的序列组成的,每个图都是在一个特定的瞬间或者是一个很小的时间段中的相互关系的快照。链接预测是图挖掘、链接分析、Web挖掘和关系学习以及归纳逻辑编程等学科的交叉而成的新兴研究方向。目前的基于图的链接预测主要是利用图的拓扑结构进行预测。很多时候有用的链接都是相对分散的,现有的算法需要扫描所有的边或者顶点,会导致做很多无效的工作。而且当图比较大时,目前的算法需要付出很大的计算代价。本文提出了一种子图关联规则的链接预测方法。一方面,传统的关联规则都是基于关系数据库的,不适合用在表示结构化数据的网络当中。另一方面,在网络中挖掘频繁子图的技术已经研究得相对比较成熟了,频繁子图可以筛选出网络中比较有意义的结构。本文把频繁子图应用到关联规则中,即把频繁子图作为关联规则中的项,形成子图关联规则。首先,子图关联规则有助于提高预测的时候的易处理性,因为频繁子图可以把图中稀疏的边排除掉,而且一个图中的频繁子图数目要渐进地小于边的数目。其次,子图关联规则可以把不同粒度的子图组合起来,而不是单个的子图,这有助于保证预测的时候的准确性和覆盖率。本文针对图的数据流(例如时序网络)提出了两种基于频繁子图结构的预测方法。和传统的方法可以预测没有出现过的链接不同,本文提出的两种方法都是针对已经出现过的链接进行预测的。第一种叫做子图关联规则。它与传统的关联规则类似,既可以用在时序网络中,也可以用于一般的图数据流中。子图关联规则是与时间无关的,不能预测链接出现的时间。第二种是时序子图关联规则。它是针对时序网络的,可以预测出已经观察到链接在未来的什么时候会再次发生。本文通过在人工数据集上的实验,证实了子图关联规则能够提高链接预测的准确性;通过在Enron邮件数据集和IMDB图片网络上的实验,证实了时序子图关联规则在链接预测的时候具有较高的准确性。
其他文献
近些年来,能源问题越来越趋于紧张,如果可以充分的利用自然光,对节约能源将起到十分重要的意义。而天空亮度分布正是利用自然光的一个非常重要的因素。本文将在国内外对天空亮度
近年来,随着计算机技术、网络技术的飞速发展,对数据和信息以电子格式存储发生了急剧地增长,这些数据毫无疑问是有价值的资源。然而随着信息量的不断扩大和对识别精度要求的逐步
网络协议识别是网络管理、网络安全、网络测量等领域的重要基础,随着互联网迅速普及,新的网络应用层出不穷,越来越多的私有网络接入互联网,大大增加了网络流量的复杂性,在这种环境
随着Internet的迅猛发展与普及,人们对Internet上所提供的信息类型不再局限于文本和图片,而是更加青睐于流媒体信息。然而由于运行平台、开发工具以及数据格式的差异性,造成了流
互联网和多媒体处理技术的迅速发展,使得多媒体等数字作品的版权保护显得日益重要。在音频版权保护研究领域,一种被广泛研究的技术是数字音频水印技术。在本文中,为了使水印技术
在自然界中,有很多同步现象,同样,神经网络也有同步现象存在。神经网络跟人工智能等众多应用领域结合起来,已成为潜力巨大的研究方向。在两个神经网络同步的过程中,初始状态的权值
近几年来,随着移动设备的迅速发展,越来越多的用户使用移动设备获取数据。移动用户可以使用手机、PDA、平板电脑通过无线技术(例如WiFi等)下载感兴趣的数据。这些数据有股票
分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性,同时还具有整数阶一样的随机性和不可预测性增加等优点。因此,近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象,分析了分数阶和复数阶简单自治耗散系统的各种动力学行为,
由于生物医学文献不断增加,生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上,更重要的是在于生物文献中的知识发现和利用,从而增
互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果