论文部分内容阅读
传统的数据挖掘方法主要是找单个实体属性之间的关联,但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体,它们之间的边表示相互关系,边可以是有向或无向,这使得图可以很好的表示实体以及实体之间的关系。定义的灵活性,使得图可以用于各种过程的模型化。用图可以表示一些实体之间的关系在一段时间内的变化过程。这种表示既可以是静态的,也可以是时序的。时序网络是由一个静态图的序列组成的,每个图都是在一个特定的瞬间或者是一个很小的时间段中的相互关系的快照。链接预测是图挖掘、链接分析、Web挖掘和关系学习以及归纳逻辑编程等学科的交叉而成的新兴研究方向。目前的基于图的链接预测主要是利用图的拓扑结构进行预测。很多时候有用的链接都是相对分散的,现有的算法需要扫描所有的边或者顶点,会导致做很多无效的工作。而且当图比较大时,目前的算法需要付出很大的计算代价。本文提出了一种子图关联规则的链接预测方法。一方面,传统的关联规则都是基于关系数据库的,不适合用在表示结构化数据的网络当中。另一方面,在网络中挖掘频繁子图的技术已经研究得相对比较成熟了,频繁子图可以筛选出网络中比较有意义的结构。本文把频繁子图应用到关联规则中,即把频繁子图作为关联规则中的项,形成子图关联规则。首先,子图关联规则有助于提高预测的时候的易处理性,因为频繁子图可以把图中稀疏的边排除掉,而且一个图中的频繁子图数目要渐进地小于边的数目。其次,子图关联规则可以把不同粒度的子图组合起来,而不是单个的子图,这有助于保证预测的时候的准确性和覆盖率。本文针对图的数据流(例如时序网络)提出了两种基于频繁子图结构的预测方法。和传统的方法可以预测没有出现过的链接不同,本文提出的两种方法都是针对已经出现过的链接进行预测的。第一种叫做子图关联规则。它与传统的关联规则类似,既可以用在时序网络中,也可以用于一般的图数据流中。子图关联规则是与时间无关的,不能预测链接出现的时间。第二种是时序子图关联规则。它是针对时序网络的,可以预测出已经观察到链接在未来的什么时候会再次发生。本文通过在人工数据集上的实验,证实了子图关联规则能够提高链接预测的准确性;通过在Enron邮件数据集和IMDB图片网络上的实验,证实了时序子图关联规则在链接预测的时候具有较高的准确性。