论文部分内容阅读
我们生活在一个错综复杂的世界中,大部分的数据对象例如个体、组织或机构等都是互相关联和交互的,由此而形成了一个巨大的、互联的复杂网络。不失一般性,这种网络可以被建模成为信息网络。在现实世界中,信息网络随处可见,已经成为现代信息基础设施的重要组成部分。分析和挖掘信息网络或其中的某几种特殊类型的网络,例如社交网络、电子商务网络等,已经成为计算机科学、社会学等领域的研究人员广泛关注的课题。当前在信息网络上的研究按照信息网络的不同可以分为同构信息网络的研究和异构信息网络的研究。在同构信息网络上,代表实体对象的节点都属于同种类型,因而其上的边也仅包含一种含义,例如在朋友关系网络中,节点代表人,边则描述了两者之间的好友关系。至今在同构信息网络上已经有了很多有影响力的算法和应用,例如PageRank算法、社区发现等。但是现实中大部分网络都是异构的,也就是说节点属于多种类型,因而连接不同类型节点的边也蕴含着不同的语义信息。例如在由人人网构建的异构网络上,节点可能有个人、图片、电影、小组等,在人与人之间的边表示好友关系,而人与图片之间可能是浏览、转发,或者是加标签的关系。类似的例子随处可见,从社交媒体到科研网络、在线交易系统等,异构信息网络为真实世界中的各种对象交互行为提供了强大的抽象和描述能力,而其上蕴含的丰富信息也成为数据挖掘新的研究热点。至今已经涌现了很多针对异构网络挖掘分析的研究,相关性查询是异构信息网络上一个基本但很重要的操作,可以应用在诸如推荐、聚类、异常检测等多个领域。现有的异构信息网络上的相关性查询方法主要关注的是同种类型对象间的相似性的度量,本文提出了在异构信息网络上结合元路径选择与用户偏好的Top-k相关性查询的方法来度量不同类型的对象间的相关度。该方法是一个两阶段过程,首先用成对随机游走的思想,沿着给定的元路径计算初始的相关度,之后求解利用用户偏好建模的多目标线性规划问题,确定元路径的权重组合,据此更新初始相关度得到最终结果。此外,本文提出了多种方法来保证算法的效率,包括图划分、分布式矩阵运算和预物化等。最后通过实验度量本文提出的相关性查询方法的查准率、查全率以及计算用时等性能指标,结果表明本文提出的异构信息网络上的相关性查询方法可以有效、准确地实现查询要求。