图聚集算法与聚集图质量评价算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:simon746cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中存在大量用图建模并表示的数据,如道路网络、社会网络、生物网络、Web图等,其中顶点表示实体,边表示实体之间的关系。随着图模型的广泛应用,图数据规模也越来越大,往往一个图中就包含有上百万个顶点和上千万条边。在这些大规模的图数据中,隐含了大量有用的信息。但是,图数据规模的增大,也使用户无法通过视觉观察或者简单的手工操作了解其内部有用的信息。因此把大型图数据集总结成精简的形式是迫切需要的。近年来,人们开始研究如何将一个大规模图的顶点聚集成若干组,并以这些顶点子集为新的顶点,构造一个简洁并能有效反映原始图的结构和属性信息的小规模图,叫做“聚集图”,从而帮助用户理解和分析原始图中的有用信息,这个过程就叫做“图聚集”。图聚集在图数据管理、分析和可视化中发挥着重要作用。图聚集方面现有研究结果还很少,也很不系统。其主要不足之处在于:1)算法依赖于具体应用;2)算法仅考虑了图的某方面信息,如结构信息或属性信息;3)算法对用户提供的交互和反馈信息的约束很强;4)算法忽略聚集图中顶点之间的关系。针对现有图聚集技术存在的问题,本文提出一种有向图上时间复杂性为O(|V|log|V| + |E|)的新型图聚集算法,其中|V|和|E|分别为输入图的顶点数和边数。该算法使用局部敏感哈希(Locality Sensitive Hashing简称LSH)技术和基于熵的顶点划分技术,不仅有效保证了算法时间复杂性,也保证了聚集图的质量。为了衡量聚集图的质量,本文进一步定义了新的聚集图质量评价标准,全面地刻画了聚集图的多样性、覆盖性、简洁性和实用性。对比已有的聚集图质量评价标准,本文提出的聚集图质量评价算法更关注聚集图在实际应用中的意义。本文在真实数据集上进行实验,证实了算法的有效性。
其他文献
本文由方法和实现两个不同角度给出了一套由全网网络数据源环境中抽取平行句对的方法。从句对挖掘算法角度上,将全网网络数据源分为对照网页和平行网页两种形式进行了网页中
无线传感器网络,特别是 adhoc网络的应用在过去的十年逐渐变得非常重要,这导致几个问题需要从实用的角度被重新审视,比如可靠性和可用性。而且,由于实际部署环境对网络稳定性和
智能手机将成为人们最理想的移动通讯终端[1],而智能手机开发方法的好坏将是智能手机在手机市场所占比例高低的决定因素。作为典型的嵌入式系统,具有嵌入式系统开发中普遍存
计算机图形技术和仿真技术的飞速发展,推动了对自然界中植物仿真的研究。虚拟植物涉及到植物学、数学、图形学、教育学等多种学科,是一个跨学科的交叉性研究领域。准确的说虚
本文介绍了地理信息共享模式的发展历程,分析从面向文件共享,面向数据库共享的模式思路,发展了以在线服务体系为核心的地理信息共享新模式。分析了地理信息共享服务的目标、服务
广播是无线传感器网络中的基本问题之一,它的效率直接决定了许多高层应用和协议(如路由发现协议)的性能。根据所要广播的消息个数不同,可以将广播问题划分为单消息广播和多消
Web服务是一种新型的、分布式应用程序,以其完全开放、松散耦合、基于标准、高度可集成等优点,得到产业界和学术界的广泛认可。现有的众多Web服务因服务粒度过小的问题而限制
说话人识别是生物特征识别中最重要的身份认证技术之一。它通过分析人的声音波形特征,对目标说话人进行身份确认。目前,说话人识别技术的应用和研究绝大部分都集中在普通个人
近年来,网络中的各种各样的安全事件的频发,特别是大规模的网络安全事件如分布式拒绝服务攻击、网络蠕虫、僵尸网络,对社会造成了很大经济损失。考虑到网络安全事件本身的危
近年来,Internet的发展势不可挡,新的网络应用日新月异,层出不穷,对传统的互联网业务造成巨大冲击。很多曾经耳熟能详的服务已经悄然销声匿迹。但是电子邮件凭借其庞大的用户