论文部分内容阅读
随着信息技术的发展,现代社会越来越多的行业及领域需要使用计算机处理大规模的各种数据。其中一类数据必须用图数据的方式来表示。对包含亿万个顶点和边的图数据进行高效、紧凑的表示和操作,是大规模图数据分析与管理的基础。紧凑的图数据表示不仅可以降低图数据的存储空间,而且还可以提高图数据的管理效率。图数据表示/存储、查询/编辑等操作是大规模图数据管理的核心支撑技术。为此,本文引入多值决策图(Multi-valued Decision Diagram, MDD)来进行大规模图数据的表示与管理研究。MDD能够隐式地将k2树和kn树中的同构子树合并以有效解决其大量冗余节点的问题。本文的主要内容和研究成果如下: (1)针对 k2树存在的问题,提出基于决策图的大规模图数据的一种表示方法——k2-MDD,给出了k2-MDD的构造过程以及图的边查询、外(内)邻查询、出(入)度查询、添加(删除)边等基本操作。该表示方法在k2树的基础上进行优化与改进,对图的邻接矩阵进行k2划分后,采用多值决策图进行存储,从而达到存储结构更为紧凑的目的。对真实网页图和社交网络图数据的实验结果表明 k2-MDD结构在节点数上仅为 k2树的2.59%~4.51%,达到了预期效果。对随机图的实验结果表明k2-MDD结构不仅适用于稀疏图,同样也适用于稠密图。 (2)拓展k2-MDD的高效性到多维数据,结合kn树和MDD提出一种支持多维矩阵高效基本查询和编辑的kn-MDD表示方法。kn-MDD同样具有k2-MDD的紧凑性,并且解决了kn树不适用于稠密图和动态图的缺陷。图数据的k2-MDD和kn-MDD表示,既具有k2树和kn树表示的紧凑性和查询的高效性,又能实现符号决策图表示下的图模式高效操作,从而实现了描述和计算能力的统一。 (3)分析实际应用中的大规模图数据,如二进制图像、GIS数据等栅格存储结构数据,以及Web服务组合和时态图等二元或多元数据等的特性,并使用k2-MDD或者kn-MDD来提高这些大规模数据的存储效率,为它们的管理提供新的理论、方法和技术。