【摘 要】
:
随着网络上的数据爆炸式地增长,以及大量图数据的产生,图上的关键词查询得到了学术界的高度关注。图上的关键词查询算法不同于其他的关键词查询算法,其查询结果是原图的一个
论文部分内容阅读
随着网络上的数据爆炸式地增长,以及大量图数据的产生,图上的关键词查询得到了学术界的高度关注。图上的关键词查询算法不同于其他的关键词查询算法,其查询结果是原图的一个子图,该子图包含所有的查询关键词。图关键词查询算法的基本思想是首先找到包含一个或多个查询关键词的节点,然后从这些节点出发,找到能到达这些节点的根节点。然而算法目前有如下几个不足:1.在查询时未考虑查询关键词与子图的匹配程度;2.现有的算法对结果子图进行排序时只考虑边的权重,而忽略了节点的权重;3.随着图数据规模不断增长,现有的图关键词查询算法效率变得越来越低。本文的研究工作可以分成以下几个步骤:第一步,将原始数据转换成图结构数据。第二步,将大图划分成若干个r半径子图,然后计算子图的权重。第三步,使用Lucene中的StandardAnalyzer分词器对子图包含的信息进行分词以提取关键词,然后根据TF-IDF算法来计算每个关键词与子图的相关度,最后使用MapReduce分布式计算框架来构建倒排索引文件。第四步,为了解决集中式下查询效率低的问题,本文提出了基于MapReduce的图关键词查询算法,同时,本文还设计了图关键词查询的原型系统,理论分析和实验表明,本论文提出的方法可以有效地解决图关键词查询算法在大规模数据下效率低的问题。本文的主要贡献点为:1.在对结果子图进行排序时,不仅考虑了边的权重还充分考虑了节点的权重。2.考虑了关键词与子图之间的相关度。3.提出了一种基于MapReduce的图关键词查询算法,以此来解决集中式下关键词查询效率低的问题。
其他文献
当今世界互联网发展规模空前壮大,信息资源以及网民数量增长速度很快,互联网作为Web系统的载体,在带动Web系统发展的同时,也使得系统本身承受的压力越来越大。对系统全方位的
近几年来,嵌入式技术随着集成电路技术和计算机技术的发展而日渐普及,在医疗、电子等领域发挥着很重要的作用,具有重要的意义。ARM Cortex-M3处理器是行业领先的32位嵌入式处理
情感计算主要研究让机器和设备能够认知、交互、处理以及模仿人类的一些行为。情感计算是现代科技研究中的一个重要分支。情感计算的研究能够为将来各种人工智能的应用奠定一
随着传感器技术、无线通信技术以及分布式信息处理技术的进步,无线传感器网络(Wireless Sensor Networks, WSN)得以迅速发展,成为了计算机学科的一个新兴领域,具有十分广阔的
网络故障管理是衡量网络管理效率高低的重要指标之一,对设计高效的网络管理方案有着非常重要的意义。随着互联网的建设与蓬勃发展,网络在各行各业应用越来越广泛,与我们的日
骨质疏松症作为一个世界性的健康问题,已引起了越来越多的关注。骨质疏松症患者的骨骼不仅骨量减少,骨微结构也发生了改变,导致骨的脆性增高及骨折危险性增加。世界卫生组织(
增强现实技术是(Augmented Reality,简称AR)是将计算机生成的虚拟图形以三维对齐的方式实时注册于真实世界中,使用户从感官上确信虚拟环境是其真实环境的组成部分。AR在国防
随着智能终端、移动定位、无线通信等技术的快速发展,在交通、物流等应用领域,大量受路网约束的轨迹数据得以收集。对移动对象的信息处理和知识获取日益成为人们研究和关注的热
耗散粒子动力学计算(dissipative particle dynamics, DPD)是一种介于原子尺度与介观范围内的模拟方法。该模拟方法应用范围广泛,能够有效探讨分子的堆积与分散问题,不但可以
目前,神经科学方面的研究成果提供了很多关于生物学多层网络的知识。感知人工神经网络的学习(适应)过程就如同生物系统中的自主发育过程。研究表明,一个正常发育的人类视觉系统