面向web规模RDF数据查询算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:sheygy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前因特网发展出现瓶颈的原因之一是由于没有赋予网络上的全部资源足够的语义信息。最主要的原因在于,现在的网络主要是基于超链接实现的,网络只是知道如何显示资源,却不清楚资源的实际含义。而RDF (Resource Description Framework)正是由W3C提出的语义网的标准描述框架。随着信息提取技术的发展和语义网的不断进步,网络中涌现出大量的RDF数据,如何存储、管理以及检索如此庞大的RDF数据已经成为了一项棘手却亟待解决的问题。SPARQL查询是W3C提出的对RDF进行查询的标准查询语言。目前RDF查询算法面临的主要问题是:(1)不支持带有通配符的SPARQL查询。(2)不能支持实时在线更新。(3)可扩展性差。本文基于以上三个问题,提出了基于索引的查询算法以及分布式环境的查询算法。针对以上问题,首先在第三章基于索引的查询算法中做了如下工作:(1)采取基于图的模型来存储RDF数据。具体地讲,本文通过基于索引的邻接表存储RDF数据。(2)本文在原始RDF图的基础上,对每个实体和类顶点增加一个标记信息。随之,提出了一种新的索引结构VS*-tree。它可以对上述带有数字标记信息的RDF图进行快速索引,且维护代价较低,易于更新。(3)针对带有数字标记信息的数据图,本节提出了一种新的剪枝规则,这种剪枝规则可以完美的嵌入到本文提出的查询算法中,并且同时适用于普通SPARQL查询和带有通配符的SPARQL查询。其次,本文充分考虑了RDF数据本身的特点,在第四章分布式环境的算法中(1)提出了一种扩展性强的RDF数据系统,该系统可以通过Hadoop框架可以直接利用任何现有集中式算法。(2)提出的数据分割技术和存储技术可以显著的降低查询过程中的数据通信量。(3)给出了一种可以自动将查询分解成可并行执行片段的算法,使得大量独立执行片段可以在不进行通信的前提下,在数据存储节点独立获得查询子结果,进一步提高了算法的可扩展性。在本文的最后,通过大量实验验证了本文算法的有效性及高效性。
其他文献
人脸检测是指在一幅指定图像中,在不考虑人脸的三维姿态、光照等条件下,发现人脸和位置信息的过程。人脸检测是一项艰巨的工作,主要原因是人脸特征在人脸模式中的提取是一项非常
图作为一种通用的数据结构,正在越来越多地被用来建模科学数据,如何开发有效的并且高效的图挖掘算法从图数据库挖掘感兴趣的模式引起了广泛的关注。目前存在两类不同的图数据
时间表问题TTP(Timetabling Problem)是一类应用非常广泛的研究课题,本论文讨论的排课表问题就是这类问题的典型应用。随着学生人数的不断增加,排课已经成为十分繁重而重要的教
软件开发的形式化方法被当今计算机界誉为克服“软件危机”,提高软件可靠性和生产效率的革命性途径。形式化开发方法中,人们利用软件的规格说明来描述计算机“做什么”。目前Z
汽车销售管理是20世纪中期发展起来的一门新兴学科。随着我国经济的持续发展,汽车销售已经成为热门行业,人们对汽车消费的要求也越来越高,汽车销售的管理也变得越来越重要。毕竟
随着各电子政务网以及大型企业网内部信息和资源共享越来越多,则迫切需要一种性能良好的VPN组网模式来解决其信息交互过程中的各种问题,而基于MPLS技术的VPN组网模式利用其灵活
传感器节点能源受限是传感器网络应用中一个亟待解决的关键问题。研究表明,传感器节点的能量主要消耗在无线通信过程中,传感器网络中的冗余数据常常给传感器节点带来不必要的能
随着的下一代操作系统Vista的发布,Microsoft推出了一系列新的技术和标准。其中的一个就是被称作XPS(XML Paper Specification)的全新的电子文档技术。XPS是微软新一代基于XM
随着计算机网络和全球信息化的不断发展,计算机网络信息安全随之成为一个重要的问题。因此,需要一种能及时发现入侵,成功阻止入侵的网络安全技术,这就是入侵检测技术。本文首先介
无线局域网随处可见,已经成为我们生活的一部分,但无线网络安全空间仍然乌云密布。2013年的“棱镜门”事件已经持续发酵了一年多,这让人民震惊,开始重视个人网络的安全问题。