论文部分内容阅读
RDF(Resource Description Framework)是由 WWW 提出的对万维网(World Wide Web)上信息进行描述的一个框架。随着语义Web技术的迅速发展,RDF数据格式应用在生物信息学、地理信息系统、一般知识等多个领域。在海量数据压力下,如何研究高效的大规模RDF数据分布式并行推理方法,发现其中的隐含信息已成为一个亟待解决的问题。本文主要研究海量RDF数据的分布式并行推理方案,结合Hadoop分布式平台中的MapReduce计算框架,从不同角度提出了三种并行推理方案。首先,本文提出一种适合于RDF数据的分布式并行语义编码算法SCOM(Semantic Coding with Ontology on MapReduce),结合数据编码实现 RDFS 规则的并行推理。SCOM算法结合本体文件,构建类关系和属性关系模型,在MapReduce计算框架下对RDF数据进行无损的语义压缩,生成带有语义信息且具有规律性的编码,并使之完成针对RDFS规则的分布式并行推理。其次,针对SCOM算法只能完成RDFS规则推理的缺陷,对现有的集中式的Rete算法进行扩展,将其应用在分布式环境下实现RDFS/OWL规则的并行推理,提出了 DRRM(Distributed parallel Reasoning algorithm with Rete on MapReduce)算法。DRRM算法通过RDF数据本体,构建模式三元组列表和规则标记模型,结合MapReduce计算框架完成Rete算法中alpha阶段和beta阶段的构建,从而实现在一个Job任务中并行地完成一次RDFS/OWL全部规则推理。接着,根据DRRM算法受限于集群内存的缺点,提出了一种新的RDFS/OWL规则的高效并行推理算法 SPRM(Semantic information Parallel Reasoning on MapReduce)。该算法对RDFS/OWL规则进行分类,依据RDF数据本体,结合RDFS/OWL规则构建传递闭包关系矩阵和连接变量信息;然后根据传递闭包关系矩阵和连接变量的类型,分类型生成规则标记,从而高效地过滤无用的数据;再根据规则的分类,分别设计不同类型规则的推理方案,并结合MapReduce计算框架并行地完成RDFS/OWL规则的推理。最后本文通过对比实验验证了 SCOM算法、DRRM算法、SPRM算法相对于现有的RDF数据分布式并行推理算法在大数据量的情况下推理效率均较高。同时,验证了 SPRM算法产生的中间结果和重复三元组数据远远少于DRRM算法,SPRM算法执行RDFS/OWL规则并行推理的效率比DRRM算法更高。