海量RDF数据分布式并行推理方法研究

来源 :福州大学 | 被引量 : 1次 | 上传用户:NSWDAR
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RDF(Resource Description Framework)是由 WWW 提出的对万维网(World Wide Web)上信息进行描述的一个框架。随着语义Web技术的迅速发展,RDF数据格式应用在生物信息学、地理信息系统、一般知识等多个领域。在海量数据压力下,如何研究高效的大规模RDF数据分布式并行推理方法,发现其中的隐含信息已成为一个亟待解决的问题。本文主要研究海量RDF数据的分布式并行推理方案,结合Hadoop分布式平台中的MapReduce计算框架,从不同角度提出了三种并行推理方案。首先,本文提出一种适合于RDF数据的分布式并行语义编码算法SCOM(Semantic Coding with Ontology on MapReduce),结合数据编码实现 RDFS 规则的并行推理。SCOM算法结合本体文件,构建类关系和属性关系模型,在MapReduce计算框架下对RDF数据进行无损的语义压缩,生成带有语义信息且具有规律性的编码,并使之完成针对RDFS规则的分布式并行推理。其次,针对SCOM算法只能完成RDFS规则推理的缺陷,对现有的集中式的Rete算法进行扩展,将其应用在分布式环境下实现RDFS/OWL规则的并行推理,提出了 DRRM(Distributed parallel Reasoning algorithm with Rete on MapReduce)算法。DRRM算法通过RDF数据本体,构建模式三元组列表和规则标记模型,结合MapReduce计算框架完成Rete算法中alpha阶段和beta阶段的构建,从而实现在一个Job任务中并行地完成一次RDFS/OWL全部规则推理。接着,根据DRRM算法受限于集群内存的缺点,提出了一种新的RDFS/OWL规则的高效并行推理算法 SPRM(Semantic information Parallel Reasoning on MapReduce)。该算法对RDFS/OWL规则进行分类,依据RDF数据本体,结合RDFS/OWL规则构建传递闭包关系矩阵和连接变量信息;然后根据传递闭包关系矩阵和连接变量的类型,分类型生成规则标记,从而高效地过滤无用的数据;再根据规则的分类,分别设计不同类型规则的推理方案,并结合MapReduce计算框架并行地完成RDFS/OWL规则的推理。最后本文通过对比实验验证了 SCOM算法、DRRM算法、SPRM算法相对于现有的RDF数据分布式并行推理算法在大数据量的情况下推理效率均较高。同时,验证了 SPRM算法产生的中间结果和重复三元组数据远远少于DRRM算法,SPRM算法执行RDFS/OWL规则并行推理的效率比DRRM算法更高。
其他文献
我国高职院校已成为我国高水平技术技能型人才的重要输送基地,由于经济发展对高层次技术型人才的迫切需求不断增加,加之高等职业教育已经从规模扩张转化为高质量的发展,建设一支具有高素质的专业化“双师型”教师队伍是支撑高等职业教育高质量发展的关键力量。职业院校教师的专业素质直接影响着职业院校的办学水平和高技术技能型人才培养。因此,提升职业院校教师素质能力尤为重要。教师培训是“双师型”教师素质提升的重要途径,
软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配。早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需
本文介绍了α-氟代羰基化合物作为含氟砌块在构建手性C(sp~3)-F键的应用。发展了α-氟代烷基酯、α-氟代芳香酯、α-烯基氟乙酸酯与手性叔丁基亚磺酰亚胺发生高立体选择性的
互联网、社交网络以及交通网络组成的网络关联关系是大数据中最常见的关系。层次结构数据也是网络信息中的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜
绩效考核是企业运营和日常管理中的一项重要工作,是确保和推进企业内部管理机制合理运行并实现企业各项业务管理目标所必需的一种管理行为。绩效考核担负着传递企业核心价值观,提高员工综合能力与企业核心竞争力的重大责任。伴随管理实践中绩效考核制度的不断实施,其局限性和不足之处日益突出。目前,从许多国内企业实行的绩效考核来说,绩效考核的作用还没有得到充分体现,很难得到期望的管理效果。尽管企业通常会消耗大量时间和
当今时代,中国以纯电动汽车为代表的新能源汽车产业与推广正在快速推进,在节能减排以及安全、效率、舒适、高性价比等多重期待和转型升级的要求下,国内外内燃机以及内燃机零
随着教育体制改革的不断深入,民众对高等教育资源的需求不断增强,这就使独立学院得以产生并迅速发展。迄今为止,全国共有独立学院300余所,在校生逾200万人。伴随着独立学院办
【目的】葡萄膜黑色素瘤是最常见的原发性眼内恶性肿瘤之一,脉络膜是其最常发生的部位,称为脉络膜黑色素瘤(Choroidal Melanoma,CM)。目前,该病治疗最常用的方法仍为眼球摘除术,但术后是否能有效提高患者的相对生存率,仍存在较大争议。因此,该肿瘤是严重影响人类健康的疾病。由于脉络膜黑色素瘤的发病机制至今尚未被完全阐明,导致临床疗效欠佳。MicroRNAs(miRNAs)是生物界存在的微小
学位
谱聚类算法在机器学习,模式识别和数据挖掘中是一项基础性工作。现有的研究工作表明,适当的在聚类过程中加入少量的类大小约束或者二元约束对等先验信息能够有效提升聚类效果