论文部分内容阅读
随着Web网络的快速发展,数据形式开始发生变化。传统的文件、关系型数据库等不同的数据存储方式对这一变化起到的一定的推动作用,但又渐渐不能满足日益增长的数据处理要求。按照数据结构划分,数据大致可以分为三类:(1)松散式数据:类如声音、图片等保存在传统文件中且没有严格结构的数据;(2)高度结构化的数据:这类数据具有高度的结构化,比如存储于传统关系型数据库表格中的数据;(3)介于前两者间的半结构化数据:这种数据隐含着部分结构或者不稳定的结构,但是又不如经过建模并存储于关系型数据库数据表中的数据具有高度的结构化。对于Web网络中的半结构化数据,研究人员提出了多种的描述理论和方法,相关的数据库存储技术也日益发展。其中,XML等交换数据格式的发展更是推动Web半结构化数据的应用与发展。同时,RDF作为语义网络的标准资源描述框架,其三元组模型为描述Web网络中的半结构化数据提供了一种很好的简单理论模型。另外,NoSQL作为一种自由模式的存储及管理方式,弥补了传统关系型数据库的不易水平扩展等缺点。本文研究的主要内容是如何对Web网络半结构化数据进行动态化的描述与存储。文中首先对Web网络中的半结构化数据的各种描述方法和存储方式进行了概述与研究,并指出其中主要面临的问题。论文的主要研究成果和创新点有如下几个方面:(1)提出RDF-JSON语义化描述方法:通过研究Web网络中半结构化数据的特点,结合JSON数据格式和RDF资源描述框架,并考虑实际工作应用中的数据形式,提出RDF-JSON这种描述Web网络中半结构化数据的方法。这种方法可以很好地兼容传统JSON数据,同时又可以很好的描述其数据的语义化。(2)利用MongoDB数据库实现动态化存储:分析和总结数据的动态化特点,并利用MongoDB数据库中自由存储模式的特性,实现数据的动态化存储。(3)提出多文档的存储方式:对存储数据进行预操作,进而提出多文档的存储方案,并建立相应的索引,从而提高数据的检索速率。(4)构建分享数据的应用。