面向检索和分类的XML数据管理技术研究

来源 :南京理工大学 | 被引量 : 7次 | 上传用户:frog1266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的高速发展,Web服务技术逐渐成熟,网络上出现了大量用可扩展标记语言(eXtensible Markup Language,XML)表示的半结构化数据。XML作为一种数据存储和交换格式,在互联网络环境中扮演着极其重要的角色,它已经成为数据交换事实上的标准,在电子商务、电子政务、金融及各个方面得到越来越广泛和深入的应用。但是,随着网络需求的日益增大,面对海量的XML数据,如何从这些数据中查询到需要的信息,如何从这些繁杂的XML数据中挖掘出有价值的、潜在的关联关系,以及如何对这些海量的XML数据进行分类或聚类,都是目前人们在网络环境中经常遇到并亟待解决的问题。因此,面向检索和分类的XML数据管理成为人们目前研究的热点问题。XML是万维网联盟于1998年2月正式发布的一种描述数据结构的可扩展标记语言,由于它具有良好的可扩展性、自我描述性及平台无关性的特点,使得其在互联网应用中日趋增多,XML的广泛应用使得高效的XML数据管理成为一种迫切需求。近几年来,针对XML的研究日益增多,其研究领域涉及到方方面面:从基础性的XML数据编码到XML关键字查询,从XML数据存储到XML文档分类,从XML分布式处理到XML访问控制,从物理存储到安全传输,从高效查询到文档聚类,涉及的内容种类繁多且日趋复杂。本文主要从数据管理者最关心的数据检索和分类角度出发,重点从XML编码、XML查询、与分类相关的XML特征表示及相似度检测这几个方面进行了研究,主要内容及创新点如下:(1)针对XML文档的结构特殊性,提出了一种环形结构的XML编码方案。该方案采用环形结构组织兄弟节点,可以实现编码的动态更新。为了测试其性能,采用静态编码分析及实例测试法,和另外几种编码方案在空间大小及动态更新方面进行了比较。实验结果表明,这种环形结构的编码方案有效地改善了已有XML编码方案标注代价高和更新效率低的问题。(2)当含有敏感信息的XML文档在网上传输或交换时,用户需要执行受限查询。针对受限查询的情况,设计了一种关键字安全查询算法。以带有访问权限的实例信息树为主体,首先优先抽取主干信息策略,然后再反向作用于实例信息树存储特殊节点的压缩方法,同时采用了扩展的前缀编码方案,为安全查询提供方便。实验结果表明,在查询的关键字数量较少、关键字出现频率较高时,这种基于压缩策略的安全查询方式与未压缩策略前的相比,最高省时66%,最低省时10%,有效地提高了查询效率。(3)面对网上海量的半结构化数据,针对各种XML文档有效且精确分类的焦点问题,在主成分分析(PrincipalComponentAnalysis,PCA)理论分析的基础上,提出了一种新的基于边集和全路径的特征表示方法。为了减少向量空间维数,采用PCA降维技术,使得向量空间维数由初始的几百维最终降到了 10维以内。基于上述特征表示及降维技术基础上,采用K最近邻分类器完成了 XML文档自动有效分类。(4)为了完成有监督学习的XML文档分类,提出了一种基于矩阵存储的XML相似度检测算法,该算法首先对XML文档提取主干结构,然后对其矩阵化表示,矩阵中元素的位置代表XML结构信息,矩阵中元素的内容代表XML语义信息,因此这种矩阵表示方法把XML文档间的相似度检测问题归结到了矩阵间的相似度比较上,且兼顾了 XML文档的结构和语义。为了证明所提算法的有效性,基于K最近邻分类器完成了XML文档的自动分类,其分类准确率在98%以上。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在人们追求与他人有着明确差别的独特商品的过程中,出现了消费的“独我”演化。同时,以计算机和因特网的普及为标志的信息革命为大众和层阶市场转变为“独我”市场提供了技术和
三维模型的设计是计算机图形学中最基本的研究问题之一。三维模型设计工具在产品设计和影视动画等多个领域中都有着广泛的应用。3D打印技术的日渐兴起激发了普通用户对三维模
江苏省海安县城南实验小学提出教研组特色建设。特色建设包含两个部分:一是特色活动,教研组每学期要开展一次有意义、有价值的学科活动;二是特色课程,教研组结合学科、年级、
缺陷定位作为软件调试过程中的关键活动,对于提升软件调试效率以及软件质量有着重要意义。学术界和工业界多年来一直致力于研究出高效缺陷定位技术,取得了不少进展。由于软件
毕棚沟位于四川省阿坝藏族羌族自治州理县境内,被比作四姑娘山的美丽背影。这是个五彩斑斓的世界,浓绿的树、深红的叶、青青的湖、湛蓝的天、纯白的雪;这是个多姿多彩世界,险
期刊
编辑同志:我丈夫原是一家公司的清洁工,包括负责对公司废弃物品的处理。鉴于公司的废弃物品中含有有毒有害物质,公司对其处理有着严格的要求和流程。三个月前,由于废弃物品较
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着产业结构优化和集中度提升,流程工业企业的生产规模不断扩大,传统的集中式实时数据库由于数据吞吐量不足、投资成本过高、容错能力较低、难以弹性扩展等问题,已无法满足