论文部分内容阅读
随着互联网应用的高速发展,Web服务技术逐渐成熟,网络上出现了大量用可扩展标记语言(eXtensible Markup Language,XML)表示的半结构化数据。XML作为一种数据存储和交换格式,在互联网络环境中扮演着极其重要的角色,它已经成为数据交换事实上的标准,在电子商务、电子政务、金融及各个方面得到越来越广泛和深入的应用。但是,随着网络需求的日益增大,面对海量的XML数据,如何从这些数据中查询到需要的信息,如何从这些繁杂的XML数据中挖掘出有价值的、潜在的关联关系,以及如何对这些海量的XML数据进行分类或聚类,都是目前人们在网络环境中经常遇到并亟待解决的问题。因此,面向检索和分类的XML数据管理成为人们目前研究的热点问题。XML是万维网联盟于1998年2月正式发布的一种描述数据结构的可扩展标记语言,由于它具有良好的可扩展性、自我描述性及平台无关性的特点,使得其在互联网应用中日趋增多,XML的广泛应用使得高效的XML数据管理成为一种迫切需求。近几年来,针对XML的研究日益增多,其研究领域涉及到方方面面:从基础性的XML数据编码到XML关键字查询,从XML数据存储到XML文档分类,从XML分布式处理到XML访问控制,从物理存储到安全传输,从高效查询到文档聚类,涉及的内容种类繁多且日趋复杂。本文主要从数据管理者最关心的数据检索和分类角度出发,重点从XML编码、XML查询、与分类相关的XML特征表示及相似度检测这几个方面进行了研究,主要内容及创新点如下:(1)针对XML文档的结构特殊性,提出了一种环形结构的XML编码方案。该方案采用环形结构组织兄弟节点,可以实现编码的动态更新。为了测试其性能,采用静态编码分析及实例测试法,和另外几种编码方案在空间大小及动态更新方面进行了比较。实验结果表明,这种环形结构的编码方案有效地改善了已有XML编码方案标注代价高和更新效率低的问题。(2)当含有敏感信息的XML文档在网上传输或交换时,用户需要执行受限查询。针对受限查询的情况,设计了一种关键字安全查询算法。以带有访问权限的实例信息树为主体,首先优先抽取主干信息策略,然后再反向作用于实例信息树存储特殊节点的压缩方法,同时采用了扩展的前缀编码方案,为安全查询提供方便。实验结果表明,在查询的关键字数量较少、关键字出现频率较高时,这种基于压缩策略的安全查询方式与未压缩策略前的相比,最高省时66%,最低省时10%,有效地提高了查询效率。(3)面对网上海量的半结构化数据,针对各种XML文档有效且精确分类的焦点问题,在主成分分析(PrincipalComponentAnalysis,PCA)理论分析的基础上,提出了一种新的基于边集和全路径的特征表示方法。为了减少向量空间维数,采用PCA降维技术,使得向量空间维数由初始的几百维最终降到了 10维以内。基于上述特征表示及降维技术基础上,采用K最近邻分类器完成了 XML文档自动有效分类。(4)为了完成有监督学习的XML文档分类,提出了一种基于矩阵存储的XML相似度检测算法,该算法首先对XML文档提取主干结构,然后对其矩阵化表示,矩阵中元素的位置代表XML结构信息,矩阵中元素的内容代表XML语义信息,因此这种矩阵表示方法把XML文档间的相似度检测问题归结到了矩阵间的相似度比较上,且兼顾了 XML文档的结构和语义。为了证明所提算法的有效性,基于K最近邻分类器完成了XML文档的自动分类,其分类准确率在98%以上。