一种数据空间中非结构化数据查询方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:feifei2666011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展,数据信息呈现出许多新的特征,包括数据的海量性,数据形式的异构性以及数据间关联的复杂性。传统的数据库管理技术在应对挑战时已显得力不从心,数据空间的理念应运而生,由于具备逐步演化的构建方式以及对数据模式的弱依赖等性质,因此能够满足日益复杂的管理需求和服务需求。越来越多的应用需要对结构化数据和非结构化数据同时进行访问,与此同时,在数据空间中也需要提供某种服务实现对数据空间中所有结构化和非结构化数据的无缝查询。在信息检索和数据库领域,各类型数据的查询都是其主要的研究方向,近年来,数据库研究团体对结构化数据集(如关系数据库、XML数据库)的关键字查询进行了大量研究并取得一定成果。而针对另一个方向,基于非结构化数据的结构化查询方法研究则少有进展。本文研究数据空间中非结构化数据的查询转换技术,提出了一种对非结构化数据的结构化查询方法,该方法从结构化查询语句中抽取关键字集,并将得到的关键字集应用于非结构化数据的查询。首先,根据查询图的定义及构建方法,将结构化查询语句转换成对应的查询图,查询图包含查询语句基本信息的同时也去除了一些不相关语法特征。其次,为了从查询图的标签中抽取关键字,本文基于信息熵和代表度确定一个标签是否为关键字,又提出了 i-scores更新算法和基于贪心策略的Label-Selection抽取算法,用于完成对关键字的抽取。最后,运用领域知识对现有方法进行改进,并验证了查询语句中表和属性值个数对查询结果的影响。实验结果表明:本文所提出的方法在不同领域的大量数据集中均取得较好的结果,本文提出的基于查询图的关键字抽取方法较其它朴素方法查询精度更高。
其他文献
虚拟运行是MEMS器件运行规律的图形化展示,它在MEMS设计参数与器件运行之间建立了直接联系。虚拟运行的基础是器件动态模型。通常的建模方法包括归纳法和演绎法。为达到忠实再
随着信息技术的高速发展,计算机已经渗透到社会生活的各个领域。机房作为网络信息交换和信息储备的中心,其运行环境的安全性至关重要,机房监控管理系统成为目前研究和应用的热点
随着硬件性能的不断提高,虚拟机得到了越来越多的应用和发展,基于虚拟机的计算平台成为了主流的企业计算平台;与此同时,为了利用虚拟机提供的各种服务和类库,拓广编程语言的应用范
随着光纤通信系统在我军通信领域中的广泛使用,我军军事通信网的容量、速率有了极大的提高,同时这又对我军的通信指挥、保障工作提出了更高的要求。本文针对我军现行的人工的通
软件回归测试是保证软件质量的一种有效的测试方法,其中,回归测试预优化技术旨在为测试人员提供最优的测试用例执行序列,满足测试人员不同的测试要求。在实际软件开发的测试
互联网上存在大量图像信息,如何有效的对图像资源进行组织并检索到用户所需要的图像,便成为人们研究的课题。由于基于压缩域的图像检索能够同时达到检索快速和检索效果良好这两
无线自组网因不依赖于基础通信设施而具有高度的组网灵活性,从而可以被广泛应用于诸多场合。在能量受限的无线自组网中,各个节点使用电池提供能量,而电池的容量较为有限,因此有效
工作流技术是企业信息化建设中应用广泛的信息技术之一。基于工作流的应用软件系统的目标通常是:在多人、多部门、多地,甚至是多个应用系统之间,通过定义一套业务流程和业务规则
本文在根据3GPP标准建立的AVS-M3G流媒体服务系统的基础上,对流媒体应用层QoS包括拥塞控制和差错控制两方面进行了深入的研究。 首先,针对无线网络的拥塞问题,提出适用于AVS-
随着全球市场竞争的加剧,合作企业或企业内部之间的交互越来越频繁并且对响应速度要求越来越高。然而,各企业信息系统或企业内部不同系统所使用的数据库系统、数据格式及操作系