关系数据库上基于组的关键字查询研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:moligu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系数据库用来存储结构化数据,并使用SQL语言对数据进行查询,这种方式需要用户掌握这种语言的语法以及数据库的模式知识,因此对用户来说门槛比较高。而互联网上信息检索常常使用关键字查询的方式,这种方式简单、易用,受到普通用户的欢迎。因此,在关系数据库上进行关键字查询已经成为近来数据库领域的研究热点。现有的研究工作绝大部分都是用单个元组作为结果单元,我们通过对研究的总结分析,发掘出将多个元组的组合作为结果单元将会给用户带来更大的实际价值,因此本文提出了关系数据库上基于组的关键字查询的概念。这里的组即为多个元组的组合。利用倒排索引技术,首先我们想到了直接的解决办法,枚举查询关键字倒排链表的所有元组的组合,再去除不满足查询限制条件的那些组,最后去除结果集中的冗余。这种Naive算法效率低下,因为它搜索了问题的所有解空间,计算复杂度很高,因此有时候常常出现无法计算出结果的情况。针对Naive算法存在的问题我们深入分析了算法的计算过程,做出了一些重要的观察,提出了几点剪枝策略:去除包含所有关键字的元组,提前利用限制条件,保持最优候选集。在整合这些策略的时候,我们尽可能地减少算法的计算量,最后得到一个启发式的优化算法。优化算法不再搜索问题的所有解,而是通过部分搜索加上判断来减少枚举的次数,从而减少计算复杂度。我们增加了对于结果的排序处理,通过我们观察的性质将结果按照合理的顺序排序,使用户对查询结果更加满意。最后通过真实数据集和人工数据集上进行的一系列实验,验证了优化算法的查询时间在绝大部分情况下均优于Naive算法。
其他文献
随着计算机技术的飞速发展,所要处理的信息量也不断剧增。国际互联网的不断普及,解决网络异构性成为了不得不面对的问题,由于这些原因推动着基于多主体环境下任务管理的迅速发展
随着计算机软件应用的不断发展,软件安全问题日益成为各行业用户关注的焦点。在软件开发的需求阶段考虑并解决软件的安全问题对降低软件开发成本、提高软件质量有着重要的理
人脸识别是图像处理、模式识别和计算机视觉领域中极富挑战性的研究课题之一。现有的人脸识别系统在较好的采样条件下能够取得较好的识别精度。但是在条件不理想(图像分辨率
稳定电网电压和无功补偿是近几年电力系统研究的热点问题之一,如何将稳定电网电压与无功补偿相结合是其中重要的技术研发课题。当前,同时进行稳定电网电压与无功补偿的理论发展比较成熟,但实际应用尚需实践。本论文研究同时稳定电网电压和进行无功补偿的综合控制技术,设计和实现了一套既能控制磁阀式可控电抗器又能控制并联电容器组的磁阀式可控电抗器控制系统。该控制系统控制磁阀式可控电抗器产生感性无功功率,控制并联电容器
缺点和不足,即基于关键字的信息检索系统无法保证用户查询的高质量反馈的问题,本文通过对语义检索和本体技术进行研究,将它们引入到信息检索领域中,从而构建基于本体的语义检索系
在动态、开放和个性化的网络平台上,软件容易受到环境变化和用户需求改变的影响。系统管理人员为维持软件的正常运行,对软件系统进行的管理维护负担日趋繁重,如何使软件系统具有
汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大。但是由于特定领域分词标注语料匮
随着互联网用户规模的不断增长和网络服务内容的急剧膨胀,内容加速技术得到了广泛应用。内容分发网络CDN(Content Delivery Network)技术作为内容加速技术中最为有效的方式之一
自2012以来,MOOCs(Massive Open Online courses)在全球范围内迅速发展,MOOCs为了适合人们在网上学习,把学校中的课堂碎片化,移植到互联网环境中。MOOCs改变了现代教育的方式
细胞代谢是一切生命活动的基础,代谢网络中的生物化学反应之间的相互作用维持了细胞的新陈代谢。生物代谢网络是一个动态的、有序的网络,代谢网络的失衡则会导致众多疾病的发