论文部分内容阅读
随着关系数据库技术的发展和关键词查询技术的成熟,如何实现关系数据库上的关键词查询这一问题日渐突出,但由于关系数据库采用结构化存储机制,数据被分散存储在关系和元组中,这为关键词查询的实现带来了挑战。本文对关系数据库系统和关键词查询技术的理论基础和实现方法进行了分析,提出了基于内容的相似度计算方法和基于最小Steiner树求解的AST查询算法。具体内容如下。首先,介绍了信息检索的概念、原理和主要评价标准,着重阐述了网络搜索引擎的工作原理和体系结构。介绍了现有的基于关系和基于虚拟文档的关系数据库关键词查询系统的工作原理,分析并指出了它们的优缺点。其次,给出元组图的概念,分析了元组的结构对计算元组内容与关键词查询间相似度的影响,提出元组与关键词查询间基于内容的属性相似度、节点相似度及边权值计算方法,使元组图转化为可以直接进行关键词查询的无向加权图。再次,提出关键词局部相关性和关系数据库信息存储局部性的概念,讨论了它们的匹配关系在进行关键词查询时的作用。给出并分析了最小Steiner树的定义,使关键词查询问题转化为元组图上最小Steiner树的求解问题,提出基于最小Steiner树求解的AST查询算法并对其原理和实现进行了详细阐述。最后,通过实验验证了文中所提出的相似度计算方法和AST查询算法的正确性和有效性,通过与主要的基于元组关键词查询方法的查询效果和查询效率的对比,论证了文中提出的关键词查询方法的优越性。