论文部分内容阅读
基于关键字的搜索引擎是人们在互联网上搜索信息的重要方式,而互联网上大量的关系数据库则构成了DeepWeb的主要组成部分,因此面向关系数据库的关键字搜索成为该领域学者关注的研究热点。随着研究的日益成熟,对查询关键字语义的理解成为其研究的一个方向。通过研究,本文提出面向关系数据库中查询关键字的三种基本语义(关系名语义、属性名语义和值语义)和两种潜在语义(依赖性语义和顺序性语义)。为了能将该语义渗透到查询过程中,提出面向关系数据库的语义关键字搜索模型SKS。该模型分为离线处理模块和在线处理模块两个子模块。离线处理模块主要通过现有的数据库信息和查询结果日志的记录信息为在线处理提供辅助。本部分重点介绍了关键字索引的结构和网络图的构建。对于查询关键字映射的不同,关键字索引将为其返回不同的索引结构,该方法重点体现了关键字的基本语义。网络图的构建过程以数据库模式图和查询日志为载体,以Apriori算法为基础实现,该过程体现了关键字的依赖性语义,并为候选网络的生成提供基础。在线处理模块中,本文主要介绍了候选网络的生成、查询转换和结果排序三个环节。候选网络的生成使用基于单源最优路径的候选网络生成算法来实现,该算法通过扫描网络图来找到候选网络。查询转换环节通过为关键字查询定制相应的转换模板来实现,而结果排序则以关键字的顺序性语义为基础,通过对查询结果进行聚类等操作来实现。经过实验验证,本文提出的语义关键字搜索模型SKS在面向数据库的关键字搜索中有很好的查询效果,在实验中获得了很高的查准率和召回率。同时此实验也说明了本文提出的关键字基本语义和潜在语义的正确性。