面向关系数据库的语义关键字搜索研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:bbschengpengfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于关键字的搜索引擎是人们在互联网上搜索信息的重要方式,而互联网上大量的关系数据库则构成了DeepWeb的主要组成部分,因此面向关系数据库的关键字搜索成为该领域学者关注的研究热点。随着研究的日益成熟,对查询关键字语义的理解成为其研究的一个方向。通过研究,本文提出面向关系数据库中查询关键字的三种基本语义(关系名语义、属性名语义和值语义)和两种潜在语义(依赖性语义和顺序性语义)。为了能将该语义渗透到查询过程中,提出面向关系数据库的语义关键字搜索模型SKS。该模型分为离线处理模块和在线处理模块两个子模块。离线处理模块主要通过现有的数据库信息和查询结果日志的记录信息为在线处理提供辅助。本部分重点介绍了关键字索引的结构和网络图的构建。对于查询关键字映射的不同,关键字索引将为其返回不同的索引结构,该方法重点体现了关键字的基本语义。网络图的构建过程以数据库模式图和查询日志为载体,以Apriori算法为基础实现,该过程体现了关键字的依赖性语义,并为候选网络的生成提供基础。在线处理模块中,本文主要介绍了候选网络的生成、查询转换和结果排序三个环节。候选网络的生成使用基于单源最优路径的候选网络生成算法来实现,该算法通过扫描网络图来找到候选网络。查询转换环节通过为关键字查询定制相应的转换模板来实现,而结果排序则以关键字的顺序性语义为基础,通过对查询结果进行聚类等操作来实现。经过实验验证,本文提出的语义关键字搜索模型SKS在面向数据库的关键字搜索中有很好的查询效果,在实验中获得了很高的查准率和召回率。同时此实验也说明了本文提出的关键字基本语义和潜在语义的正确性。
其他文献
随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数
带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的