论文部分内容阅读
关系数据库中存储了大量的结构化数据,且其数据量每天都在不断的增长。随着数据库技术和信息检索技术的成熟,使得用户能够方便高效的检索数据库中结构化数据,在数据库上实现关键词查询是目前的研究热点。该技术使得用户不需要懂得复杂的结构化查询语言和底层的数据库模式,便可以对数据库中的数据进行查询。目前的研究工作主要是基于元组级别的方法,由于数据库的规范化设计使得完整的实体信息被分散到多个表中,从而该方法返回的结果并不是完整的实体信息,用户通常难以理解。对象级别的信息检索更直观地描述了检索结果的语义,返回的检索结果具有上下文信息,更加符合用户的查询需求,已经引起越来越多的关注和研究。本文首先对目前几种典型的具有对象级别思想的检索方法进行了介绍;然后给出关系数据库对象模型的定义,简单的说,一个对象就是数据库中若干紧密相关的元组集合;最后设计了一个对象级别的关系数据库信息检索方法——DBORank。 DBORank算法从数据库和信息检索两个角度出发设计了一种灵活有效的评分机制,它既考虑了对象级别数据图的链接结构,还考虑了图中对象结点的内部结构,边的类型和权值,对象内容相关性等因素,提高了算法的检索效果,同时从迭代算法和Top-K排序算法两个方面对DBORank算法的检索效率进行了优化。最后实现了一个对象级别的关系数据库信息检索原型系统,利用DBLP数据集对DBORank算法的检索效果和检索效率进行了实验验证。论文采用P@K和平均查准率MAP两个评价指标对算法的检索效果进行评价,同时验证了方法改进后的迭代算法和Top-K排序算法的效率。最终的实验结果表明DBORank算法具有良好的检索效果和检索效率。