论文部分内容阅读
随着Internet的快速发展,Web数据库得到了广泛的应用,越来越多的普通用户通过查询接口访问Web数据库以获取更多信息。当前,数据库查询处理模式通常假定了用户能够明确其查询目的并可以正确地表达其查询要求,但由于大多数Web数据库用户是非专业的普通用户,他们对数据库的结构和内容并不明了,或者他们的查询意图本身就是不明确的、不精确的以及不完全的,因此,对于用户提出的查询要求系统经常会返回空查询结果或一些不令人满意的查询结果。为了减少用户的试探性查询次数或能够最大限度地给出用户满意的查询结果,有必要把用户提交的查询条件看成是对查询结果的一个近似要求,通过使用相关技术扩展用户的初始查询条件,实现数据的近似查询。对于大型数据库来说,由于这种近似查询会产生许多相关的查询结果,因此对大量近似查询结果按用户的期望程度及偏好从高到低进行排序也是非常重要的。本文提出了一种Web数据库近似查询及其结果自动排序的方法AQR(Approximate Query & Ranking)。该方法依据数据库原始数据和历史查询记录查找出在语义上与用户初始查询条件相近似的属性值,以此扩充用户的初始查询条件,最大限度地提供更符合用户期望的信息。对于数据库中的文本属性,AQR方法通过计算历史查询记录中不同值对的近似度找出与用户指定属性值最近似的值进行初始查询条件扩展;对于数值属性使用了核密度估计相关技术把查询条件扩展到与其邻近的值。针对大量的近似查询结果,AQR根据用户的查询要求得出用户初始查询条件中所有属性的重要性,并为每个指定属性分配一个权值。AQR方法根据属性的权值和不同值对的近似度,计算查询结果集中各元组对用户的满意程度,按满意程度从高到低对查询结果进行排序。对于排序过程中近似度相同的元组,本文提出了评估用户未指定属性对用户偏好相关度的计算方法,使用此方法解决了具有相等近似度值的各元组间的排序问题,进一步地提高了近似查询结果的排序质量。实验证明,本文提出的AQR方法在整个处理过程中不需要用户参与也不依赖于任何领域知识,能够较好地满足用户需求,与解决同类问题的方法相比,具有更好的查询及排序质量。