top2-k查询:一种top-k查询结果简化查询算法

来源 :东华大学 | 被引量 : 0次 | 上传用户:ohmysweet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,越来越丰富的网络服务如雨后春笋般呈现在人们的视野中。这些服务以方便用户为宗旨,然而随着服务提供给用户的信息以爆炸式的方式呈现给用户,用户很难方便快捷的得到满意的信息。即使使用用户查询约束,在如今的网络大数据时代仍然不能够准确的给用户提供信息。以网上预订旅馆为例,虽然用户能够在网上根据搜索条件搜索出很多的旅馆信息,但是,网络上提供的各种旅馆信息多而杂,如何帮助用户更好的选择最适合自己的旅馆显得尤为重要。top-k查询是解决该问题的一种重要的数据挖掘方法。根据调查,目前,安居客、携程等知名网络公司均使用top-k给注册用户提供个性化推荐。但是目前的top-k查询在解决这类问题时包含了一个不容忽视的缺陷,它忽视了旅馆的利益,将旅馆推荐给了非潜在用户,同时增加了用户的选择困难。在推荐旅馆时如何避免将旅馆推荐给非潜在用户是一个亟待解决的问题。  为了解决上述问题,首先,本文在传统的top-k查询基础之上定义了多用户偏好的top-k查询,该查询根据用户不同的用户偏好,给出用户定制的top-k查询结果,满足用户查询结果多样化需求。针对该查询问题,从不同的角度,给出了两种多用户top-k查询的算法:VBA算法和 LBA算法。并通过理论论证这两种算法的正确性与完备性。  其次,针对上述问题,给出了top2-k查询的形式化定义,并给出了解决top2-k查询三个算法。基于多用户偏好top-k查询算法给出了WTop2-k算法与STop2-k算法。并在给出上述两个算法后,针对固定数据集,给出了优化查询算法OTop2-k,该算法对查询效率进行了优化, 降低了查询时间。  最后,针对基于多用户的top-k查询以及top2-k查询进行了实验。通过IBM的数据生成器给出了可靠的模拟数据。在多用户的top-k查询实验中,针对不同维度的数据进行了多组k值不同的实验。实验表明,多用户偏好的两个查询算法VBA算法及LBA算法查询效率理想。在top2-k查询查询的实验中,针对二维情况,做了不同k值得多组实验,结果表明,优化算法OTop2-k的效率优于算法WTop2-k及算法STop2-k。  本文在传统的top-k查询的基础之上定义了多用户的top-k查询,并提出解决该查询的两个查询算法,即VBA算法和LBA算法,理论论证了其正确性与完备性,实验结果表明,VBA算法及LBA算法的查询效率高。在多用户的top-k查询的基础上提出了top2-k查询,并给出了两种方式的top2-k查询算法,即先从用户的角度进行top-k查询的WTop2-k算法与先从旅馆的角度进行top-k查询的STop2-k算法。为了提高top2-k查询的查询效率,提出了优化算法OTop2-k。对优化算法OTop2-k做了正确性和完备性的理论证明并进行了实验,结果表明,算法OTop2-k与算法WTop2-k和算法STop2-k相比在查询效率方面有了很大提高。
其他文献
越来越多的信息被存储在关系数据库中,面向关系数据库的关键字查询的需求也随之增多。尽管许多数据库管理系统支持全文本信息搜索,但是,在这些系统中,用户必须预先知道所要查
随着Internet/Intranet的技术和应用的飞速发展,作为教育评价的考试也正经历着无纸化和网络化的飞跃。在线课程考试系统是将计算机和网络通信技术应用到教学领域的产物,利用W
在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这
社区发现是根据网络的拓扑结构信息识别出网络中社区,传统的社区发现方法主要根据社区内节点链接稠密和社区间链接稀疏的特征,并借助于网络结构的属性来划分社区,这些方法不
近年来,随着计算机性能的提高和数值计算方法的改进,CFD(computational fluid dynamics)技术得到了飞速的发展。很多通用的商业化水流流动计算软件相继问世,并在大坝出闸门段
本文论述了基于DSP的嵌入式系统中智能串口和1553总线扩展的研究与实现。在硬件设计方面,首先研究了TMS320C6713 DSP处理器的芯片架构及应用开发实例,详细地论述了DSP扩展模
随着信息数据存储需求的逐步加大,人们对保护硬盘数据免受侵害的关注程度也越来越高。硬盘数据加密是当前保护硬盘数据的主要趋势和手段。相比软件加密方法,硬件加密方法不依
复杂工业是现代国家工业化的重要支柱产业之一。伴随着当代科技的进步和生产制造业的发展,石油化工等复杂工业生产过程越来越趋于大型化和复杂化,但是也随之带来对如何保障复杂工业的产品生产质量和生产安全的问题。因此通过获取复杂工业生产中的海量的关于能源、物质和操作的生产数据,来监控和指导生产过程,为实现复杂工业的稳定、高效和安全的生产具有非常重要的意义。统计过程控制中的过程能力分析技术是过程质量管理的核心方
在对烧伤患者进行治疗的过程中,对其烧伤程度的准确评估,是十分关键的一步,甚至直接决定了患者的生存质量。烧伤区域体表面积是烧伤程度的主要依据,准确、及时的烧伤区域体表面
近年来,随着信息技术的蓬勃发展,尤其是网络通讯技术、多媒体技术、数据库技术的发展,为企业和单位的电子公文流转提供了更为广阔的发展空间。在涉及到如何处理文档信息、如何管