不确定数据skyline查询研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:biangei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类正处于一个被数据包围的时代,数据在人类的生产生中扮演着越发重要的角色。随着人们对于数据挖掘和管理技术的理解深入,同时随着技术本身的不断进步,不确定数据越发受到研究者的重视。在许多现实应用中,例如军事、金融、电信等领域,数据普遍存在不确定性。除了不确定数据极其庞大的可能世界,不确定数据还有一个特点就是种类多,同一种查询,不同的不确定数据类型,往往需要建立不同的查询模型和算法。特别是不确定数据的Skyline查询,为了避免建立索引花费过多时间开销,有学者针对离散型存在级不确定数据提出了基于概率约束空间的非索引裁剪算法,然而针对其它类型不确定数据的快速非索引裁剪办法还没有。同时,本文在研究中还发现,离散型不确定数据两两数据对象之间的谁支配谁的逻辑关系是确定的,且属性值以大取优还是以小取优都不会影响到数据对象Skyline概率的计算;而针对连续型不确定数据,由于其属性取值是在一段区间上,因此两两不确定数据对象之间谁支配谁的逻辑关系不确定,此外,属性值以大取优还是以小取优会直接影响到数据对象Skyline概率的计算。本文针对不确定数据的Skyline查询问题,对基于概率约束空间思想的不确定数据Skyline查询进行了研究,主要体现在:1.针对已有的针对存在级离散型不确定数据的PCS算法进行了分析,发现PCS算法在裁减数据对象的时候,因为其建立最小邻接矩形生成概率约束空间的策略具有随机性,容易出现裁剪区域粗糙的情况,导致在高维情况下裁剪效率降低,而且考虑到Skyline查询最终要返回给用户可靠的结果,因此要尽可能避免所有返回给用户的最小邻接矩形内的数据对象都是置信度小于阈值的数据对象,应该保证每个最小邻接矩形内至少有一个置信度大于阈值的数据对象。本章针对PCS算法以上两点做出了改进,通过增加最小邻接矩形的自更新策略,并为所有内部数据对象概率都小于阈值的最小邻接矩形添加至少一个概率大于阈值的数据对象的办法,使得算法在较高维的情况下,保持了查询的效率和可靠性。2.针对连续性不确定数据的特点,本文首次提出了连续性不确定数据Skyline查询研究要分为以小取优和以大取优两种情况,并以指数分布不确定数据为例作出说明。3.首次研究了指数分布不确定数据的Skyline查询,并首次提出了服从指数分布的连续性不确定数据模型,推导了其概率Skyline计算原理。本文分别基于以大取优和以小取优两种情况,给出了两种情况下数据对象的支配概率、Skyline概率计算模型,最后针对两种模型各自给出了基于概率约束空间思想裁剪非Skyline数据对象的快速裁剪算法EDPCS算法,实验证明EDPCS算法能够较好的对指数分布不确定数据Skyline查询进行快速有效的裁剪。
其他文献
随着互联网技术的迅猛发展,网络己成为人们获取信息的重要来源,越来越多的网民通过各种渠道发表对社会事件、公众人物、产品等的意见和评论。通过分析和挖掘这些海量的评论资
供应链以及集成化供应链的概念 从建模的角度看,多级集成化供应链的设计和分析模型可以分为3类,即确定型分析模型(变量已知且是确定的)、随机分析模型(变量未知但假设服从某
本文在前人研究的基础上,对我国第三方物流公司迫切需要面对的这一问题做一些探索,以期为中国的第三方物流公司找到一个可行的仓库网络布局的方案。本文具体内容如下: 通过对第
随着互联网技术的飞速发展和智能移动通讯设备的普及化,微博凭借其简捷性和开放性得到迅速发展,成为网民在互联网上获取信息、表达观点、在线交友的重要媒介。微博以内容的即
在广播电台、电视台的节目构成中,文艺节目是不可或缺的重要组成部分。办好广播电视文艺节目,对提升广播电台、电视台节目的整体质量,吸引受众进而扩大广播电台、电视台的影响力,都有着不可忽视的作用。然而,一个不可忽视的现实是,在一些地市级或是县市级广播电台、电视台的编辑人员中,文艺编辑往往是政治素质和业务素质相对较低者。笔者从事广播文艺编辑多年,对此问题有着深切的认识。如果这一现状不能得到改变,将成为广播
该文在系统的理论分析和充分的实证研究的基础上,试图确定中国IS/IT项目成功的标准以及影响中国IS/IT项目成功的关键因素,以此为中国企业的IS/IT项目管理实践提供理论指导,提