论文部分内容阅读
人类正处于一个被数据包围的时代,数据在人类的生产生中扮演着越发重要的角色。随着人们对于数据挖掘和管理技术的理解深入,同时随着技术本身的不断进步,不确定数据越发受到研究者的重视。在许多现实应用中,例如军事、金融、电信等领域,数据普遍存在不确定性。除了不确定数据极其庞大的可能世界,不确定数据还有一个特点就是种类多,同一种查询,不同的不确定数据类型,往往需要建立不同的查询模型和算法。特别是不确定数据的Skyline查询,为了避免建立索引花费过多时间开销,有学者针对离散型存在级不确定数据提出了基于概率约束空间的非索引裁剪算法,然而针对其它类型不确定数据的快速非索引裁剪办法还没有。同时,本文在研究中还发现,离散型不确定数据两两数据对象之间的谁支配谁的逻辑关系是确定的,且属性值以大取优还是以小取优都不会影响到数据对象Skyline概率的计算;而针对连续型不确定数据,由于其属性取值是在一段区间上,因此两两不确定数据对象之间谁支配谁的逻辑关系不确定,此外,属性值以大取优还是以小取优会直接影响到数据对象Skyline概率的计算。本文针对不确定数据的Skyline查询问题,对基于概率约束空间思想的不确定数据Skyline查询进行了研究,主要体现在:1.针对已有的针对存在级离散型不确定数据的PCS算法进行了分析,发现PCS算法在裁减数据对象的时候,因为其建立最小邻接矩形生成概率约束空间的策略具有随机性,容易出现裁剪区域粗糙的情况,导致在高维情况下裁剪效率降低,而且考虑到Skyline查询最终要返回给用户可靠的结果,因此要尽可能避免所有返回给用户的最小邻接矩形内的数据对象都是置信度小于阈值的数据对象,应该保证每个最小邻接矩形内至少有一个置信度大于阈值的数据对象。本章针对PCS算法以上两点做出了改进,通过增加最小邻接矩形的自更新策略,并为所有内部数据对象概率都小于阈值的最小邻接矩形添加至少一个概率大于阈值的数据对象的办法,使得算法在较高维的情况下,保持了查询的效率和可靠性。2.针对连续性不确定数据的特点,本文首次提出了连续性不确定数据Skyline查询研究要分为以小取优和以大取优两种情况,并以指数分布不确定数据为例作出说明。3.首次研究了指数分布不确定数据的Skyline查询,并首次提出了服从指数分布的连续性不确定数据模型,推导了其概率Skyline计算原理。本文分别基于以大取优和以小取优两种情况,给出了两种情况下数据对象的支配概率、Skyline概率计算模型,最后针对两种模型各自给出了基于概率约束空间思想裁剪非Skyline数据对象的快速裁剪算法EDPCS算法,实验证明EDPCS算法能够较好的对指数分布不确定数据Skyline查询进行快速有效的裁剪。