度量空间索引支撑点选择问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sturdy13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据的几个特性中,关于数据多样性的研究较少。度量空间数据管理分析方法把数据抽象成度量空间中的点,具有高度的通用性,是应对大数据多样性挑战的有效手段之一。由于度量空间没有坐标,一般以数据到参考点(也称支撑点)的距离作为坐标,从度量空间中选择一些支撑点,用它们来划分数据,递归地建立索引树。支撑点的好坏对索引性能有着关键性的影响。支撑点的选择,可以从目标函数和选择算法两个方面进行研究。目前,较为常用的目标函数为均值目标函数,较为常用的支撑点选择算法有Farthest First Traversal(FFT)和Incremental。均值目标函数笼统地将距离均值作为目标函数,没有考虑到查询半径对排除效果的影响。FFT算法很难选出最优的支撑点,Incremental算法存在局部最优的问题。本文的研究内容主要有以下三个方面:·针对均值目标函数的不足,提出了半径敏感目标函数。半径敏感目标函数以距离大于查询半径的数据对的个数作为函数值,充分考虑了查询半径对排除效果的影响。实验证明,半径敏感目标函数能够选出更好的支撑点,与索引性能具有更强的一致性。·针对FFT算法的不足,提出了 Recent Farthest Traversal(RFT)算法。实验证明,RFT在选点速度和选点命中率上均优于FFT算法。同时,FFT具有按空间均匀抽样的特性,更适合用于数据的抽样。提出的PivotSetSelection(PSS)算法,有效避免了 Incremental的局部最优问题。实验显示,以RFT选择候选集,以FFT选择评价集,PSS性能良好,索引构建代价大大降低。·探索支撑点对索引性能影响的理论上限。目前的支撑点选择方法在索引性能方面的差别不是很大,用复杂的数学工具以很高的构建计算代价选择的支撑点带来的索引性能提升往往相对较少,整个领域的研究处于一个性能瓶颈中。本文探究了支撑点选择性能的可提升空间,为后续的研究方向提供了参考。
其他文献
近年来,互联网信息资源急剧膨胀,带有个人情感色彩的言论越来越多,分析这些文本有着很大的现实意义,因此如何有效地抽取与过滤互联网上的信息,如何对文本进行情感倾向分析成为当前
随着Web服务的广泛应用和网络攻击手段的层出不穷,在可靠性、保密性、数据完整性和不可否认性等方面Web服务都面临巨大的安全挑战。保证Web资源的授权访问,保证网络数据的安全
在无线传感网中,传感器节点在电源能量、计算能力、通信能力等方面具有局限性,节点间如何协作并发挥其整体综合作用,如何延长网络生存期,是设计无线传感网路由算法的重点和难
语音生成与获取是动力学、声学、数学等诸多基础学科的一个比较前沿的重要交叉点,它也是机器人研究领域中的一个重要分支,对它的理论研究不仅可以使我们更好地分析语音的各个
随着计算机网络的发展,大量有价值的数据依靠传统的搜索引擎技术已经不能被有效地检索出来,这些内容称为Deep Web。为了有效地对Deep Web中的数据资源进行检索,人们提出了语义We
多CCD大幅面彩色扫描仪作为一种宽幅图纸高精度扫描数字输入的设备,在军事、测绘等特殊领域有着广泛的应用。正是由于宽幅和高精度的要求,不可避免的给这种扫描仪设备的生产调
位置服务的广泛应用,已经为科研提供了大量人类基础轨迹数据,一些位置服务系统每天产生的轨迹数据可以达到TB甚至PB,与此同时位置服务业务应用的多样性导致数据的格式不一致(例如
近年来随着数据的爆炸式增长,数据的存储规模越来越大,传统的单机系统已经无法满足高速增长的数据存储需求。分布式存储系统使用大量廉价商用服务器通过网络互联,可以提供极
服务计算是跨越计算机与信息技术、商业管理、商业服务等领域的新学科,是应用面向服务的体系架构(SOA)技术消除商业服务与信息支撑技术鸿沟的直接产物。按SOA原则而构造实现的
网格任务调度是网格计算的重要组成部分,直接影响着网格计算系统的性能。然而,由于网格环境自身具有异构性、分布性、开放性、不确定性以及动态性等特点,这就对传统的任务调度策