【摘 要】
:
随着博客、维基百科、共享空间、推特等新型应用的兴起,互联网已经进入了一个信息爆炸的时代,需要处理的数据也越来越多,对于数据的处理要求也越来越高。面对不断增长的数据,
论文部分内容阅读
随着博客、维基百科、共享空间、推特等新型应用的兴起,互联网已经进入了一个信息爆炸的时代,需要处理的数据也越来越多,对于数据的处理要求也越来越高。面对不断增长的数据,海量数据的快速查询算法成为了一个研究热点。本文以提高海量数据的查询效率为目标,对已有的海量数据的查询技术进行了研究,重点研究了Top-k查询算法。Top-k查询根据用户的要求对相应的属性计算分值,并用聚合函数聚集多个属性的分值作为整个元组的得分,返回得分最高的k个对象。Top-k查询在海量数据的环境中有很好的查询效率。论文首先介绍了索引、SQL语句优化、数据预取、近似匹配和分布式查询等已有的海量数据查询技术,并总结了各种技术的应用范围。接着对经典的Top-k查询算法进行了分析,基于对TA(Threshold Algorithm)算法和NRA(No Random Access)算法的研究以及近似匹配查询思想,提出了一种新的基于抽取的Top-k算法(Top-k Algorithm Based on Extraction,TABE),该算法首先抽取出最优的元组,再对这些元组运行查询算法。为了测试TABE算法的性能,设计了测试实验,实验中将之与经典的NRA算法进行了比较。测试结果表明TABE算法不仅时间复杂度低,而且有较高的精确度,能满足常规的查询要求。论文还顺应海量数据处理的并行化趋势,对TABE算法在Hadoop环境下进行了实现,并做了性能测试实验,实验结果表明,借助云计算可以进一步提高TABE算法的查询效率。论文对海量数据的快速查询做了有益的研究。
其他文献
异常检测技术是一种重要的数据挖掘手段,被广泛应用于信用卡诈骗检测、入侵检测、疾病检测等各个领域。目前国内外研究学者从距离、密度、聚类等角度出发,提出了各种异常检测
Spiking神经网络作为新一代人工神经网络,其时间编码的计算优势使其在研究领域的影响力与日俱增。在视觉神经系统的模拟层面,建立恰当的计算模型以模拟视网膜神经元的图像特征
变电站作为电网中电力中转的重要节点,担负着电压转换和电能分配的重要任务,变电站能否准确、安全、可靠地运行事关整个电网的安全和稳定。基于IEC61850标准的数字化变电站采用以太网进行架构,一般网络所面临的安全威胁,数字化变电站网络同样需要面对,特别是GOOSE报文对实时性和安全性都提出了极高的要求,因此如何在新形势下保障变电站报文传输安全就成为一项亟待解决的问题。针对以上问题,本文做了以下几个方面
为深入研究生物大脑处理信息以及学习的能力,研究者们提出了人工神经网络,用来模仿大脑信息表达以及处理的过程,而其中具有最高仿生性的是脉冲神经网络,它表达信息以及处理信
颜色是人们识别图像的主要感知特征,在模式识别与计算机视觉领域发挥了重要的作用。随着科学技术的发展以及计算机处理能力的提高,处理高维彩色图像数据成为了可能,因此彩色
众所周知,在计算机视觉和模式识别学科内,人脸识别是一个被研究很广泛的课题。如何找到一些行之有效的人脸特征来描述人脸是人脸识别技术的核心问题,现阶段成熟的人脸识别算
随着互联网的发展,传统关系型数据库在海量数据存储、高可扩展性、高可用性等新需求下显现出自身局限性。NoSQL数据库因其模式自由、支持分布式、支持最终一致性等特性可以很
随着万维网服务与应用的极速发展与壮大,万维网深入人心,越来越多的人使用万维网。然而,万维网的高速发展也带来了新的问题,IP地址有限、网络安全问题、网络流量和Web访问延迟等
内存数据库在实时应用领域扮演着重要角色,在电力调度、工业控制、数据通信、航空航天、证券交易等领域有着广泛的应用。由于实时应用领域通常需要维护海量的数据,并且要求在
行人是视频监控对象的焦点,行人检测与识别也是计算机视觉研究的基础任务和关键技术之一,其广泛应用于智能视频监控、车辆辅助驾驶、人机交互等领域。论文主要针对行人检测与识