基于Hadoop的特征核数据提取算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cy58452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在社会已经处于并将长期处于大数据时代,海量数据具有4个V的特点,即数量大(Volume),多样性(Variety),需要处理的速度快(Velocity)和真实性(Veracity)。虽然目前的数据量很大,但是往往携带者一些冗余信息,人们关注的其实是它们真实携带的有效数据特征。如果将数据看成大矩阵,则此矩阵在大部分情况下是稀疏的,可以将其映射到更低维的空间,这个低维的空间我们称之为数据特征空间,将原始数据投影到该空间后可以得到特征核数据,而且特征核数据往往携带着原始数据的主要信息。给出了信息损失率小于的-特征核数据和-特征空间的定义后,我们的目的是寻求最优特征核数据和最优特征空间。为此,本文根据高维度大数据的特点,利用Hadoop分布式计算框架提出了挖掘数据主成分的一些方法,同时针对Hadoop使用过程中出现的缺点提出了一些技术,可以有效地降低内存使用率,提高文件访问效率。本文先交代预备知识和数学定义,为后面具体算法的实现提供了理论支持和衡量标准。然后针对分布式应用环境提供了适应Hadoop的新型向量数据结构,并在此基础上定义了不同节点之间数据发送端和接收端的工作流程和数据格式。其次数据预处理模块将输入信息处理成系统能识别的形式,继而获取三对角阵并用QR算法将三对角阵特征分解以获得特征信息。最后将特征向量稍加变换得到新的投影空间,将原始数据投影到新的投影空间即可得到核数据集。本文在实现的过程中经常会对向量进行处理,虽然向量的维度很大,但将矩阵按行分割后每一块向量仅仅占用KB数量级的空间,Hadoop分布式文件系统为存储在其中的每一份文件分配固定数据块(block)的大小,这在实现的过程中会出现Name Node内存占用过高和文件访问效率过低的现象。针对Hadoop不善于处理海量小文件的问题,我们提出了一种优化HDFS的技术,基本思想是将小文件合并成适应一个块的大文件然后建立索引。更进一步地,基于名字的索引可以有效提高文件访问效率。实验结果表明,本文提出的策略可以有效地挖掘原始数据的核数据集。
其他文献
随着计算机网络的不断普及,网络中的业务类型也得到了不断的扩展,各种新型应用业务对网络传输的要求也在不断的增加。为了保证网络传输服务能够正常有效的运行,现有的办法是保证
有效的对火灾进行监控是森林防火的关键技术。目前基于图像处理的林火监测方法是监测火灾发生时生成的烟雾,经信号处理、比较和判断后发出火灾报警信号。对于蔓延较慢的火灾
随着电子、信息、通讯、计算机等高新技术的飞速发展,电子稳像技术作为最新一代的稳像方法已经在日常生活中被广泛应用。从军事领域到民用范围,各个领域都能看到电子稳像技术
穿衣着装是我们的日常活动之一。随着计算机性能的提高和计算图形理论的日趋完善,布料模拟和人体模型动画在迅速发展,这使得设计并实现虚拟着装真实感算法成为了可能。本文的
雾天时,受大气散射作用的影响,获取图像的对比度和颜色都会出现退化,图像中包含的许多特征都会被覆盖或变的模糊,图像的对比度很低,给户外视频监控系统带来了严重的影响,因此
语音信号处理是现代通信研究的重要内容之一,语音压缩编码作为其关键技术,如今得到了极大的发展。因此对语音编码相关知识的深入学习、理解和研究,具有重要的意义。本文通过
随着中国高速铁路事业的蓬勃发展,虚拟现实技术和铁路交通领域的结合也越来越紧密。列车视景仿真系统则是其中的一个应用,它不但能够适用于机组编车、运行监控、线路铺设等复
计算机网络的发展推动了Web应用程序的长足进步,当越来越多的企业选择把自己的服务以网络的方式推广的时候,Web应用程序的安全问题也随之而来。开放网络程序组织OWASP每年召开
户外的摄影以及一些计算机视觉任务常常会受到恶劣天气的影响。在几乎任何一个户外场景中,从物体表面反射的光线,在到达相机之前,都会或多或少被空气散射所影响。这主要是因
数据挖掘就是从大量的原始数据信息中,挖掘出对使用者有意义的数据并以此指导着人们的实践,从而产生效益和利润等。本文在第二章简要概述了有关数据挖掘方面的理论知识,包括