论文部分内容阅读
无线传感器网络相关技术的稳步发展与成熟使其成为物联网信息获取手段中最基础的技术。部署无线传感器网络的目的在于获取被监测区域中感知对象的相关指标数据,是典型的以数据为中心的应用。作为应用核心的数据收集任务通常以用户下达的各种查询指令为起始,完整的查询过程可划分为指令传播和数据回传阶段。由于传感器网络中的节点在如计算能力、存储容量、通信距离、能量资源等各方面存在诸多限制,因此如何使节点在整个查询过程中能够高效运作、延长网络生命期即成为无线传感器网络相关研究的核心关键。本文将无线传感器网络的查询优化策略作为研究对象,以降低能量消耗、提高查询效率为目标,分别从存储和查询两个方面提出了相应的思路,主要研究内容如下:无线传感器网络的查询处理细节与其所采用的存储策略密不可分。现阶段关于存储方面的研究大多集中于存储策略,即传感器节点在收集到感知数据后将数据存储在网络中的具体位置,通过平衡查询指令传播与感知数据回传的消耗来提高查询过程中的能效。不同于现有研究,本文从感知数据的存储结构角度出发,考虑无线传感器网络的分布式特性,提出了基于RCFile的查询处理机制。RCFile是基于MapReduce框架数据仓库平台中的高效存储结构,同时具有行存储和列存储的优势。RCFile首先将数据水平划分为行组,保证行组中的各条记录能够被完整地保存在同一 HDFS块中,降低元组重构的消耗;之后对行组内部的记录逐列分解存储,使得数据能够在各种压缩策略下达到较高的压缩比并在查询时无需读取不相关的列。无线传感器网络中的节点在计算和通信方面的能耗存在巨大差异,意味着适当的压缩处理以减少后续传输的数据量能够有效提高能效;同时,作为多用户多查询任务的典型应用,查询处理的效率也至关重要。实验结果表明,RCFile存储格式在这两方面相对于传统的行存储格式均具有优势,适合作为无线传感器网络中感知数据的存储结构。无线传感器网络中的节点分布密集导致邻近节点之间的数据相似性较高,这一特性被称为空间相关。在查询过程中,若无差别地调动全部节点,则获取的结果数据必然存在冗余。本文利用感知数据的空间相关性,提出了基于双重聚类的分簇查询算法。在算法的第一阶段以全部节点的感知数据为输入,采用ISODATA算法将网络划分为各个由数据相似的节点组成的类簇。ISODATA算法是基于划分的聚类方法,以距离度量为相似度评价标准的特点使得各个类簇中的节点在感知数据表现上相对紧凑;算法的第二阶段采用基于密度的聚类算法DBSCAN根据节点的位置信息对第一阶段的结果类簇进行进一步的划分,处理之后得到各个类簇,其中的节点不仅在数据上表现近似,在空间分布上也趋于连续;算法的第三阶段以误差最小为标准在各个类蔟中选择代表性节点以响应查询,极大地降低了查询过程中的消耗。通过实验仿真验证,本文算法在聚类效果、误差精度及能量消耗方面相较于对比算法均具有一定优势。