论文部分内容阅读
近年来可提供实时处理能力的流式计算已成为大数据研究和应用领域关注的热点。虽然面向在线处理需求的分布式流数据处理模型已被广泛应用于加快数据处理速度,但是数据的指数级增长和实时性需求的增加仍为流数据处理带来了极大挑战。近似计算技术通过牺牲少量精确度,能够有效地缓解大规模流数据处理的高耗时和高时效性之间的矛盾。因此,研究流数据实时近似处理相关技术,对提高系统处理效率、减少资源消耗、满足实时性需求具有至关重要的意义。然而,近似技术在提高处理效率同时也会降低输出结果的精度,近似计算有效的前提是能够为数据质量提供适当的评估和保证,不可控制的质量损失会抵消近似带来的收益。因此,如何选择适应于不同应用的近似方法,对近似计算所得的结果进行质量评估,进而选择在相应的阶段进行不同程度的近似,尽可能地降低精度损失,是利用近似技术处理流数据时亟需解决的问题。本文基于上述问题,主要开展大规模流数据应用中近似处理技术和数据质量问题的研究。以采样近似技术为核心,综合考虑数据规模、处理能力及数据质量等因素,设计通用或应用专用的流数据近似处理方法和质量保证策略。同时针对典型应用场景—物联网,研究采样思想在传感数据流近似收集中的运用,以及通过与其他近似技术的有效结合,如何确保收集数据的质量。本文的具体工作和主要贡献如下:1.从数据处理能力角度,考虑数据规模超过计算能力的情况,提出大规模流数据的在线自适应近似处理方法及误差控制策略。为解决实时流数据分析中获取数据认知和控制输出误差问题,提出一个动态自适应近似数据分析框架。首先,面向持续到达的流数据,设计了在线数据学习策略,该策略能够自动学习数据子层权值,并根据反馈信息进行触发式更新;其次,设计了基于采样的近似算法,考虑实时负载的变化对采样资源需求的影响;最后,根据用户提出的不同误差需求,提出了用户自定义的在线误差控制策略,该策略检测近似输出并及时纠正较大误差。2.从数据采样节点角度,考虑如何优化采样节点部署,解决大规模传感数据流的近似收集和数据重建问题。结合具体的水下传感网络应用场景,提出了基于骨干网络的近似数据收集策略,该策略同时考虑近似操作和水下频繁数据丢失对数据质量的影响。然后利用置信传播算法对未收集及由传输导致的缺失数据进行推断,综合考虑时间、空间、多元等多种因素对缺失数据进行高质量的数据恢复。为确保数据质量满足用户需求,提出了基于统计理论的质量评估方法,对推断后的数据进行质量评估和改善。3.从数据资源重要性角度,考虑不同频率的数据缺失情况,解决(近)实时的传感数据流收集问题。结合水下传感网络应用场景,提出基于RNN的低开销高质量的水下数据近似收集方法。首先,在数据传输中放弃了传输协议中使用的自动重传机制,并将由此所造成的数据丢失转移到数据中心去处理。考虑不同程度的数据缺失情况,提出一种基于RNN的数据学习模型来有效地处理数据丢失问题,该模型通过综合考虑数据缺失特征和变量相关性,对空间或变量相关的数据进行缺失值填充和预测。针对通用场景和具体应用场景,本文设计了高效的数据流近似处理策略,并在设计近似策略的同时考虑资源调度与质量结果之间的耦合关系,深入研究数据源端近似收集方法、近似分析方法、误差分析和控制等相关机制。