论文部分内容阅读
目前,流数据正广泛应用于Web应用,电子商务,传感器网络等各领域中。近年来,随着分布式技术在网络环境中的普及,大量的流数据来自于地理位置不同的数据源,形成了分布式流数据,这使得针对分布式流数据的管理及处理需求分布广泛。然而,现有技术还未能够很好地满足这一需求。如今的分布式技术多关注于如何实现基于集群的高速运算,而忽略了对这些分布式流数据的统一管理问题,包括应以何种结构方便且高效地组织这些数据、采用何种方式提供分布式流数据的统一编程模型等问题。此外,现有的分布式流数据处理技术普遍采用传统的结构化数据描述方式抽象流数据。考虑到结构化数据描述方式对数据格式的过高要求,对比新型的半结构化数据描述方式,其无法更加完整地描述出实际应用中数据之间存在的多样化结构关系,使得相关查询技术在处理分布式流数据时受到了限制。近年来,随着一些半结构化数据标准的提出,半结构化数据描述方式的强大结构描述能力引起了广泛关注,其灵活的组织结构可以更加完整、准确地抽象出不同数据之间存在的各种结构关系。考虑到可扩展标记语言XML作为一种典型的半结构化数据格式已成为网络应用中的数据交换标准,采用XML描述并组织分布式流数据成为了一个极佳选择。注意到目前的XML流数据查询技术大多关注于提高对非分布式流数据的处理性能,还未支持面向分布式流数据的查询需求,设计一种具有强大结构描述能力且适用于分布式流数据的数据模型,并提出一种基于该模型的分布式流数据查询技术来妥善解决分布式流数据的管理、处理问题已显得尤为重要。为解决该问题,本文1)借助于XML的强大结构描述能力构建并提出面向分布式半结构化流数据的数据模型——分布式森林,用于组织各分布式流数据,实现对其的统一管理,并提出基于该模型的分布式流数据查询分解及结果组织方法以实现查询处理;2)提出了一种面向分布式半结构化流数据的宏森林自动机DXSMFT,作为上述方法对应的抽象模型;3)设计并实现基于DXSMFT的高效分布式流数据查询处理模型,通过同步控制及并发协作动作保证处理过程的正确性;4)设计并实现基于DXSMFT的高效分布式流数据查询算法及相应优化算法。这4点共同构成了分布式半结构化流数据查询技术。实验证明,DXSMFT及其算法执行效率高,查询技术在处理分布式流数据时可获得较高的查询性能,且在数据分布规模或数据总量增大的情况下性能比较稳定,适用于实际应用中的分布式流数据环境。