论文部分内容阅读
21世纪的今天,伴随着科技的发达,各种计算机以及通信技术日新月异,层出不穷,人与人之间信息的交流更多依赖于各式各样的电子终端设备,大量的数据交换成为了这个时代鲜明的标志。为了能更加方便人们的生活以及工作,大数据分布式系统在这个时代悄然而生。对此类方向的研究也成了当下科研应用领域的热门。本文根据当下对于大数据相关处理的需求,实现了一个基于大数据分布式处理系统的数据治理平台,通过前端响应用户操作,再利用大数据分布式系统的相关组件对数据进行存储以及按照特定业务需求进行一系列的处理,从而达到人们对于不同平台大量数据的获取以及应用。在大数据处理技术中,基于分布式数据库的查询算法在系统的实时响应、处理效率中起到了不可小觑的作用,因此本文将针对该算法展开详细研究。本文先对分布式系统及其数据分片与分配策略进行相关叙述,并详细介绍了传统的基于半连接的查询算法以及传统的直接连接查询算法Partition算法,针对这两种适用不同场合的算法其中各自存在的问题进行分析并分别提出改进。对于半连接查询算法,本文为了弥补集群中通信网速较慢的问题,对查询所涉及各站点数据分片传输策略进行新的构想,提出利用不去重的投影数据集合进行多表连接的思路,充分利用分布式集群并行的特性缩减参与连接操作的关系元组数进而减少网络传输的代价,结合选择因子的概念对设想进行理论分析,最终设计实验模拟分布式集群通信从而验证设想的有效性。对于基于直接连接的查询算法,本文在保留了算法原有优势的基础上引入一种新的划分策略,使得查询不仅仅只对一种关系操作进行属性分片,这样能够更进一步的减少局部查询时的关系冗余情况。最后对带有多个关系进行连接的查询操作分别采用原始的Partition算法和改进算法进行实验从而也验证了新算法的有效性。实现了一款以数据存储以及处理为主的数据治理平台,支持不同平台部分结构化数据(多个关系型数据平台的二维表)和非结构化数据(txt,word等文本)的数据采集工作,保证了通信的安全性并能够按照特定的用户需求对引入到大数据平台中的数据进行检验、修改以及通过接口对外提供统一访问查询等功能。本文系统遵从目前主流企业开发框架,构建了符合当前业务需求的网站架构。