基于Hadoop MapReduce的分布式数据流聚类算法研究

来源 :信息工程大学学报 | 被引量 : 0次 | 上传用户:honcy456852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用
其他文献
提出了一种具有均衡密码学性质布尔函数的递归构造,研究了所构造布尔函数的密码学性质并重点讨论了其代数免疫性,提出了一种关于它的代数免疫度的判定方法。所构造的函数不仅具
近年来法学专业蓬勃发展,高校法律院系为社会输送了大量法律人才,在构建法治社会、实施依法治国过程中起到了重要作用。本文通过对法学专业实践教学环节在课程设置、教学方法
ATM信元的识别是ATM通信中的重要环节.在无线ATM通信中,由于通信链路的不可靠性,信元在传输过程中可能会由于出现误码而导致无法识别.针对此问题,文章提出一种基于中心距离提
本文在对一定数量期末试卷分析汇总的数据进行分类、整理的基础上,以描述统计的基本方法为基础,分析了内容效度、覆盖率、难度、区分度、成绩分布情况等指标,探讨了试卷分析
2000年8月,李康从四川省广安市精神病院调任社会福利院院长。新建的社会福利院待遇和条件都较差,还有一群让人落泪的孩子:有的唇腭裂:有的残疾:有的先天痴呆,这些残疾儿童连
校外学习中心是远程教学和远程学习的活动基地。校外学习中心必须能适应市场经济形势需求,以培养适用型人才为宗旨,不断完善自身机制,实行规范化管理,不断提高教学管理工作水平,建