Flink平台下Eclat算法的研究及在动车组故障关联关系挖掘中的应用

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:BBP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,分布式计算平台越来越受到人们的关注。Apache Flink是一个完全支持流处理、基于内存的分布式计算平台。它把批处理作为流处理的一种极限情况,用流处理的概念来解决批处理,为数据分析提供了一个新的思路和方法。传统的关联规则挖掘算法Apriori、FP-Growth、Eclat都有一定的局限性,选择一个合适的关联规则挖掘算法并对其进行改进是本篇论文的研究重点之一。动车组在日常运维中积累了大量的数据,如何从这些数据中获取知识以指导动车组的运维,提高动车组运行的可靠性,成为一个亟待解决的问题。本篇论文在Flink平台下改进Eclat算法并把改进后的算法应用在动车组故障关联关系挖掘中,主要工作包括:(1)提出了一种基于特定元素比较的判定策略,用于快速判断交集操作能否得到频繁项。通过在Eclat算法中添加该判定条件,跳过不能得到频繁项的交集操作,减少迭代次数,提高算法效率。编写改进前后算法程序,在Flink本地执行环境下分别处理公开数据集做对比实验,验证改进方法的有效性。(2)提出了一种数据预处理方法——字段数字化,用于将动车组数据中复杂的文字转换成简单的正整数,并记录这种一对一映射关系。动车组数据经字段数字化以后,不同类型的字段对应不同的整数区间,因此可以通过简单的数值比较来筛选字段类型。数据集的数字化处理不仅减少了计算过程中的内存消耗,也提高了算法的计算效率。(3)提出了一种基于字段数字化和研究目的的筛选策略,用于筛选剔除不包含故障信息的频繁项。该筛选策略通过优化频繁项集,减少了交集操作的迭代基数,提高了算法效率。用预处理后的动车组数据做对比实验,验证改进方法的有效性。(4)部署Flink on YARN模式集群,为算法并行处理大规模动车组数据集提供环境支持。Flink有一个并行度的概念,可以通过设置并行度的值大于1,达到算法并行执行的目的。调整并行度大小,进行重复实验来探讨并行度和平台计算效率之间的关系。编写Map函数和Reduce函数在MapReduce平台下做对比实验,比较相同条件下两个平台的计算效率。
其他文献
1989~1993年对20余种常见花卉进行了线虫种类的调查及防治研究。根据Golden等分类系统,共鉴定出15个属和根结线虫的3个种,其中肾形线虫(Rotylenchulusreniformis)为我国北方首次发现。采用盆栽化学药剂处理土壤的防治方法,防治
根据船队在弯曲航段的运动特征,分析了船队过弯曲航道的数学模型;结合实船试验对模型进行了论证,得出船队过弯曲航道的一般规律.
背景和目的:近些年,我国高尿酸血症合并骨质疏松症的老年患者逐渐增多,氧化应激是年龄依赖性骨质疏松症骨量减少的基本机制,前期研究证实作为抗氧化剂的尿酸(uricacid,UA)借
当我第一次听到皮亚佐拉的音乐时就被其完全所打动了,我在感叹世上还有如此美妙,如此悠扬、如此扣人心弦的音乐,我整个人被完全陶醉在探戈音乐的海洋里,当时我对这个作曲家是
针对变压器状态评估中在缺少数据来源的条件下,状态量的选取缺少综合衡量指标的情况,提出一种变压器状态量权重确定的方法,首先根据状态评估导则及故障模式和缺陷分析得到变
世界经济全球化的发展,国内企业的产品品牌逐渐融入世界市场的竞争之中,这种商业全球化趋势促使广告传播面临新的机遇与挑战.广告是企业促销的一种手段,企业要想让产品走出国
颗粒分析试验是土木工程中基本实验之一,它主要是对土壤中粒径进行的级配分析。当前比较常见的颗分试验方法包括筛析法、和密度计法,尽管当前这些试验方法都能够有效的进行土
2型糖尿病是一种多基因的代谢性疾病,其发病率日益增加,造成了巨大的社会经济负担。目前越来越多的研究表明肠道菌群与2型糖尿病密切相关。干预肠道菌群可能成为防治2型糖尿
针对全球变化影响下的国土空间和生态系统,生态文明建设和国土空间规划是中国在新时代的积极响应,国土整治与生态修复的转型和提升成为必然要求。在介绍国土整治与生态修复概
案情:孙某在某汽车租赁公司App客户端上下单租赁一辆共享汽车,该车自动解锁。用车结束后,孙某在客户端上操作还车时,发现汽车没有正常落锁,而App客户端却显示还车完毕。孙某认为,这
报纸