论文部分内容阅读
随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够更加了解用户的需求,为企业带来价值。然而传统集中式数据挖掘算法不能很好地处理大数据量的Web日志挖掘,所以本文旨在将挖掘算法与Hadoop分布式平台结合,并针对Web日志挖掘主题提出改进。本文首先对Web日志预处理进行分析,并且根据目前会话识别中的缺陷提出个性化会话分割,使不同用户采用适合其自身行为习惯的会话分割阈值,并且将预处理与Hadoop平台进行结合,加快处理的速度。由于频繁模式挖掘采用基于聚类的动态决策,所以接着实现了Hadoop平台的D-DBDC聚类算法,根据Web日志数据的特点自定义了前缀相似性度量方式,针对DBDC的局部聚类中对噪声的处理容易丢簇的现象,提出对噪声数据的处理方案,对局部调整部分提出适合Web日志挖掘主题的修改方式。最后对于频繁模式挖掘在Web日志中的应用,分析了Web日志挖掘往往具有多个感兴趣主题的特点,提出基于聚类动态决策的D-FP-Growth算法,该算法根据聚簇的数目,即用户感兴趣点的多少,动态决定采用基于水平分割的或者基于垂直分割的分布式FP-Growth算法,并且为充分利用Hadoop集群的计算能力,采用分别适用于两种方式的平衡策略。最后对系统挖掘算法,采用多组数据进行测试,证明了个性化会话识别算法的有效性,D-DBDC算法的准确性有所提高,同时对于Web日志挖掘这一应用,D-FP-Growth算法不仅减小了分布式节点之间的重复性工作,而且能够很好得平衡各机器节点的计算量,从总体上降低了算法的平均运行时间。