Web结构和使用挖掘算法的并行优化研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wangyifan_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web已经成为全球最大的公共信息源,Web中蕴藏了各种丰富的知识。Web数据挖掘是指在Web这个信息源中挖掘出有用模式和隐藏信息的过程。然而,由于Web数据的规模庞大,使得Web数据挖掘在面对海量数据处理上面临着巨大挑战。  云计算是当前流行的分布式并行处理技术之一,它给大规模数据计算问题带来了一种分而治之的新思路,为解决大数据时代的Web数据挖掘问题带来了新的契机。MapReduce计算模式是云计算的关键技术之一,它为并行处理提供了一种底层分布式计算环境,从而简化了分布式应用程序的设计和开发。  论文的研究工作基于上述背景展开,选取了Web数据挖掘领域的Web结构挖掘和Web使用挖掘中的链接分析、数据预处理和频繁模式发现三个算法进行研究,针对目前Web数据海量性的特点,深入研究传统数据挖掘算法,探寻传统数据挖掘算法并行化和优化策略。  具体而言,本文主要研究工作包含如下四个方面:  (1)在MapReduce迭代计算方面,从迭代终止条件这一点展开研究,提出一种基于Counter结果传递的MapReduce迭代任务计算方法,并且在Hadoop平台原有的MapReduce框架上实现了迭代运算。  (2)在Web结构挖掘领域的链接分析方面,针对PageRank算法数据集特征和背后蕴藏的迭代运算本质,提出基于邻接表的幂迭代加速PageRank并行优化算法,采用邻接表来存放Web结构图,大幅的降低数据集的存储消耗,有效解决当前Web链接大数据存储和计算问题;同时,采用艾肯特不动点加速的思想,推导适用向量领域的迭代加速优化模型,将其应用到PageRank并行算法的计算中,有效减少PageRank迭代次数,降低执行时间。  (3)在Web使用挖掘领域的Web日志预处理算法方面,对数据清理,用户识别,会话识别,路径补充和事务识别的五个步骤进行深入研究,分别给出五个步骤的实现算法。特别针对会话识别这一关键步骤,综合页面访问时间会话识别算法和参引页面会话识别算法,提出了一种修正页面访问时间和参引页面的启发式会话识别算法;同时,针对目前 Web日志呈海量性的特点,利用MapReduce分布式编程模型思想,提出了Web使用挖掘预处理并行算法,有效解决了目前海量Web日志的预处理的效率问题。  (4)在Web使用挖掘领域的模式发现算法方面,提出一种新的非迭代频繁模式发现并行算法,该算法能够随机求出任意长度的频繁项目模式,非常适用于分布式并行环境,有效解决了传统频繁模式发现Apriori算法在求解长频繁模式时,时间开销大的问题。  基于上述研究内容,论文的创新点归纳如下:  (1)提出一种基于幂迭代的PageRank并行优化算法。该算法不仅能够大幅的降低数据集的存储消耗,有效解决当前海量Web链接结构数据的存储和计算问题,而且能有效减少PageRank迭代次数,降低算法的执行时间。  (2)提出一种基于MapReduce的日志数据预处理并行优化算法。该算法利用MapReduce思想将Web日志预处理的五个步骤有机结合起来,并行完成整个Web日志预处理过程;并且提出一种综合基于页面访问时间和参考页面的启发式会话识别优化方法,完成Web日志预处理的优化。  (3)提出一种非迭代频繁模式发现并行算法。该算法打破了传统 Apriori算法“自底向上”的频繁模式发现思想,能够随机求出任意 K-频繁模式,解决了Apriori算法求解最大频繁模式时间开销大的问题。  综上所述,论文研究了MapReduce的分布式并行计算模型和Web结构和使用挖掘中涉及到的三个关键算法:Web结构挖掘领域的链接分析算法、Web使用挖掘领域的Web日志预处理算法和Web日志模式发现算法,分别提出了适用于分布式环境的并行算法:基于幂迭代加速PageRank并行优化算法,Web使用挖掘预处理并行优化算法和非迭代频繁模式发现并行算法。论文的研究成果对于传统挖掘算法的并行化改造具有重要的理论参考意义,同时,对解决大数据时代网页搜索,用户访问模式发现等互联网应用所遇到的问题也有实际的指导价值。
其他文献
当代车辆数目逐步增多,车载网络呈现一种复杂性。目前,复杂网络已经变为各行各业的研究热点之一。将复杂网络应用到车载自组织网络中,这是一个挑战也是车载自组织网络研究的
合成孔径雷达(SAR)具有全天候、远距离、极强的穿透力和高分辨率等特点,在国民经济和军事领域中都有着广泛的应用。如何对SAR图像进行快速、准确地解译越来越引起人们的关注
即时消息业务用于在用户之间快速传递文本或多媒体信息,并能及时、有选择地向用户的联系人传递用户在线状态。近年来,即时消息业务发展迅速,不仅在互联网上积累了大量用户,在
在变电站自动化系统的发展过程中,由于缺少统一的电力规约,导致采用不同规约的设备之间进行互操作之前,要进行大量的规约转换工作,严重影响了变电站自动化系统的开发和运行的效率。为了解决这一问题,以实现设备互操作性为目标的IEC 61850标准被提出,并得到了广泛的研究和推广。本文首先介绍了IEC61850标准,包括IEC61850标准的组成、目的、系统结构、功能分解、信息模型、抽象通信服务接口(ACSI
彩铃业务是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。用户申请开通彩铃业务之后,可以自行设定个性化回铃音,在其做被叫时,为主
随着经济全球化,电子商务环境的竞争越来越激烈,人们必然会选择协商来解决利益冲突。利用agent自动协商技术可以替换人工协商费时、代价高、反应迟钝等缺点,有利于协商的效率
动作识别是计算机视觉领域的重要研究课题,同时也是当前极具挑战性的热点问题。近几年来它更加引起了人们的注意力,它在自动视频分析、视频监控、运动事件分析、人机交互和虚
移动业务终端是对移动营业厅的补充,在具有手机功能的同时,也具有营业厅的部分功能,可部署在营业厅覆盖不到的地方。移动业务终端采用了S3C2410嵌入式处理器和Windows CE.NET
贝叶斯网络参数学习是贝叶斯网络研究中的重点问题。有标记的训练样本充分时,极大似然估计方法是贝叶斯网络参数学习典型且有效的方法。但当有标记的训练数据稀少时,极大似然
门诊医生工作站能辅助门诊医生的日常医疗工作,规范门诊医疗文书,为诊疗提供各种辅助服务,从而提高医生的工作效率及医疗质量。医生工作站是医院临床信息系统的核心部分,复杂程度