大规模信息网络挖掘的分布式计算框架的设计

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ianying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的高速发展,大规模信息网络在各个领域不断地涌现,如万维网、社交网络、即时通讯和生物信息网络等。这些由大量的相互作用的不同类型的个体组成的信息网络往往隐含着一定的模式和规律。对于这些大规模信息的研究无论是对于自然科学的探索还是对于人类社会行为的研究都具有重要的意义。自然界中广泛存在的信息网络,如生物信息网络、神经网络等已经成为科学界发现新模式和新规律的一个重要窗口。而大规模在线社交网络为社会学家研究了人类的行为方式和社会发展提供了一个难得的契机。同时在商业领域,对互联网中的大规模信息网络的挖掘在公司的商业决策和产品推广中扮演着越来越重要的角色。大规模信息网络的分析给学术领域和工业领域都带来巨大的挑战。首先,传统的数据分析方法并不能很好的应用于当前的大规模信息网络的分析。传统的数据分析算法往往复杂度过高,不能够应对数据规模巨大的信息网络。其次,基于单个高性能计算机的计算能力已经不足以容纳和分析如此大规模的网络数据,分布式计算的成为数据分析的新趋势,这对数据存储和系统设计提出了新的要求。针对上述挑战,本文主要研究在分布式计算环境下的大规模信息网络挖掘在数据划分、计算模型和分析方法上所面临的问题。在数据划分方面,本文提出了一个大规模并行图数据分割算法,能够高效地和并行地在分布式环境下进行数据的划分,有效地减少了系统的通信开销,提高了系统的计算性能。在计算模型方面,本文提出了一个多路消息传播机制,该消息传播机制能够一次迭代计算中进行多路消息传播,提高了系统的并行计算效率。在分析方法上,除了传统的基于图的分析方法外,本文还提出了一个矩阵分解的算法框架。该矩阵分解算法框架通过不同规则项的设计来融合不同信息网络之间的信息,供了大规模信息网络分析的一个通用的算法框架。最后本文基于上述的研究成果,设计了一个用于大规模信息网络挖掘的分布式计算框架,用户只需编写少量的代码便可以进行大规模信息网络的分析,而不必考虑分布式系统的具体细节。
其他文献
近年来,随着企业信息化系统建设的不断推进,工作流系统已经得到了越来越广泛的应用。企业针对不同领域开发出各式各样的工作流程应用于日常的生产实践中,极大地提高了企业办
MCAI技术从90年代初期发展至今,已日渐成熟.它主要涉及到多媒体、数据库、人工智能、数据通信以及教育心理等多学科.目前主要研究方向有系统模型、标准化、多媒体的数据压缩
近年来,伴随着信息技术的迅猛发展,以文本、图像、音频、视频等为载体的数字技术得到广泛应用,给人们带来了极大的便利。然而,在带来了便捷的同时,也带来了侵权、盗版等问题
无线传感器网络(WSNs)是一种以现代传感器技术、微机电系统、嵌入式计算、分布式信息处理和网络通信技术等为基础的多学科综合信息获取和处理技术。大量低成本、低功耗的微型