论文部分内容阅读
微博作为一个新兴互联网平台,改变了公众媒体习惯和信息传播模式,并成为社会化媒体中消息最即时、用户最活跃的信息传播平台。截至2012年12月底,中国微博用户数已达到3.09亿,占网民总数的54.7%。针对微博展开的研究有助于了解舆论动向、追踪热点话题、区分社交网络中不同社会群体,具有很重要的社会和科研意义,而这些研究都需要大量的微博数据做支撑。虽然国内外已有众多机构和组织针对微博数据采集展开研究,但因为微博具有新兴性和特殊性,目前仍没有出现像针对传统互联网应用那样较为成熟的数据采集方法,因此针对微博数据采集展开研究具有重要意义。本研究设计实现了分布式微博采集系统,具体工作包括:1)设计并实现通过调用开放平台接口采集微博数据,包括开放平台认证授权和编程接口等技术的研究和使用;2)设计并实现通过模拟登录解析页面采集微博数据,包括单点登录、页面解析等技术的理解和运用;3)结合以上两种采集方式,设计微博采集系统的总体框架、功能模块和数据库,并使用分布式策略实现一个高效易扩展的微博数据采集系统。使用本系统,用户只需导入要采集的目标微博用户账号,并选择要采集的数据类型,即可快速获得采集结果,同时可根据需要修改系统规模来调整采集速率。经过功能测试和数据采集速率测试,证明本系统可以稳定高效地采集微博数据,并且支持动态扩展,为基于微博数据展开的研究工作奠定了基础。