分布式微博采集系统的设计与实现

被引量 : 0次 | 上传用户:w354026268
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一个新兴互联网平台,改变了公众媒体习惯和信息传播模式,并成为社会化媒体中消息最即时、用户最活跃的信息传播平台。截至2012年12月底,中国微博用户数已达到3.09亿,占网民总数的54.7%。针对微博展开的研究有助于了解舆论动向、追踪热点话题、区分社交网络中不同社会群体,具有很重要的社会和科研意义,而这些研究都需要大量的微博数据做支撑。虽然国内外已有众多机构和组织针对微博数据采集展开研究,但因为微博具有新兴性和特殊性,目前仍没有出现像针对传统互联网应用那样较为成熟的数据采集方法,因此针对微博数据采集展开研究具有重要意义。本研究设计实现了分布式微博采集系统,具体工作包括:1)设计并实现通过调用开放平台接口采集微博数据,包括开放平台认证授权和编程接口等技术的研究和使用;2)设计并实现通过模拟登录解析页面采集微博数据,包括单点登录、页面解析等技术的理解和运用;3)结合以上两种采集方式,设计微博采集系统的总体框架、功能模块和数据库,并使用分布式策略实现一个高效易扩展的微博数据采集系统。使用本系统,用户只需导入要采集的目标微博用户账号,并选择要采集的数据类型,即可快速获得采集结果,同时可根据需要修改系统规模来调整采集速率。经过功能测试和数据采集速率测试,证明本系统可以稳定高效地采集微博数据,并且支持动态扩展,为基于微博数据展开的研究工作奠定了基础。
其他文献
随着电子式互感器的逐步推广,其与二次保护、测量与控制设备之间的数字接口问题逐渐成为一个受到广泛关注的问题。为解决该问题,IEC60044-7/8标准首次提出了合并单元的概念, IEC
目的分析尿毒症透析患者凝血功能的变化及其临床意义。方法选取在我院确诊并计划接受血液透析治疗的66例尿毒症患者作为病例组,并选取66例健康正常人群作为对照组,分别测定对
个人所得税是直接对个人(自然人)各项所得所征收的一种所得税,它是政府稳定经济、缩小贫富差距、组织财政收入的方式与手段。特别地,伴随着我国经济的发展水平、税收的征管水
<正> 地对空战术防空导弹攻击区的显示是作战人员掌握导弹发射时机的依据。导弹的攻击区通常是由目标的航路、速度以及导弹本身的性能等因素所决定的。本题将研究被动式红外
目的:编制一个针对椎-基底动脉系统缺血性脑血管病的神经功能障碍评价量表,并对该量表的信度和效度进行检测、分析。方法:本研究借鉴心理学测评编制的原则和方法,编制了"椎-
随着互联网技术的飞速发展,音乐数字化技术也为人类的生活带来巨大的影响。在音乐网络教学领域,音乐课件等音乐数字化技术已经得到广泛应用。但音乐的核心媒介——乐谱,在当前各
本文对5例脑淀粉样血管病患者临床资料进行分析时认为:脑淀粉样血管病均以脑血管病的临床形式表现,多伴有CAA—AV改变,高血压、Alzheimer病及脑淀粉样血管病并存可增加脑梗塞
认知视角下的隐喻理论认为隐喻可定义为从源域(经验域)向目标域(抽象域)的系统映射。在认知理论指导下解读艾米莉·狄金森的诗歌My Life had stood-a Loaded Gun中的多元隐喻
自20世纪90年代以来,新生代脑力劳动者在各国经济发展中显示出强大、持久的竞争优势。新生代脑力劳动者逐渐发展成企业的主干力量。新生代脑力劳动者作为创新的载体对促进社会
目前我国社团腐败主要发生在具有官方背景的社团,其中经济类社团和专业类社团是社团腐败的高发地带。转型中的社团腐败形成的原因非常复杂,政府与社会的界限不清、制度设计缺