论文部分内容阅读
近几年由于网络的发展,各种信息平台如天涯论坛,微博等的出现,加快了以往信息的传播速度。网络中的各种不同观点借由各种渠道开始迅速传播,这在方便沟通同时,亦易造成谣言、社会不良矛盾的扩散,甚至对于普通的事件进行添油加醋从而造成恶劣影响。有介于此,如何对于网络中的不良信息进行有效的控制,对正确的舆论进行有效的引导和扩散是一个急需解决的问题。由于网络中的信息是以文本表达,对于舆情分析的第一步需要对于文本信息进行数值建模,从而抽取出其中蕴含的舆情信息及相互之间的关系;其次需要对于用户进行建模,根据用户之间的交互来进行亲密度建模;最后通过演化模型对事件的发展进行预测和分析。有限信任模型考虑基本单位之间的交互关系,研究其亲密度、交互规则、演化规则、交互阈值等对于群体未来发展的影响。有限信任模型最初在统计物理方面显示出其优势,之后学者将其引入舆情演化的研究中,获得了比较好的效果,经过多年的研究,形成了几个比较典型的模型。Hegselmann-Krause模型(H-K模型)是其中的佼佼者,目前主要在仿真中取得了比较好的效果,但是在真实网络中,如何对于亲密度建模、交互舆情设定等,目前已有的研究还比较少。针对这些问题,本论文主要开展的工作如下:1)利用基于协程的分布式爬虫框架爬取天涯数据,并对其进行数据建模及分析。首先介绍了协程的机制并实现了一个基于协程的网络爬虫框架,并详细介绍了在具体应用中的数据更新及信息去噪机制。通过对用户社区结构的分析,基于用户活跃度来对用户进行分类,并基于回复关系来构建活跃用户社区,最后利用PageRank来对用户进行影响力建模。通过查询扩展对论坛建立信息分布模型,通过对于事件抽取关键词,对其进行查询扩展,最终通过对于词频进行统计,构建信息舆论模型。2)通过利用H-K模型的演化规则,基于粒子群的历史拟合方法对H-K模型的参数进行调优来对舆情演化进行预测。介绍了Sznajd模型与H-K模型的演化规则,并对粒子群算法进行了介绍,利用基于粒子群的网络拟合方法对历史舆情数据进行分析,通过基于粒子群方法的拟合来获取历史拟合参数,并利用演化数据进行修正从而获取演化模型,实验证明采用历史拟合方法比利用固定值的方法能够获得更高的历史吻合率。最后通过实例分析来对我们方法进行介绍。3)通过对于天卓舆情系统的设计分析,对数据库设计、架构设计进行了分析和并对相应舆情数据采集模块、舆情数值建模模块、舆情演化模块和舆情展示模块具体实现进行了分析。