论文部分内容阅读
以微博为代表的社交媒体已经发展成为一种新的传播媒介,为人们带来了信息获取、发布和传递的便利与自由,彻底改变了人们的信息传播格局和生活模式。但是,社交媒体低成本、用户广、传播快的特点也为社会安全事件的传播和扩散带来了便利,大大增加了其危害性和破坏程度,使其成为国外敌对势力和国内不法分子散布谣言、发布网络攻击的重要阵地,以达到颠覆国家政权、破坏民族团结、阻碍社会稳定、损害人民利益的目的。因此,开展网络社交媒体中社会安全事件的侦测,并对公众的情感倾向和趋势进行分析和预测不仅具有重要的理论价值,而且对于维护国家安全、保持社会稳定具有十分重要的现实意义。本文以新浪微博为研究对象,对微博中社会安全事件的侦测、公众的情感倾向性和公众情感趋势分析与预测进行了研究,研究工作覆盖了微博中社会安全事件网络舆情的发现、理解、分析和预测,形成了一整套社交媒体中社会安全事件的分析方法和相关理论。主要研究工作和成果如下:(1)微博基础资源库建设方法的研究提出了一种微博数据爬取方法和微博文本预处理策略,并构建了微博文本预处理用户词典。通过对微博数据爬取技术的研究,构建了基于网络爬虫和新浪API相结合的微博数据爬取策略,针对微博文本的特点,制定了相应的微博文本预处理方案,并构建了大量的用户词典,包括66万多的常用词词典、4万多的专用名词词典和将近8百多的专用名词后缀词典等,完成了微博基础资源库的建设。(2)词语语义相关度计算方法的研究提出了一种基于语义关系图的词语语义相关度计算模型。通过对How Net语义知识库中语义关系的提取和大规模语料库中词语语义搭配关系的抽取,构建了词语语义关系图,在词语语义关系图的基础上,采用图论的相关算法和理论,构建了基于语义关系图的词语语义相关度计算模型。实验表明,该模型对词语语义相关度的计算性能较好,并且可以通过添加领域语料以达到词语语义相关度计算领域适应性的目的。(3)微博中社会安全事件侦测方法的研究提出了一套微博中社会安全事件特征词表示体系和社会安全事件侦测模型。从社会安全事件的突发性和主题性出发,从能够表征事件的基本要素、能够表征事件的信息主题、与事件话题标签相关、能够体现突发性和能够很好过滤广告性五个方面,构建了社会安全事件特征词表示体系,结合词语语义相关度计算模型,构建了基于凝聚式层次聚类和增量聚类的社会安全事件侦测模型。实验表明,该模型提取的特征词具有较强的代表性,并且其社会安全事件的侦测性能较好。(4)微博文本的情感分析方法和公众情感倾向性分析方法的研究提出了一种基于双重注意力机制的微博文本情感分析模型和公众情感倾向性分析模型。针对微博文本情感表达的特点,构建了包括六类情感符号的微博情感词典,在此基础上,采用注意力机制对微博文本的LSTM建模结果和微博文本中包含的情感符号分别建模,构建了基于双重注意力机制的微博文本情感分析模型,并采用情感倾向的倾向程度作为衡量指标,构建了公众对特定社会安全事件的情感倾向分析模型。实验表明,本文的情感分析模型较现有的最好模型有一定的性能提升。(5)公众情感趋势分析与预测方法的研究提出了一套情感趋势分析指标和情感趋势分析及预测模型。针对情感趋势分析与预测的需求,构建了包括特定情感倾向微博数目和特定情感倾向微博比重两类共计6个情感趋势分析指标,采用多项式拟合的分析方法,构建了情感趋势分析模型,并通过融合多粒度时间片下情感趋势拟合回归函数的斜率变化情况,构建了情感趋势预测模型。通过相关的实际案例分析,表明本文的模型具有较好的性能。最后,基于SSM架构和Bootstrap框架以及Echarts组件实现了一个微博中社会安全事件公众情感分析系统。系统由微博数据的采集与预处理、社会安全事件的侦测、公众情感倾向性分析和公众情感趋势分析和预测四个模块构成,可以对社会安全事件的侦测、微博文本的情感分析以及公众情感倾向及情感趋势分析与预测的相关模型与算法进行实验。