基于语义分析的网络舆情研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:shashasimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来中国互联网用户数量逐年增加,互联网用户通过网络平台宣泄情绪、表达诉求,使得政府、商业参与的热情和频率越来越高。然而社会转型时期出现的各种社会矛盾往往首先集中在网络平台上,形成强大的舆论压力。而Web2.0的快速发展,使互联网成为文化思想和各种言论观点的主要传播渠道。同时,每天不断大规模增长的舆情数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。因此,本文在国内外学者研究成果的基础上,结合机器学习、信息处理、新闻传播学、自然语言处理、数据挖掘等多学科理论和技术,从网络舆情分析的方法理论、技术和应用以及演化等方面进行了多角度的研究。本文的主要研究内容和创新点包括以下几个部分:第一部分(对应第二章)构建并阐释了网络舆情分析方法理论体系,即以基础方法为参考、常用分析方法为支撑、现代智能信息处理方法为导向的网络舆情分析方法体系。重点对文本内容挖掘法、智能分析法、网络测量分析法等方法进行了分析,并以网络舆情传播中的热点事件“长生疫苗”事件为例,利用内容分析法对该事件相关报导进行实验分析研究。在智能分析方面,本部分详细分析文本内容挖掘和主题结构挖掘的相关概念和算法思想以及其在网络舆情中的应用,并对Single-pass增量聚类算法在文本聚类方面的不足提出通过引入种子话题,新加入的文档只需要与聚类中的种子话题进行比较,并且在比较的过程中不断的更新种子话题来进行改进。第二部分(对应第三章)在第二章的基础上进一步完善网络舆情分析方法体系里的智能分析法。本部分重点探讨了基于外部语义知识的语义分析和潜在语义分析(LSA)。首先,基于外部语义知识的语义分析,本部分以知网为例,利用其作为系统的语义知识资源,分析了基于Hownet语义词典的相似度计算方法并针对词语间相似度计算方法只考虑义原间的距离因素,没有考虑义原深度等对相似度计算的影响,通过引入义原相对位置的影响因子和深度影响因子进行改进,并将其应用到句子相似度和段落相似度的计算过程中,通过相关实验验证改进后的方法计算结果更加准确,符合实际。其次,本部分通过研究潜在语义分析(LSA)的原理和奇异值分解法(SVD)的计算思想,针对SVD中奇异值k数量过大,生成的语义空间和原始向量空间模型高度相似,奇异值k数量过小,则会丢失有用的信息生成的语义空间中有用的结构太少的问题,给出奇异值k数量取值的两种方法,一是在实验过程中可将奇异值降幅最大的点作为临界点,此点对应的奇异值序号则是k值,二是在参考因子分析理论的基础上设定阈值选取前k个文本最大主因子,并给出了具体的降维步骤。最后,本部分针对LSA方法在文本表示和文本类别信息考虑上的不足,通过分析局部区域生成方法,提出了基于文本对类别相关度的大小作为局部区域生成的方法R-LLSA,并通过SVM分类器获取文本类别的相关度参数,同时将其用于局部空间生成过程。最后通过模拟实验将R-LLSA和LLSA-C、LSA-GL分类结果进行对比分析后发现,LLSA-R是一种效率更高的文本分类表示方法,且所需要的特征维度数最小,进一步优化了SVD过程。第三部分(对应第四章)将情感倾向性分析按照处理文本的粒度不同分为词语级、句子级、段落级以及篇章级并加以分析,重点探讨了最小粒度—词语的情感倾向性分析的两种方法:基于词典和基于语料。并且因为情感倾向性判断问题实际可以转化为序列标注问题,本部分参考相关标注模型---CRFs模型,并针对该模型在处理序回归问题时的不足提出了扩展式CRFs模型并得到良好的实验效果。第四部分(对应第五章)分析了网络舆情事件的内涵与特征,并对网络舆情事件的发生频度、趋势、网民群体行为以及演化特点进行了梳理和分析,以“长生疫苗”事件为例利用趋势分析法中的回归分析探讨舆情事件关注度。本部分主要通过选取新浪微博上2018年7月22~29日的10万条数据并将其作为训练数据,在进行数据噪声过滤、消歧去重等一系列处理后获得了活跃期内(50个小时)的1200条数据,以此为样本,构建了关于舆情关注度的两个指标(微博数和微博用户数量)的回归模型,并拟合其变化趋势生成相应的趋势线,得到合适的回归函数和最大拟合值,因此可以利用该模型预测出整个舆情事件中微博用户关注度的变化趋势情况。本部分通过参考Weisbuch-Deffuant模型的建模思想,结合网络舆情生成的特殊性以及个体观点接受度的异质性提出网络舆情演化过程中的个体观点交互规则并构建模型。并针对提出的交互规则通过三个仿真实验分别分析了个体观点接受度δ的分布状况、信任阈值θ以及意见领袖对网络舆情演化过程的影响。实验结果表明,相较于δ随机分布这一情况来讲,若δ服从均值为0.5的正态分布,那么网络舆情会快速收敛。而信任阈值θ体现的是群体的特征,若信任阈值θ值偏小,即意味着群体成员基本上不和其他个体产生观点交互,若信任阈值θ取值偏大,即意味着群体成员容易产生观点交互并在交互的过程中调整个人观点。最后一个结论是如果存在意见领袖对网络舆情演化过程有群体极化的影响。
其他文献
近年来,译者主体性这一概念成为翻译研究中愈来愈重要的话题之一。这一概念的提出不仅在理论上,而且在实践活动中体现着其重要性。过去译者被认为是仆人,应该隐身,译者的主体
医生在公共场所对患者突发伤病所实施的紧急救助行为,符合医疗卫生管理法规的特别规定,其行为不属于非法行医,亦不构成医疗事故;即使其行为被误认为是"非法行医"或"医疗事故",所
企业会计政策表现为企业会计过程的一种技术规范,企业管理当局在选择会计政策时,不得不综合权衡各方利益相关者的需要并从中获取自己的那部分利益。因此,企业会计政策选择将
固氮蓝藻是热带亚热带地区重要的微生物资源,其具有固氮作用,可以作为微生物绿色肥源替代化学氮肥。本研究从华南地区分离纯化稻田固氮蓝藻,筛选出两株优良藻株。评估了这两
研究顾客对酒店节能环保的态度及支付意愿有助于酒店进行产品细分及制定营销策略。本文通过对广交会期间酒店顾客的问卷调查,研究了酒店顾客对节能环保的态度、支付意愿及其
公民治理理论虽源于西方国家,但以公民为中心的制度设计理念与我国基层的村(居)民自治都是基于人民主权理论,因此公民治理的精神应运用于包括中国在内的任何以人民主权为政治
大气颗粒物是造成气候变化及空气质量变化的重要污染物,且对人体健康有一定的危害。与大气粗颗粒物相比,大气细颗粒物(PM2.5)具有更小的粒径及更大的比表面积,因此,大气细颗
本文主要通过随机抽取的方式,对桂林市城区10所学校的46位教师和11所学校的3300位学生进行问卷调查。调查内容为桂林市城区中小学生的体育课程教学以及学生体质健康情况,调查
<正>本书从资料搜集入手,于正史之外容易被忽略的细节判断历史人物和历史现象,分析现代以来知识分子的命运。一切发生过的历史,无论当时或后人如何评价,这些历史本身都具有研
中国作为一个人口大国,出租车行业是城市交通的一支新生主力军,但是由于传统出租车公司垄断化经营已经根深蒂固、市场供求失衡状况变得日益突出,另外相关政策法规建设相对滞