话题区分的微博情感分析技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:Bo_Gao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博社交网络在中国迅速地兴起,成为网民社交、舆论的主要场所。在微博上,用户能够关心他们喜欢的话题,并对其发表看法,这些数据能够用来研究集体社会行为。同时,大部分用户倾向于表达对某个焦点人物的支持或反对,对某一热点话题的立场等。所以,研究微博的话题区分和倾向性有非常重大的意义。本文以一段时间内微博为研究对象,设计并实现了一个话题区分的微博情感分析模型。主要工作如下:(1)对微博进行了话题区分。首先提取微博中的话题相关信息,即特征项。然后通过K-means聚类算法对经过预处理的微博实施类别划分,将具有同一话题的分为一类。最后通过LDA主题模型识别每类微博中的主题,从而实现对微博的话题区分。本文给出了聚类有效性评价实验和微博话题区分实验,证明了微博话题区分模型的有效性及稳定性。(2)建立了微博情感词典。首先在已有情感词汇资源的基础上,建立了包含褒义词典和贬义词典的基础情感词典,并通过计算词汇相似度的方法判别未知情感词语的情感倾向,从而扩展基础情感词典。然后通过依存分析及词频统计的方法发现微博新词,并计算微博新词的情感值,从而判断微博新词情感倾向。本文对COAE2008微博数据集进行了未知倾向词语判断实验,结果表明本文未知倾向词语判别模型准确率更高,且比较稳定。(3)建立了微博情感分析模型。首先,通过本文建立的微博情感词典,运用句法分析方法来计算微博情感值,从而将微博分为正面微博、负面微博及中性微博。然后选取了一定比例的正面微博及负面微博作为训练集,通过支持向量机算法对不属于训练集的微博进行分类,最终得到所有微博的情感倾向。为验证微博情感分析模型的准确性,本文对COAE2013微博数据集进行实验,并将实验结果与COAE2013各指标的最佳结果进行对比,结果表明,本文设计的情感分析模型效果更为理想。(4)给出了话题区分的微博倾向性判断实验。本文对话题区分后的微博进行了倾向性判断,获得了一周微博数据集上每个话题中各用户的倾向性,从而计算出了热点话题中正面、负面及中性微博所占的比例,并获得各热点话题活跃用户的倾向性。
其他文献
随着第三、四张移动业务牌照的发放,联通将面临更激烈的竞争形势,这种竞争不仅在增量市场,而且在存量市场同样激烈,以客户为本已成为主要的经营理念,客户关系管理(Customer Relati
随着Internet的不断发展,互联网给人民的生活带来了越来越多的便利,许多服务已经成为人们日常必不可少的组成部分。但随之而来的是网络安全环境的日益恶化,人们在享受网络带来的
随着互联网的迅速发展,网络资源的信息量也急剧增长。面对海量数据、海量查询、实时响应的搜索引擎应用需求,如何高效地为用户查询提供实时的响应成为搜索引擎面临的一个重要
当今,OSPF作为应用最广的IGP被大量部署在运营商城域网和企业内部局域网上,但现有的技术手段却很难对其进行有效监测,这给网络维护和新业务推广带来了很大的障碍。如何对OSPF网
随着计算机和网络技术的不断发展,信息安全已经成为各行各业不容忽视的因素之一。社会的各个领域都在努力利用现有技术建立网络化的应用体系,进而实现信息交互和资源共享。任何
随着信息技术的发展和电子商务的兴起,企业的生产经营方式发生了很大的变化。目前一个企业生存和发展的关键在于如何在激烈的竞争中作出快速而准确的反应,企业间竞争的方式也由
数据集成的目标是为用户访问多个异构的数据源提供统一的应用界面,从而使用户将注意力集中在他们想要的特定结果上,而不必关心如何获得这些结果。本文针对国内外有关数据集成
软件项目风险是指在软件开发计划的执行过程中可能遇到的,软件开发成本、开发进度和软件质量等方面的问题,这些问题会影响项目计划的实施。如果项目风险变成现实,标志着项目已经
由于网络的开放性特点,信息安全问题也就显得日益突出。要保证在公开信道中传输的数据的安全性,最重要的手段之一,就是采用数据加密和认证。而现代密码体制总是假定加密算法是公
可视化的应用开发技术由于直观、易用等优点,正成为并行离散事件仿真应用集成技术发展的趋势。目前,在仿真对象构建完成的情况下,传统应用集成通常以手工编写代码的方式来完