论文部分内容阅读
近年来,微博社交网络在中国迅速地兴起,成为网民社交、舆论的主要场所。在微博上,用户能够关心他们喜欢的话题,并对其发表看法,这些数据能够用来研究集体社会行为。同时,大部分用户倾向于表达对某个焦点人物的支持或反对,对某一热点话题的立场等。所以,研究微博的话题区分和倾向性有非常重大的意义。本文以一段时间内微博为研究对象,设计并实现了一个话题区分的微博情感分析模型。主要工作如下:(1)对微博进行了话题区分。首先提取微博中的话题相关信息,即特征项。然后通过K-means聚类算法对经过预处理的微博实施类别划分,将具有同一话题的分为一类。最后通过LDA主题模型识别每类微博中的主题,从而实现对微博的话题区分。本文给出了聚类有效性评价实验和微博话题区分实验,证明了微博话题区分模型的有效性及稳定性。(2)建立了微博情感词典。首先在已有情感词汇资源的基础上,建立了包含褒义词典和贬义词典的基础情感词典,并通过计算词汇相似度的方法判别未知情感词语的情感倾向,从而扩展基础情感词典。然后通过依存分析及词频统计的方法发现微博新词,并计算微博新词的情感值,从而判断微博新词情感倾向。本文对COAE2008微博数据集进行了未知倾向词语判断实验,结果表明本文未知倾向词语判别模型准确率更高,且比较稳定。(3)建立了微博情感分析模型。首先,通过本文建立的微博情感词典,运用句法分析方法来计算微博情感值,从而将微博分为正面微博、负面微博及中性微博。然后选取了一定比例的正面微博及负面微博作为训练集,通过支持向量机算法对不属于训练集的微博进行分类,最终得到所有微博的情感倾向。为验证微博情感分析模型的准确性,本文对COAE2013微博数据集进行实验,并将实验结果与COAE2013各指标的最佳结果进行对比,结果表明,本文设计的情感分析模型效果更为理想。(4)给出了话题区分的微博倾向性判断实验。本文对话题区分后的微博进行了倾向性判断,获得了一周微博数据集上每个话题中各用户的倾向性,从而计算出了热点话题中正面、负面及中性微博所占的比例,并获得各热点话题活跃用户的倾向性。