论文部分内容阅读
随着互联网技术的迅猛发展以及互联网应用的不断普及,Internet上的信息与日俱增,互联网已经成为越来越多的人们获取信息的重要来源,同时也成为人们表达自己观点的平台。网络舆情是大多数互联网用户关于社会中各种现象和问题所表达的信念、态度、意见和情绪等表现的总和,互联网被人们使用的越来越频繁,随之也产生了大量带有情感色彩的评论文本。对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以及时地通过理解互联网用户的行为来理解社会个体的行为,从而分析出时下的热点舆情,为政府和企业等社会管理者在决策时提供了重要的依据。本文首先介绍了舆情以及互联网舆情的相关概念,以及对其进行情感分析的研究背景和应用前景;然后以网络爬虫抓取的评论网页为研究对象,对其概念、特点依次进行了介绍;接着按照评论的情感倾向分析流程,分别从互联网舆情评论的获取及预处理和评论的情感倾向分析两方面进行了深入研究。在互联网舆情评论的获取及预处理过程中,本文提出了一种基于聚类的垃圾评论检测方法;对于互联网舆情评论的情感倾向分析,提出了一种基于非负矩阵分解的文本特征选择方法。互联网上关于舆情信息的评论量之大,同时这些评论中不可避免地存在一些与情感倾向分析这个任务不相关的垃圾评论,对分析其情感倾向产生了干扰,影响了情感倾向分析的准确性。针对这一问题,本文设计了一种无监督的检测方法——基于聚类的垃圾评论检测方法,检测并过滤垃圾评论后为情感倾向分析提供了可靠有用的评论数据。最后,以互联网上公开的中英文评论数据集作为实验数据,对文中提出的垃圾评论检测方法进行了实验验证,验证了该方法的有效性。大量的评论文本在用向量空间模型表示时,产生的过大特征空间会导致此后的情感倾向分析过程耗费更多的时间和空间资源,因此进行文本特征选择十分必要。本文在文本预处理的基础上,根据评论文本数据的特点并对比其它几种特征选择方法,提出了一种文本特征选择方法——基于非负矩阵分解的文本特征选择方法,并利用现有的文本分类器对几种文本特征选择方法进行了对比,实验结果表明该文本特征选择方法在对舆情评论情感倾向分析时具有较高的的准确性。