面向互联网中文舆情信息的情感倾向分析

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:kkaJov2Qc88R
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展以及互联网应用的不断普及,Internet上的信息与日俱增,互联网已经成为越来越多的人们获取信息的重要来源,同时也成为人们表达自己观点的平台。网络舆情是大多数互联网用户关于社会中各种现象和问题所表达的信念、态度、意见和情绪等表现的总和,互联网被人们使用的越来越频繁,随之也产生了大量带有情感色彩的评论文本。对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以及时地通过理解互联网用户的行为来理解社会个体的行为,从而分析出时下的热点舆情,为政府和企业等社会管理者在决策时提供了重要的依据。本文首先介绍了舆情以及互联网舆情的相关概念,以及对其进行情感分析的研究背景和应用前景;然后以网络爬虫抓取的评论网页为研究对象,对其概念、特点依次进行了介绍;接着按照评论的情感倾向分析流程,分别从互联网舆情评论的获取及预处理和评论的情感倾向分析两方面进行了深入研究。在互联网舆情评论的获取及预处理过程中,本文提出了一种基于聚类的垃圾评论检测方法;对于互联网舆情评论的情感倾向分析,提出了一种基于非负矩阵分解的文本特征选择方法。互联网上关于舆情信息的评论量之大,同时这些评论中不可避免地存在一些与情感倾向分析这个任务不相关的垃圾评论,对分析其情感倾向产生了干扰,影响了情感倾向分析的准确性。针对这一问题,本文设计了一种无监督的检测方法——基于聚类的垃圾评论检测方法,检测并过滤垃圾评论后为情感倾向分析提供了可靠有用的评论数据。最后,以互联网上公开的中英文评论数据集作为实验数据,对文中提出的垃圾评论检测方法进行了实验验证,验证了该方法的有效性。大量的评论文本在用向量空间模型表示时,产生的过大特征空间会导致此后的情感倾向分析过程耗费更多的时间和空间资源,因此进行文本特征选择十分必要。本文在文本预处理的基础上,根据评论文本数据的特点并对比其它几种特征选择方法,提出了一种文本特征选择方法——基于非负矩阵分解的文本特征选择方法,并利用现有的文本分类器对几种文本特征选择方法进行了对比,实验结果表明该文本特征选择方法在对舆情评论情感倾向分析时具有较高的的准确性。
其他文献
为进一步认识黄土高原水土保持措施效益的动态变化特征,使用11个不同水土保持生物措施下的径流小区资料,从产流降雨的角度,分析了农(作物)、草、林灌三种不同生物措施减水减沙作用的年际和年内变化。结果表明,随着年汛期产流降雨的增加,年减沙量与年减水量呈S型增长趋势,农、草类的年减水减沙率有变稳定的趋势,而林灌类的减水减沙率随年汛期产流降雨的增加变化不大;由于农事和农作物的生长特点,相对于林灌类,农、草类
该文阐述生态—经济系统恢复与重建的内涵、应遵循的原则与框架 ,论述生态、经济、社会要素彼此相互作用对生态—经济系统恢复与重建的影响 ,以及我国生态—经济系统恢复与重建的重要意义。指出生态—经济系统的失衡 ,一方面是受自然生态脆弱因子的影响 ,另一方面是受人类不适当的生产和生活行为的影响。生态恢复与重建不能仅限于生态系统层次 ,而应是多尺度、多等级的 ,应从生态系统到景观及整个生态—经济系统 ,应是
笔者结合自身的实际工作经验探析水稻的种植与施肥技术,以期对种植户提供一定的帮助与参考。
由于青海湖地区的草地蝗虫对气温、降水等气候因子的敏感性 ,因此气候的空间分异明显地决定了蝗虫的空间分布。根据该区蝗虫优势种的生命史及关键时期相应地选取 5种气候指标 ,即蝗虫发生当年 1月的负地温的积温、5月下旬的积温、6月下旬的积温、5 - 7月的湿润指数以及上年 8月的湿润指数 ,在地理信息系统软件Arc/Info的支持下 ,建立了青海湖地区草地蝗虫发生信息的GIS样点数据库及 5种气候指标的
本文通过对成都市居住区停车问题的调查、分析,综合对成都市部分居住小区对于可停车空间的开发利用情况的调研结果,数据分析,结合国内外居住区停车空间建设的实践和经验,力求
该文通过结构法和非结构法相结合,对南京城市旅游形象进行问卷调查,发现游客对南京形象的认知主要集中在"古老"、"绿化好"和"文化底蕴深厚"方面.南京在旅游信息获取、旅游事
宋代佚名的《百花图卷》是一幅中国古代工笔花鸟画的经典代表性作品之一。在众多工笔花鸟画中,其风格、意境独树一帜,既具有宋代花鸟画的一般属性,又有开文人画先河的意向,在