论文部分内容阅读
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。随着互联网的发展与普及,人们开始借助网络这一平台发表自己对政治、社会、民生问题的见解,形成了网络舆情。网络舆情形成迅速,对社会影响巨大。由于信息海量,需要利用计算机建立对网络舆情的监测与分析系统,对其进行有效的监控。本文提出了网络舆情智能监测与分析系统的总体设计方案,并针对中山大学逸仙时空这一高校BBS,探讨主题监测模块的实现过程。本文主要探讨了主题监测模块实现中的四个关键性的问题:中文分词与未登录词发现,主题帖自动标引,同义词识别,以及文本倾向性分析。在本实验中采用了KTDictSeg中文分词系统,作为系统的分词组件。实验证明,该分词系统的分词速度理想,分词准确率达到百分之九十以上。同时,为改进该分词系统的未登录词识别能力,提出基于共现的未登录词识别算法。在对BBS主题帖进行自动标引研究中,运用统计标引法,根据帖子内容的长度分别提出四类不同的特征词抽取规则。将自动标引结果与人工标引结果进行对比,发现自动标引准确率达到百分之八十以上,而自动标引冗余率在百分之二十以下。这说明这些自动抽词规则较合理,标引效果较理想。本实验采用基于词典的字面相似度算法进行中文同义词识别,同时将中文转换为拼音再进行字面相似度计算,可以较好地解决由于BBS语言不规范而造成的同义词匹配结果不准确的问题。在现有汉语倾向性分析的研究基础上,本文首次提出了针对BBS主题帖及跟帖的倾向性分析方法。从主题帖倾向性人工判断与自动分析的结果对比来看,这一分析方法并不算太理想。除了应对倾向性词表进行筛选外,在算法中还应对倾向性词语所修饰的中心词进行有效的分析,以提高自动判断的准确度。