BBS舆情主题监测关键性问题研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:msjzkdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。随着互联网的发展与普及,人们开始借助网络这一平台发表自己对政治、社会、民生问题的见解,形成了网络舆情。网络舆情形成迅速,对社会影响巨大。由于信息海量,需要利用计算机建立对网络舆情的监测与分析系统,对其进行有效的监控。本文提出了网络舆情智能监测与分析系统的总体设计方案,并针对中山大学逸仙时空这一高校BBS,探讨主题监测模块的实现过程。本文主要探讨了主题监测模块实现中的四个关键性的问题:中文分词与未登录词发现,主题帖自动标引,同义词识别,以及文本倾向性分析。在本实验中采用了KTDictSeg中文分词系统,作为系统的分词组件。实验证明,该分词系统的分词速度理想,分词准确率达到百分之九十以上。同时,为改进该分词系统的未登录词识别能力,提出基于共现的未登录词识别算法。在对BBS主题帖进行自动标引研究中,运用统计标引法,根据帖子内容的长度分别提出四类不同的特征词抽取规则。将自动标引结果与人工标引结果进行对比,发现自动标引准确率达到百分之八十以上,而自动标引冗余率在百分之二十以下。这说明这些自动抽词规则较合理,标引效果较理想。本实验采用基于词典的字面相似度算法进行中文同义词识别,同时将中文转换为拼音再进行字面相似度计算,可以较好地解决由于BBS语言不规范而造成的同义词匹配结果不准确的问题。在现有汉语倾向性分析的研究基础上,本文首次提出了针对BBS主题帖及跟帖的倾向性分析方法。从主题帖倾向性人工判断与自动分析的结果对比来看,这一分析方法并不算太理想。除了应对倾向性词表进行筛选外,在算法中还应对倾向性词语所修饰的中心词进行有效的分析,以提高自动判断的准确度。
其他文献
大力开发档案信息资源,为用户提供服务,是档案工作的出发点和归宿。随着计算机网络和现代信息技术的发展,档案信息服务成为一个涉及理论和时间两个层面的复杂问题,对档案信息
公共图书馆作为公益性信息机构,其宗旨就是为公众提供开放、免费、平等的信息服务,因此,它在保障信息公平,消除数字鸿沟过程中发挥着极其重要的作用。具体来说,公共图书馆的
随着信息产业和物流产业的不断发展,有效的供应链带给企业越来越多的好处。其高效、快速、敏捷的运作特点大大降低企业的库存和运输成本,兼容并包的先进管理方法带给企业可观的