论文部分内容阅读
舆情指的是在社会上形成的得到大量关注的事件,民众对于其的态度取向。随着互联网的发展,以及近些年来个人移动用户的大量增加,互联网现在已经成为有史以来最大的文本信息库。在事件的发展过程中,网络用户和媒体的大量参加,极易形成网络舆情事件,如何对于网络舆情事件进行分析已经对于政务工作形成了极大的考验。在这种情况下,随着自然语言处理技术和数据挖掘技术在近些年来的突飞猛进,其在文本处理方面表现出了极大的优势,利用现有的自然语言处理技术和数据挖掘技术技术对于网络舆情进行分析对于政府决策有着重要的价值,早日发现网络舆情信息,合理开展网络舆情的引导工作,已经成为现有政务工作不可或缺的一部分,因此舆情分析已经成为近些年来的研究热点。本文的主要工作和研究内容如下:(1)在舆情分析中主要会用到文本分类和聚类技术,本文基于传统卡方检验所存在的缺点,提出了一种结合频度和类间集中度的卡方检验的改进方法,实验证明该方法相对传统的卡方检验的方法有着良好的效果。(2)本文设计并实现了一个舆情分析系统,在围绕着政务需求进行了系统需求分析后,本文完成了文本分类,热点话题发现还有情感分析模块的设计和实现,并将本文提出的改进的卡方检验的方法应用于文本分类模块。(3)结合选题意义和现有舆情分析系统的有限性,本文提出使用文本分类技术对于确定文本主题进行筛选的一个方法,并应用于舆情分析系统中,设计了基于政务需求的舆情分析系统。(4)与传统的舆情分析系统不同之处在于,本文在情感分析模块,使用Google开源的词向量模型word2vec进行了词向量的训练,并和卷积神经网络进行结合,设计并实现了本文的情感分析模块。