论文部分内容阅读
网络新闻以及时、全面的特点成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。网络新闻的表达形式多样化,内容的情感倾向也各不相同,所表达的情感倾向有正面的,也有负面的。因此网络舆情监督日益重要,对网络文本观点性内容的自动情感分析成为近期文本信息处理的一个研究热点,而其中的核心技术就是文本情感分类。文本中涉及到情感分类的对象一般有词汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研究面临很多的困难。为此,本文主要研究中文新闻文本的情感分类,分别在句子级别和文档级别进行了下述创新性研究工作。首先,构建中文新闻的语料库,构建情感词极性词典。其次,句子级别的情感分类的研究。本文给出了三个句子级别的情感分类模型:句法分析模型:第一步,收集包含主题词和情感词配对修辞关系的句法路径模板,存入数据库;第二步,输入分句块,构建基于依赖关系语法树,从句法角度判断是否存在修饰关系。基于向量空间分析模型:以主题词为中心,分别向前向后计算情感词和主题词的向量距离,以向量距离为基础计算情感得分。强力模型:查找主题词和情感词及二义词,从而确定情感倾向。再次,文档级别的情感分类的研究。文档级别的情感分类研究,是在句子级别的基础上开展的,本文给出了三个文档级别的情感分类模型:基于语义指向模型:主要包括预处理步骤、情感词否定词综合处理步骤、主题词和情感词综合处理步骤、主题词和情感词权重处理步骤。SVM模型:采用SVM算法,依次进行特征提取,SVM训练,将待测集进行句子级别的情感分析,再用SVM训练好的model样本进行计算。强力模型:查找文档中是否存在主题词和情感词,从而确定情感倾向。将各模型分别通过已经构建好的中文新闻语料库进行测试,不同级别的情感分类的不同模型,性能各有优劣,其中句子级别中的句法分析模型和文档级别中的基于语义指向模型都表现出了很高的性能水平。