论文部分内容阅读
文本情感分类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对情感分类问题的文本向量表示形式和向量权值计算进行了深入的讨论和研究,设计实现了基于主题相关性的中文文本情感分类系统。在传统主题分类系统的基础上,考虑了文本语义信息对情感分析的重要性,提出了以下几方面的见解和方法:第一,改进了情感分类问题的文本向量表示形式,提出了文本概念空间向量模型。在情感类文本中,文本作者往往通过对文本主题对象或者对象的属性及属性间关系的评价来表达情感态度和观点偏向,概念空间向量模型充分体现了文本情感语义表达的这一特点。第二,提出了文本概念抽取和归纳算法。用概念来表示文本的主题对象和对象属性及其属性间关系。通过知网知识系统,对概念空间进行归纳,有效地解决了维数过高和概念间的同义、近义相关性问题。本文给出了概念抽取和归纳的具体算法和详细流程图,实验数据表明,通过概念归纳,分类准确度提高了4%。第三,引入了主题相关度函数作为特征概念选择的评价标准。充分考虑了概念相似性与相关性之间的联系,利用知网知识系统概念义原间的关系建立相关度计算模型。第四,提出了概念情感度量值的计算方法。基于知网知识系统的情感类词汇词典,结合句子成分的依存关系分析,详细讨论了概念的情感权值计算方法,并给出了具体的计算公式。该方法综合考虑了程度副词的影响,并通过引入反文档倾向系数,消除了对情感表达区分度小的概念情感分值的影响。实验数据显示,程度副词的分级加权,使分类准确率提高了2%。最后,根据文本概念空间向量模型和概念情感权值计算方法,实现了基于主题相关性的中文文本情感分类系统。在系统实验中,通过k最近邻、朴素贝叶斯和支持向量机三种分类算法对多个主题的文档进行了测试并验证了概念空间维数大小对分类准确率的影响,实验结果表明,本文所设计的分类系统,准确率和召回率分别达到83%和84%,表现出了较好的性能和稳定性。