基于主题相关性的中文文本情感分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fanfansis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对情感分类问题的文本向量表示形式和向量权值计算进行了深入的讨论和研究,设计实现了基于主题相关性的中文文本情感分类系统。在传统主题分类系统的基础上,考虑了文本语义信息对情感分析的重要性,提出了以下几方面的见解和方法:第一,改进了情感分类问题的文本向量表示形式,提出了文本概念空间向量模型。在情感类文本中,文本作者往往通过对文本主题对象或者对象的属性及属性间关系的评价来表达情感态度和观点偏向,概念空间向量模型充分体现了文本情感语义表达的这一特点。第二,提出了文本概念抽取和归纳算法。用概念来表示文本的主题对象和对象属性及其属性间关系。通过知网知识系统,对概念空间进行归纳,有效地解决了维数过高和概念间的同义、近义相关性问题。本文给出了概念抽取和归纳的具体算法和详细流程图,实验数据表明,通过概念归纳,分类准确度提高了4%。第三,引入了主题相关度函数作为特征概念选择的评价标准。充分考虑了概念相似性与相关性之间的联系,利用知网知识系统概念义原间的关系建立相关度计算模型。第四,提出了概念情感度量值的计算方法。基于知网知识系统的情感类词汇词典,结合句子成分的依存关系分析,详细讨论了概念的情感权值计算方法,并给出了具体的计算公式。该方法综合考虑了程度副词的影响,并通过引入反文档倾向系数,消除了对情感表达区分度小的概念情感分值的影响。实验数据显示,程度副词的分级加权,使分类准确率提高了2%。最后,根据文本概念空间向量模型和概念情感权值计算方法,实现了基于主题相关性的中文文本情感分类系统。在系统实验中,通过k最近邻、朴素贝叶斯和支持向量机三种分类算法对多个主题的文档进行了测试并验证了概念空间维数大小对分类准确率的影响,实验结果表明,本文所设计的分类系统,准确率和召回率分别达到83%和84%,表现出了较好的性能和稳定性。
其他文献
随着微机电系统、集成电路、无线通信与信息网络等技术的迅速发展,无线传感器网络作为感测监控网及无线个域网的一种新的应用模式成为近年来学术界和工业界的研究热点之一。
本文以微波稀布阵雷达项目为背景,主要介绍了该稀布阵雷达数字单脉冲测量的相关问题。本文首先系统介绍了该雷达的工作原理,其中包括双基地的坐标关系变换、工作波形设计和信
非高斯信号处理是近年来发展起来的一个信号处理的新领域。传统的信号处理是基于高斯分布和二阶统计量的理论和技术,这是因为高斯模型比较简单,且在许多应用场合是适用的,在
图像跟踪器研制完成后,存在对跟踪性能进行评估的问题。随着跟踪器在武器系统中应用的日益增多,研究和发展仿真测试技术,对跟踪器的研制和保障工作具有重要意义。通过图像跟
冠状动脉(冠脉)疾病严重威胁着人们生命健康,能够对高危人群做出及时准确的预测评估极为重要。室性心动过速会有生命危险,并且患者的心电图(ECG)上形成了J波。J点偏移形成的J波,由
纹理是自然界物体表面的一种基本属性,是一种重要而又难以定义的视觉特征。纹理分析作为计算机视觉领域的一个基础研究方向,在许多领域发挥着重要作用。而纹理分类作为纹理分
本文主要研究了配电网电力线通信中的正交频分复用技术和动态频谱优化技术。在分析电力线信道特性的基础上,本文对单用户、多用户情况下应用动态频谱优化技术改善配电网高速通信性能进行了研究,实现了一种单用户条件下的快速比特分配算法,对通信信号功率受限条件下的改进算法进行了仿真,该算法在保证比特分配性能的前提下,有效地降低了复杂度。其次,针对电力线信道存在的严重频率选择性衰落以及不同用户之间的信道差异,本文提
智能天线利用数字信号处理技术和先进的自适应阵列处理技术,产生空间定向波束,使波束主瓣对准用户信号到达方向,旁瓣或零陷对准干扰信号方向,删除或抑制干扰信号,从而提高期
无线传感器网络是由大量部署在监测区域内的智能传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统,集成了传感器、计算机和网络三大技术。它可被应用到军事