中文新闻情感分类系统的研究与实现

被引量 : 5次 | 上传用户:yuehungulei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络新闻以及时、全面的特点成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。网络新闻的表达形式多样化,内容的情感倾向也各不相同,所表达的情感倾向有正面的,也有负面的。因此网络舆情监督日益重要,对网络文本观点性内容的自动情感分析成为近期文本信息处理的一个研究热点,而其中的核心技术就是文本情感分类。文本中涉及到情感分类的对象一般有词汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研究面临很多的困难。为此,本文主要研究中文新闻文本的情感分类,分别在句子级别和文档级别进行了下述创新性研究工作。首先,构建中文新闻的语料库,构建情感词极性词典。其次,句子级别的情感分类的研究。本文给出了三个句子级别的情感分类模型:句法分析模型:第一步,收集包含主题词和情感词配对修辞关系的句法路径模板,存入数据库;第二步,输入分句块,构建基于依赖关系语法树,从句法角度判断是否存在修饰关系。基于向量空间分析模型:以主题词为中心,分别向前向后计算情感词和主题词的向量距离,以向量距离为基础计算情感得分。强力模型:查找主题词和情感词及二义词,从而确定情感倾向。再次,文档级别的情感分类的研究。文档级别的情感分类研究,是在句子级别的基础上开展的,本文给出了三个文档级别的情感分类模型:基于语义指向模型:主要包括预处理步骤、情感词否定词综合处理步骤、主题词和情感词综合处理步骤、主题词和情感词权重处理步骤。SVM模型:采用SVM算法,依次进行特征提取,SVM训练,将待测集进行句子级别的情感分析,再用SVM训练好的model样本进行计算。强力模型:查找文档中是否存在主题词和情感词,从而确定情感倾向。将各模型分别通过已经构建好的中文新闻语料库进行测试,不同级别的情感分类的不同模型,性能各有优劣,其中句子级别中的句法分析模型和文档级别中的基于语义指向模型都表现出了很高的性能水平。
其他文献
随着珠三角区域经济一体化发展的趋势加快,深莞惠经济圈作为其核心之一,区域经济中的产业升级和调整成为其经济发展的必然趋势。产业同构化系数是衡量区域经济一体化的重要指
多指标综合评价概指对以多属性体系结构描述的对象系统做出全局性、整体性的评价,是利用数学及统计方法,将反映评价对象不同属性的多个统计指标的信息转化成无量纲的相对评价
随着CCD(Charge Coupled Device)技术的不断发展和数字化时代的到来,对CCD信号的性能、数字化提出了更高的要求。同时,它的应用也越来越广泛。而噪声是CCD的重要参数,它是决
化工过程系统由工艺过程、换热网络和公用工程三个子系统组成。其中,公用工程子系统担负着为工艺过程提供能量的重任,其用能情况好坏直接影响整个化工过程系统的能量使用效率
信用是市场经济的根基,征信是建设和巩固信用体系行之有效的途径。现今我国市场经济迅速发展,大众对征信服务的需求不断增加,促进这个行业健康、规范的发展是完善我国市场经
信息技术的发展带来了数据量的爆炸性增长,人们面临的问题不是缺乏足够的信息可以使用,而是面对如此多的数据如何找到有价值的信息。对这一问题,数据挖掘显示出了强大的生命
目的:通过系统的临床研究,观察脐疗法治疗慢性肾衰竭(湿浊<热>中阻兼脾肾亏虚证)的疗效、毒副作用和不良反应,评价其安全性及有效性,分析和阐明其治疗的作用机理,为中医临床
物权变动中的第三人利益保护问题是物权法的中一项重要内容,各国学者对此问题历来就有争论。在我国,《物权法》的颁布实施基本填补了长期以来国内对于这个问题的立法空白。但
自1998年7月,国务院发布《关于进一步深化城镇住房机制改革加快住房建设的通知》进行房改以来,房地产业得到了快速的发展。房地产业产业链长,关联度大;对上游的钢铁、建材、水
目的:以强直性脊柱炎湿热瘀阻型患者为试验对象,以柳氮磺胺吡啶片作为对照使用药物,采用ASAS工作组制定的ASAS20、BASDAI50标准和中医证候疗效标准,评价以清热除湿、祛瘀通络