中文情绪表达常识库构建及其在情绪分析中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wings
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机交互逐渐被人们所熟知和应用,计算机被期望拥有与人一样的情感、情绪方面处理能力。近年来,社会化媒体的兴起使得用户生成的文本,尤其是带有个人情绪的微博、博客和评论等被大量推送在网络上。网络文本数据推动了对大量真实个体情绪分析和跟踪的研究,在社会、政治、经济等领域显示出重要的研究意义和广阔的应用前景。本课题研究中文情绪基础资源建设及其在文本情绪分析中的应用,从情绪体系模型、情绪词基础资源构建和多标签文本情绪自动分类三个方面分析。本文主要包括以下四项工作:第一,针对中文情绪词典资源较为匮乏的问题,利用英文情绪词典Word Net-Affect,通过机器翻译、噪音过滤和同义扩展步骤,自动构建了一个具有较高质量和覆盖率的中文情绪词表,为文本情绪分析建立可靠的基础资源。第二,目前已有的中文情绪词典普遍存在完善性和精确性等问题,以往研究中,情绪词信息通常只包括词语简单的情绪类别和强度值。本课题认为词语的情绪类型分为表达和认知两种,在本文中主要挖掘词语情绪表达方面蕴含的深层信息,同时引入How Net的词语概念解释来区分词语多义性,在此基础上提出新型标注体系,构建了细粒度中文情绪表达常识库。第三,面对网络文本和词语不断新增的情况,采用基于规则的新词发现方法自动扩充常识库。面对句子短小信息量少和难以识别非情绪词表达情绪的问题,引入词语的义项概念自动扩展句子。第四,将情绪词资源应用在基于语义规则以及基于机器学习的多类标文本情绪分类算法中,通过对比实验发现,本课题构建的中文情绪词词表和情绪表达常识库分类性能优于传统情绪词资源,同时表明,融入了常识库信息的特征表示方法能有效提升基于机器学习方法的分类性能。本课题的贡献在于:一,构建了高质量的中文情绪词表以及目前已知最精细的中文情绪表达常识库。二,采用规则的方法发掘新情绪词可以扩大常识库规模,同时,利用词语概念扩充句子的方法有利于改善文本情绪分析结果。三,相比于传统中文情绪词典以及现有特征表达方法在多标签文本情绪分类中的作用,新词典及新型细粒度中文情绪表达常识库的应用提高了分类性能,体现了它们的优势以及在文本情绪计算应用中的有效性。
其他文献
工作流技术是计算机支持协同工作研究领域中出现的一项新技术,它是实现企业业务过程建模,过程管理最终实现业务过程自动化的核心技术。工作流技术的研究对企业的业务流程重组
本文研究数据交换的问题,其目的是为实现各“信息孤岛”之间互联互通,信息共享。在数据交换中关键的两点是各数据源之间的数据异构问题及交换过程的动态配置问题。针对上述两个
随着GIS的普及和计算机网络技术的发展,诞生了WebGIS技术并得到了较快的发展。但是,由于现有的GIS系统相对封闭,很难实现真正意义上的空间信息共享,阻碍了GIS社会化、大众化
随着电信行业的市场竞争不断加剧,特别是在2008年,国家对电信运营商再度整合重组,电信市场形成了一种相对均衡的电信、移动、联通三方旗鼓相当的全业务运营竞争格局。中国电信的
随着互联网规模的不断发展,人们对网络服务质量(QoS)的需求越来越高,当今高速网络中的多媒体应用不但对网络有很高的带宽要求,而且要求信息传输的低延迟和低抖动等,需要提供端到
无线传感器网络能实时监测、感知、采集和处理各种监测对象的信息,在军事、环境监测和工业生产等方面具有十分广阔的应用前景,是当前国际上备受关注的新兴前沿研究热点之一。
作为石油技术开放标准协会(POSC)所采用的一项行业标准,国际上,CGM图形格式文件是石油勘探软件的最重要的输出形式,在国际化与本地化几近成为同一个概念的今天,作为一个国际
网格监控系统通过实时获取、保存资源和平台的信息,为网格的正常运行和管理控制提供支持。目前的网格监控系统在信息处理问题上存在聚合信息不全面,聚合方式简单,监控数据的
随着计算机应用技术的快速发展,应用系统的复杂程度越来越高,相应的开发出高质量的软件也就越来越困难。从一个好的观点或需求出发,到最终变成一个要实际运行的软件产品,其间
图的交叉数是衡量图的非平面性的一个重要参数,Garey和Johnson证明了计算图的交叉数问题是NP完全的。目前仅确定了少数几类图的交叉数。完全图,完全二分图,广义Petersen图,循环图