论文部分内容阅读
随着人机交互逐渐被人们所熟知和应用,计算机被期望拥有与人一样的情感、情绪方面处理能力。近年来,社会化媒体的兴起使得用户生成的文本,尤其是带有个人情绪的微博、博客和评论等被大量推送在网络上。网络文本数据推动了对大量真实个体情绪分析和跟踪的研究,在社会、政治、经济等领域显示出重要的研究意义和广阔的应用前景。本课题研究中文情绪基础资源建设及其在文本情绪分析中的应用,从情绪体系模型、情绪词基础资源构建和多标签文本情绪自动分类三个方面分析。本文主要包括以下四项工作:第一,针对中文情绪词典资源较为匮乏的问题,利用英文情绪词典Word Net-Affect,通过机器翻译、噪音过滤和同义扩展步骤,自动构建了一个具有较高质量和覆盖率的中文情绪词表,为文本情绪分析建立可靠的基础资源。第二,目前已有的中文情绪词典普遍存在完善性和精确性等问题,以往研究中,情绪词信息通常只包括词语简单的情绪类别和强度值。本课题认为词语的情绪类型分为表达和认知两种,在本文中主要挖掘词语情绪表达方面蕴含的深层信息,同时引入How Net的词语概念解释来区分词语多义性,在此基础上提出新型标注体系,构建了细粒度中文情绪表达常识库。第三,面对网络文本和词语不断新增的情况,采用基于规则的新词发现方法自动扩充常识库。面对句子短小信息量少和难以识别非情绪词表达情绪的问题,引入词语的义项概念自动扩展句子。第四,将情绪词资源应用在基于语义规则以及基于机器学习的多类标文本情绪分类算法中,通过对比实验发现,本课题构建的中文情绪词词表和情绪表达常识库分类性能优于传统情绪词资源,同时表明,融入了常识库信息的特征表示方法能有效提升基于机器学习方法的分类性能。本课题的贡献在于:一,构建了高质量的中文情绪词表以及目前已知最精细的中文情绪表达常识库。二,采用规则的方法发掘新情绪词可以扩大常识库规模,同时,利用词语概念扩充句子的方法有利于改善文本情绪分析结果。三,相比于传统中文情绪词典以及现有特征表达方法在多标签文本情绪分类中的作用,新词典及新型细粒度中文情绪表达常识库的应用提高了分类性能,体现了它们的优势以及在文本情绪计算应用中的有效性。