论文部分内容阅读
从本世纪初开始,文本情感分析研究渐渐成为信息抽取领域中的研究热点,获得了越来越多的关注。随着互联网的飞速发展,特别是Web2.0技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。同时,随着自然语言处理技术和机器学习技术的不断发展和成熟,对主观性文本进行情感分析也成为可能,并逐渐得到广泛应用。传统的文本情感分析研究主要面向篇章和句子级别文本,实现相应的情感极性判定。这些研究在一些应用领域,如网络舆情分析、股评分析等,已经体现出较好的应用价值。然而,随着应用的深入,用户提出了更高的要求,比如希望进一步获得评价对象属性所对应的具体情感分析结果。在这方面,传统的情感分析已不能完全满足需求。因此,本文提出了细粒度情感分析方法来迎接这个挑战。通过探索新的研究思路和方法,进一步提高情感分析的准确性和实用性。本文针对细粒度情感分析中的关键技术展开研究,研究内容主要包括以下三个部分:1.研究了情感词极性强度量化方法。情感词的极性判定研究已相对成熟,但为了实现细粒度情感分析任务,还需要进行极性强度的量化计算,以满足情感统计的需求。我们在现有情感词极性强度量化算法的基础上,提出了改进方案:首先,对情感词进行分类;然后,针对不同类型的情感词设计不同的计算规则和方法。该方法的优势在于其能够充分利用了字词之间的关系以及语言学知识。2.研究了评价对象属性及其情感表达元素的联合识别。在细粒度情感分析任务中,如何正确识别出文本中的评价对象属性及其情感表达元素具有十分重要的意义。本文结合条件随机场理论,充分利用评价对象属性及其情感表达元素之间的类别关系,提出了序列化联合抽取模型。此外,还分析了基本特征和语义特征的相关知识及抽取方法,特别针对语义特征的抽取进行了技术分析和算法设计。3.研究了基于半监督学习的属性分类以及情感计算。针对细粒度情感标注语料的开放资源少、标注工作量大等难点问题,本文在属性分类研究中引入了半监督学习机制,以减少对标注语料的依赖。首先,研究了自举学习的分层种子选取策略,并与随机种子选取策略在属性分类上进行了实验性能的对比;其次,研究了把分层思想应用到自举过程的每一步迭代之中,探讨了自举迭代的终止条件;最后,针对评论中可能存在情感词缺少对象属性的情况,我们研究通过计算PMI值来确定评价对象属性类与情感词之间的关联概率,实现对缺失评价对象属性的情感信息进行合理属性类的指派,使情感汇总计算更为合理有效。本文的主要贡献总结如下:首先,针对细粒度的情感分析特点,在理论上对情感极性强度的模糊性特点进行了详细分析和研究,充分利用了字词关系和语言学知识,优化了情感词极性强度量化方法,在性能上达到了一定的提升;其次,在评价对象属性及其情感表达元素的联合识别研究中,提出了序列化联合抽取模型,充分利用了评论语句中的基本特征和语义特征信息,并通过调整CRF分类器的模板,进一步分析了特征组合以及上下文信息对识别性能的影响,获得了识别效率的提升;再其次,还对细粒度属性分类及文本情感计算进行了相关研究,证明了半监督学习方法在属性分类中的有效性,同时通过设计合理的情感计算方法完成基于属性类的情感汇总,实现了细粒度情感统计的目的;最后,设计了一个基于细粒度情感分析方法的酒店评论意见挖掘系统,有效地实现系统内部核心功能的封装,并提供了友好的用户界面展示。