论文部分内容阅读
近年来,随着互联网技术的高速发展,网络上产生了大量评论文本信息,这些观点信息蕴藏着巨大的利用价值。如何自动化、智能化处理这些主观信息文本显得愈发重要,情感分析正是在这样的背景下产生并取得迅猛发展的一个研究方向。其中,文本情感分类是情感分析研究中最广泛的一项基本任务。现有的研究大都是集中在英文的情感分类方法上,而随着网络的国际化迅猛发展,网络中逐渐出现多种语言表示的文本。因此,多语言情感分类方法研究有很重要的理论研究意义和实用价值。本文主要针对面向两种语言文本的情感分类方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出一种结合现存的英文资源来构建中文情感词典的方法。核心思想是借助机器翻译系统,结合双语言资源的约束信息,分别采用PMI方法和标签传播算法计算词语的情感信息。实验表明,该方法在不同领域能获得分类精度高、覆盖领域语境的中文情感词典。其次,本文提出了一种双语特征扩展的情感分类方法,即利用源语言和翻译语言的特征共同表示一篇文档来进行情感分类。实验表明,由于语言的表达本身提供了额外的分类信息,基于双语特征扩展的情感分类效果相比传统的情感分类有明显的提高。此外,针对双语特征扩展给文本向量空间带来更高维度的难点,本文研究了多语言特征扩展的情感分类问题中的特征选择方法,提出了两种特征选择模式。实验表明,特征选择方法可以在不损失情感分类准确性的前提下显著降低特征向量的维度,提高学习效率。最后,本文提出了一种多视图的方法来解决半监督情感分类任务。核心思想是分别采用特征划分策略和多语言翻译策略生成协调训练中的多视图。其中,特征划分策略是将整个特征空间划分成若干个相互独立的视图,而语言翻译策略是把源语言文本翻译成另一种语言,也构成多个不同的视图。实验表明:采用我们提出的两种策略产生多视图的Co-training算法的分类效果比其他半监督学习的情感分类效果都有提高。