论文部分内容阅读
随着网络技术的迅速发展,Internet已成为大多数人们表达自己观点和获取信息的平台。越来越多的商家通过网上出现的大量评论信息,了解用户对产品的消费意见或建议,以便改进产品的性能,提供更好的售后服务。当然,网上的评论也为消费者的购物行为提供了参考。但是,网上的新评论每天都会大量地涌现,针对这些评论,仅靠人工去跟踪和分析显然是不行的。近年来,人们开始重视并探索评论文本中对产品的情感倾向性判别问题。本文旨在研究面向产品评论文本的情感分类问题,主要有以下几方面的工作:(1)基于最大熵与Bootstrapping相结合的方法实现关联三元组的自动抽取。基于<产品特征Pfeature,情感词Sword>关联对的缺点,讨论了否定性副词与情感词进行搭配的必要性,提出了<Pfeature,Flag,Sword>关联三元组,能够更确切地表示文本中评论句对产品特征的客观情感倾向。对于关联三元组的获取,我们采用了两个步骤:首先,利用已经训练好的最大熵模型作为分类器,结合Bootstrapping方法完成了产品特征与情感词语关联对的抽取;其次,利用算法将情感词前的否定性副词抽取出来,合成关联三元组。(2)提出一种新的基于领域知识的特征重要性度量方法,完成了对文本情感分类的特征抽取。本文以汽车领域的评论文本作为研究对象,发现条件属性值与决策属性值往往具有强烈的相关性,利用这种相关性,针对非完备二分类决策信息系统,通过基于领域知识的条件属性值映射,考察数据关于决策的一致率和非一致率,以Shannon熵为基础,定义了信息正增益和负增益,用分类信息熵及其拓展公式度量了条件属性的重要性,并将其应用于中文文本情感分类的特征选择当中,实验结果表明这种新的属性重要性度量是有效的。这种新度量方法为基于领域的文本情感分类问题提供了特征选择方法。(3)提出了基于极大相容块的文本情感分类方法,可以实现文本情感的更细分类。以前的分类器大多是把文本的情感分成了褒和贬两类,这个分类的粒度是较粗的,本文以细化这种较粗的分类粒度作为研究目的,尝试了用极大相容块的方法构造分类器对评论文本中的情感倾向进行细分。创建了极大相容块分类器,通过设定域值的方法(投票法)对分类器中的极大相容块进行概念标注,最后,我们利用创建好的分类器,对测试集中的120篇文本进行分类。实验结果表明,该分类器可以很好地将文本中的情感细分成五类。