论文部分内容阅读
随着互联网的迅速发展和广泛应用,网络上涌现出海量的文本信息,情感分析技术的兴起使我们有了对文本文档进行情感上处理和分析的一种便捷方法。产品评论作为情感分析研究领域重要且热门的一个研究方向,它可以通过对评论文本的处理有效提取出其中的意见信息,帮助商家对产品进行决策。在产品评论文本中,由于每个用户的需求、对产品的要求程度以及写作习惯都是不同的,这使评论文本中表达的信息十分复杂。尤其在书评和影评这类强调用户体验的评论中还会出现大量对影片导演、主演、特效、故事结构等方面的评价,这些评价在情感分析的过程中都会对分类效果产生很大的影响。在产品评论领域的研究中如果仅使用样本的数据信息,将会考虑许多客观描述,严重影响分类的准确性,因此如何对评论进行主观意见信息的提取是本文研究的首要问题。其次,为了获得较高的准确率,大多数研究都依赖于使用大量的标签信息来训练分类器,而现实生活中容易获取的大部分数据都是无标签或只包含少量标签的。因此,如何只提取有用的数据进行标记,用少量的已标记样本就能提高分类器的性能也是本文研究的主要目标之一。针对上述问题,本文的主要研究内容如下:1.综合文本的情感本体与数据信息,提出“主题—情感”特征提取算法。与传统机器学习方法只利用文本的数据信息不同,通过使用主题词来提取文本中意见词的方法,有效提取文本中的主观情感,并提高后续分类的准确度。2.提出一种基于主动学习与自我训练相结合的情感分类方法。在训练分类器的过程中,用主动学习策略与自我训练策略两种并行的样本选择策略实现对“有用”样本的提取,提取出的样本在进行人工标记后添加到种子训练集中,并以迭代的方式对分类器进行训练,使分类器利用尽可能少的已标记样本就获得较高的分类性能。通过在书籍评论、电子产品、厨房用具和影片评论四个类别产品评论数据集上进行实验,本文提出的分析方法的平均准确率可达到79.2%,其中最高准确率达到94.126%,平均标记量是23%。与传统的机器学习方法相比,在少用57%标签的情况下达到了更高的准确率。