论文部分内容阅读
随着互联网的迅速普及,网络上面涌现了大量用户评论信息,这些评论信息表达了评论者对于产品或者事物的态度或者看法。对评论信息进行深入挖掘分析,可以为消费者和公司提供相关产品的口碑信息,也可以为政府提供舆情监测分析。在此背景下,情感倾向分析技术研究已经成为近期的研究热点。“细颗粒度”情感倾向分析又称评论信息挖掘,是指在给定的文章、段落、句子中挖掘出所需要的评价单元。其研究工作包括评价对象抽取,评价短语抽取,评价搭配关系抽取,评价极性判断等研究内容。“细颗粒度”情感倾向分析存在着严重的跨领域性差问题。本文主要对此问题展开了研究工作,最后设计了一种“细颗粒度”情感倾向分析系统。主要工作内容包括以下三部分:(1)针对条件随机场跨领域抽取评价对象性能差的问题,我们提出一种基于图的句子排序算法来提高领域适应性。该方法通过使得训练语料和测试语料的主题最接近,来使得条件随机场能够适应训练语料。我们的方法在COAE2011的语料中三个领域的宏平均F1值可以达到14.91%,相比第三届中文情感分析评测会议(COAE2011)的最好结果9.16%有显著的相对提高。(2)针对有监督方法抽取评价对象的跨领域性差问题,我们联合无监督和有监督方法来抽取评价对象。首先给出了无监督和有监督的抽取方案,然后给出了四种联合方案。首先是并集的方案,其次是交集的方案,方案三和方案四是联合训练的方案,方案三是把无监督结果标签作为条件随机场的特征输入来联合训练,方案四是把无监督结果标签作为条件随机场的状态变量来联合训练。实验结果显示,方案三和方案的联合训练方案能够显著提高F1值,特别的,方案三在电子产品领域,方案四在金融证劵领域对于提高F1值的效果更为显著。(3)我们总结前人的工作,设计了一种“细颗粒度”情感倾向分析系统。在此系统中,对评价对象识别采用基于规则和统计方法。采用基于词典的方法对评价短语进行抽取。我们使用逻辑回归方法来抽取搭配关系,此外,还结合规则来进行评价搭配关系的补充。对于句子情感倾向性的判断,使用基于支持向量机的判别和相关的规则补充的方法,抽取的特征包括统计特征和语义特征,统计特征是对句子做二元文法,三元文法,四元文法的切分,并且结合特征的χ2值来进行过滤。对于补充的规则主要是采用基于词典匹配和词性搭配的补充方法。该系统参与了COAE2011会议的实际评测,综合排名中游,评价对象抽取的召回率排名第一。本文的工作主要着重于“细颗粒度”情感倾向分析的研究。我们既对跨领域问题进行了细致研究,又总结前人的工作,设计了一种“细颗粒度”情感倾向分析系统。这些方法的研究和所取得的成果将有助于提高跨领域抽取的性能,也有助于提高“细颗粒度”情感分析系统的性能,对今后情感分析领域的研究具有重要的参考价值。