论文部分内容阅读
情感分析是指采用自然语言处理、文本挖掘以及计算机语言学等方法对用户生成文本中的主观信息(意见、评价、态度或者情感等)进行自动的语义情感分析。情感分析作为自然语言处理领域中热门的研究方向,具有重要的应用价值,如预测股票走势、分析社会舆论趋势、判断用户评论的情感倾向等。情感分析可以在词语、句子和文档等不同级别的文本上进行研究。本文的第一部分工作是采用传统的自然语言处理方法对词语和句子级别的文本分别进行情感分析研究。具体地,第一个工作是构建多维度的中文情感词典,采用预训练的情感词向量和传统词向量结合机器学习算法进行词语级别的情感强度预测来构建中文情感词典,相关论文发表在2016年IALP会议上。第二个工作则将情感分析从词语级别进一步扩展到句子级别,对推文进行情感立场分类,采用精心设计的多样化特征结合机器学习算法构建句子级别的情感分类模型,相关论文发表在2017年SemEval会议上。用户生成的内容中往往包含多种情感,并且不同情感附着在不同的实体或属性上,因此本文的第二部分工作将深入地研究更细粒度的属性情感分析。为了减少传统自然语言处理方法对外部高成本资源的严重依赖以及分步法中的误差传播,本文提出了两个基于深度学习的研究思路及解决方法。第一个是采用深度学习将商品的属性信息和情感信息融入到传统的语义词向量的训练过程中,学习属性情感词向量表示,为基于属性的情感分析研究方法提供一个基本表达方法。这部分工作已获得专利授权。第二个是基于联合学习的端到端细粒度属性情感分析研究,首先采用联合标签将属性词抽取与情感分析两个子任务转化成一个联合的序列标注任务,然后提出两个联合学习神经网络模型,并分别在标准的英文数据集和自行采集的中文数据集上进行实验,实验结果验证了联合学习神经网络模型的有效性和鲁棒性,相关论文已被2018年IJCNN会议录用。本文针对不同的语言(中文、英文)在不同文本粒度(词语级别、句子级别),采用多种情感分析研究方法(传统自然语言处理方法、深度学习方法)进行不同情感分析任务(粗粒度的情感强度预测和情感分类、细粒度的属性情感分类)。实验结果验证了本文提出的传统自然语言处理方法和深度学习方法的有效性。