论文部分内容阅读
随着社交网络的快速发展,用户每日在网络上产生了海量的数据,这些数据无疑均蕴含着极大的价值,与此同时针对社交网络数据挖掘其中蕴涵的立场倾向逐渐成为重要的研究方向。第五届自然语言处理与中文计算会议(NLPCC)在2016年提出了针对中文微博的立场检测任务,成为了一个新的研究课题。已有的立场检测任务工作中,研究者主要通过手工构建特征、添加情感词典和专家知识等资源的方式来获得有价值的语义特征。但是这种方式需要耗费大量人力在特征设计与机器学习模型训练方面,且最终的效果与特征设计的质量和模型参数的调优息息相关。于是一些研究者使用深度学习技术来学习文本特征并取得了不错的效果。考虑到针对中文微博的立场检测任务,中文微博本身的长度有所限制且包含较多的网络用语、表情符号等非规范文本,从而导致微博文本可以容纳的信息有限。同时发现微博中有时一个词,或者几个词就能大致反映出其整体立场。如何从有限的微博信息中获得能够表现立场信息的语义特征是本文研究的重点。基于以上的认识,本文提出了一种基于注意力的BiLSTM-CNN中文微博立场检测模型。模型主要分为两个部分,首先在句子表示方面,本文使用多种分词模型对微博文本进行分词,从而减少了因为单一分词模型产生的噪音干扰。并且在已有的研究工作中发现,句子的情感倾向对立场倾向有一定程度的影响,所以本文将句子的情感倾向作为特征与多种分词模型获得的词序列相结合,最终获得了基于多种分词序列的多特征句子表示。其次是构建深度学习模型方面,本文基于卷积神经网络(CNN)构建了中文微博立场检测模型,在其基础上为了解决传统池化策略存在信息丢失的问题并尽可能从信息稀疏的微博文本中提取出有价值的立场特征,本文基于卷积神经网络(CNN)的立场检测模型的基础上,提出了基于注意力的双向(Bi-directional)长短期记忆神经网络(LSTM)和卷积神经网络(CNN)混合网络立场检测模型,基于注意力的池化策略使得微博中重点词和特征得以凸显的同时改进了 CNN的传统池化策略。本实验使用了 NLPCC2016提供的任务语料和评估标准。实验表明,本文提出的基于注意力的BiLSTM-CNN混合网络模型针对中文微博能够有效挖掘其中蕴涵的立场信息,并获得了不错的表现。