论文部分内容阅读
近年来,以互联网产业为代表的社交媒体平台和电商平台依托大数据技术的发展日趋成熟,越来越多的个人和自媒体代替了传统的主流媒体成为信息传播的主体,大量带有个人观点的在线评论出现在各大平台中。这些文本数据蕴含着大量有价值的信息,不仅可以帮助平台挖掘到用户的情感倾向,还可以作为提升服务质量的依据,对于企业制定决策具有十分重要的商业价值。然而,由于评论文本是数量巨大且格式不统一的非结构化数据,仅仅依靠人工处理费时费力,无法提取其中的情感信息。因此,如何有效地对文本进行情感分析是一项重要的研究课题。对于文本情感分析任务,如何从原始语料中提取和表达文本特征是较为关键的一环,传统的文本表示方法常采用静态语言模型,无法表达相同词语在不同语境下的语义信息,即无法根据语境解决一词多义情况,存在特征稀疏、语义不足、维度过高等问题。由于在文本预处理过程中无法动态地调整语义,导致后续模型分析的结果不理想。基于方面的文本情感分析能提供比一般情感分析更细粒度的信息,其同时考虑了目标词与情感信息之间的关系,通过给定句子和方面项,即可判断出方面项在句子中的情感倾向。因此,方面级情感分析相比其他情感分析任务具有更高的研究价值和商业价值。传统的方面情感分析模型针对方面项和情感词进行分析,忽略了方面项与上下文之间的联系,无法体现文本语义结构的特点。基于以上背景和问题,本文以在线评论为研究对象,针对文本表示和表达文本语义结构两个方面进行研究。首先,本文提出基于胶囊网络和分层注意力机制的情感分析模型(HAN-Caps Net),通过采用胶囊网络的矢量神经元结构保存丰富的文本结构,使得模型能够并行地识别出对文本对象的特征,对文本进行深层建模。同时,利用分层注意力机制捕获句子层面和词语层面的重要信息,解决了胶囊网络由于胶囊的特征而无法选择性地关注文本信息的问题,同时也在一定程度上降低了胶囊网络较长的训练时间。其次,提出基于ON-LSTM和自注意力机制的方面情感分析模型(ON-LSTM-SA),在预处理阶段采用动态语义训练模型ELMo在原始语料上进行预训练,得到关于与数据集相关的动态词向量文本表示。通过将动态词向量与target向量进行拼接后送入模型,利用隐藏层的有序神经元构建关于方面项与上下文之间的语义层级结构。最后根据自注意力机制计算内部的词依赖关系,从而获得关于方面项的情感倾向。为验证本文提出的情感分析模型的有效性,本文对SemEval 2014 Task 4、SemEval2017 Task4、Twitter和Yelp数据集中的部分语料进行清洗和切分,用作实验数据。通过实验对比分析,本文提出的模型相较于其他模型有一定提升,说明了表达文本语义结构的方法具有一定的研究意义和应用价值。结合上述理论研究,本文设计并实现了基于在线评论的方面级文本情感分析应用系统,包含对在线文本评论数据集的清洗和可视化分析,判断输入文本的方面项和展示注意力机制在文本语句中的应用,以及通过对文本进行训练得到针对不同方面项的情感分析结果。系统具有良好的适用场景,可以向企业和政府更全面、更直观地展示关于方面级文本情感分析所带来的商业价值和应用价值。