论文部分内容阅读
随着“大数据”时代的到来,网络上包含用户意见的文本数量不断增多,这给予了许多组织或个人去了解民情、舆论和社会需求的机会。但是,目前在很多场景下,还是由人工去分析包含意见的文本评论,这个过程不仅花费的时间和精力会随着评论的数量和篇幅的增多而增长。因此,本文研究实现了基于图神经网络的情感分类系统,以帮助用户快速的分析文本的情感倾向,以及提取关键信息等。文档级情感分析指的是通过分析一篇或多篇文章并给出每篇文章的情感倾向。然而现有的一些情感分析算法则相比一般的基于主题的分类算法的在性能上有一定差距。此外,现有的一些关键词提取算法由于其拥有一些限制,如必须给定一个文档集合才能提取,或者仅针对单篇文章提取但提取结果性能不如前者。因此,为了进一步的通过情感分类算法与关键词提取算法解决实际问题,本文研究并应用了一些情感分类算法与关键词提取算法,并基于这些算法实现了基于图神经网络的情感分类系统。主要的研究内容包括一下三个方面:(1)首先,论文研究和应用了基于Text-GCN和Fast-GCN模型的情感分析算法。针对以往的机器学习、深度学习方法要么完全不考虑单词的顺序,要么仅考虑局部或连续的单词共现信息,Text-GCN模型则通过构建文本图捕获到全局的单词共现信息。实验结果表明,在一些数据集上Text-GCN算法取得了更好的预测结果。(2)其次,论文研究与应用了基于TopicRank的关键词提取算法。针对常用的基于统计的关键词提取算法需要输入一个文档集合才能提取,或者一些TextRank及其变体算法的性能不如前者的问题,本文考虑使用TopicRank算法进行关键词的提取,该提取算法不仅能够针对一篇文章提取关键词,又能获得与TF-IDF等提取算法可比甚至更好的性能。实验结果表明,在一些新的数据集上,TopicRank取得了比一些常用的关键词提取算法更好的预测结果。(3)最后,本文采用Django、Python、Chart.js等技术实现了基于图神经网络的情感分类系统。本系统包括Web服务、日志存储、核心算法等多个模块。同时本文结合所提需求,给出了系统详细的设计和实现方法。最终的系统测试结果表明,基于图神经网络的情感分类系统满足各项提出的需求并实现了最初的愿景。