论文部分内容阅读
传统的舆情分析技术经过多年的深入研究,已经成为非常成熟的落地应用,利用设置关键字和文法过滤规则,已经取得可靠的性能,为政府的民情调查、社会的舆论监督、企业的产品市场调研,甚至个人的购物建议方面都有重要作用。但是,随着网络文化的迅速迭代更新以及针对政经领域的大量反讽和隐含情绪出现,传统舆情分析往往信息滞后,从而导致漏报、虚警频发,人工审核压力增大等一系列问题。在人工智能以及自然语言处理飞速发展时代,这种能够识别反讽或者隐含情绪的需求更具有研究价值。针对传统网络舆情分析受到网络文化和隐含情绪影响的问题,本文提出一种行之有效的模型算法:1)首先研究了一种基于深度记忆网络的方法,用于解决舆情分析中的情感识别问题。在此网络模型中加以辅助序列改进,以求挖掘隐含情绪倾向。实验结果表明该方法模型可以较为有效的解决隐含情绪,提高预测结果的置信度。2)然后借鉴词向量机制,对样本中的表情符号(Emoji)做了监督预训练,对Emoji表情建立特征向量,通过向量拼接与文本特征向量融合,形成最终的预测输入,从而设计分类器,得到基于统计模型的预测结果。其后在IMDB数据集上二分类,相对于经典深度记忆网络84.6%的精确度,以辅助序列改进后的模型得到88.2%的分类准确度,从而验证对深度记忆网络模型加以改进理论的科学性和可行性。3)接着考虑到舆情分析系统对关键字和文法规则的必然依赖性,充分利用褒贬词典、否定词典、程度副词词典以及文法规则匹配,将预测结果概率通过自适应阈值加以约束微调;同时探索式地引入字典在线扩充机制。实验结果表明该方法可以修正统计模型出来的置信度不高的预测结果,并且实现了小规模有利于情感分类的特殊词的扩充。同时抓取包含隐含情绪的中文数据集,在其上得到90.7%左右的精确度,验证了该方法应用在舆情分析系统的有效性。4)最终构建了一个能够较好实现网络舆情抓取、隐含情绪倾向识别和分析结果可视化的系统。