论文部分内容阅读
随着互联网技术的飞速发展与金融行业的不断发展,网络舆情已逐渐成为影响我国企业稳定发展的一个重要因素。网络舆情的社会影响力极强、传播速度极快,对金融类的舆情报道进行舆情分析,有利于相关机构便捷地了解事件的舆情并做出正确的引导和管控,也有助于金融市场的可持续发展。本文利用主题模型,情感词典构建,舆情分析等技术,对金融相关的网络舆情进行详细研究,设计了一个金融舆情分析系统。该系统从改进的主题模型中有效地识别出文本中的情感词,并将情感词与更全面、更完善的金融领域情感词典相匹配,计算该情感词的情感倾向值,以更准确地对金融文本进行舆情分类。本文研究的内容具体如下:1.改进的WHDP模型。传统HDP主题模型基于“词袋”假设造成了文本语义上的混淆,针对此问题本文提出基于窗口的层次狄利克雷过程(Window-based hierarchical Dirichlet process,WHDP)主题模型,即在HDP模型中引入窗口机制,利用窗口把文档划分为较小的片段,通过移动窗口保证词与词之间的顺序关系,减少文本语义上的混淆。实验表明,WHDP模型有混淆度更小、泛化能力更强的优势。2.改进的CHDP模型。HDP主题模型将文档看作一个简单的词频向量的组合,造成文本语义信息的缺失,针对此问题本文提出基于中心词的层次狄利克雷过程(Centroid-word based hierarchical Dirichlet process,CHDP)主题模型,该模型以要计算的词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口计算单词的主题概率。该方法确保了窗口之间的顺序性,从而确保了单词间的局部有序。实验结果表明,CHDP模型在混淆度上略低于WHDP模型。3.构建金融舆情分析模型。针对通用情感词典无法适用于特定领域舆情分析的问题,本文选取频数从高到底的前100个词汇作为种子词,利用SO-PMI算法计算候选词与种子词的情感相似度,构建了一个金融情感词典,然后将金融情感词典和基础情感词典合并为一个较为完善的金融领域情感词典。最后结合WHDP/CHDP模型和金融领域情感词典对金融文本进行舆情分类。实验表明,本方法的舆情分类准确率更高。最后,本文基于以上研究内容实现了一个基于金融领域的舆情分析系统,达到了实际应用的目的。