论文部分内容阅读
随着互联网用户的不断增长,人们开始习惯于在网上对热点事件发表自己的看法和态度。然而,某些网民对敏感事件发表不实言论,或者借机煽动人们的不满情绪,这些行为都会对社会的稳定造成威胁。因而,各级政府和有关部门已经开始使用网络舆情监测系统应对这一问题。现有的舆情监测系统多采用基于统计和关键词的方法,在词语层面进行分析,为了保证分析速度,需要进行特征提取以降低文本向量的维度,而这样做会损失大量的特征和语义信息,导致结果的不准确。本文针对上述问题,尝试将主题模型引入舆情监测领域,用于代替空间向量模型中的词语特征。相比传统系统,使用主题模型可以在提升分类、舆情判决等算法的准确度的前提下,进一步减少特征矩阵的维度,同时可以利用文本的主题表示生成关键词、摘要等辅助信息。本文主要内容为:1.研究了常见分类算法在主题模型下的性能,并根据实验结果提出了一种基于主题特征和SVM的细粒度文本分类方法,测试结果表明,在模型参数适当的前提下,对于长文本,该方法可以在减少99%特征的情况下保持较好的分类性能,并能为舆情决策提供重要参考标准。2.提出了一种针对单页面舆情的判决模型,该模型以主题特征为核心,综合词语、行文风格、作者等传统特征,能对不同类别的页面进行舆情判决,并通过决策树实验证明了该模型的有效性。3.提出了一种基于主题特征的关键字和最短摘要提取算法。该算法使用已训练模型作为“相关领域信息”,可以提取单个文本的关键词和摘要。4.详细设计并实现了舆情监测系统中的分析子系统,该子系统提供舆情预警、舆情搜索、摘要提取、报告生成的功能。最后,本文对其误报率、漏报率、分析速度等指标进行了测试,证明了系统的实用性和有效性。测试表明,在舆情系统中使用LDA主题模型代替词语特征,并配合本文提出的细粒度文本分类算法和舆情判决模型,可以在进一步降低特征空间维数的同时,保持较低的误报率和漏报率。