基于主题模型的舆情分析子系统研究与设计

被引量 : 7次 | 上传用户:gjj19901005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户的不断增长,人们开始习惯于在网上对热点事件发表自己的看法和态度。然而,某些网民对敏感事件发表不实言论,或者借机煽动人们的不满情绪,这些行为都会对社会的稳定造成威胁。因而,各级政府和有关部门已经开始使用网络舆情监测系统应对这一问题。现有的舆情监测系统多采用基于统计和关键词的方法,在词语层面进行分析,为了保证分析速度,需要进行特征提取以降低文本向量的维度,而这样做会损失大量的特征和语义信息,导致结果的不准确。本文针对上述问题,尝试将主题模型引入舆情监测领域,用于代替空间向量模型中的词语特征。相比传统系统,使用主题模型可以在提升分类、舆情判决等算法的准确度的前提下,进一步减少特征矩阵的维度,同时可以利用文本的主题表示生成关键词、摘要等辅助信息。本文主要内容为:1.研究了常见分类算法在主题模型下的性能,并根据实验结果提出了一种基于主题特征和SVM的细粒度文本分类方法,测试结果表明,在模型参数适当的前提下,对于长文本,该方法可以在减少99%特征的情况下保持较好的分类性能,并能为舆情决策提供重要参考标准。2.提出了一种针对单页面舆情的判决模型,该模型以主题特征为核心,综合词语、行文风格、作者等传统特征,能对不同类别的页面进行舆情判决,并通过决策树实验证明了该模型的有效性。3.提出了一种基于主题特征的关键字和最短摘要提取算法。该算法使用已训练模型作为“相关领域信息”,可以提取单个文本的关键词和摘要。4.详细设计并实现了舆情监测系统中的分析子系统,该子系统提供舆情预警、舆情搜索、摘要提取、报告生成的功能。最后,本文对其误报率、漏报率、分析速度等指标进行了测试,证明了系统的实用性和有效性。测试表明,在舆情系统中使用LDA主题模型代替词语特征,并配合本文提出的细粒度文本分类算法和舆情判决模型,可以在进一步降低特征空间维数的同时,保持较低的误报率和漏报率。
其他文献
悲剧性是20世纪20年代乡土文学创作的总的审美倾向,主要体现在悲剧性的主题、小人物的悲剧命运和悲剧气氛的营造上,其产生的原因有理论倡导、社会环境、作家的自身经历和鲁迅
消费既是经济活动的起点,也是经济行为的最终归宿。消费需求不足成为长期困扰中国经济社会可持续发展的难题。为此,2010年10月18日中国共产党第十七届中央委员会第五次全体会
当前"哑巴英语"还是困扰着中职英语教学,很多中职生感到掌握英语口语有困难。该文分析了中职生英语口语表达困难的原因,并阐述了提高学生口语表达能力的有效教学策略。
现如今,医专的思政教育相关工作已经成为了整个医专教育的重要内容。通过何种方式实现医专学生思政教育工作的有效性,已经成为了现如今教师们所广泛关注的问题。结合实际情况
移动互联时代,广播的听众构成、收听渠道和生存环境发生极大变化,同时广播受众的意识和心理也都发生了很大的变化。传统的广播电台一方面面临着受众的更加个性化的收听要求,
具有科研和创新能力的大企业创办的科技期刊,与企业有着相辅相承、互相促进的关系,对促进科技创新具有重要意义。期刊以企业不断发展提高的科研生产创新成果为基石,利用行业
在"互联网+"时代,"云计算"、"大数据"和"物联网"等逐步成为各个领域创新发展的重要技术支持,教学领域也不例外。本文基于钢琴"弹唱"教学,就如何引进和应用大数据技术进行了深
脑出血是指非外伤性脑实质内出血,约占全部脑卒中的20%~30%[1]。脑出血80%发生于大脑半球,20%发生于脑干和小脑。高血压性脑出血最常见,属严重病症。现将护理体会报道如下。1
近年来高等职业教育发展迅速,向现代化建设输送了大量高素质技能型专门人才,成为我国高等教育的一个重要支柱,但在快速发展的过程中也面临着诸多前所未有的挑战,维护校园安全稳定