基于增量学习的自适应话题追踪技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:fyishen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题追踪是话题检测与追踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道,是实现舆情监测不可或缺的一部分。本文主要针对传统话题追踪存在的问题做出改进,提出一种基于反馈报道的自适应话题追踪方法,并成功应用到舆情监测系统中。主要研究内容包括:1、深入研究话题追踪的关键技术,总结了话题追踪中存在的难点话题追踪中最主要的两个关键技术为文本表示方法及文本分类方法。通过分析话题的特点,发现一个话题随着时间的推移,其话题核心会不断变化,而且话题检测过程中初始聚出的话题相关报道比较少,给话题追踪造成很大的困难,因此话题模型的动态调整必不可少。2、基于命名实体改进向量空间模型,提高话题模型的准确性由于命名实体对于区分不同话题比一般的名词、动词等其他一般词语有更大的作用,因此在构建话题模型时,对命名实体的权重做了调整。本文选取了一种利用切词系统切词后的词性标识进行命名实体的识别,在特征抽取过程中对识别出的命名实体做权重调整,实验证明改进后的话题模型能更好的表示一个话题。3、提出一种基于反馈报道的话题模型特征扩展方法针对话题具有动态演化的特点,利用收集到的反馈报道,抽取反馈报道中权重较高的特征项对初始话题模型进行特征扩展,并对已存在的特征项进行权重调整,实现了话题模型动态调整,改善话题漂移造成的话题追踪准确率下降问题。4、利用动态阈值收集反馈报道,减少反馈报道中的噪声数据由于反馈报道的准确性关系着后续话题追踪的效率,有效避免反馈报道中的噪声数据至关重要,因此本文采用动态阈值收集反馈报道,该阈值的设定涉及多个参数,其中将已经收集到的反馈报道与初始话题模型的相似度作为基数,并加入相关报道和总报道的比例,有效调整阈值,防止阈值过高造成的漏报率上升,最后利用一个系数将阈值在此基础上调高,防止噪声数据。5、在前面所做研究基础上提出一种基于反馈报道的自适应话题追踪方法本文将基于命名实体的向量空间模型、话题模型的特征扩展以及收集反馈报道时的阈值动态设定引入到自适应话题追踪,改善了传统话题追踪存在的问题,有效解决了话题漂移造成的话题追踪效率下降问题,实验证明该方法提高了话题追踪的效率。6、将本文提出的自适应话题追踪方法应用到舆情监测系统,提高了舆情监测系统中热点追踪模块的效率设计并实现了舆情监测系统,实现了舆情监测中的信息采集、舆情分析和舆情呈现三大模块,并将本文提出的自适应话题追踪方法应用到热点追踪子模块,改善了系统的总体性能。
其他文献
一、总体思路1、明确目标,坚定信心第一阶段实现稳健发展,由产业规模化向质量、效益、效率转变,初步建立产业生态,提升集聚基地内涵增长;第二阶段实现转型升级发展,围绕国家
临床毕业实习是医学生向临床医生过渡的最关键时期,是培养学生具有良好医德医风,巩固专业基础理论知识和提高临床基本技能的重要环节, 其质量的好坏直接关系到学生毕业后的临
外语课堂是师生以语言媒介通过语法达到语用的语境,是从理性知识到习得文化行为的主要平台。语用视角下的外语有机课堂,教师需要认知自身与学生的特殊性与可能性,充实、发展
简牍文书的整体设计包括四个方面的内容:幅面规格,装订样式,版式,表面整饰。简牍文书的幅面规格由长度和宽度决定,官用简牍的长度存在定制,宽度没有具体规定,以实用性为标准
面对技术环境带来的巨大挑战,迫切需要高校教师从行为上做出适应性调整,从而不断提高工作绩效。通过问卷调研发现,虽然高校外语教师是信息技术手段的较早使用者,但是在信息化
农机补贴政策是一项强农惠民的德政工程,从2004年实施以来,在调整农机装备结构、提高农业机械化水平、促进农业增效、农民增收、农村繁荣中发挥了积极的作用.本文将结合实际
新冠肺炎疫情爆发以来,谣言与真相赛跑,官方话语的及时有力回应能够有效消解谣言的传播及其影响。官方话语在疫情发展中总体呈现出信息公开透明、充足立体、意见领袖发挥作用
近年来,在产业扶贫中积极融入先进的管理理念和市场手段助推项目管理起到了积极作用,但是还存在科学理性决策少,打基础可持续项目少,项目管理主体职责边界不够明晰,帮扶绩效