论文部分内容阅读
随着互联网的高速发展,网络信息都呈现爆炸性增长趋势,而互联网新闻由于覆盖面广、传播速度快和亲和力强等特点,成为人们获取信息的主要途径。因此,建立新闻的主题演化分析体系可以帮助用户从海量的互联网新闻数据中获取更有价值的信息。分析新闻事件的演化发展轨迹,对于政府进行舆情监控以及企业进行商情挖掘都有着十分重要的作用。论文首先分析了新闻主题演化的背景意义,对目前的主题检测及演化模型研究现状进行了深入的探讨与研究;其次探讨了基于共现词理论的主题建模分析和LDA主题模型在新闻演化检测上的应用;然后针对LDA主题演化模型中的单主题演化和阈值设定的缺点,结合主题演化理论和聚类思想,构建ILDA-AP主题演化模型。最后介绍了自适应主题演化模型的背景和目前的研究情况,结合时间衰减的自适应调整策略提出基于时间衰减的LDA-AP模型,并利用此模型来挖掘不同时间窗口内的新闻主题之间的演化关系。在此基础上,从新浪、网易等网站中搜集新闻数据完成主题演化实验,通过与基准方法的实验对比,验证了基于时间衰减的LDA-AP模型在主题演化上的可行性。通过本文的实验研究发现,基于时间衰减的LDA-AP模型的主题演化分析方法,不仅可以挖掘多个新闻主题事件随时间的演化趋势,而且提高了主题演化的准确率,有效改善了主题演化的性能。