论文部分内容阅读
自动挖据大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文集中的潜在语义信息,而话题演化则主要关注于如何将不同时间段上文集中的语义信息以话题的形式提取出来并将话题在时间轴上的变化情况反映出来。然而,通过对话题模型的结果分析发现,同时间段的话题之间也是存在语义相关性的。本文提出了话题上下文的概念来对话题间语义相关性进行描述。话题常会和某些其它话题共现在文档中,一个话题同其他话题的共现信息称为该话题的上下文。一方面,将话题的上下文信息利用到话题的关联计算当中,可以获得更正确的话题演化结果;另一方面,话题上下文信息还可以用于挖掘话题之间的语义相关性,得到话题之间语义关系图。结合话题演化和话题关系的挖掘,可以得到话题关系在时间轴上的变化,即话题关系的演化。本文主要在以下几个方面进行了有益的探索:(1)提出了一种挖掘同时间段中话题语义关系的方法,即利用话题间在文档中的共现信息来构建话题的上下文;(2)将话题的上下文信息利用到话题的关联计算当中,改进话题演化的结果;(3)利用上下文信息计算话题间的语义关系,并结合话题演化实现话题关系的演化。本文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行了试验,结果显示,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖据话题之间的关系以及揭示话题关系随时间的变化。