论文部分内容阅读
随着互联网信息技术的迅猛发展,门户新闻网站、各类新闻媒体平台和搜索引擎构成的在线多源媒体已然成为了描述各类话题的重要载体。话题在大规模在线多源媒体中呈现的演化过程逐渐成为信息检索领域的一个重要的研究方向。主题模型在潜在语义挖掘和主题聚类等领域具有很多优势,近年来被广泛应用于话题演化研究领域。然而目前模型在话题演化的研究和应用中主要集中于在大型语料库中挖掘和划分不同的话题,而分析某一个特定话题演化过程的应用相对不足,其难点在于同一个话题的文本语义过于相似,不利于文本相似性计算或共现性统计,因此传统的主题模型很难发挥良好的效果。本文通过研究话题在在线多源媒体环境下的演化过程,提出基于多维特征的话题演化模型,在分层狄利克雷过程(HDP)的基础上,综合考虑话题语料库中文本的时间、关键词、句法关系和命名实体等特征,通过增量词向量训练的方法得到话题上下文语义关系,克服了文本语义颗粒过小导致的模型性能下降的问题,实现了话题在现实中的演化逻辑分析,挖掘话题在不同时期的焦点变化,呈现话题的演化图谱。本文的主要工作有:(1)构建话题特征集合库:新闻是话题在在线多源媒体环境下最直接和客观的表现形式之一,本文通过句法分析树分析和提取话题片断的主体、客体和行为等关系。在句法树和词性标注的基础上,获取话题片断的时间、位置、参与对象和组织机构等实体关系。最终实现提取话题片断的时间特征、句法特征(主体、客体和行为)和命名实体(位置、参与对象和组织机构)并构建话题的特征集合库。(2)话题语境下的词向量训练:针对研究话题的新闻语料库,在传统大规模新闻语料库的基础上进行增量词向量训练。通过词向量的训练结果构建基于话题语境的上下文语义关系,降低话题演化研究过程中的文本语义颗粒度。(3)基于多特征的话题演化模型:基于话题多维特征和词向量关系,本文提出了基于多特征的话题演化模型(MFTEM)。模型在传统分层狄利克雷过程(HDP)的基础上,从横向上扩展了时间维度,从纵向上增加了话题的多维特征,使模型更加符合话题演化的一般形式,并利用词向量包含的上下文语义关系,扩展了文本中词的语义,有利于分析和挖掘话题在不同阶段的焦点变化,有效描述了话题在在线多源媒体环境下的演化过程,建立话题的演化图谱。(4)实验验证:为了验证话题演化分析的准确性,本文基于现实门户新闻网站和各类新闻媒体平台,抓取了五个热门话题的新闻数据进行实验,并将实验结果与第三方人工标注的信息进行对比。从分析和对比结果可以得出:本文提出的MFTEM模型和特征选取方法能够有效分析和描述话题在现实中的演化过程,并且可以用符合人们对话题演化的认知逻辑呈现话题的演化图谱。同时,本文提出的模型算法以自动运行为主,对话题本身或模型均无需过多的先验知识和专业理论水平,就可以发挥较好的效果。