在线多源媒体的话题演化分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:ldw521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的迅猛发展,门户新闻网站、各类新闻媒体平台和搜索引擎构成的在线多源媒体已然成为了描述各类话题的重要载体。话题在大规模在线多源媒体中呈现的演化过程逐渐成为信息检索领域的一个重要的研究方向。主题模型在潜在语义挖掘和主题聚类等领域具有很多优势,近年来被广泛应用于话题演化研究领域。然而目前模型在话题演化的研究和应用中主要集中于在大型语料库中挖掘和划分不同的话题,而分析某一个特定话题演化过程的应用相对不足,其难点在于同一个话题的文本语义过于相似,不利于文本相似性计算或共现性统计,因此传统的主题模型很难发挥良好的效果。本文通过研究话题在在线多源媒体环境下的演化过程,提出基于多维特征的话题演化模型,在分层狄利克雷过程(HDP)的基础上,综合考虑话题语料库中文本的时间、关键词、句法关系和命名实体等特征,通过增量词向量训练的方法得到话题上下文语义关系,克服了文本语义颗粒过小导致的模型性能下降的问题,实现了话题在现实中的演化逻辑分析,挖掘话题在不同时期的焦点变化,呈现话题的演化图谱。本文的主要工作有:(1)构建话题特征集合库:新闻是话题在在线多源媒体环境下最直接和客观的表现形式之一,本文通过句法分析树分析和提取话题片断的主体、客体和行为等关系。在句法树和词性标注的基础上,获取话题片断的时间、位置、参与对象和组织机构等实体关系。最终实现提取话题片断的时间特征、句法特征(主体、客体和行为)和命名实体(位置、参与对象和组织机构)并构建话题的特征集合库。(2)话题语境下的词向量训练:针对研究话题的新闻语料库,在传统大规模新闻语料库的基础上进行增量词向量训练。通过词向量的训练结果构建基于话题语境的上下文语义关系,降低话题演化研究过程中的文本语义颗粒度。(3)基于多特征的话题演化模型:基于话题多维特征和词向量关系,本文提出了基于多特征的话题演化模型(MFTEM)。模型在传统分层狄利克雷过程(HDP)的基础上,从横向上扩展了时间维度,从纵向上增加了话题的多维特征,使模型更加符合话题演化的一般形式,并利用词向量包含的上下文语义关系,扩展了文本中词的语义,有利于分析和挖掘话题在不同阶段的焦点变化,有效描述了话题在在线多源媒体环境下的演化过程,建立话题的演化图谱。(4)实验验证:为了验证话题演化分析的准确性,本文基于现实门户新闻网站和各类新闻媒体平台,抓取了五个热门话题的新闻数据进行实验,并将实验结果与第三方人工标注的信息进行对比。从分析和对比结果可以得出:本文提出的MFTEM模型和特征选取方法能够有效分析和描述话题在现实中的演化过程,并且可以用符合人们对话题演化的认知逻辑呈现话题的演化图谱。同时,本文提出的模型算法以自动运行为主,对话题本身或模型均无需过多的先验知识和专业理论水平,就可以发挥较好的效果。
其他文献
伴随着互联网技术的一直发展,软件产品在人们的日常生活中扮演着越来越重要的角色,软件的功能也不断被丰富化,这导致了软件系统结构的复杂化,进而导致软件开发变得越来越困难
“一带一路”战略已进入全面推进阶段,其释放的巨大投资影响已在“一带一路”国家投资领域呈现出来。据商务部统计,2016年中国企业对“一带一路”相关国家直接投资达148.2亿
目的:通过全面分析结核病住院患者特征及变化趋势,提高对结核病患者特征的认识;采用对应分析和logistic回归方法分析结核病治疗转归的影响因素,识别影响治疗转归的重要因素;
随着人工智能领域的高速发展,图像处理技术也愈渐成熟,其中目标跟踪在智能交通、公共场所安防、医学图像处理等方面均有广泛应用。尽管当前目标跟踪算法的研究已经有了突破性
本文依据公民政治参与的基本理论要点,按照“理论框架——实践问题——调研分析——对策建议”的研究范式,确立藏区公民政治参与的衡量指标体系,对青海等省藏区公民基层政治
随着社会经济的发展和我国城镇化的进一步推进,农民不断进城务工,大量的农村人口向城市转移。大量的农村人口向城市转移后,农村土地的流转变的频繁起来。中央适时出台“三权
随着智能手机和平板电脑等移动终端设备的普及,利用无线连接技术将可穿戴设备与智能移动终端设备互联,是目前可穿戴设备实现人机交互的一种趋势。可穿戴设备与移动端应用的短
我国实行改革开放40周年,未来还将进一步扩大开放,大力发展经济,各地政府根据自身经济、人才发展需求,不断在产业政策上推陈出新,由此衍生了附条件政府奖励的措施。然而,各地
随着科学技术的快速发展,控制领域中复杂控制环境对控制系统的性能要求越来越高,处理中心需要执行更加复杂的处理任务表,处理系统中大量的数据流。由于功耗和散热问题,通过增
随着云计算技术的发展,作为其核心基础设施——数据中心,已成为制约云计算技术快速发展的重要因素,从而引起世界各国研究机构和研究者的广泛关注。传统的数据中心网络结构主