基于上下文的话题和话题关系的演化研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ernie_dun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动挖据大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文集中的潜在语义信息,而话题演化则主要关注于如何将不同时间段上文集中的语义信息以话题的形式提取出来并将话题在时间轴上的变化情况反映出来。然而,通过对话题模型的结果分析发现,同时间段的话题之间也是存在语义相关性的。本文提出了话题上下文的概念来对话题间语义相关性进行描述。话题常会和某些其它话题共现在文档中,一个话题同其他话题的共现信息称为该话题的上下文。一方面,将话题的上下文信息利用到话题的关联计算当中,可以获得更正确的话题演化结果;另一方面,话题上下文信息还可以用于挖掘话题之间的语义相关性,得到话题之间语义关系图。结合话题演化和话题关系的挖掘,可以得到话题关系在时间轴上的变化,即话题关系的演化。本文主要在以下几个方面进行了有益的探索:(1)提出了一种挖掘同时间段中话题语义关系的方法,即利用话题间在文档中的共现信息来构建话题的上下文;(2)将话题的上下文信息利用到话题的关联计算当中,改进话题演化的结果;(3)利用上下文信息计算话题间的语义关系,并结合话题演化实现话题关系的演化。本文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行了试验,结果显示,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖据话题之间的关系以及揭示话题关系随时间的变化。
其他文献
学位
Ad Hoc无线移动网络由于其灵活性和实用性近年来受到越来越多的关注,各种Ad Hoc网络路由协议的提出及相关的性能分析评价也成为学术界的研究热点。随着组播业务需求的增长,先
科技资源一般包括:人才素质、产业基础、实验设备、资金、信息等,能为科技发展提供方便的资源都属于科技资源。它是科技创新的物质基础,用于反映一个地区的科技发展状况。管理部
网格是把整个Internet整合成一台巨大的超级计算机,实现各种资源的全面共享。网格的用户和开发人员经常需要监控系统的运行以发现未知的性能问题,从而及时发现故障的根源,分析系
因特网的飞速发展推动着城域网的发展,电信运营商对城域网提出了更高的要求,一种新的城域网技术——弹性分组环技术应运而生。 随着宽带接入网络的发展,对宽带接入服务器
电气化铁道运输提速,对牵引供电系统及设备提出了更高的安全可靠性要求。电气设备的停电预防性检修由于诸多客观原因,并不能完全杜绝设备在运行中发生事故。为了能够有效地提
蛋白质结构分类分为多个层次,如何对蛋白质结构进行定量分类和自动分析是目前研究的重点。本文选择蛋白质二级结构数据为主要的研究对象,应用数据挖掘技术和机器学习中的动态
将多个服务组合起来形成服务流程提供更为强大的功能已经成为一种普遍应用。在服务流程执行时,服务流程引擎解释流程逻辑并进行服务调用。为了加速服务流程的执行,可以将服务调
网格计算是科学家们为解决当今的一些科学难题而提出的新概念,是当前并行和分布处理技术的一个研究热点,而资源管理是计算网格的关键技术之一。由于网格的目的是要整合各种各样
本文旨在根据陈火炎教授提出的具有形式化基础的通过属性变换与方法变换生成面向对象类级变异体的概念和思想,将变异分析与变异测试方法运用到面向对象的类级测试中。本文首