基于语义和链接的话题跟踪方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hanjingcj520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息中新话题的自动识别以及对已知话题的动态跟踪。话题识别与跟踪(TDT)技术可以把分散的信息有效地汇集并组织起来,使人们能够从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。话题跟踪作为话题识别与跟踪的一项子任务,是指根据给出的某一话题的一则或多则报道,把与该话题相关的报道联系起来。本文主要研究了话题跟踪,在借鉴国内外关于话题跟踪研究的先进技术的同时,也对新闻报道的自身特点进行了有益的探索。将语义和链接分析引入到了话题跟踪方法中,利用链接则对Web新闻网页的针对性更强,利用语义则对新闻报道内容刻画更形象具体。实验证明基于语义和链接的跟踪方法提高了跟踪的性能。Web新闻网页不同于传统的文本文档,一部分Web新闻网页以新闻图片和相关链接为主,而只有极少的文字内容,这使得传统的基于内容计算的话题跟踪方法很难发挥好的效果。因此,本文主要研究了链接分析在Web话题跟踪中的应用,提出了一种基于内容计算和链接分析相结合的针对Web新闻信息的话题跟踪方法。由于向量空间模型中的向量维数较高,重要的特征词经常会被区分能力较弱的特征词所淹没,且对事件表示不够形象直观,本文提出了一种利用语义框架来表示话题和报道的方法。最后,将话题跟踪方法应用于科技文献,使话题跟踪思想的应用不单单局限于新闻报道。讨论了适用于科技文献的权重计算方法。采用了基于同义词的话题模型扩充方法,跟踪过程中采用了一种利用引文关系的类KNN方法。实验证明这一应用比较合理。
其他文献
当今社会,随着信息技术日新月异的发展及大范围的应用,在教育领域中,对教育教学的形式提出了新的要求。传统教育的理念和传统教学的模式已不再能完全满足受教育人群不断变化的需
随着社会信息化的发展,越来越多的人融入到了信息化的潮流当中。而正是流媒体技术改变了网络多媒体信息的传播方式,数字媒体应用蓬勃发展,目前已广泛应用于视频点播(VOD)、电
生产调度系统是企业资源计划(Enterprise resource planning,简称ERP)的核心,也是目前我国ERP项目实施的瓶颈。在敏捷化、全球制造的新形势下,生产调度研究面临着许多新问题,迫切
轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)是当前网络上信息资源管理领域中应用非常广泛的协议,能够满足大量用户同时在线访问。为使达梦数据库具有
随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到自己所需的信息,搜索引擎正
悬架是现代汽车的重要组成部分之一,它是连接车架与车桥的弹性机构,是保证车辆乘坐舒适性和行驶安全性的重要组成部件。传统的被动悬架因为阻尼参数的不可调整,很难满足现代
随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其
随着数字信息的爆炸式增长和应用需求的不断提高,传统的网络存储系统在容量、性能、可扩展性、安全性、服务质量等方面面临着巨大挑战,对象存储技术采用全新的对象接口,被认
工作流技术作为计算机支持的协同工作领域的一项重要应用,是实现企业业务流程建模、业务流程仿真分析、业务流程优化、业务流程管理与集成,从而最终实现业务流程自动化的核心技
学位