论文部分内容阅读
作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息中新话题的自动识别以及对已知话题的动态跟踪。话题识别与跟踪(TDT)技术可以把分散的信息有效地汇集并组织起来,使人们能够从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。话题跟踪作为话题识别与跟踪的一项子任务,是指根据给出的某一话题的一则或多则报道,把与该话题相关的报道联系起来。本文主要研究了话题跟踪,在借鉴国内外关于话题跟踪研究的先进技术的同时,也对新闻报道的自身特点进行了有益的探索。将语义和链接分析引入到了话题跟踪方法中,利用链接则对Web新闻网页的针对性更强,利用语义则对新闻报道内容刻画更形象具体。实验证明基于语义和链接的跟踪方法提高了跟踪的性能。Web新闻网页不同于传统的文本文档,一部分Web新闻网页以新闻图片和相关链接为主,而只有极少的文字内容,这使得传统的基于内容计算的话题跟踪方法很难发挥好的效果。因此,本文主要研究了链接分析在Web话题跟踪中的应用,提出了一种基于内容计算和链接分析相结合的针对Web新闻信息的话题跟踪方法。由于向量空间模型中的向量维数较高,重要的特征词经常会被区分能力较弱的特征词所淹没,且对事件表示不够形象直观,本文提出了一种利用语义框架来表示话题和报道的方法。最后,将话题跟踪方法应用于科技文献,使话题跟踪思想的应用不单单局限于新闻报道。讨论了适用于科技文献的权重计算方法。采用了基于同义词的话题模型扩充方法,跟踪过程中采用了一种利用引文关系的类KNN方法。实验证明这一应用比较合理。