【摘 要】
:
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,属于话题检测与跟踪的一项重要的子任务。话题跟踪算法,即传统的话题跟踪算法,一般包括话题/新闻模型化、
论文部分内容阅读
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,属于话题检测与跟踪的一项重要的子任务。话题跟踪算法,即传统的话题跟踪算法,一般包括话题/新闻模型化、相似度计算及阈值比较这三个基本模块。其中,话题/新闻报道的模型表示又分为特征项提取和权重计算这两个主要部分。知网是以汉语和英语的词语所代表的概念为描述对象,揭示概念与概念之间以及概念所具有的属性之间的关系的知识库。本文实现了基于话题更新的话题跟踪算法(简称TR算法),该算法利用自适应的话题跟踪思想在话题中不断加入与该话题有关的新内容,对话题模型进行更新,提高话题模型的适应度。本文提出并实现了一种基于知网的报道特征规范化的话题跟踪算法(简称NCT算法)。该算法在传统话题跟踪算法的框架下实现,其中的话题/新闻模型化模块采用了知网知识库求得两个词语之间的相似度,并根据相似度对话题特征进行规范。此外,本文还提出并实现了基于知网的报道特征规范化和话题更新的话题跟踪算法(简称TR&NCT算法)。该算法综合利用了上述两个算法的优点。在TDT5测试语料上的实验分析表明:TR算法、NCT算法和TR&NCT算法的性能优于传统的话题跟踪算法;TR&NCT算法的性能在所有算法中效果最好。
其他文献
图像是因特网上内容的一个重要组成部分,它能够直接、形象的表达信息。随着数字照相设备和具有拍照功能的手机的普及,数字图像的数量正在急剧的膨胀。与此同时,图像信息的应
USB接口给用户带来便利的同时,也带来了安全隐患,成为不法用户窃取系统信息资源的重要I/O通道之一。微软和一些第三方厂家都针对Windows操作系统对USB接口访问控制给出了自己
Ad hoc网络是一种不依赖于固定基础设施的、自组织的无线移动网络。移动终端具有路由功能,可通过无线连接动态地构成任意的网络拓扑。Ad hoc网络非常适合于军事、商业、个人
路径规划近年来一个热点研究问题,它被广泛应用于多个领域也形成了较完善的理论体系和算法基础。随着科学技术的不断进步,路径规划的应用范围也不断扩展,逐渐成为众多领域的
可满足性问题(satisfiability problem,简称SAT问题)作为第一个被证明的NP完全问题,有着重要的理论及应用意义。它是计算机理论与应用的核心问题,在计算机科学、人工智能等学
H.264采用了多种新的视频编码技术,大幅度提高了视频编码效率和重建视频质量。一般而言在相同的编码质量下,H.264比MPEG-4可以节省约1/2的码率。然而编码性能的提升是以提高
目前,Internet/Web技术逐渐趋于成熟,Web已经成为人们的重要信息来源之一。但在提供丰富的信息资源的同时,它所具有的数据半结构化或非结构化、数据海量、实时的动态性以及用
TCP协议为因特网上的用户提供了可靠的、健壮的端到端数据通信服务,其中的TCP拥塞控制机制更是保证因特网正常运行的关键技术,无线网络中分组丢失和延迟通常是由于链路误码、
当今越来越多的用户开始使用网络导致网络上充斥着大量的流量,任何一个简单的应用都有可能要面临着数以百万的用户访问量。随着云计算的不断发展,越来越多的企业选择将业务部
随着计算机通信技术和互联网的迅速发展,对图像、音频、视频等多媒体内容的保护成为迫切需要解决的问题。数字水印作为版权保护的重要手段和一种新型的信息隐藏方法,近几年得