增量聚类在动态多文档摘要中的研究与应用

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:sea23266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代出现的论坛、博客、新闻和在线评论等新媒体每天产生海量文档信息,因此需要一种高效的方法提取文档重要内容,去除冗余信息,将简洁,精炼的内容呈现给读者。为了帮助读者们获取他们感兴趣事件的最新动态,实现更快的实时更新文摘内容,动态文摘技术成为一个新的研究热点。动态文摘的提取需要同时保证质量和效率,目前的动态文摘研究工作大多是基于批处理原则--以文档集合为单位进行处理。而在实际应用中,如新闻更新、灾难报告、舆情分析等系统,文档数据是不稳定的数据流,因此需要研究高效的基于数据流处理的动态文摘抽取办法。为了解决上述问题,本文提出了两种基于增量聚类算法的动态多文档摘要算法:基于改进K-means方法的动态文摘算法和基于KNN增量图聚类算法的动态文摘算法。在动态文摘算法中,聚类的目的是划分文档子主题,而多文档的子主题是潜在的,针对传统k-means需要人为指定聚类数的缺点,实现了一种自适应的初始中心选择方法,并通过对句子节点有用度打分来删除句子,实现增量聚类流。基于KNN增量图聚类的动态文摘算法首先基于KNN思想来构建句子图模型,利用基于密度分割聚类实现句子分类,同时结合图中节点权重和时间因素筛选出候选文摘句,根据摘要长度抽取出动态文摘。最后实现了本文knn增量图聚类算法中文舆情动态文摘抽取原型系统。本文工作的主要贡献是:提出了两种新的基于增量聚类方法的动态文摘抽取算法,实现文摘抽取的流处理——随着文档数据流到来,实时更新文摘内容。根据动态文摘的四大特性:重要性、主题相关性、低冗余性和新颖性,提出一种新的句子加权方法。在TAC数据集和中文舆情系统下的实验证明了两种算法的有效性,其中基于KNN增量图聚类算法的动态文摘算法得到的文摘质量更优。
其他文献
图像的语义分割是指将图像分割成具有一定语义含义的分割块,并对每个分割块进行相应的语义标识,是基于内容的图像压缩、图像检索等多媒体应用领域中的关键技术。把图像分割和
模型检测作为一种自动验证有限状态系统是否满足规范的形式化技术,在规划和多智能体系统等人工智能领域得到了越来越多的应用。现在已经开发出多个多智能体系统的模型检测工具
工作流是通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的目的,为企业更好地实现经营目标提供了先进的手段。迁移
在无线传感器网络中,路由协议是主要的核心技术。其中地理位置路由算法是无线传感网络中非常重要的一类路由算法,该算法运行简单高效并具有低负载的特点。其中,贪婪地理路由
随着高校招生规模的不断扩大,高校教务管理工作就越来越成为高校日常管理工作的重要组成部分,教务管理的信息化,也随着计算机技术的发展,在不断地完善提高。教务管理信息的多样化
进入新世纪,随着“科学技术成为第一生产力”的时代即新经济时代的来临,传统的商业模式正经历着根本性的变革。在很多行业中,产品的同质化使企业难以依靠产品差别来细分市场并创
随着仪器在各个领域的大量使用,从研究实验室到工业厂房,自动化仪器无处不在。人们意识到收集随时间变迁的数据有用起来,自然就需要某种方法来捕捉并完成数据记录。一旦计算机被连接到仪器,数据收集、分析和控制等等功能就可以自由扩展。借助已经发展成熟并且广泛应用的网络技术,实现仪器的网络化和智能化。仪器测量系统已经从传统的RS232、CAN、USB等总线测量系统发展到以互联网技术应用为基础的LAN总线网络化测
随着微博、博客、论坛等web2.0应用的迅猛发展,网民的参与度越来越高。因此,网络上产生了大量的用户生成文本(User Generated Text)。通过对这些短文本进行全面的分析挖掘,可
随着移动通信技术的发展,国际电信联盟要求第三代移动通信系统能够在移动的环境下自由地进行包括语音、数据和动态图像的多媒体通信,由此对传统信道编码提出了新的要求。Turbo
在信息化建设的过程中,很多大中型企业先后引进、开发了许多业务管理信息系统。由于历史和技术的原因,在各个系统的建设过程中,通常只是考虑了该系统所涉及到的业务领域和信息资