论文部分内容阅读
随着科技的飞速发展,信息的传播方式有了彻底的改变。特别是互联网技术的普及,使得网络信息成为人们获取信息的主要手段。然而在网络信息流行的同时,随着网络信息量爆炸式的增长,用户如何从海量数据中获取所需的信息变得越来越困难。目前,人们对于网络信息的获取主要还是依靠搜索引擎,但现阶段搜索引擎还只局限在采用关键字匹配来查找相关信息。不但会产生许多无关的冗余信息,更主要的是这种信息的获取方式需要一定的先验知识,这样许多热点事件就不能及时被用户所掌握。虽然现阶段各大网站都会对一段时间内的新闻进行热点度排行,但由于这种热点度排名是基于人工作业基础上的,所以存在很大的主观性,使得各大网站之间的热点事件排名也不尽相同。所以基于实际的需求,就需要有一种能够自动、准确、实时的提取热点事件的技术。本文基于互联网海量文本信息,针对网络热点事件的挖掘与特征描述的方法与技术展开研究,设计一种网络热点事件挖掘的方案,并实现了一个原型实验系统。本文的主要工作如下:第一,研究分析了事件挖掘的模型与算法。对比分析了Web文本抽取、文本预处理、文本聚类等事件挖掘过程中的模型和算法,并在此基础上定义了事件等系列概念,给出了事件挖掘的系统方案设计。第二,提出了基于二次聚类的事件挖掘算法。在详尽分析话题检测与追踪与文档聚类中现有算法的优缺点基础上,提出了基于二次聚类的事件挖掘算法,能够有效降低计算的复杂度并提高事件挖掘结果的准确性。第三,研究改进了基于局部主题句群的事件特征提取算法。通过分析自动文摘相关算法的优缺点,提出了基于局部主题句群提取的事件自动文摘算法,对网络热点事件进行归纳总结,提高事件挖掘结果的可读性。第四,实验分析了本文事件挖掘算法与方案。设计实现了一个网络热点事件挖掘的原型系统,对本文提出的算法与方案进行了验证,实验结果表明本文算法与方案的有效性,在多个领域具有应用价值。