论文部分内容阅读
阅读网络新闻已渐渐成为人们获取信息的一个重要渠道。网络新闻来源众多,并且报道角度和立场各不相同,粗略的新闻分类方式无法帮助用户了解新闻事件的前因后果。因此人们迫切希望通过计算机自动处理海量新闻流,快速发现社会热点事件,及时找到感兴趣的相关新闻报道。
本文面向教育领域,采用Web信息采集、网页分类、网页信息抽取以及话题检测以及追踪等技术对新闻话题信息进行挖掘,设计并实现了一个面向教育科研网络的教育新闻聚类平台,以帮助用户方便、快捷地了解当前教育国内外新闻热点和专题报道等密集型信息。
在Web信息抽取方面,本文结合新闻主题型网页动态模板的共同特点,以及待抽取信息块的不同语义特性,分别提出两种方法来完成新闻内容的抽取。在新闻正文抽取方面,提出一种基于信息块结构的迭代过滤方法,对每个互相嵌套的信息块采取“由内到外”以及“从小到大”的次序,通过语义过滤规则依次进行判断、抽取块内信息以及去除,最后达到正文精确抽取的效果。为了对新闻标题以及发布时间等进行信息抽取,结合其位置相对固定的特点,本文提出一种基于XPath规则的信息抽取方法,可以较有效地实现对这些重要信息的抽取。
在话题检测和追踪技术方面,以网络新闻报道流为研究对象,提出了一个实用的话题动态检测算法。该算法主要有以下改进:在文本向量空间模型下对特征项的选择,采用了命名实体以及重要动名词,降低了高维处理;在特征项权重的计算,考虑了新闻标题的重要影响指标,提高话题检测的精度;在话题排序方面,结合考虑了主题的时间和数量特性,提出一种话题得分排序方法来过滤不重要的话题;引入话题合并和调整的机制,提高话题追踪的效果。
从实验测试来看,本文提出的Web信息抽取方法能有效提高新闻信息抽取的准确度,而话题动态检测算法可有效改善系统的实用性。