论文部分内容阅读
近年来,食品安全事件频繁发生,一系列食品安全事件触目惊心,让消费者陷入了极度不安。食品安全问题,需要从源头和传播过程中全面监管和遏制,为此,国家“十二五”科技支撑项目提出食品安全全程溯源以及舆情监控的新思路,依托此项目,本文参与的供港食品安全舆情监控系统,从热点话题检测、热词检测、正负舆情检测、舆情预警等多个角度,提供全面且及时的食品安全舆情监控功能,提高了监管部门对食品安全舆情的监管能力。作为舆情监控系统中的信息来源,本文所设计的主题爬虫部分,能够从互联网上全面、迅速地采集结构化的食品安全新闻信息,为监控系统提供及时可靠的信息来源。通过学习和总结国内外舆情监控系统的实现方法以及主题爬虫相关技术,结合整个平台的需求,本文设计了功能完善的主题爬虫部分,主要的工作和创新点如下:设计完整的爬虫处理链,将爬虫处理链分为信息采集、信息抽取和主题过滤三部分,并实现了与爬虫对应的Web用户交互部分。在信息采集模块:基于Heritrix开源爬虫框架,结合新闻站点的特点,提出自适应更改抓取时间的抓取控制方法,确保监控站点更新的内容能够被及时获取;修改Heritrix的链接处理模块,使用嵌入式数据库Berkeley DB,实现系统的增量抓取;定制爬虫URL处理链,增加站点范围过滤以及采集格式规范化处理;优化爬虫URL处理链,缩短改进了对URL的处理流程。在信息抽取模块:基于HTMLParser中Filter的设计思路,设计了将HTML标签和属性结合的新的信息抽取方式,实现对信息的精确抽取;加入了字节流编码统一,繁简体统一等细节处理;实现从“时间来源”节点中智能分离新闻发布时间和引用来源。在主题过滤模块:按照监控站点类别,设计针对食品安全站点的全站抓取和针对普通站点的按主题过滤的抓取方式;在按主题过滤方式中,针对食品安全主题和新闻页面的特殊特点,提出按照新闻标题计算主题相关度的方法,并结合标题简短的特点,为标题设计二级主题词主题相关度计算法,使得爬虫的命中率达到90%以上。根据新闻舆情的特殊特点,提出智能推荐监控站点的最新功能,扩大监控站点范围,拓宽信息来源。至今为止,本文设计实现的主题爬虫部分,已经能够对腾讯网、新浪网、网易新闻、食品伙伴网、香港食物安全中心等十七个大中型网站实现7天*24小时不间断监控,采集总数据量达50多万条,其中食品安全新闻9500多条,且具有较高的主题命中率和查全率。