面向食品安全新闻舆情的主题爬虫的设计与实现

被引量 : 3次 | 上传用户:angieho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,食品安全事件频繁发生,一系列食品安全事件触目惊心,让消费者陷入了极度不安。食品安全问题,需要从源头和传播过程中全面监管和遏制,为此,国家“十二五”科技支撑项目提出食品安全全程溯源以及舆情监控的新思路,依托此项目,本文参与的供港食品安全舆情监控系统,从热点话题检测、热词检测、正负舆情检测、舆情预警等多个角度,提供全面且及时的食品安全舆情监控功能,提高了监管部门对食品安全舆情的监管能力。作为舆情监控系统中的信息来源,本文所设计的主题爬虫部分,能够从互联网上全面、迅速地采集结构化的食品安全新闻信息,为监控系统提供及时可靠的信息来源。通过学习和总结国内外舆情监控系统的实现方法以及主题爬虫相关技术,结合整个平台的需求,本文设计了功能完善的主题爬虫部分,主要的工作和创新点如下:设计完整的爬虫处理链,将爬虫处理链分为信息采集、信息抽取和主题过滤三部分,并实现了与爬虫对应的Web用户交互部分。在信息采集模块:基于Heritrix开源爬虫框架,结合新闻站点的特点,提出自适应更改抓取时间的抓取控制方法,确保监控站点更新的内容能够被及时获取;修改Heritrix的链接处理模块,使用嵌入式数据库Berkeley DB,实现系统的增量抓取;定制爬虫URL处理链,增加站点范围过滤以及采集格式规范化处理;优化爬虫URL处理链,缩短改进了对URL的处理流程。在信息抽取模块:基于HTMLParser中Filter的设计思路,设计了将HTML标签和属性结合的新的信息抽取方式,实现对信息的精确抽取;加入了字节流编码统一,繁简体统一等细节处理;实现从“时间来源”节点中智能分离新闻发布时间和引用来源。在主题过滤模块:按照监控站点类别,设计针对食品安全站点的全站抓取和针对普通站点的按主题过滤的抓取方式;在按主题过滤方式中,针对食品安全主题和新闻页面的特殊特点,提出按照新闻标题计算主题相关度的方法,并结合标题简短的特点,为标题设计二级主题词主题相关度计算法,使得爬虫的命中率达到90%以上。根据新闻舆情的特殊特点,提出智能推荐监控站点的最新功能,扩大监控站点范围,拓宽信息来源。至今为止,本文设计实现的主题爬虫部分,已经能够对腾讯网、新浪网、网易新闻、食品伙伴网、香港食物安全中心等十七个大中型网站实现7天*24小时不间断监控,采集总数据量达50多万条,其中食品安全新闻9500多条,且具有较高的主题命中率和查全率。
其他文献
CyberKnife作为目前最先进的放射治疗设备,国内外近来发展很快。该设备在许多方面具有传统立体定向放射治疗设备无可比拟的优势,已广泛应用于全身大多数部位的良性病变的治疗
文章试图通过细读文革时期小说的典型文本《艳阳天》和《金光大道》,分析其叙事模式的具体特征,勾勒出英雄人物形象在十七年文学中的沿革过程以及最终形成蜕变的内在机制,探
急性主动脉综合征(AAS)包括主动脉夹层(AD)、壁内血肿(IMH)和穿透性动脉粥样硬化性溃疡(PAU),是严重威胁人类生命的综合征,其临床诊断困难。CT和MRI技术迅速发展,成为AAS诊断
根据近年来我国地质矿产行业纷纷向外走出去的实际需要,通过对西澳大利亚州矿产投资方面相关资料的大量收集、翻译和整理,系统总结和分析了西澳大利亚州目前的经济、贸易、资
2007年11月21日北京朝阳医院京西分院发生因孕妇家属拒签手术同意书而致孕妇死亡事件。社会各界舆论哗然,同情、反对、质疑等纷至沓来。本文从医患信任危机的角度,对此事件进
针对全方位移动机器人,结合PID和模糊控制两者的优点,提出了一种模糊自适应PID(FAPID)的控制方法。对模糊自适应PID控制算法进行了理论分析,基于Matlab建立了全方位移动机器
地缘政治理论形成和发展往往受到其主要思想家所代表的具有特定地理特征的国家的利益诉求和政策关切的影响,在地缘政治研究中存在着明显的"国别倾向"。在西方现存的三大地缘
在当代文学史中,阿城的小说往往被归类于寻根文学,但阿城后来对此并不认同。阿城站在民间的视角,不仅关注世俗民众之生,同时也在试图传递他对一直根植于民间土地的民间智慧的
目的:观察助孕灵治疗女性抗精子抗体(AsAb)阳性不孕症的临床疗效。方法:将178例AsAb阳性不孕症患者随机分为治疗组90例,以助孕灵治疗;对照组88例,以地塞米松加维生素治疗,2组
介绍了单片机对水温、水位的控制。采用低功耗数字式温度传感器进行温度测控,可大大简化设计方案,系统性能也更加稳定。采用光电测控水位,可有效保证水位的自动控制,保证水质