论文部分内容阅读
伴随着Internet的高速发展,互联网信息爆炸性增长,并且不断在更新,现在已经是世界上最大的信息来源。互联网绝大部分信息存储于半结构化的HTML页面中,如何从半结构化页而提取信息并通过结构化形式提供给人们是一个迫切需要解决的问题,同时对多源Web信息进行聚合也是一个研究热点,所以研究网页信息抽取技术越发显得重要。
现今网页往往中存在着大量噪音信息,如导航链接、广告链接、版权信息以及相关主题内容推荐,传统的基于HTML结构的网页信息抽取方法对于这些噪声信息的处理能力显得捉襟见肘。网页是经浏览器解释和渲染后呈现给用户查看的,包含有丰富的视觉信息,如样式、位置、显示等,利用这些视觉特征可以过滤掉网页中的噪声,提高信息抽取的效率和准确率。因此,本文将研究基于HTML结构和视觉特征的方法,以对网页进行信息抽取。本文的工作和创新点如下:
提出了一种结合DOM树和视觉特征的多证据网页信息抽取方法DVF(AWeb Information Extraction Method Based on DOM and Visual Features)。DVF方法首先利用视觉特征和DOM树结构特点搜索候选目标数据区域,然后依据所占页面篇幅大小这一视觉特性识别目标数据区域,最后抽取数据记录。实验对10个网站进行抽取,结果有8个网站抽取的召回率和准确率均为100%。
本文还实现了一个基于LBS(Location Based Service)的餐饮信息聚合服务系统。系统从互联网多个生活资讯服务站点抓取餐饮商户信息列表页,并应用DVF方法抽取其中的商家信息,聚合后在移动客户端上展示,为用户提供餐饮信息的位置服务,也给予商家一个宣传和推广自身的平台。DVF方法在该系统的抽取模块中取得较好效果,证明了该方法是有效的。本系统已经成为于国家科技支撑计划课题“增强型搜索系统架构、关键技术及测试规范的研究”的一部分。