多证据结合的网页信息抽取

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:huiyuanai852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的高速发展,互联网信息爆炸性增长,并且不断在更新,现在已经是世界上最大的信息来源。互联网绝大部分信息存储于半结构化的HTML页面中,如何从半结构化页而提取信息并通过结构化形式提供给人们是一个迫切需要解决的问题,同时对多源Web信息进行聚合也是一个研究热点,所以研究网页信息抽取技术越发显得重要。   现今网页往往中存在着大量噪音信息,如导航链接、广告链接、版权信息以及相关主题内容推荐,传统的基于HTML结构的网页信息抽取方法对于这些噪声信息的处理能力显得捉襟见肘。网页是经浏览器解释和渲染后呈现给用户查看的,包含有丰富的视觉信息,如样式、位置、显示等,利用这些视觉特征可以过滤掉网页中的噪声,提高信息抽取的效率和准确率。因此,本文将研究基于HTML结构和视觉特征的方法,以对网页进行信息抽取。本文的工作和创新点如下:   提出了一种结合DOM树和视觉特征的多证据网页信息抽取方法DVF(AWeb Information Extraction Method Based on DOM and Visual Features)。DVF方法首先利用视觉特征和DOM树结构特点搜索候选目标数据区域,然后依据所占页面篇幅大小这一视觉特性识别目标数据区域,最后抽取数据记录。实验对10个网站进行抽取,结果有8个网站抽取的召回率和准确率均为100%。   本文还实现了一个基于LBS(Location Based Service)的餐饮信息聚合服务系统。系统从互联网多个生活资讯服务站点抓取餐饮商户信息列表页,并应用DVF方法抽取其中的商家信息,聚合后在移动客户端上展示,为用户提供餐饮信息的位置服务,也给予商家一个宣传和推广自身的平台。DVF方法在该系统的抽取模块中取得较好效果,证明了该方法是有效的。本系统已经成为于国家科技支撑计划课题“增强型搜索系统架构、关键技术及测试规范的研究”的一部分。
其他文献
本课题任务源于某科研单位的“复合材料构件静力加载系统研制技术要求”。电液伺服静力加载系统是静力试验的重要装置之一,用于为产品或结构件施加外载荷,以检验产品结构强度
随着无线网络技术的迅速发展,3G网络在全球范围内部署和运营,用户对移动流媒体应用的需求与日俱增。在这种背景下,与流媒体应用相关的技术研究日益成为学者们关注的焦点。本文以
磁共振模式无线电能传输技术通过在传统感应模式的基础上增加两个高Q值的共振线圈来实现电能的中尺度传输,解决了传统感应模式只能小尺度传输电能的弊端,具有广阔的应用前景。
随着互联网和信息收集技术的发展,网络中的数据量呈爆炸式增长,依赖于海量数据的数据密集型应用也层出不穷。现今数据密集型应用已在科学计算、互联网数据处理、网络媒体处理等
学位
计算机博弈是人工智能领域的一个重要的研究课题。计算机博弈也被称为人工智能的果蝇。各种棋类的人工智能研究,都不断取得新的成果。发展最快的是国际象棋,早在上世纪90年代,国
现今,实时嵌入式系统在许多领域都得到了广泛应用,包括但不限于,通信系统、消费电子、车辆电子、医疗图像和航天航空等等。显而易见,这些领域最为关键的核心问题在于任务的调度,亦
在农业、建筑、采矿等工作中,全世界有数亿人由于长时间弯腰工作而导致很高的腰背痛发病率。仅在农业工作中,全世界就有高达13亿农业劳动力因弯腰工作而普遍有患腰背痛的风险。
随着煤炭市场的持续高涨,世界的煤矿安全生产形势严峻,大多数煤矿采用的是井下挖掘方法。由于煤矿下易发生瓦斯泄露、透水、坍塌和煤尘爆炸等事故,井上施救人员难以实时地掌握井
随着社会经济的发展和科学技术的日新月异,在水、电、气等公用事业领域的收费方式经历了从人工抄表收费到自动抄表收费的转变。自动抄表收费方式有效解决了人工抄表收费方式