基于领域知识的Deep Web接口发现研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:lainfaye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速发展,Web数据库越来越受到人们的重视,Web按其所蕴含信息的“深度”可以分为Surface Web和Deep Web两部分。与Surface Web相比,Deep Web蕴藏了更加丰富、更加专业的信息,为了有效的利用这些信息,建立Deep Web数据集成系统成为当前研究的热点,而Deep Web接口发现是建立Deep Web数据集成系统的首要工作。Deep Web接口发现需要解决4个方面的问题:(1)找到可能包含领域内Deep Web接口的网站。(2)从找到的网站中识别出领域内Deep Web接口。(3)评估发现的领域内DeepWeb接口的覆盖率。(4)抽取出Deep Web接口的属性信息。对于第一个问题,利用搜索引擎是一种行之有效的办法,它的难点在于如何设计查询提交词,进而实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口,本文提出了基于领域知识的查询提交词确定方法,该方法包括三部分:(1)基于领域知识计算查询提交词的知名度,即利用领域知识确定出检查某词是否符合高知名度的特征词,把该词和该词的特征词作为组合词提交到搜索引擎,统计目标网站精确匹配组合词的个数,个数越多,则说明该词和特征词越匹配,从而该词的知名度就越高,该词能找到含有领域内Deep Web接口数越多。(2)基于领域知识的URL过滤,即通过URL中含有的领域知识快速排除和本领域无关的网站,且剩余的网站数目越多,则含有领域内Deep Web接口的网站数也越多,计算剩余网站个数并降序排列,从而排在前面的一个词要比排在后面的一个词找到的领域内Deep Web接口数多。(3)查询提交词确定流程。实验表明该方法可实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口。对于第二个问题,本文提出基于支持向量机的Deep Web接口判定方法,该方法具有较高的查准率和查全率。对于第三个问题,本文提出基于集成网站评估发现领域内Deep Web接口的覆盖率方法,该方法具有一定的参考价值。对于第四个问题,本文提出基于DOM树和正则表达式的Deep Web接口信息抽取方法,该方法能准确的抽取出所需要的信息,且简单易行。
其他文献
P2P网络中的资源定位问题是一个开放性的问题,应该针对具体的应用设计性能更优的定位方法来实现系统。当然,关于各种定位方法性能上的优劣分析为P2P网络设计更优的定位方法具
随着互联网和多媒体技术的发展,网络服务器提供了大量的图像,给后续的图像处理和分析带来极大地挑战。人类视觉系统可以很容易地判断图像中的显著性区域,并注意到图像的重要
随着工作流的不断发展,出现了多种工作流语言和服务编排语言,而每一种服务编排引擎只执行一种语言,缺乏可移植性。因此,在实现科学研究的流程化和自动化的同时,如何高效地利用分布
在我们实际的嵌入式的开发之中,真实的嵌入式硬件开发环境跟嵌入式的仿真开发的环境还是很有差别的情况的,我们在开发的最后不能够完全依靠仿真开发平台,实际的情况还是要在最后
本文主要对无线传感器网络的路由协议进行研究,并针对无线传感器网络的能量受限特性,着重研究路由协议中的层次路由协议——LEACH及在其之上发展的诸多协议。本文提出的基于
随着计算机网络的不断发展,互联网已经成为了人类社会主流的一个重要组成部分。人们希望互联网能够不断地提供应用所需的各种网络服务。特别是,以视频会议、视频点播、远程教
推荐系统作为一个高效的信息过滤工具,已广泛应用于电子商务和社交网络等诸多领域。然而,当前一些称为“水军”的恶意用户为获取不正当利益,往往通过伪造用户行为影响推荐结
Skyline查询作为数据挖掘的重要分支,广泛应用于多标准决策、可视化和用户参考查询等领域。近年来,在数据库和信息检索研究领域,有效计算Skyline的问题已经引起国内外研究者
随着信息技术和互联网的发展与普及,越来越多的人能够在网络上随时随地的发表自己的想法,分享自己的所见所闻;在线社交网络(比如Twitter、Facebook、新浪微博等)在信息的传播
XML因其具有自描述性,可扩展性以及开放性等优点已经成为网络上信息表达和数据交换的事实标准。随着XML数据的不断增长,尤其是大规模XML数据的出现(如XML数据库),对XML数据的