论文部分内容阅读
随着Internet技术的快速发展,Web数据库越来越受到人们的重视,Web按其所蕴含信息的“深度”可以分为Surface Web和Deep Web两部分。与Surface Web相比,Deep Web蕴藏了更加丰富、更加专业的信息,为了有效的利用这些信息,建立Deep Web数据集成系统成为当前研究的热点,而Deep Web接口发现是建立Deep Web数据集成系统的首要工作。Deep Web接口发现需要解决4个方面的问题:(1)找到可能包含领域内Deep Web接口的网站。(2)从找到的网站中识别出领域内Deep Web接口。(3)评估发现的领域内DeepWeb接口的覆盖率。(4)抽取出Deep Web接口的属性信息。对于第一个问题,利用搜索引擎是一种行之有效的办法,它的难点在于如何设计查询提交词,进而实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口,本文提出了基于领域知识的查询提交词确定方法,该方法包括三部分:(1)基于领域知识计算查询提交词的知名度,即利用领域知识确定出检查某词是否符合高知名度的特征词,把该词和该词的特征词作为组合词提交到搜索引擎,统计目标网站精确匹配组合词的个数,个数越多,则说明该词和特征词越匹配,从而该词的知名度就越高,该词能找到含有领域内Deep Web接口数越多。(2)基于领域知识的URL过滤,即通过URL中含有的领域知识快速排除和本领域无关的网站,且剩余的网站数目越多,则含有领域内Deep Web接口的网站数也越多,计算剩余网站个数并降序排列,从而排在前面的一个词要比排在后面的一个词找到的领域内Deep Web接口数多。(3)查询提交词确定流程。实验表明该方法可实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口。对于第二个问题,本文提出基于支持向量机的Deep Web接口判定方法,该方法具有较高的查准率和查全率。对于第三个问题,本文提出基于集成网站评估发现领域内Deep Web接口的覆盖率方法,该方法具有一定的参考价值。对于第四个问题,本文提出基于DOM树和正则表达式的Deep Web接口信息抽取方法,该方法能准确的抽取出所需要的信息,且简单易行。