论文部分内容阅读
Deep Web中包含着数量巨大、质量很高的信息,却不能被通用搜索引擎搜索。研究Deep Web搜索引擎及其关键技术将有助于实现对Deep Web自动搜索。首先介绍了通用搜索引擎的一般原理。然后对Deep Web进行概述,讨论了Deep Web的定义及类型,定量地分析了Deep Web的概况,并在此基础上给出了Deep Web搜索引擎的完整框架及定义,同时指出它的四个关键技术:数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合。对这四个关键技术进行了详细的讨论:提出一种基于网络蜘蛛的数据库自动发现方法,实验结果表明该方法很有效;对数据库自动选择方法进行综述并设计了一种自动选择方法;提出一种高效的从查询返回结果页面上自动抽取结果的方法,实验结果表明该方法简单高效;将结果聚合分解为三个子问题并综述分析。