Deep Web搜索引擎的关键技术

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yht_816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中包含着数量巨大、质量很高的信息,却不能被通用搜索引擎搜索。研究Deep Web搜索引擎及其关键技术将有助于实现对Deep Web自动搜索。首先介绍了通用搜索引擎的一般原理。然后对Deep Web进行概述,讨论了Deep Web的定义及类型,定量地分析了Deep Web的概况,并在此基础上给出了Deep Web搜索引擎的完整框架及定义,同时指出它的四个关键技术:数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合。对这四个关键技术进行了详细的讨论:提出一种基于网络蜘蛛的数据库自动发现方法,实验结果表明该方法很有效;对数据库自动选择方法进行综述并设计了一种自动选择方法;提出一种高效的从查询返回结果页面上自动抽取结果的方法,实验结果表明该方法简单高效;将结果聚合分解为三个子问题并综述分析。
其他文献
数据分析与处理技术迅速发展,在公布或共享数据以挖掘有效决策信息和知识的同时,不免暴露出个人和公司隐私泄露问题,进而催生了隐私保护数据挖掘这一研究领域并在近三年成为
期刊
期刊
随着社会多元化发展,群体性事件已经成为影响构建和谐社会最为突出的问题,也成为政府施政治理社会亟需研究和解决的一个重要课题。本课题来源于江苏省教育厅哲学社会科学基金资
期刊
在NSFC项目绩效评估中,让专家在短时间内对种类繁多,数量巨大的研究成果做出恰当评价是比较困难的。本文首先对科研管理机构现行的工作流程进行分析,并引入UML工作流程分析方法对其进行建模。通过分析发现现行工作流程中具有时间短任务重、时间成本过高、同行评议专家不易召集和总体评估成本过高等缺点和瓶颈。针对缺点和瓶颈,本文分析了现有的工作流程,提出了绩效评估信息化的解决方案,分析了B/S模式和C/S模式各