垂直搜索引擎关键技术研究及应用

来源 :华北电力大学(保定) 华北电力大学 | 被引量 : 0次 | 上传用户:bach88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了垂直搜索引擎实现的关键技术,从细节上对两个核心模块,即主题爬虫技术和索引技术进行了深入地研究分析。在主题爬虫的设计中,通过结合基于内容和链接分析的主题相关性的搜索策略,利用基于内容的评价提高搜索内容与主题资源的相关度,利用链接结构的评价来提高主题资源的覆盖率,从而有效的提高了爬虫的性能;从索引文件本身的结构出发,采用分级的倒排表索引组织结构,改进了传统倒排表索引器的实现方案,提高了索引创建的效率;最后,结合开源项目Nutch的索引,设计并实现了一个基于数码主题信息的垂直搜索引擎,通过相关的试验,验证了系统可以为用户提供比较完整准确的主题信息查询服务。
其他文献
P2P网络是一种分布式网络,是目前复杂网络研究的热点,建立体现P2P网络真实特征的网络模型对研究网络的结构和行为有重要的意义。目前对P2P网络模型的研究主要集中在P2P的路由
多水下机器人协调机制是水下机器人研究的重要组成部分,编队控制是多水下机器人协调中的一个典型问题,具有重要的研究意义和实用价值。针对水声通信的相关特点,本文以多AUV编
随着网络的发展,它使得网络资源变得丰富的同时也为互联网自身的安全带来了隐患。网络入侵行为隐秘性强,不受时间与地域上的限制,所以其经常发生在正常网络的行为活动中。主
随着关键字检索在Web搜索领域取得巨大成功,XML数据上的关键字检索技术也得到了广泛的关注。为了提高检索结果的有效性和性能,检索系统需要综合考虑以下问题:理解查询语义、
近几年,为了满足一些特殊油气资源开发的需要,各种新技术相继被提出,井下闭环钻井技术也被人们所重视。井下闭环旋转导向智能钻井系统的研制成功将最终实现可控闭环三维轨迹
随着Web的不断发展,隐藏于Deep Web中大量有价值的数据依靠传统的技术已经不容易访问,因此如何高效地访问Deep Web成为了一个亟待解决的问题。作为下一代Web发展方向的语义Web
订货系统是零售行业服务管理的一个重要组成部分,以往各个零售店都是通过人工填写单据,或者通过电话传真的方式订货,造成了人工成本的浪费并影响了订货反应的实时性。本文针
在SOA中,BPEL被广泛用来定义和执行业务流程组合。执行业务流程时,由于SOA本身具有松耦合、分布式等特点,因此在调用Web服务时可能会因为网络、服务失败或者提供服务的主机不
随着网络技术的发展和数字图像设备的普及,大容量图像数据库在各行各业有着广泛的应用,如何快速、有效地查找到图像库中相关的图像是一项具有挑战性的工作。于是,基于内容的
随着互联网即时通讯技术的发展和普及,手机短信、即时信息、基于互联网和手机短信的客户评论、新闻评论等短文本形式的信息大量出现,短文本信息处理领域的重要应用所迫切需求,使