搜索引擎设计分析与查询改进

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Gzliao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,越来越多的人们希望通过网络来获取他们需要的信息。在这样的需求背景下,搜索引擎技术应运而生,它以庞大的数据容量,快速的用户响应与人性化的网站排名赢得了人们的普遍欢迎。随着需求的不断改变与细化,各种各样的搜索引擎随之产生,图片搜索引擎、新闻搜索引擎等专业搜索引擎满足了不同专业人群的需要,基于windows与基于linux的搜索引擎满足了多平台作业人群的需要。搜索引擎一般由网络爬虫Crawler、索引器、检索器与用户接口组成。Crawler从Web上下载页面;索引器对下载页面的内容进行分析并将文档表示为一种便于检索的方式存储在索引数据库中。检索器接收用户的查询词并实现查询词语目标文档匹配度的计算;用户接口、提供一个搜索引擎与用户交互的界面,它实现将检索结果格式化后提交给用户浏览。本论文的主要任务是对基于linux的英文搜索引擎的改进,该搜索引擎从设计之初以来,一直致力于如何快速高效地建立索引与提供检索,它最大的特点就是网页收集部分与索引检索部分相分离,这样使得网页的获取方式多样化而建立索引在统一时间进行,进而节省了时间又简化了操作,同时搜索引擎提供给用户灵活的linux文本操作界面,比如用户可以通过输入参数控制查询结果的输出数量与风格。本文首先简要地介绍了搜索引擎的相关技术,包括搜索引擎的体系结构、网络爬虫、文档预处理、索引技术、查询技术与排序技术。而后结合现有的搜索引擎源代码,详细介绍了搜索引擎索引与搜索两大子系统,包括每个子系统的主要数据结构,子系统的工作流程与子系统的主要功能函数等,在详细分析了搜索引擎各个系统功能的基础上,本文对搜索引擎进行了改进,即增加英文短语查询的功能,文中从分析短语的表示入手,依次分析了短语的解析与短语的查询,每部分分析都要同原系统的相关部分紧密结合,对原系统的修改也尽量做到添加而非改动。本文最后一部分给出了基于修改的搜索引擎的功能测试,同时从分析结果的角度比较了短语查询同逻辑“与”查询的不同点。
其他文献
在软件开发过程中,如何提高软件系统的重用性和互操作性一直是一个重要的问题。面向对象技术实现了源代码级的软件重用,但不能跨越应用程序边界。分布式组件技术实现了跨越应
本课题基于实际项目《疾病防控与儿童免疫管理系统》的开发,从实际应用出发,对现存决策树分类方法进行了研究,提出决策树分类算法的不足并对ID3算法提出了改进,并应用到系统当中,
企业知识门户通过整合企业的各种信息资源,为企业和员工提供所需要的知识。它将企业门户技术与知识管理理论及方法相结合,利用门户(Portlet)组建技术,支持单点登录,为企业员工提
为了更具有竞争力,企业必须能够更灵活,快速地对多变的市场环境做出反应,这就需要利用各种知识,以前的,现在的,本领域的,其他领域的等等,而做到这些的关键就是企业知识的共享和重用。
图像分割是一种重要的图像处理技术,它得到了人们的重视和研究,并在实际中得到了大量应用。图像的边缘表达了图像的大部分信息,在实际应用特别是遥感图像处理中,图像的边缘检测是
由于磁盘的读写速度受到盘内磁头读写速度的限制,其实际的传输速度并不能达到ATA接口速度的最大值,因此降低了整个计算机系统的性能。针对以上问题,将Flash和磁盘相结合,在Fl
今天Internet在全世界范围内迅速发展壮大,伴随着网络的发展,网络安全问题也日益突出。网络蠕虫和病毒肆虐,给网络用户造成了巨大的损失。特别值得注意的是蠕虫在发展过程中
计算机网格为分布的资源共享和协同工作提供了优异的基础设施和平台。网格中间件将分布的计算机资源粘合在一起,构成了一个巨大的虚拟机和资源库,在科学计算中获得了成功的应
流媒体技术是近年来研究的一个热点。随着Internet的普及与发展,流媒体技术在网络中有着越来越广泛的应用,如视频会议、视频点播、电话和远程教育等,己经从实验室逐步应用到
WinCE是一种实时嵌入式操作系统,其应用范围广泛,是当前嵌入式开发领域的热点之一。WinCE在内存管理方面与其它操作系统不同,应用程序可用的虚拟地址空间为32MB。而实际项目要求