校园网搜索引擎核心技术—索引技术

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:imlym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎(Search Engine)是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统。它包括信息搜集、中文分词、索引和检索四个部分。但是,面对大多数校园网是内网的情况,大型通用搜索引擎往往处理不到。并且校园网的信息量与所有网络的信息量比较起来非常小,硬件投入和维护量也远远低于大型通用搜索引擎。 因此,本文针对在校园网中进行信息快速搜索的问题,对搜索引擎技术进行了分析和研究,重点研究了索引技术。 文章首先分析了校园网搜索引擎研究的背景和意义,介绍了本文的结构。作为本文的主要内容一索引技术,在第三章得到详细的描述。其中包括:索引的作用和实现形式,索引的结构,索引性能的优化,索引的更新策略。在索引结构这一部分,本文提出了双索引机制以及词语过滤机制。除此以外,还介绍了热点查询技术,即搜索引擎向用户提供近期热点的话题,供用户了解网内的重点信息。同时本文描述了搜索引擎索引的详细设计,显示了运行结果并对结果进行了分析。最后,文章总结了作者在索引子系统研究过程中的主要工作和收获,以及研究中的不足之处,并提出了几项未来需要继续进行的工作。
其他文献
项目调度问题(Project Scheduling Problem,PSP)是指对一个工程项目中的多项任务进行调度,在满足项目本身的各项约束条件的前提下确定其中各项任务的开始执行时间,尽可能达到项
信息领域存在大量与个体相关的数据,这些数据被称为微数据。比如:医疗患者数据、人口普查数据、企业经营数据等。微数据对疾病研究、趋势分析、市场分析等都具有重要作用,因此
本文以六自由度并联机器人为研究对象,首先介绍了并联机器人的结构以及六自由度平台的发展概况、应用前景以及汉字雕刻的发展状况及其在并联机构中的应用现状。然后进行了整
网格是构筑在互联网基础之上的新兴分布式计算技术。它通过整合分布在各地的资源,为动态变化的虚拟组织的成员提供更为广泛的资源共享。如何在这种成员关系动态的虚拟环境中,
农田信息检测技术的信息化和智能化是农业现代化水平的重要体现。无线传感器网络技术是农田信息检测的重要手段,可有效解决传统检测系统布线困难、成本高、检测不精确等难题
Web Services近年来一直是业界的研究热点,随着Web Services应用范围的扩大,对Web Services相关技术的研究越来越广泛。在实际应用中,服务使用者要怎样才能准确、高效地找到自己
本文研究基于面向Agent软件开发过程中的质量度量问题。评估Agent系统的质量,对面向Agent软件的开发具有实际指导意义。 本文首先介绍了软件质量及其度量方法。其次,对Agent
VoIP可以被定义为有能力以合适的服务品质和更低廉的话费在IP数据网络上通电话或发送传真。对于VoIP,我们在不影响其性能的情况下如何保证其安全性方面却研究不够。在分析了Vo
伴随着计算机处理能力的增强,人们对媒体信息需求量不断增加,图像成为一种重要的媒体信息。但是,不可避免的噪声的存在影响着图像信息的准确获取,所以,需要对图像去除噪声来
摘要:蛋白质功能预测是后基因时代的最基本的课题之一,迄今为止已经取得了一系列的研究成果。基于蛋白质相互作用网络进行功能预测是功能预测计算方法中的一个重要分支。然而,