基于互关联后继树搜索引擎的分布式改进

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xwxseven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的发展,越来越多的软件系统以网络应用和服务的形式出现。各种形式的网络环境以及运行于其中的各式应用和服务,组成了形式各异的分布式系统。如何使各种网络应用和服务彼此互通,以及如何让客户系统可以使用一个统一的标准来发现和调用各种网络应用和服务,就成为了一个非常具有现实意义的重要课题。Web服务(Web Services)就是为了解决这一问题由国际标准组织所提出的一系列相关的网络标准协议。搜索引擎作为最为重要的一种网络应用服务,必然要提供分布式调用的机制,使得各种其他网络应用程序可以方便的调用。基于互关联后继树的搜索引擎的原始实现是单机版的,只能在一台机器上安装使用,不具备被分布式调用的能力。本文针对这一问题,利用Web服务技术,对原有实现做出了改进,使其可以用于分布式系统,被其他客户程序以Web服务的方式调用。随着CPU制造业的发展,其制造工艺已经将要达到物理极限,传统的摩尔定律已经失效,人们已经很难获得主频不断提高的CPU。CPU制造商转而将设计重点转向了多核工艺。想单靠CPU主频的提升而获得更好的程序运行性能的方式已经不再可行,取而代之的是一种新型的计算方式:分布式(并行)计算。这种计算方式的主要特点是应用程序在由多个单机节点(每个节点可以是单核或多核CPU)所组成的集群之上,并行的进行分布式计算。这种计算方式可以大大的提高大规模数据处理任务(如搜索引擎索引的建立)的执行速度。本文利用MapReduce这一分布式计算框架,对基于互关联后继树的搜索引擎的原始索引建立方式进行了初步的改进,使得索引的建立可以在分布式集群上以分布式计算的方式并行处理完成,这样就可以有效地缩短索引的建立时间。
其他文献
本文分析了当前多媒体网络教育系统中资源平台和资源库的现状以及存在的一些问题,结合Flash流媒体技术、SOA架构以及J2EE技术,基于当多媒体网络教学系统,提出了一套新型的资
DCS是分散控制系统(Distributed Control System)的简称,它是一个由过程控制级和过程监控级组成的以通信网络为纽带的多级计算机系统。根据DCS网络安全相关规定,DCS不允许直
数据库技术的逐渐成熟及网络技术的迅速普及,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。“数据爆炸与知识贫乏”是信息时代所面临的
鉴于用户需求的逐步提升,以及市场的不断竞争,北京万林克公司及时应对和调整,在不断改进和提升硬件平台功能和性能的同时,也在对路由器产品的软件架构进行不断的改进,以最大
随着计算机、通信及网络技术的高速发展,嵌入式系统已广泛地渗透到各行各业及人们日常生活的方方面面中。由于嵌入式系统的复杂性不断增加,嵌入式操作系统成为了嵌入式系统中
目前,鱼眼镜头被广泛地应用到群组视频会议、大范围监控系统、智能交通系统、全景浏览及球面电影等领域。但鱼眼镜头摄像机拍摄的图像具有非常严重的变形,如果要利用这些具有严
无线传感器网络(WSN,Wireless Sensor Network),由大量的传感器构成,这些传感器包括计算、感知和通讯模块。它们协作地感知、采集、处理和传输网络覆盖地理区域内被感知对象
无线传感器网络是由大量智能传感器节点以无线通信方式融合在一起,并能对周围的某些物理现象进行协同感知的自组织网络。目标跟踪是无线传感器网络的重要应用,目前基于无线传
计算机系统和网络的高速发展以及各行业信息化的趋势,使得网络安全问题成为当前计算机发展的重要议题。能够将不同网络安全设备结合起来,并产生1+1>2合力的网络安全联动系统应
伴随着软件开发技术的发展,在多层的软件开发项目中,可复用易扩展的,而且是经过良好测试的软件组件,越来越为开发者所青睐。这意味着开发人员可以将充裕的时间用在分析、构建