基于网格的分词服务系统的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wf931
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词是信息检索、机器翻译、文本校对等中文信息处理重要领域的基础。由于汉语中存在词语规范、歧义和未登录词等问题,汉语分词一直困扰着中文信息技术的发展。因此,研究汉语分词具有十分重要的意义。同时,在分词应用方面,基于网络的在线测试分词系统仅提供测试功能,存在只能处理少量文本、用户使用不方便、程序无法直接调用等缺点。网格是近年来继Internet、WWW技术后兴起的一种新技术,能为复杂应用提供分布式并行环境。网格服务可以以不同的方式聚集起来满足应用的需要,提高代码重用率。所以,开发一个基于网格的面向用户和程序的分词服务系统,以服务形式为中文信息处理的基础研究提供支撑环境,有一定的意义。本文首先研究了汉语分词应用需求的多样性,结合网格的特点设计了七个服务算法。为尽量减少代码移植的工作量,本文研究了GT4的C WS Core,分析用C语言实现网格服务的原理和方法,然后将上述七种算法封装成服务,在网格平台上发布。根据这些算法生成的网格服务,可以以不同的方式组合起来,形成多种类型的分词服务,从而满足不同的分词应用需求。基于GT4的网格服务多采用Java语言实现,而现有平台下的大量的应用程序使用C语言开发。因此本文的方法对C语言应用程序的网格移植有一定的参考意义。同时,本文还研究了Globus的作业管理机制、Condor系统和PVM并行虚拟机系统,提出了Condor-PVM与Globus结合的并行计算机制,解决了网格环境中用C语言编程实现分布式并行计算的问题。实验证明该机制在处理大规模文本时能够加快分词速度,提高服务质量。最后本文设计并实现了基于网格的汉语分词服务系统。用户通过系统网格门户可以选择服务类型,进行分词颗粒度、分词词典、输入输出等个性化设置,全透明使用分词服务;用户也可以获得分词服务的WSDL描述文件,在应用程序中直接调用和组合分词服务,满足特定的要求。
其他文献
传统的网络设备大多采用基于GPP或ASIC的嵌入式处理器。随着网络流量的迅速增长和网络业务的多样化,它们在性能或灵活性上已难以满足应用需要。为此,一种并行可编程的网络处理
模型驱动体系结构是对象管理组织针对软件产业所面临的压力提出来的一种新的解决途径。MDA的关键之处是,模型在软件开发中扮演了非常重要的角色。整个软件开发过程是由对软件
随着科技的进步,互联网已逐渐演变为一个巨大的分布式资源库,要想从中精准快速地获取目标信息是非常困难的,近年来为提高网络资源查询的效率,研究者们构建了一些结构化知识库
网络环境下服务种类和数量繁多,为了满足用户个性化需求,需要准确全面地发现符合用户需要的所有服务;当单个服务不能满足用户需求时,还需要选择出合适的服务组合成满足用户需要
随着互联网技术的迅速发展和计算机的广泛应用,P2P技术变得越来越流行,已成为国际计算机网络技术研究领域的热点技术之一。Napster、Gnutella、BitTorrent、Skype、腾讯QQ等
随着军队信息化建设的深入发展,军网的安全性越来越受到较大的关注。本文通过对军网和互联网、地方专网的研究比较,详细分析了军网可能存在的一些不安全因素,并在此基础上进一步
“定位”,从广义上说,就是确定物体在某个特定环境中相对于其他参照物的位置的过程。近年来,随着传感器技术、计算机技术的进步,定位问题越来越成为了一个研究的热点问题。各种定
随着网络和其它信息技术的广泛应用,网络系统的安全变得至关重要。入侵检测系统是保护网络系统安全的关键技术和重要手段,是网络安全领域的研究热点。发展到现在,对入侵检测
With the rapid development of Internet, various network business have put forward higher and higher requirement to QOS, which result in the presentation of Diff
归并有序表或数列是计算机科学领域的一类重要的问题。归并在排序中是非常重要的一步,它在很多应用中有着举足轻重的地位。此外,归并在其它不同的应用程序中都是最基本的一部分