论文部分内容阅读
近年,RESTful(?)艮务发展迅速。轻便和易实现的特性不仅使其在互联网上得到了广泛应用,而且也获得了以WS*服务为主流技术的大公司的青睐。从以谷歌、亚马逊和雅虎为首的大型互联网公司到中小型的初创企业在网络上提供的Web服务都以RESTful(?)(?)务为主。知名Web服务门户网站Programmable Web的统计数据显示,RESTful服务在公开的Web服务中占据了69%的比重。可见,RESTful服务已经成为Web服务技术的主流。由于RESTful服务是以网页的形式发布,使用自然语言对服务的功能、接口和调用方式进行描述,从外观上看,RESTful服务的描述页面与一般的API文档并无二致。这一点使得大量RESTful服务淹没在海量的网页当中,从中发现和选择适合的服务十分困难。为了使机器能够自动识别和获取RESTful服务的描述信息,本文提出了一种RESTful服务语义解析和标注的方法。该方法能够将普通的RESTful服务文档转化为经过语义标注的机器可读的服务描述页面。语义解析方面,使用信息检索(IR)和信息抽取(IE)技术对RESTful服务页面的内容进行语义分析,包括了网页预处理、网页分块、文本预处理和文本语义分析等操作步骤。其中文本语义分析采用了IR中的文本分类算法,并根据RESTful服务文档的特征对算法进行了改进,得到了RESTful服务语义分析算法。实验显示,RESTful服务语义分析算法的准确率和召回率都达到了80%以上。语义标注方面,在RESTful服务标注语言hRESTS的基础上加入了网页分块的边界信息,以满足在高度异构的源文档中进行标注的实际需要。基于上述方法的研究,本文给出了RESTful服务语义解析和标注子系统的设计与实现。首先进行了系统的功能需求分析。然后给出了系统的整体架构和模块交互图,并详细描述了每个模块的功能接口和操作流程。最后进行了系统测试,测试结果表明系统能够正确运行。