论文部分内容阅读
随着人类基因组计划的完成,生命科学进入了后基因组时代,各种功能基因组计划纷纷启动,基因组学、转录组学和代谢组学等各种组学数据不断增长,由此产生了大量的生物信息数据库和数据分析工具。复杂生物信息数据分析任务通常需要综合利用若干由不同组织开发的数据库和数据分析工具,有效集成这些资源已经成为生物信息领域的迫切需求。生物信息Web服务组合技术可以为解决这一问题提供有效途径。 面向服务的体系架构(Service-Oriented Architecture,SOA)与面向服务的计算(Service-Oriented Computing,SOC)近年来在生物信息领域内得到广泛应用。Web服务作为SOA和SOC的一种具体实现方式,已经被越来越多的生物信息领域研究者所采纳,用以访问生物信息数据库和调用数据分析工具。单一的Web服务往往结构简单、功能有限,无法满足复杂应用需求。如何有效组合互联网中功能各异的生物信息Web服务,实现生物信息数据库和数据分析工具服务之间的无缝集成,形成功能强大的复合服务来满足用户需求,已经成为生物信息领域的热点、难点问题。 本文针对生物信息领域的迫切需求和服务组合的研究问题,提出语义Web服务发现与组合方法,研发面向生物信息数据分析的语义Web服务组合系统。生物信息领域Web服务组合存在如下问题:已有的组合方法没有对生物信息Web服务包含的丰富语义信息进行有效利用,针对大规模的服务注册库发现效率低下,服务组合缺乏自学习能力无法重用已有的组合方案,针对这些问题,本文重点研究以下几个方面的内容: (1)针对语义Web服务发现问题,提出基于语义Web服务功能关联网络的服务发现方法。该方法主要由两个部分组成:服务资源组织预处理和服务匹配。服务资源组织预处理是指,通过计算Web服务功能关联度,构建Web服务功能关联网络。旨在对服务注册库中的服务资源进行有效组织,减少服务匹配阶段的服务搜索空间,提高服务发现效率。服务匹配是指,通过服务内容匹配以及服务接口匹配,能够高效、准确地发现符合用户需求的服务。实验表明,通过构造Web服务功能关联网络,在保证服务发现召回率的前提下,服务发现的效率得到明显提高。 (2)研究语义Web服务自动组合问题,提出基于服务过程接口匹配的服务组合方法。该方法以基于OWL-S描述的语义Web服务内部过程作为组合操作对象,旨在有效地发现满足用户需求的潜在服务组合方案。提出的组合方法建立了相应的优化搜索机制:利用后继服务搜索策略既能保证满足用户需求,又可以进行高效的服务组合;采用反向检查复合服务过程的方式,去除对产生用户需求没有贡献的冗余服务过程,达到优化服务组合方案的目的。通过一系列实验验证服务组合的成功率和效率,结果表明该方法是合理的、有效的,能够快速提供满足用户需求的服务组合方案。 (3)为了有效地利用已有服务组合方案,使组合方法具备自学习能力,本文将基于案例的推理应用到语义Web服务组合领域,提出基于案例推理的语义Web服务组合方法。该方法构建基于案例推理的语义Web服务组合框架。针对案例检索问题,提出服务请求与服务过程相似度的计算方法;针对案例库组织问题,提出利用PAM算法进行服务过程聚类并建立索引的方法;针对案例重用与调整问题,对检索出的只能满足用户部分需求的服务组合方案以及满足用户需求的冗余服务组合方案进行调整,并提出相应的调整算法。在案例重用与调整失效时,通过融入基于语义Web服务内部过程接口匹配的自动服务组合方法,服务组合框架能够进一步满足用户需求,解决更多的问题。通过实验,证实了该方法可有效地利用已有组合方案,满足用户需求。 本文为了解决生物信息领域中复杂数据分析应用需求,提出生物信息语义Web服务组合系统框架,研发面向生物信息数据分析的Web服务组合系统,旨在集成生物信息数据库及数据分析工具。生物信息数据分析语义Web组合系统,在生物信息领域背景下,整合本文提出的服务发现、组合方法,支持语义Web服务发现、组合以及复合Web服务的调整,提供完成用户数据分析任务的服务组合方案,同时系统具备自学习能力,解决问题的能力会不断提高。