论文部分内容阅读
进入21世纪后,生物信息学作为一门新兴的交叉学科越来越引起研究者的重视。生物信息学主要是通过计算机理论与应用知识对大量的生物信息数据进行分析和挖掘,进而发现、解析和推测生命现象。随着人类基因组计划的开展以及千元美金解析人类基因组计划的提出,应不同研究方向需求,产生了大量多样的基因组数据信息。不同的数据对不同的生命现象进行描述,但是大部分研究需要在数据之间找到相关的联系,所以建立数据之间的关联信息,对数据进行整合性的分析,得到更加有意义的数据结果成为现阶段很多生物科学研究者的共同愿望。
随着计算机技术的发展,对于大量生物信息数据分析和处理已经涌现出了一系列有效可行的方法。如实现了对远程系统或数据资源的访问和收集的网络服务技术:对分布式数据库进行探索、访问及数据采集等多层次处理的多Agent技术;针对分布式数据库查询的传统优化查询技术和现代的倒排索引技术;适用于大量数据查询的Map reducemerge并行处理模式;以及适用于大量数据传输的统一文件传输格式等方向研究的技术。这些方法不但推动了生物信息研究的发展,更推动了互联网中丰富生物信息资源整合的实现,随之开发出了各种可进行数据共享、数据对比分析、并可以挖掘数据关联的生物信息整合系统。
本文在对互联网上的分布式生物信息资源整合技术进行研究分析的基础上,提出了一系列的优化解决策略。其中研究内容主要包括生物数据库整合过程中查询优化,统一数据格式,Map reduce merge并行处理技术在生物数据处理上的应用,以及多Agent的处理模块的应用等。本文按照理论与实践的联系可以分为以下几个部分:首先,介绍该研究方向的研究背景;其次介绍研究的相关理论基础;再次介绍应用于该研究的系统整体结构、处理流程以及各功能模块。然后重点突出介绍针对数据处理的并行处理模型;最后介绍系统实现及实现技术难点。