基于Hadoop的同源性搜索GO功能注释平台的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:dfsdfsafdsfds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第二代基因测序技术的广泛使用,基因测序速度得到了很大地提升。随之产生了海量的生物数据,这些数据需要通过分析、整理和注释之后才能使其具有生物学含义。目前,已经有大量的生物信息数据库用来高效地存储和管理这些庞大的信息。利用这些已经注释过的生物学数据来对新的数据进行注释,已成为生物信息学的一个重要领域。基因本体论GO,构建了一个跨物种的注释词汇库,从而精确定义了基因的功能及功能间的关系,在注释中得到了广泛的使用。同时,面对海量生物学数据,如何快速有效地实现它们的并行化处理,也成为了学术界研究的一个热点。目前,对于并行计算的处理框架有很多种,而Google公司提出的云计算概念和MapReduce并行框架以其可高扩展和高易用性,在大数据处理中得到了广泛的应用。Hadoop作为开源的云计算平台,实现了Google云计算的功能,被研究者们广泛使用。本文在结合生物信息学以及云计算技术的基础上,提出并设计了基于Hadoop的同源性搜索GO功能注释平台,为基因数据的研究提供了便利。本文的研究工作主要如下:(1)研究了基因本体的相关理论基础,以及GO本体论在生物信息学尤其是基因功能注释中所得到的应用。分析了目前已有的基因数据的注释手段,以及基于同源性序列相似度的功能注释所具备的理论基础。(2)研究了基于序列相似度比对的基因功能注释的流程。研究了打分矩阵和序列比对算法在发现同源性序列的过程中所起的作用。研究并实现了点矩阵、Needleman-Wunsch、Smith-Waterman等序列比对算法,并测试比较了它们的性能。(3)创新性地提出了基于Hadoop的基因功能注释平台的体系架构。通过整合GO数据库以及其他生物数据库,设计了本地基因注释的数据中心,并设计了用于功能注释的概念模型,用来实现本体与注释信息的关联通路。(4)分析了蛋白质数据库搜索算法BLASTP的算法理论,比较算法各个阶段所占的运行时间。结合Hadoop的MapReduce并行处理框架,以及在基因注释中比对算法的需求,设计了并行的蛋白质比对算法CGABlastP,通过实验证明其从本质上提高了基因注释的速度,适应了生物序列指数级增长的需求。
其他文献
随着并行计算机的迅猛发展,越来越多的领域迫切需要提高大规模问题求解的速度,串行程序并行化能够缩短问题求解时间,为了实现快速并行化,本文进行串行程序自动并行化软件的设
近年来,移动通信、定位技术和物联网迅猛发展,在给我们生活带来便利的同时,也产生了规模庞大的时空轨迹数据。这为时空轨迹数据的研究和应用创造了有利条件。但时空轨迹数据在急
随着网络信息资源的急速增长,用户快速且准确地获取所需信息变得十分困难。搜索引擎的出现解决了用户一部分查询的困难,但是目前该工具实现不了根据用户的需求进行推荐的功能
近年来,随着信息化的高速发展,数据量呈爆炸式增长,分布式存储方式被广泛应用,同时数据可用性也得到了极大的重视。在此情况下,作为一种重要的冗余机制,纠删码被广泛应用于分布式存
随着Web信息的多元化发展以及信息量的膨胀速度日益加快,不仅存储成本提高,信息采集也变得越来越难。通用爬虫在工作过程中会消耗大量的网络带宽,造成系统资源的浪费。而且它
随着信息技术的快速发展,数据规模呈指数级增长,为了存储和管理海量数据,云存储系统应运而生。云存储系统将分布广泛的存储资源进行有效的组织,以较为低廉的成本,向用户提供大容量
学位
现如今,商场越建越大,内部结构也越来越复杂,不熟悉商场环境的消费者在购物时比较费时而且不易找到合适商品,本设计以方便用户购物为目的,采用物联网技术为用户展示商场内部
随着在线社交网络飞速发展,数以亿计的用户开始在互联网上使用在线社交网络进行沟通交流。如今大型在线社交网络系统一般使用key-value的方式对用户数据进行存储,这种存储方式
学位