基于BIPES分析微生物群落的生物信息学方法的建立

来源 :南方医科大学 | 被引量 : 7次 | 上传用户:pp_dolphin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物以群落形式广泛存在,它与众多研究领域密切相关。在医学领域,人体共生菌群被称为人的“第二基因组”(The other genome),与健康密切相关;在环境领域,微生物以群落形式发挥功能,驱动生命基本元素(C/N/S等)发生生物地球化学循环,分解各种污染物;在生态学领域本身,存在更多与微生物群落结构以及其动态变化相关的内容;此外,与微生物群落相关的研究领域还包括工业与资源微生物、农业与土壤微生物等。欲解答与微生物群落相关的科学问题,首先必须清晰准确地分析微生物群落结构,即样品中存在的微生物种类,以及各种类的数量。但是,在传统的微生物群落分析方法中,“通量”、“准确性”、以及“成本”三大因素的制约使得微生物群落的测定成为多学科瓶颈技术。“高通量”是指,针对单个样品,需获得高通量的数据;同时,采用该方法分析样品的通量要够高,即能够同时分析较多数量的样品。对微生物群落结构研究方法而言,“准确”一方面指微生物种属(或称分类单元)的表征信息要尽可能明确;另一方面,对不同分类单元的定量要尽可能准确。但是,传统技术如DGGE、基因芯片等手段均不能在较低的成本下,实现高通量和准确的需求。近年来,通过454测序技术测定16S rRNA短标签序列成为微生物群落研究领域的突破。它利用焦磷酸测序法获得高通量的数据及相关生物信息学工具的交互发展促成微生物群落结构研究方法学的突破。但是,454测定16S rRNA标签技术因成本较高,阻碍其普及运用,同时测序错误及生物信息学计算工具也还存在一些问题。与454技术相比,Illumina平台能够提供更多的序列数量,从而显著提高样品分析通量,降低分析成本,并且序列准确性更高。但是,Illumina的测序特征是序列长度较短,过去不能达到测定16S rRNA可变区的需求。同时,由于Illumina平台所获得的序列数量成数十倍增长,原有的生物信息学分析工具均不能运用,如何解决其中的运算瓶颈也是制约Illumina分析微生物群落的关键之处。本论文首先验证了通过条码引物扩增16S rRNA可变区,对PCR产物整体进行Illumina双末端测序,进而通过序列分拣、拼接、质控、比对等生物信息学分析,获得目标样品中的微生物群落代表序列的新方法。该方法称为Barcoded Illumina Paired End Sequencing,简称BIPES。本研究中,我们首次通过IlluminaPE75以及PE101测序技术(随着测序技术的进展),测通16S rRNA的V6可变区,并建立一系列质控算法,比较不同分析流程的准确性。结果发现,Illumina单末端序列的准确度仅为约97.9%,其分布特征为从序列开始5’端的99.9%到末端3’端的85%。在双末端序列的反向互补拼接过程中,质量下降的3’端序列得到校正,从而将测序准确度显著增加到99.65%。进而通过去除40-70bp位点有2个或以上的错配碱基,和引物区有错误的序列之后,BIPES序列的准确性进一步提高到99.93%。其中错误碱基比454法降低了1个数量级。本论文发现,BIPES序列能够基本反映初始模板中各序列的相对量,但是长序列和高GC含量的序列会被低估,表明PCR对群落分析还具有较为显著的影响。在16S rRNA V6序列的测序中,BIPES方法单个run测得的序列数是焦磷酸测序的20-50倍,通量高;而且每条BIPES序列的成本不到一条焦磷酸序列的1/40,成本低;同时,BIPES以获得的16S rRNAV6可变区作为分类单元的特征,可进一步做系统分类和比较,准确性较好。作为一个高性价比方法,BIPES可以被广泛用于环境和人微生物组的微生物群落结构研究。在获得大量的序列后,为了进一步分析序列所代表的群落结构,进而进行α和p多样性比较,需进行大量的生物信息学分析。其中第一步需要将序列进行比对,进而将一定相似度的序列聚类成可操作分类单元(OTU),该步骤是分析微生物多样性生物信息学的关键步骤。本研究建立了一种新的两阶段聚类(Two-stage-clustering, TSC)方法,能够降低运算资源的需求,并且具有很好的准确性。TSC根据丰度将序列分成两组之后分别聚类。由于微生物群落本身的分布特征以及高通量测序错误发生的特点,造成测序结果中高频数序列少,而低频数序列多。我们对高丰度组采用严谨的分层聚类算法(hierarchical)聚类,该算法准确性高,但其运算随序列数量成几何技术增长。而我们的TSC算法有效控制了分层聚类比对序列的数量。其后,我们对包含大部分稀有序列的低频数组采用贪婪的启发式法(greedy heuristic)聚类以提高效能。其中全部的比对均基于准确性最高的全局比对算法(Needleman-Wunsch算法),以获得准确的OTU聚类。为进一步提高计算效能和准确度,TSC采用了两步不同的预聚类。Clone4397up数据分析结果显示TSC能准确的聚类已知数据,得到43个OTU。通过分析一组序列数约为11万的真实数据Costello day3,结果显示TSC只需消耗370s和185M的内存即可完成聚类过程,除UCLUST外,其它方法所需的时间和内存分别是TSC的10倍以上和5倍以上。本研究发现,将序列分成两组之后再聚类不仅提高了计算效能,而且减少由“噪音”序列组成的不合理OTU,这种OTU的特点是低丰度序列可连接高丰度序列,即ARA(abundant-rare-abundant),经深入分析发现,TSC三种算法聚类所得的OTU中不存在ARA,而ARA在其它方法中的比例分别是:SLP4.2%、UCLUST3.0%、 Mothur CL2%、Mothur AL2.3%、Mothur SL45.5%、ESPRIT-SL22%。稀疏曲线分析结果显示TSC所得曲线比UCLUST和采用AL的算法更低更平缓。另外,经DCA和PCoA分析不同方法聚类Costello数据所得OTU对数据结构比较的影响,结果显示TSC、UCLUST和ESPRIT-AL均能良好的把口腔、肠道样品分开。同时,一组未发表的数据的分析结果显示TSC能显示地点和温度是影响样品群落的两个因素,而UCLUST只能提示温度是唯一的影响因素。这两组数据的分析结果说明,一般情况下,TSC和UCLUST得到相似的beta多样性比较结果,但是有时候TSC方法得到的beta多样性比较效果要比UCLUST要略微好一些。本研究认为在PCR扩增子的高通量测序的分析中,测序数据的分布特征是提高计算效能和准确度的一个非常有用的要素。最后,我们用本方法分析一组抗生素数据以展示BIPES分析的完整流程,在本组数据分析中,BIPES的质控作用可剔除7-22%的低质序列。α多样性分析结果显示day0样品的微生物多样性最丰度,而且day3-7样品多样性高于day14-21。β多性分析结果显示时间和抗生素浓度是影响微生物群落结构的主要因素。本论文建立了通过Illumina测序,分析微生物群落多样性的分析流程。我们建立了BIPES技术,可以获得高质量的V6序列,我们开发了TSC算法,可以运算百万数量水平的序列,获得准确的聚类结果。同时,该聚类序列数据可通过GAST,RDP等工具进一步进行系统分类,获得样品中的微生物种类,以及各种类的相对数量。根据聚类结果,可以对不同样品进行alpha和beta多样性比较,并可进一步进行统计,发现样品的特征微生物群落,为微生物组生物学研究奠定生物信息学分析基础。
其他文献
地处新疆、青海、西藏三省区交界处的阿尔金山国家级自然保护区气温逐渐回暖,成群的藏野驴、野牦牛、藏原羚等野生动物不断扩大活动范围,黑颈鹤等候鸟也陆续北返。这片平均海拔4580米、总面积超过4.5万平方公里的保护区一片生机盎然的景象。
浙江省中医院结合三级甲等中医院评审工作,通过认真解读三级甲等中医院评审标准,请外院专家进行检查,发现问题进行持续改进护理质量,规范护理操作,护理人员采取分层次培训等措施,取
当前,我国高职工业机器人专业技术人才培养主要分为三个层次,第一层次是操作及维护人员的培养;第二层次是安装调试技术人员的培养;第三层次是项目设计与应用工程师的培养。为
采用层次分析法对阳泉市南娄大桥桩基施工发生事故的可能性进行评估,构建了人工挖孔桩坍塌影响因素的有序递阶层次结构,并划分出评价级别以及相应评价指标的量值,再进行隶属
目的:在医改背景下,探讨医院图书馆生存、发展的策略。方法:应用问卷调查法与案例分析法,总结国内大型医院图书馆的图书情报服务经验,探讨其他医院图书馆复制的可能性;研究公共