论文部分内容阅读
通过测序以及微芯片技术得到的全基因组基因型数据与表型数据间的关联分析,是探测人类疾病、农作物性状未知基因或通过已知群体基因型预测表型数据的方法。根据模型目的可以分为全基因组关联分析方法(GWAS)和全基因组预测方法(GP)两类分析方法。本研究通过对混合线性模型中随机效应分子亲缘关系矩阵的两种变形手段,发展两种全基因组预测方法:1)CBLUP通过参考群体和预测群体个体聚类压缩成组,利用组间分子亲缘关系矩阵代替个体间分子亲缘关系矩阵。通过模型似然值函数探测最佳压缩比例,进行BLUP预测;2)SBLUP通过SUPER方法对参考群体的基因型和表型进行GWAS分析,划分遗传关联区域(bin),通过模型似然值确定bin的大小和最佳的bin数量,利用筛选出来的bin创建针对性状的独特分子亲缘关系矩阵,最后在混合线性模型中进行预测。通过在模拟数据和真实数据中与GBLUP和贝叶斯LASSO方法进行对比发现,SBLUP对于简单性状(控制性状的基因数目较少)比较敏感,在这一领域具有非常大的优势,预测准确率相对于其他三种方法提高很大;CBLUP对于遗传力偏低且控制性状的基因数据比较多的性状比较敏感,在这种遗传背景下的性状具有比较大的优势,预测准确率有很好的表现。在真实数据(闽南芥、老鼠和玉米)中一共157个性状中,这两种方法只有在其中21个性状中的预测准确率没有贝叶斯LASSO高,超过比率达到了86.6%。这两种方法很好的拓展了BLUP系列方法的优势范围,从多角度解释了分子亲缘关系矩阵的构建和混合模型随机项的多元组建。在方法计算效率测试中,我们使用模拟数据扩增和真实大数据进行测试,结果展示我们的两种方法均具有较好的计算效率,计算速度比贝叶斯LASSO快,但比GBLUP要慢。结果证明在保证BLUP系列运算速度快的优势下,提高了模型预测的准确率。为人类疾病预测和动植物育种提供了高效、准确的全基因组预测新方法。本研究通过对现行世界广泛应用的全基因组关联分析工具软件(GAPIT)的重新编译,建立GAPIT第三版本,并在R语言平台实现在线调用和分析。软件主要功能包括:1)整合最新GWAS算法包括一般线性模型(GLM)、混合线性模型(MLM)、压缩式混合线性模型(CMLM)、SUPER、Farm-CPU和多位点混合线性模型(MLMM),使用户可以在一款软件中同时进行多方法的分析比较;2)将主体分析软件拆分为数据逻辑准备、数据质量控制、中间介质运算、统计分析和结果输出五个部分,这样的逻辑安排使GAPIT3可以适应第三方软件调用和输入,为未来GAPIT线上分析大数据做准备;3)多种基因型和GWAS分析结果输出,在原有GAPIT基因型和表型关联分析结果输出的基础上,增加了NJtree、3D PCA和染色体显著位点区域相关性分析等输出结果,丰富了软件分析数据的角度和结果展示。本软件已经开发完毕,现在可以通过www.zzlab.net/GAPIT使用。本研究通过对环境与基因型互作模型的开发,设计并完成了一款具有区分加性遗传效应与互作遗传效应功能的全基因组关联分析工具软件,软件通过C语言进行编译,实现了动态内存管理、二位基因型运算、多线程并行处理分析等先进大数据处理技术,对于23G的原始数据,在3个环境下总数据达到207G的情况下,依然仅仅需要4个小时就可以运行完成。同时,通过模拟数据的设置,建立了一套基因与环境模拟方法,利用不同环境下的遗传相关对整个遗传效应中加性效应和互作效应的比例进行设定,经过测试我们发现GbyE模型在互作效应占主效的情况下具有十分优越探测能力,具有十分显著的统计学强度优势,而在加性效应占主效的情况下统计学强度和纯加性效应模型保持一致,并没有丢掉统计学强度。在真实数据中,我们利用Ames和NAM两个群体的开花期性状进行分析,并通过交叉验证和其他学者的研究结果进行富集验证,结果展示,在真实数据中GbyE模型具有较好的验证,以500K为验证区间的随机富集验证率为20%左右,而我们的GbyE达到了显著的30%,以1M位验证区间的随机富集验证率为30%左右,而我们的GbyE达到了显著的40%。本软件已经开发完毕,现在可以通过www.zzlab.net/GbyE使用。