全基因组关联分析方法的拓展以及实用分析工具软件的建立

来源 :东北农业大学 | 被引量 : 1次 | 上传用户:bendanlxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过测序以及微芯片技术得到的全基因组基因型数据与表型数据间的关联分析,是探测人类疾病、农作物性状未知基因或通过已知群体基因型预测表型数据的方法。根据模型目的可以分为全基因组关联分析方法(GWAS)和全基因组预测方法(GP)两类分析方法。本研究通过对混合线性模型中随机效应分子亲缘关系矩阵的两种变形手段,发展两种全基因组预测方法:1)CBLUP通过参考群体和预测群体个体聚类压缩成组,利用组间分子亲缘关系矩阵代替个体间分子亲缘关系矩阵。通过模型似然值函数探测最佳压缩比例,进行BLUP预测;2)SBLUP通过SUPER方法对参考群体的基因型和表型进行GWAS分析,划分遗传关联区域(bin),通过模型似然值确定bin的大小和最佳的bin数量,利用筛选出来的bin创建针对性状的独特分子亲缘关系矩阵,最后在混合线性模型中进行预测。通过在模拟数据和真实数据中与GBLUP和贝叶斯LASSO方法进行对比发现,SBLUP对于简单性状(控制性状的基因数目较少)比较敏感,在这一领域具有非常大的优势,预测准确率相对于其他三种方法提高很大;CBLUP对于遗传力偏低且控制性状的基因数据比较多的性状比较敏感,在这种遗传背景下的性状具有比较大的优势,预测准确率有很好的表现。在真实数据(闽南芥、老鼠和玉米)中一共157个性状中,这两种方法只有在其中21个性状中的预测准确率没有贝叶斯LASSO高,超过比率达到了86.6%。这两种方法很好的拓展了BLUP系列方法的优势范围,从多角度解释了分子亲缘关系矩阵的构建和混合模型随机项的多元组建。在方法计算效率测试中,我们使用模拟数据扩增和真实大数据进行测试,结果展示我们的两种方法均具有较好的计算效率,计算速度比贝叶斯LASSO快,但比GBLUP要慢。结果证明在保证BLUP系列运算速度快的优势下,提高了模型预测的准确率。为人类疾病预测和动植物育种提供了高效、准确的全基因组预测新方法。本研究通过对现行世界广泛应用的全基因组关联分析工具软件(GAPIT)的重新编译,建立GAPIT第三版本,并在R语言平台实现在线调用和分析。软件主要功能包括:1)整合最新GWAS算法包括一般线性模型(GLM)、混合线性模型(MLM)、压缩式混合线性模型(CMLM)、SUPER、Farm-CPU和多位点混合线性模型(MLMM),使用户可以在一款软件中同时进行多方法的分析比较;2)将主体分析软件拆分为数据逻辑准备、数据质量控制、中间介质运算、统计分析和结果输出五个部分,这样的逻辑安排使GAPIT3可以适应第三方软件调用和输入,为未来GAPIT线上分析大数据做准备;3)多种基因型和GWAS分析结果输出,在原有GAPIT基因型和表型关联分析结果输出的基础上,增加了NJtree、3D PCA和染色体显著位点区域相关性分析等输出结果,丰富了软件分析数据的角度和结果展示。本软件已经开发完毕,现在可以通过www.zzlab.net/GAPIT使用。本研究通过对环境与基因型互作模型的开发,设计并完成了一款具有区分加性遗传效应与互作遗传效应功能的全基因组关联分析工具软件,软件通过C语言进行编译,实现了动态内存管理、二位基因型运算、多线程并行处理分析等先进大数据处理技术,对于23G的原始数据,在3个环境下总数据达到207G的情况下,依然仅仅需要4个小时就可以运行完成。同时,通过模拟数据的设置,建立了一套基因与环境模拟方法,利用不同环境下的遗传相关对整个遗传效应中加性效应和互作效应的比例进行设定,经过测试我们发现GbyE模型在互作效应占主效的情况下具有十分优越探测能力,具有十分显著的统计学强度优势,而在加性效应占主效的情况下统计学强度和纯加性效应模型保持一致,并没有丢掉统计学强度。在真实数据中,我们利用Ames和NAM两个群体的开花期性状进行分析,并通过交叉验证和其他学者的研究结果进行富集验证,结果展示,在真实数据中GbyE模型具有较好的验证,以500K为验证区间的随机富集验证率为20%左右,而我们的GbyE达到了显著的30%,以1M位验证区间的随机富集验证率为30%左右,而我们的GbyE达到了显著的40%。本软件已经开发完毕,现在可以通过www.zzlab.net/GbyE使用。
其他文献
通过研究椰果样品低浓度区亚硝酸盐的检测不准确的问题,科学分析造成检测结果不准确的原因,在大量试验积累的基础上,建立新的检测方法。在采用国标检测方法的同时调整样品前
20世纪70年代以来,生物基础理论和技术不断取得重大突破,高质量的生物催化剂不断涌现,致使物料的传热和传质成为生物技术产业化,特别是生物反应器生产能力的限制因素。另外生物工
<正>在社会保险缴款征收制度变迁过程中,交易费用的存在形式是在不断变化的。一种制度安排可能会降低一种形式的交易费用,但随着时间的推移其他各种因素的变化,另外类型的交
内幕交易作为证券市场违法违规行为中的一种重要表现,具有极大的社会危害性。世界各国及地区大都以立法形式明确禁止内幕交易,我国证券立法对此也作出了禁止性的规定。作者认为
目的调查社区妇女与妇科门诊患者对宫颈癌筛查的认知情况,并进行对比研究。方法采用方便抽样方法,选择社区妇女312名及笔者所在医院妇科门诊就诊的患者224名。对调查对象进行
语言作为人类思想交流和信息传递最为基本的符号,是经历了千万年的不断演化而来的。这种进化伴随着人类的使用并无休止的意思。千万年来,无数学者对语言的产生与发展也津津乐
陶孟和是我国近现代史上著名的社会学家和教育学家,十分重视教育与社会之间相互影响的关系。陶孟和对中国近代大学教育的认识和改革建议是从社会学的角度出发,以社会情形变化为
目的研究STAT3信号通路及其下游相关分子在地诺单抗治疗骨巨细胞瘤过程中的表达变化及其意义。方法收集我院2013年1月至2018年12月手术治疗的31例骨巨细胞瘤病人,其中28例未
龍崗秦簡1989年出土於湖北省雲夢城東郊龍崗地區六號墓,由胡平生等人整理的《龍崗秦簡》,從整體上反映了龍崗秦簡研究的新水準。本人以《龍崗秦簡》的詞彙為研究对象,在前輩學者
本文是一篇研究口译对策论的文章。目前国内的口译对策论研究,不是泛泛的谈一般性口译的对策,就是从某一个角度讨论特定情况下的一种口译。这些理论的弊病,在于非宏观则微观,