论文部分内容阅读
本研究首先通过计算机模拟探讨了数据并行计算与Meta分析模型的关系。Meta分析通过收集与主题相关的研究结果,将每个研究结果计算为一个统一的指标(效应量),然后对不同研究的效果量化进行统计分析。常用Meta分析模型包括固定效应Meta分析和随机效应Meta分析。并行计算是将一个大的数据分解成若干个较小的数据,然后再将这些小数据分别在若干个计算机CPU(或核)上同时计算,最后通过加权计算总体参数的估计。本研究表明,依据线性回归分析的数据并行计算方法,可以视为是通过并行计算方式来实现的固定效应Meta分析模型,其加权为模型参数的方差和协方差的矩阵。但是如果忽略模型参数间的协方差,Meta分析估计的基因效应是有偏差的,其偏差取决于协方差的大小。当等位基因频率相当时,单基因(标记)的并行计算方法等价于固定效应Meta分析模型,所估计的基因效应是一致的。本研究采用计算机模拟方法,研究了数据并行计算和Meta分析两种方法在不同的遗传力、群体规模和数据分块情形下,对估计基因效应的方差和平方偏差的影响。通过模拟实验我们得到了如下的结论:1.用数据并行计算和固定效应Meta分析方法所估计的基因效应具有很高的相关性(r>0.97),二者的差异主要是来源于Monte Carlo误差。2.估计基因效应的方差和平方偏差在不同的遗传力和群体规模间的差异显著(p<0.05)或极显著(p<0.01):群体越大,遗传力越高,估计基因效应的方差和平方偏差就越小,因此其精确性和准确性也越高。3.用极端小样本(N=50)估计基因效应,尽管方差小(精确度高),但是其平均偏差往往很大,因而估计值的准确度很差。当群体规模大于100时,所估计基因效应的方差和平方偏差的变化趋于平稳,二者均接近于零。但对于低遗传力性状(h≤1.0),预期有效估计基因效应的群体规模可能要远远大于这个数目。作为实际应用,本研究采用四种方法(数据并行计算、固定效应和随机效应Meta分析模型,以及Mega分析模型)分别估计了48个候选基因对于荷斯坦牛三个产奶性状(产奶量、乳蛋白量、乳脂肪量)的遗传效应。其中,Mega分析是将各项独立研究的原始数据合并,对总体进行一次性计算。研究结果表明:1.四种方法所估计的候选基因效应具有高度的相关性。数据并行计算和Mega分析所估计的基因效应是完全相等的,说明二者在统计模型上是等价的。Meta分析的基因效应是近似的,因为忽视了模型参数的协方差。2.随机效应的Meta分析方法估计的基因效应的方差显著大于其他三个方法估计的基因效应的方差,原因在于前者所估计的基因效应方差,除了随机抽样方差以外,还包括不同研究(数据)间的异质方差。3.本研究发现和验证了显著影响三个产奶性状的候选基因。对产奶量有显著遗传效应的候选基因有:DGAT,DECR1基因SNP7、SNP10、SNP11、SNP13、SNP9、SNP8,以及MER基因位点的rs29021694。对乳脂量有显著遗传效应的候选基因有:DGAT基因,DECR1基因SNP7、SNP8、SNP10、SNP13、SNP9、SNP11,MER基因位点rs29021694。对乳蛋白量有显著遗传效应的候选基因有:DECR1-SNP7、SNP10、SNP13、SNP8、SNP9、SNP11,DGAT基因,以及MER基因位点rs29021694。