论文部分内容阅读
近年来,遗传流行病学、遗传关联分析学和生物信息学等学科的快速发展和及其显著成果,基因芯片技术等高通量测序技术、大数据处理与存储和并行计算等技术的发展,在人类全基因组范围内的关联分析研究受到了越来越大的重视,并取得了长足进步和卓著成绩。全基因组关联研究(Genome-Wide AssociationStudies,GWAS)是指在人类全基因组规模而不是仅一部分基因上对基因型和表现型进行关联分析,揭示生物机体的奥秘。GWAS的数据对象全基因组,这对大数据存储、处理、计算和分析带来了很大的挑战,这对探究复杂疾病的致病原因或自然界的生物机理有着重要的意义。此外,复杂疾病GWAS理论学(如设计研究、数据统计、结果分析与解释)也取得了极大的进步和显著的成果,因此被称为“GWAS第一次浪潮”。单核苷酸多态(single nucleotide polymorphism,SNP)是一种遗传分子标记,相同位点的不同等位基因之间往往只有个别核苷酸的差异,这种在基因组上单个核苷酸的变异就是单核苷酸多态。单核苷酸多态在基因组中普遍存在,数量众多,并且容易检测,经常用于药物设计与测试、致病基因识别、高危群体发现以及生命科学的基础研究等,SNP研究是人类基因组计划从理论走向应用的关键步骤。上位性(Epistasis)也称为基因(或单核苷酸多态性)之间的相互作用。1909年,Bateson等人最早提出了了上位效应(epistasis effect)这一术语,并将上位性效应定义为一个位点上的一个等位基因掩盖了另一个非等位基因表型效应的表达。在全基因组的范围内进行基因—基因相互关联分析研究,是揭示复杂疾病的致病原因的很有希望的方法。在GWAS、全基因组范围内进行基因—基因相互关联分析和生物信息学等学科中普遍存在的一个瓶颈问题是大数据导致的密集计算等问题,而在海量生物数据处理计算过程中采用并行计算等技术,开发出高效的程序和算法是一种很好的解决方案。在全基因组范围内进行上位性检测的研究,学者们从各种理论和方法利用多种技术和工具提出和开发了很多有效的上位性检测算法并在模拟数据集等小规模数据上获得了不错的效果和令人兴奋的成果,但由于计算量太大,运行效率低,运行速度太慢,预测精度低等缺点而不能应用到GWAS上时。在全基因组范围内进行上位性检测存在计算密集的问题,计算量巨大,任务繁重,SNP是最丰富和存在最广泛的遗传变异,其数量属于大数据级别,在公共数据库中的数目已达到百万。现有的很多统计测试比如卡方测试、似然比测试、基于熵测试等并不能很好的捕捉上位性。其它算法比如普通逻辑回归、贝叶斯推理、神经网络、蚁群算法、粒子群算法、遗传算法等都有人提出用来检测上位性,但事实上复杂生物机体的上位性往往比实验得到的结果要复杂很多。本文根据近年来科学家们提出的一些经典的上位性检测算法,针对各种算法的优缺点及当前研究所存在的主要问题,从三个不同的方法、角度和理论出发,提出了三个上位性检测算法,分别是基于贝叶斯推理的算法、基于蚁群优化的算法和基于卡方检验的算法。我们对每个算法的设计思路、设计方法、理论基础和实验结果进行了详细的阐述。在上位性检测精度、速度、稳定性、可扩展性等各个方面对这三个算法与其他已提出的经典算法都进行了详尽的比较。基于蚁群优化的算法在检测精度方面性能很好,这要归功于蚁群优化良好的局部、全局搜索能力,我们结合赌轮选择增强了蚁群优化的随机性,加入了关键的启发式信息和专家知识进一步加强了蚁群优化的搜索能力;基于卡方检验的算法是速度和效率十分令人满意,因为我们是在谷歌的MapReduce并行框架下设计的算法,极好地解决了全基因组关联分析中存在的数据密集问题,而且利用卡方测试的上限值进行统计之前的剪枝也帮助大大提高了运算速度;我们把贝叶斯理论和上位性组应用到了GWAS研究中,而基于贝叶斯推理的算法在速度和精度上都表现出了不错的性能,贝叶斯理论在GWAS研究中还有很大的提升和应用空间。未来工作:数据密集问题是上位性检测算法普遍遇到的很大的问题,这导致了巨大的搜索空间和计算负担,可以将并行化计算技术比如CUDA技术应用到上位性检测中来,将算法的性能和基于谷歌的MapReduce框架的并行化技术进行比较,进而为上位性检测提供新的方法、理论和技术。我们也会想办法解决基因分型错误、假阳性错误和家族模样差别错误等问题,这些因素会对算法造成很大的影响。对由于基因基因交互作用引起的常见的复杂疾病有很大影响的致病基因的识别和解释也是GWAS中存在的很大的挑战,在遗传流行病学中,这个问题的解决对人类复杂疾病的治疗和药物研究都有很积极的作用。