全基因组关联分析中上位性识别算法的研究及其并行化设计

被引量 : 0次 | 上传用户:EAGLE1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,遗传流行病学、遗传关联分析学和生物信息学等学科的快速发展和及其显著成果,基因芯片技术等高通量测序技术、大数据处理与存储和并行计算等技术的发展,在人类全基因组范围内的关联分析研究受到了越来越大的重视,并取得了长足进步和卓著成绩。全基因组关联研究(Genome-Wide AssociationStudies,GWAS)是指在人类全基因组规模而不是仅一部分基因上对基因型和表现型进行关联分析,揭示生物机体的奥秘。GWAS的数据对象全基因组,这对大数据存储、处理、计算和分析带来了很大的挑战,这对探究复杂疾病的致病原因或自然界的生物机理有着重要的意义。此外,复杂疾病GWAS理论学(如设计研究、数据统计、结果分析与解释)也取得了极大的进步和显著的成果,因此被称为“GWAS第一次浪潮”。单核苷酸多态(single nucleotide polymorphism,SNP)是一种遗传分子标记,相同位点的不同等位基因之间往往只有个别核苷酸的差异,这种在基因组上单个核苷酸的变异就是单核苷酸多态。单核苷酸多态在基因组中普遍存在,数量众多,并且容易检测,经常用于药物设计与测试、致病基因识别、高危群体发现以及生命科学的基础研究等,SNP研究是人类基因组计划从理论走向应用的关键步骤。上位性(Epistasis)也称为基因(或单核苷酸多态性)之间的相互作用。1909年,Bateson等人最早提出了了上位效应(epistasis effect)这一术语,并将上位性效应定义为一个位点上的一个等位基因掩盖了另一个非等位基因表型效应的表达。在全基因组的范围内进行基因—基因相互关联分析研究,是揭示复杂疾病的致病原因的很有希望的方法。在GWAS、全基因组范围内进行基因—基因相互关联分析和生物信息学等学科中普遍存在的一个瓶颈问题是大数据导致的密集计算等问题,而在海量生物数据处理计算过程中采用并行计算等技术,开发出高效的程序和算法是一种很好的解决方案。在全基因组范围内进行上位性检测的研究,学者们从各种理论和方法利用多种技术和工具提出和开发了很多有效的上位性检测算法并在模拟数据集等小规模数据上获得了不错的效果和令人兴奋的成果,但由于计算量太大,运行效率低,运行速度太慢,预测精度低等缺点而不能应用到GWAS上时。在全基因组范围内进行上位性检测存在计算密集的问题,计算量巨大,任务繁重,SNP是最丰富和存在最广泛的遗传变异,其数量属于大数据级别,在公共数据库中的数目已达到百万。现有的很多统计测试比如卡方测试、似然比测试、基于熵测试等并不能很好的捕捉上位性。其它算法比如普通逻辑回归、贝叶斯推理、神经网络、蚁群算法、粒子群算法、遗传算法等都有人提出用来检测上位性,但事实上复杂生物机体的上位性往往比实验得到的结果要复杂很多。本文根据近年来科学家们提出的一些经典的上位性检测算法,针对各种算法的优缺点及当前研究所存在的主要问题,从三个不同的方法、角度和理论出发,提出了三个上位性检测算法,分别是基于贝叶斯推理的算法、基于蚁群优化的算法和基于卡方检验的算法。我们对每个算法的设计思路、设计方法、理论基础和实验结果进行了详细的阐述。在上位性检测精度、速度、稳定性、可扩展性等各个方面对这三个算法与其他已提出的经典算法都进行了详尽的比较。基于蚁群优化的算法在检测精度方面性能很好,这要归功于蚁群优化良好的局部、全局搜索能力,我们结合赌轮选择增强了蚁群优化的随机性,加入了关键的启发式信息和专家知识进一步加强了蚁群优化的搜索能力;基于卡方检验的算法是速度和效率十分令人满意,因为我们是在谷歌的MapReduce并行框架下设计的算法,极好地解决了全基因组关联分析中存在的数据密集问题,而且利用卡方测试的上限值进行统计之前的剪枝也帮助大大提高了运算速度;我们把贝叶斯理论和上位性组应用到了GWAS研究中,而基于贝叶斯推理的算法在速度和精度上都表现出了不错的性能,贝叶斯理论在GWAS研究中还有很大的提升和应用空间。未来工作:数据密集问题是上位性检测算法普遍遇到的很大的问题,这导致了巨大的搜索空间和计算负担,可以将并行化计算技术比如CUDA技术应用到上位性检测中来,将算法的性能和基于谷歌的MapReduce框架的并行化技术进行比较,进而为上位性检测提供新的方法、理论和技术。我们也会想办法解决基因分型错误、假阳性错误和家族模样差别错误等问题,这些因素会对算法造成很大的影响。对由于基因基因交互作用引起的常见的复杂疾病有很大影响的致病基因的识别和解释也是GWAS中存在的很大的挑战,在遗传流行病学中,这个问题的解决对人类复杂疾病的治疗和药物研究都有很积极的作用。
其他文献
消费者每天面对着大量纷繁复杂的广告信息,广告的打扰性仍是困扰广告主和消费者的问题之一。新媒体和新技术的发展使得个性化广告变得可能,也为个性化广告的发展提供了必要的
随着电商市场日趋成熟,企业竞争的焦点也逐渐从产品竞争转向服务竞争,例如良好的物流递送服务、方便快捷的退换货和维修保养服务等。服务不仅是企业在新经济环境下的又一核心竞
随着经济体制、社会结构和发展方式的多重转型,中国已经逐渐步入现代社会发展的高风险阶段。而劳资关系在社会经济结构变迁中扮演的关键角色以及在风险社会发展过程中的重要
牲畜养殖会产生大面积的粪便污染,已经引起众多环境保护者的高度关注。研究发现,蝇蛆、黄粉虫、大麦虫等多种资源昆虫成为当前众多有机废弃物资源不断提升利用效率、转化污染
全球产业链的发展,为发展中国家企业提供了两种参与国际分工的形式:一般贸易和加工贸易。与一般贸易不同,加工贸易对企业的要求比较低,不需要承担特定的采购、销售和渠道费用,
在数学核心素养6个维度中,数学抽象、逻辑推理、直观想象、数学运算是基本数学素养,数学建模与数据分析为一类。学以致用是学习的目的,数学建模将现实世界与理论世界联系起来
在去年召开的全国组织工作会议上提出了新时代党的组织路线,为新时代党的建设和组织工作指明了前进方向和践行路径。本文结合新时代高校组织工作的实际,从理论学习、政治建设
结合山西科技创新城科技创新综合服务平台(一期)工程,介绍型钢混凝土组合结构深化设计、型钢加工、现场安装方面的质量控制要点,阐述梁柱节点处不同的连接方式控制点,为今后
文章以我国上市公司的内部控制效率为研究对象,从审计师变更的角度,以内部控制信息披露程度、内部控制缺陷、内控部门定期提交监督报告和自愿披露内部控制鉴证报告作为内部控
20世纪90年代以来,在全球经济一体化进程不断加速、世界贸易组织(World Trade Organization,简称WTO)谈判陷入停滞的背景下,以自由贸易区(Free Trade Area,简称FTA)为主的区