论文部分内容阅读
随着测序技术的发展,高通量测序的精准度不断提高,成本逐年下降,相关的应用亦越来越广,本文以高通量测序技术为基础,利用测序数据,提出鉴定家系遗传病的候选基因的方法。在实际操作上需面临流程参数设定,显隐性假设,以及候选基因是抑制子或激活子的假设等问题。对研究者而言如何选择更优的参数,针对各种遗传假设快速合理地得到分析结果,是充满挑战性的。为了更好地解决这一问题,基于二代测序技术的基因识别软件GIPS应运而生,他为研究者提供了四种指导性参数,并成功地应用于水稻测序数据上。本文统筹考虑了家系遗传病中各种可能出现的情况,在第一代GIPS的基础上增加了新的家系过滤算法,ANNOVAR注释软件接口,曼哈顿图谱绘制功能,以及底层的背景突变率算法的重定义和公式改进。进一步增加该软件的实用性,可扩展性,生物学可靠性以及精准度。并为提高运行效率,推出了快速获得候选基因列表的新命令。针对第二代GIPS软件的优化。首先,讨论了在家系遗传病中可能存在的各种情况,如待研究病症的显隐性,候选基因是抑制子或是激活子。并根据每种情况,利用不同SNP在基因座上的基因型,进行家系筛选。为了使得用户更直观地了解基因组上所有基因与表型的相关程度,绘制出基因组上每一个基因与表型相关联的显著性的曼哈顿图谱。亦可更直观的反应出通过阈值筛选的候选基因数目。通过改进背景突变率的算法,我们得到更为精确的评估标准,文中亦对前后两种背景突变率作了详细的比较,为了更多的从生物学角度改进该算法,我们还可以综合不同类型的打分软件,从不同角度(例如序列保守程度,理化性质等),指导SNP的筛选。为此新一代的GIPS在原来的基础上增加了新的打分软件的接口,以上这些新增功能均成功应用在水稻数据和耳聋等家系遗传病数据上,并已发表文章于SCI 期刊 Plant Physiology。网址:http://www.plantphysiol.org/content/170/4/1929