论文部分内容阅读
复杂疾病是一类遗传机制复杂,由多基因共同影响导致的疾病,同时与外部环境因素也有一定的关系,是基因与环境共同作用的结果。鉴定复杂疾病的生物标志物是研究其发病机制、诊断与治疗的关键。近年来,深度学习得到快速地发展,在复杂数据集上表现出优异的性能,为在生物医学领域寻找复杂疾病生物标志物的方法研究提供了可能。本文尝试探索一种基于深度学习的针对复杂疾病致病基因的筛选方法,以双相情感障碍和Ⅱ型糖尿病这两种复杂疾病为例开展研究工作。1.基于卷积神经网络的复杂疾病的疾病分类研究。针对卷积神经网络对于输入训练数据的要求,将下载获取的样本SNP位点数据经过GWAS筛选和编码转换处理为BMP图像数据,以样本为单位组织为Case-Control数据集。针对两种疾病搭建各自的卷积神经网络,分别进行多次训练,不断调整超参数直到获得较优的模型。最终训练得到的双相情感障碍疾病分类模型的精度是94.5%,Ⅱ型糖尿病疾病分类模型的精度是97.81%。2.使用Grad-CAM(Gradient-weighted Class Activation Mapping)对训练得到的模型进行解释性研究。分别针对两种疾病的分类模型进行解释性研究,得到各自疾病分类模型分类任务过程中每个SNP位点作用大小的情况,对结果进行统计分析筛选出风险SNP位点,把这些SNP位点匹配到风险基因。针对双相情感障碍疾病分类模型的解释性研究统计后设置阈值筛选到3372个SNP,匹配到962个风险基因,对这些风险基因进行GO分析和KEGG分析;针对Ⅱ型糖尿病疾病分类模型的解释性研究统计后设置阈值筛选到3782个SNP,匹配到1473个基因,同样对这些风险基因进行GO分析和KEGG分析。在OMIM数据库中检索Ⅱ型糖尿病包含31个相关基因,通过比较发现本文筛选到的Ⅱ型糖尿病风险基因中有6个基因包含在这31个相关基因中。本文以使用深度学习这一工具来筛选致病基因为目标,建立疾病分类模型,通过对训练好的分类模型进行解释性研究来寻找风险基因,为深入研究疾病的生物标志物提供了一种新的思路。