基于深度学习的复杂疾病致病基因识别算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fanybul8899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂疾病是一类遗传机制复杂,由多基因共同影响导致的疾病,同时与外部环境因素也有一定的关系,是基因与环境共同作用的结果。鉴定复杂疾病的生物标志物是研究其发病机制、诊断与治疗的关键。近年来,深度学习得到快速地发展,在复杂数据集上表现出优异的性能,为在生物医学领域寻找复杂疾病生物标志物的方法研究提供了可能。本文尝试探索一种基于深度学习的针对复杂疾病致病基因的筛选方法,以双相情感障碍和Ⅱ型糖尿病这两种复杂疾病为例开展研究工作。1.基于卷积神经网络的复杂疾病的疾病分类研究。针对卷积神经网络对于输入训练数据的要求,将下载获取的样本SNP位点数据经过GWAS筛选和编码转换处理为BMP图像数据,以样本为单位组织为Case-Control数据集。针对两种疾病搭建各自的卷积神经网络,分别进行多次训练,不断调整超参数直到获得较优的模型。最终训练得到的双相情感障碍疾病分类模型的精度是94.5%,Ⅱ型糖尿病疾病分类模型的精度是97.81%。2.使用Grad-CAM(Gradient-weighted Class Activation Mapping)对训练得到的模型进行解释性研究。分别针对两种疾病的分类模型进行解释性研究,得到各自疾病分类模型分类任务过程中每个SNP位点作用大小的情况,对结果进行统计分析筛选出风险SNP位点,把这些SNP位点匹配到风险基因。针对双相情感障碍疾病分类模型的解释性研究统计后设置阈值筛选到3372个SNP,匹配到962个风险基因,对这些风险基因进行GO分析和KEGG分析;针对Ⅱ型糖尿病疾病分类模型的解释性研究统计后设置阈值筛选到3782个SNP,匹配到1473个基因,同样对这些风险基因进行GO分析和KEGG分析。在OMIM数据库中检索Ⅱ型糖尿病包含31个相关基因,通过比较发现本文筛选到的Ⅱ型糖尿病风险基因中有6个基因包含在这31个相关基因中。本文以使用深度学习这一工具来筛选致病基因为目标,建立疾病分类模型,通过对训练好的分类模型进行解释性研究来寻找风险基因,为深入研究疾病的生物标志物提供了一种新的思路。
其他文献
贾达群作为我国当今乐坛上具有影响力的作曲家兼理论家,善于运用熟悉的音调以自己独特的方式进行融合,在多年的创作经验基础上提出了“结构分析学”理论,并将这一理论反过来
当前我国大学英语教学由于学生心理障碍和老师教法落后等种种原因,“费时不少,收效不大”。要切实解决这一问题,可针对性地推行积极的心理干预,并结舍采用双向实践教学法。以这
大型企业从环境研判、决策制定与适应性调整三个方面提升了产业集群动态能力。从演化经济学的角度看,随着企业的成长,企业家才能、惯例形成和企业文化是企业内部协调以提升企
有机叠氮化合物是一类应用广泛的含能材料,在作为推进剂的含能增塑剂、含能粘合剂、氧化剂和其它添加剂方面均有独特作用。本论文运用量子化学、分子力学和分子动力学方法对
连杆裂解加工是以断裂方式获得连杆大头接合面的一种新型加工技术。通过在大头孔内理论接合面位置人为预制切口,再施加垂直于切口的拉应力载荷,在切口根部产生应力集中,促使
以聚合物驱为代表的化学驱油技术为油田开发获得了巨大的技术和经济效益,同时随受益井产出的含聚污水性质和成分相比常规产出液更为复杂。将含聚污水直接外排会污染海洋环境,
利用子波处理与子波整形技术,结合匹配滤波,可以很好地将不同震源及不同条件下施工的地震测线拼接在一起,且拼接处没有明显的差异。基本解决了拼接目标处理中存在的几个突出问题
主要研究了核恐怖袭击事件中一旦发生粗糙核装置(IND)核爆炸后所造成的早期中子辐射问题。通过运用蒙特卡罗仿真软件 MCNP,针对不同的核爆炸环境对早期中子辐射效应进行了建
会议
随着巴塞尔协议Ⅲ及各银行法规的颁布,商业银行融资逐渐成为了重头戏。本文运用DEA窗口分析法研究中信银行2007-2016年间融资效率情况,旨在为其提高融资效率提供可行性建议。
<正>近年来,中国邮政行业一直保持较快的发展势头,业绩骄人。2015年,邮政企业和全国快递服务企业业务收入(不包括邮储银行直接营业收入)累计完成4039.3亿元,同比增长26.1%;业