【摘 要】
:
精神分裂症是一种慢性的遗传疾病,由于其发病率高、发病周期长的特性,已经对整个社会造成了很大的影响,并且其尚未被完全知晓的发病机制对整个医疗领域都是一个很大的挑战。而基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的全基因组关联分析(Genome-Wide Association Study,GWAS)的研究虽然已经在精神分裂症的诊断研究中取得了显著的成果,
论文部分内容阅读
精神分裂症是一种慢性的遗传疾病,由于其发病率高、发病周期长的特性,已经对整个社会造成了很大的影响,并且其尚未被完全知晓的发病机制对整个医疗领域都是一个很大的挑战。而基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的全基因组关联分析(Genome-Wide Association Study,GWAS)的研究虽然已经在精神分裂症的诊断研究中取得了显著的成果,但也因其时间周期长、依赖于大量样本等原因阻碍着其发展。随着大数据时代的到来以及数据挖掘技术的迅速发展,研究者可以通过机器学习和深度学习从大量数据中挖掘疾病的致病机制并设计诊断模型。本研究以精神分裂症为主要研究对象,探讨SNP的诊断模型。首先基于改进的模糊聚类算法对SNP数据进行聚类和特征选择;然后采用提出的深度学习模型进行分类;最后设计并实现面向精神分裂症的智能诊断原型系统。具体工作如下:(1)针对SNP位点多达数万个但大部分并不能表示致病机制,且冗余的特征会造成“维数灾难”,严重影响后期诊断效果的问题,提出一种新的聚类方法GN-FCM,并将其运用在SNP选择中。一方面,在模糊C均值聚类的基础上提出SNP权重因子,以解决现有的SNP聚类算法未能考虑SNP位点重要程度差异性的问题;另一方面,提出重点SNP邻域正则项并将其引入模糊聚类的损失函数中,以解决高度重要的SNP与其邻域内的其他SNP的关联性问题。实验结果表明,新提出的聚类方法较其他聚类算法具有更好的收敛性,而且基于该聚类算法构造出来的SNP子集在多个分类器的实验中效果均有提升,其中在准确率上表现最好的分类器是支持向量机,较第二好的选择方法MRMR构造的SNP子集平均提升了5.83%,在F1上表现最好的分类器是决策树,较MRMR平均提升了5.51%。(2)针对现有的分类方法无法适用于过长的SNP序列,且无法充分利用SNP空间距离等信息会造成的模型分类效果降低等问题,提出了一种新的SNP序列分类的神经网络模型Bi-SNP。该模型基于双路径设计,一方面通过采用提出的“滑动窗口采样”的方法重新构造多个较短的子序列,并对每个子序列使用基于Attention机制的LSTM模型进行特征学习,以此来解决原始SNP过长导致的分类精度降低的问题。另一方面,提出了一种新的数据转化方法,将SNP权重、基因距离和染色体影响等有机地结合起来,从而把每个样本转换成一个稠密矩阵,然后使用CNN进行局部空间特征学习。两次学习到的特征经过整合后输送给LSTM模型进行进一步地学习,并由一个随机森林分类器做出最终的决策。实验结果表明,添加了Attention机制的Bi-SNP模型相比其他参与对比的模型都具有明显的优势,较其他表现最好的模型Bi-Stream-CNN在分类准确率和F1上分别平均提升了3.25%和4.36%。(3)在上述研究的基础之上,本文还完成了基于SNP数据的精神分裂症的智能诊断原型系统的设计与实现。
其他文献
多智能体系统的一致性问题由于广泛的应用而备受关注,比如卫星姿态对准,分布式优化,分布式参数估计等。作为多智能体协同控制的基本问题,一致性是指一群智能体通过与邻居交互
薄壁斜齿圈是一种应用于行星齿轮减速器中的特殊齿轮动力传动机构,在一些工程机械领域内应用也较为广泛,例如挖掘机、装甲车辆等减速器中。薄壁斜齿圈主要结构特点是齿圈的壁厚与自身的径轴向尺寸相差较大,又因为齿圈大多设计为薄壁件,其刚性较差,在装夹时由于夹紧力的作用会产生变形,在加工时又由于刀具与工件切削加工时产生的振动与切削力热导致零件变形,工件的装夹力与切削力切削热的共同作用对加工后零件的加工尺寸精度、
人类阅读理解和机器阅读理解一个很大的差异是,人类很善于利用除了文本之外的一些外部知识,来辅助自己理解获取答案。然而当前的很多机器阅读理解方法更多的是在文本匹配层面
基底硬度不仅可以调控动物细胞的形态、增殖、迁移及分化等生物学行为,也是调控植物病原真菌侵染结构形成的重要物理信号。为探索基底硬度这一物理信号对玉米大斑病菌(Setosphaeria turcica)侵染效能的影响,本研究在不同叶龄的玉米叶片上,观察病菌萌发、生长、侵染的差异;选取不同硬度的PDA培养基和PDMS膜进行模拟试验,进一步分析病菌侵染能力与基底硬度的关系,研究结果将为探究植物病原真菌的侵
5G异构云无线接入网络(H-CRAN)使用D2D(Device-to-Device)通信能够大幅度提升网络性能,是5G通信应用中的重要技术。但在通信过程中远端无线射频单元用户和D2D用户(统称为非宏
运动单位指数估计(Motor Unit Number Index,MUNIX)是一种监测神经变性疾病患者神经支配状态的较为敏感的生物标志物,具有操作简单,无创,对受试者具有良好的耐受性等优点。对
本文依托烟台平顶山隧道,对软岩公路隧道进行了理论研究,并结合隧道设计方案及《公路隧道设计规范》对初期支护中的钢拱架、喷射混凝土及锚杆设计了不同的工况,最后通过有限元软件对每种工况进行了数值模拟,并根据计算结果选择了最优的钢拱架间距、钢拱架型号、喷射混凝土厚度、锚杆长度及锚杆间距。具体成果如下:(1)阐述了围岩与初期支护构件之间的相互作用机理,同时依托平顶山隧道工程地质条件及围岩物理力学性质建立了有
目的以择期行肠道肿瘤根治术的老年患者为研究对象,比较全身麻醉与全身麻醉联合硬膜外麻醉对于老年患者术后认知功能的影响;检测调节性T细胞(Regulatory T cells,Tregs)在这两种麻醉方式下的表达:探讨Tregs对于老年患者术后认知功能的影响或为术后认知功能障碍的预防和治疗提供新的思路。方法(1)选取2017年9月至2018年10月择期行肠道肿瘤根治术的老年患者100例,年龄为6580
伴随着现代社会科学技术的进步,航天、电力、运输等各个领域得到了快速的发展,在实际工程中出现了众多的实用性复杂系统,对复杂系统的研究与分析是现在研究学者们的重要任务