论文部分内容阅读
随着信息化在大脑神经科学领域的不断深入,多模态神经影像数据和基因数据急剧增加,融合多模态数据分析精神疾病致病机理并进一步应用于精准医疗已经成为全球科技界、卫生界和工业界关注的热点。影像遗传学是一门新兴的交叉学科。它主要运用脑影像技术将人类大脑的功能或结构作为内表型来评价基因对个体的影响,使得人们可以在脑的宏观水平上以更客观的测量方式探索基因对人的行为或精神疾病的影响。机器学习算法是分析影像遗传学数据的常用方法之一。通过建立稀疏模型,从多模态的影像遗传学数据中提取特征,这些特征对应的脑区和基因可以为辅助疾病的临床诊断与治疗。但从具有“高维度,小样本”特点的影像遗传数据中发现与精神疾病(例如精神分裂症)相关的风险基因与异常脑区仍具有挑战。因此,寻找能够从多模态影像遗传学数据中提取显著特征的相关分析方法非常重要。本论文主要利用MCIC数据集上的f MRI数据作为影像表型数据,SNP数据和DNA甲基化数据作为基因型数据,开展精神分裂症的影像遗传学数据研究。围绕“提取与精神分裂症有关的风险基因,表观遗传因子和异常大脑区域”问题,分别建立了三个数学模型,具体的工作总结如下。(1)由于影像遗传学数据具有“高维度,小样本”的特点,探索基因突变对脑区功能的影响仍然是一个具有挑战性的问题。传统的方法分别对影像数据和基因数据集进行降维处理后,再计算其相关性,然而这忽略了影像表型变量和基因变量中的结构信息对最终结果的影响。为了提高对精神分裂症风险基因和异常脑区的识别,提出了一种新的基于统计独立性和结构稀疏性的典型相关分析方法(ISCCA)。ISCCA模型在传统CCA模型的基础上引入了独立成分分析(ICA)以降低特征共线性效应,克服了传统CCA特征选择的歧义性。此外,还在CCA模型中引入拉普拉斯图形结构的正则化项,提高了传统CCA模型特征选择的准确性。模拟实验结果表明,与其他CCA模型相比,ISCCA模型在相关系数中取得了优异的性能。此外,将ISCCA应用于MCIC数据集上,一组相互作用的基因-ROI被提取出来,它们被验证在统计学和生物学上均具有显著性。(2)随着神经影像技术和基因检测技术的飞速发展,整合多模态影像数据和基因数据以探索精神分裂症的致病因子的工作仍然十分有限。为了解决这个问题,提出了一种新的正交子空间上组稀疏联合非负矩阵分解(GJNMFO)算法。该算法将单核苷酸多态性(SNP)数据,功能磁共振成像(f MRI)数据和表观遗传因子(DNA甲基化)三模态数据投影到一个公共的基础矩阵和三个不同的系数矩阵中以识别与精神分裂症有关的风险基因、表观遗传因子和异常大脑区域。具体来说,在基矩阵上引入正交约束,以删除系数矩阵行向量中不重要的特征。由于影像遗传数据具有丰富的分组结构信息,因此在三个系数矩阵上施加组稀疏约束,使选择的特征更加准确。模拟和真实的MCIC数据均被执行以验证模型的有效性。仿真结果表明,GJNMFO模型优于其它有竞争力的模型。通过MCIC数据集的实验,GJNMFO揭示了一组与精神分裂症有关的风险基因、表观遗传因子和异常的脑功能区域。(3)精神分裂症是一种复杂的精神疾病,其致病机理目前尚不清楚。利用稀疏表示和字典学习(SDL)算法分析精神分裂症的f MRI数据集是目前研究精神分裂症发病机制的常用方法。SDL方法将f MRI数据分解为稀疏编码矩阵X和字典矩阵D。然而,传统的SDL方法忽略了X中的群结构信息和D中的原子间的相干性。为了解决这个问题,基于SDL模型提出了一种GS2ISDL模型。该模型从f MRI和SNP数据中提取与精神分裂症相关的异常脑区和基因。具体来说,根据AAL解剖模板将f MRI数据进行分组,然后将这些分组信息作为先验用于指导编码矩阵实现组间稀疏。除此以外,还通过1L范数使得编码矩阵实现组内稀疏。此外,GS2ISDL算法还对字典矩阵D施加非相干约束,以减少D中原子之间的相干性,从而保证X的唯一性和原子的判别性。为了验证GS2ISDL模型的有效性和先进性,将其与IK-SVD和SDL算法在MCIC采集的f MRI数据上进行比较。定量结果表明,GS2ISDL的准确率为93.75%、精确率为94.23%、召回率为80.50%、MCC为88.19%,均优于IK-SVD和SDL。与IK-SVD算法相比,GS2ISDL算法的准确率、精确率、召回率和MCC值分别提高了5.5%、8.51%、5.28%和9.06%。与SDL算法相比,GS2ISDL算法的准确率、精确率、召回率和MCC值分别提高了6.24%、13.52%、7.65%和10.73%。本文分别构建了三个数学模型对精神分裂症的多模态影像遗传学数据进行信息提取研究,识别出了一些与精神分裂症有关的有关的风险基因,表观遗传因子和异常大脑区域,为精神疾病的预防、诊断和治疗提供了新的理论基础。