论文部分内容阅读
拷贝数变异是一种长度大于1KB但小于3MB的基因序列发生重排而导致的结构性变异,作为基因结构变异的重要组成部分,在多种复杂疾病中扮演了重要的角色。许多研究者对拷贝数变异的识别提出了不同方法,如CNV-TV,Penncnv。但是这些方法主要是针对在单样本上的拷贝数变异识别,而真正能够影响疾病的拷贝数变异仅仅只占全部拷贝数变异的小部分,因此很难发现与疾病相关的拷贝数变异。同时又由于每个样本具有的特异性,其不同样本的拷贝数变异也不尽相同,识别每个样本的特异性拷贝数变异也是一个关键性的问题。基于此我们提出了两种不同群体性和个体性拷贝数变异分离方法,本文的主要工作内容如下:首先,本文简要地介绍了拷贝数变异分析方法,以及群体性拷贝数和个体性拷贝数。其次本文总结了群体性拷贝数变异的稀疏性、连续性以及结构相似性,和个体性拷贝数变异的稀疏性和连续性,提出了基于多范数约束的群体性拷贝数分离模型JNCO,并设计了一个基于坐标轮换算法的高效求解算法。同时,鉴于小波变换的去除噪音能力以及能够表现局部特征能力,设计了一个基于小波变换的群体性和个体性拷贝数分离框架。在此基础上,我们继续分析了在经过小波变换后的群体性拷贝数和个体性拷贝数变异的各成分特性,完善了小波变换的群体性拷贝数和个体性拷贝数变异模型WaveDec。最后,本文通过模拟数据和真实数据来评估新模型的性能,并与其它方法比较,表明新的模型能够很好地识别并分离群体性拷贝数变异和个体性拷贝数变异。综上所述,本文的主要工作成果在:1)本文分析了群体性拷贝数和个体性拷贝数的特性,根据其特性使用对应的范数约束,设计了JNCO模型来实现群体性和个体性拷贝数的分离。2)本文利用小波变换的去除噪音能力和能够表现局部特性的能力,设计了一个基于小波变换的拷贝数分离框架,并根据群体性和个体性的特性,提出了分离模型WaveDec。3)本文通过模拟实验和真实实验证明了提出方法的可靠性。