论文部分内容阅读
随着基因组测序技术的迅猛发展,个人基因组测序已逐渐成为疾病诊疗、健康管理以及探寻生命奥秘的主要手段之一,极大推动了遗传学、基因组学和医学等相关学科的发展。与此同时,越来越多的科学实验表明,拷贝数变异作为基因组变异中一种重要的结构性变异,与生命进化、生物多样性以及多种复杂疾病、罕见病的发生和发展紧密关联。因此,全面、准确检测拷贝数变异对于探索生命体自然规律、揭示生命奥秘以及理解疾病产生机制、寻找致病靶点和疾病诊疗都具有十分重要的研究意义。然而,由于人类基因组自身的高度复杂性、测序数据的超大数据量以及现有测序技术自身的局限等因素,如何快速、有效地检测和分析拷贝数变异面临着巨大的挑战。本文围绕基于基因组测序技术的拷贝数变异检测方法为研究重点开展相关研究。本研究的目标是通过对现有外显子组测序数据拷贝数变异检测方法的系统评价,提出具有更高敏感性和特异性的外显子组拷贝数变异检测方法;同时,提出一种基于广义拓扑熵的基因组序列分析方法,对拷贝数复制序列进行检测与分析。本文的主要研究内容、研究方法如下:第一,针对目前外显子组测序数据拷贝数变异检测方法在真实数据中检测效果不明确以及没有系统的测评标准等问题,本文首先提出客观评价外显子组测序数据拷贝数变异检测效果的测评方法,并对业内主流的外显子组拷贝数变异检测方法进行系统测评。测评标准及测评结果可以为相关科研人员针对其各自的科学实验选择不同的检测方法提供理论依据,同时为进一步提出新的拷贝数变异检测方法奠定基础。第二,针对现有基于外显子组测序数据拷贝数变异检测方法检测效果不理想的问题,提出新的基于群体样本模式的拷贝数变异检测方法。该方法首先使用主成分分析等手段对外显子组测序数据进行降噪;随后,该方法全面整合reads深度和单核苷酸变异(Single Nucleotide Variation,SNV)信息,共同组成双链隐马尔科夫模型进行拷贝数变异检测。第三,为进一步提升外显子组测序数据拷贝数变异检测效果,提出基于融合样本模式的外显子组拷贝数变异检测方法。避免基于群体样本模式降噪过度等问题,该方法提出基于单样本模式的外显子组拷贝数变异检测方法。首先,该方法利用三步中位数校正方法对已知噪声源的噪声信号予以去除;其次,利用负二项分布模型对降噪后的reads深度信号进行拟合,同时利用reads深度及SNV信息组成双链隐马尔科夫模型进行拷贝数变异检测;最后,将基于单样本模式的拷贝数变异检测结果与基于群体样本模式的拷贝数变异检测结果进行融合,形成最终的拷贝数变异检测结果。第四,提出基于广义拓扑熵的拷贝数片段复制序列检测方法。从数学上证明广义拓扑熵与拓扑熵之间的关系,并将其应用于人类参考基因组中的不同基因组元件、拷贝数片段复制及个体基因组短串联重复序列的检测研究当中,从一个新的维度去审视和理解拷贝数复制序列,为后续拷贝数复制的精准检测提供新的思路和解决方法。综上,本文客观全面地提出了基于外显子组测序数据的拷贝数变异检测效果测评方法;提出了新的基于群体样本模式和融合样本模式的外显子组拷贝数变异检测方法,全面整合reads深度和SNV信息组成双链隐马尔科夫模型对拷贝数变异进行检测,有效提高了检测效果,具有较高的实际意义;提出了基于广义拓扑熵的拷贝数片段复制序列检测方法,具有一定的理论和实际意义。