论文部分内容阅读
代谢组学(metabonomics)是研究生物体受病理/生理刺激或基因改变后,定量分析内源性代谢产物的整体组成及其变化规律的科学。经过十几年的快速发展,代谢组学已成功地应用到病理学、毒理学、药理学、疾病诊断等诸多领域。核磁共振(NMR)由于其独特的优势,已成为代谢组学数据获取的重要手段之一。但由于生物系统及外部环境的复杂性,样本制备及实验操作的差异性,以及数据的高维度,代谢组学的数据分析常常面临巨大挑战。数据预处理可很大程度上抑制干扰,规范数据,有利于模式识别准确性的提高和生物标志物的发现。本文主要从谱峰漂移和样本间整体性浓度差异的校正入手,对代谢组学的数据预处理进行研究,并提出新的谱峰对齐方法和样本归一化方法,提高后续数据分析结果的可靠性。主要内容如下: 1.提出一种基于高斯平滑的谱峰对齐方法。生物样品NMR谱图的信号峰具有一定的稀疏性,因此,谱峰对齐算法通常先将参考谱和待对齐谱分割成若干个小段,再分别对各信号段进行谱峰对齐,最后拼接成一张完整谱图。新方法通过对原始谱图进行高斯平滑,得到谱图的包络,一个包络对应一段谱图,进而得到谱图分段;通过高斯函数窗口的调节,可在不同尺度下对原始谱图进行分段,进而在多尺度下对齐谱图。通过与其它谱峰对齐方法的比较,新方法在对齐精度、谱峰轮廓保持及对后续多变量统计分析的促进上都有一定优势。 2.提出一种基于代谢物统计差异并移除组间差异代谢物的样本归一化算法。该方法通过统计手段对代谢物在实验组和对照组的组间差异进行检验,并排除差异性较显著的一部分代谢物,利用剩余代谢物进行归一化。通过在模拟数据和真实数据中的运用,结果表明新方法具有更高的归一化精度,并对后续的模式识别和生物标志物的寻找具有促进作用。