论文部分内容阅读
数据清洗是代谢组学进行数据分析之前的重要步骤,合理的数据清洗步骤可以让后续的数据分析工作更完善更有效的进行。在本文中就数据清洗中的缺失值处理和变量分类两个问题提出了新的方法:1.深入探讨了质谱数据中的缺失值模式,并提出了一种新的方法来生成模拟的质谱缺失数据集,相对现有的生成方法更加简单快捷,也更加贴合现实;提出了一种新的缺失值填补方法:在KNN过程中利用了分组信息以及左截断正态分布的特点,首先填补非随机缺失,接着使用自适应KNN来进行填补。在模拟代谢组学分析结果中说明,使用此经过改进的KNN方法可以有效的完成缺失值填补,同时也有助于后续的分析。2.提出了一种新的变量分类方法:D-C方法,这一变量分类方法主要从两个方向出发完成变量分类:自变量与因变量的相关性,变量之间的相关性。将变量分为三类:独特变量、共性变量和冗余变量。D-C方法主要使用Diffreg方法和CMELR-CSIS方法、主成分分析、相关性分析来完成变量分类工作。同时将此变量分类方法应用于多源数据数据处理的数据清洗步骤,可以有效地处理高维数据。通过模拟数据和实际数据检验证明使用此方法有助于后续的建模等程序。在基于质谱的代谢组学数据清洗中应用本文提到的以上两个方法有助于下游分析的完成,为代谢组学数据清洗提供了新的方法。