代谢组学数据清洗中的缺失值处理和变量分类方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wangbuhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗是代谢组学进行数据分析之前的重要步骤,合理的数据清洗步骤可以让后续的数据分析工作更完善更有效的进行。在本文中就数据清洗中的缺失值处理和变量分类两个问题提出了新的方法:1.深入探讨了质谱数据中的缺失值模式,并提出了一种新的方法来生成模拟的质谱缺失数据集,相对现有的生成方法更加简单快捷,也更加贴合现实;提出了一种新的缺失值填补方法:在KNN过程中利用了分组信息以及左截断正态分布的特点,首先填补非随机缺失,接着使用自适应KNN来进行填补。在模拟代谢组学分析结果中说明,使用此经过改进的KNN方法可以有效的完成缺失值填补,同时也有助于后续的分析。2.提出了一种新的变量分类方法:D-C方法,这一变量分类方法主要从两个方向出发完成变量分类:自变量与因变量的相关性,变量之间的相关性。将变量分为三类:独特变量、共性变量和冗余变量。D-C方法主要使用Diffreg方法和CMELR-CSIS方法、主成分分析、相关性分析来完成变量分类工作。同时将此变量分类方法应用于多源数据数据处理的数据清洗步骤,可以有效地处理高维数据。通过模拟数据和实际数据检验证明使用此方法有助于后续的建模等程序。在基于质谱的代谢组学数据清洗中应用本文提到的以上两个方法有助于下游分析的完成,为代谢组学数据清洗提供了新的方法。
其他文献
目的探讨叶酸受体(FR)阳性循环肿瘤细胞(CTC)检测对肺癌的诊断效能。方法胸部CT检查提示可疑肺癌的孤立性肺小结节患者38例,术后病理诊断为早期肺癌29例、肺良性病变9例。术
徽州人受“朱学”影响,修谱之风愈加浓厚。《安徽绩溪瀛洲章氏宗谱》在2008年面世,其谱系部分对族人有一定实用价值,便于相互联系。但受多种因素制约,它又确实存在较多缺陷,行家多
本文是舒曼三首《浪漫曲》的调性分析。结合传统与近现代的思维模式从调性布局和调关系类型这两个方面进行分析,总结出这三首曲子的调性规律,为近现代和声的发展以及调性的扩
近年来,西方学者以极大的热情研究了马克思主义在中国落地、发展和创新过程中所面对的哲学困境:马克思主义理论自身的哲学悖论;马克思主义中国化哲学维度缺失的原因;马克思主义中