论文部分内容阅读
质谱在生物医学研究中扮演着非常重要的作用。基于质谱技术开展的组学分析(如蛋白质组学、代谢组学)已经被广泛应用于药物的发现与开发,疾病的早期诊断、治疗、预后以及疾病的机制研究等各个方面。基于质谱的原始数据通常存在信号漂移,不同程度的实验和生物学上的变异,数据预处理(如标准化)是消除这些不期望的变异最常用的方法。然而不同预处理方法的理论基础不一样,适用范围也不一样,且对下游的统计学分析具有很大的影响。此外,基于质谱的蛋白质组学及代谢组学数据通常具有高维度,低样本量等特点,常常给数据分析带来过拟合等问题,严重影响了研究结果的可靠性。因此,选择准确的、恰当的数据分析方法对复杂的、高通量的蛋白质组和代谢组数据进行预处理和分析就显得尤为重要。随着生物信息学方法在组学数据研究中的快速发展,蛋白质组学和代谢组学的数据处理和分析也遇到了诸多严重问题:(1)对数据预处理的认识不充分及数据预处理方法的评价指标不统一;(2)特征选择方法在选择与生物学真正相关的特征方面的重要性被低估;(3)现有的生物标志物识别算法所发现的标志物不稳定。基于此,本研究全面开展了基于质谱技术的蛋白质组学以及代谢组学数据预处理及生物标志物识别等两个方面的系统性研究,并开发了用于基于质谱技术的蛋白质组学和代谢组学数据预处理和多标准评估的在线工具,同时提出并构建了一种新型生物标志物稳定识别算法,主要完成如下几个方面的工作:首先,本文整合了基于内标、质量控制代谢物、质量控制样本以及数据标准化等数据预处理方法,提出了对数据预处理方法进行多角度评估的分析策略,并开发了第一个可用于基于质谱的非靶向代谢组学数据预处理及多标准评估的在线分析平台NOREVA。该工具不仅提供了基于质量控制代谢物和基于内标的预处理方法,还允许基于信号校正后再进行数据标准化处理。NOREVA可以在网站http://server.idrb.cqu.edu.cn/noreva/和http:/idrblab.cn/noreva/进行访问。其次,本文对无标定量蛋白质组学(LFQ)数据处理中的定量方式、定量工具以及数据预处理(转化,标准化,缺失值填充)等步骤进行了系统和全面的研究,同时进一步提出对数据预处理组合方法进行综合性打分来发现最佳的LFQ数据处理流程的新策略,并构建了可用于全面评估LFQ数据预处理组合方法的交互式在线工具ANPELA(http://idrblab.org/anpela/)。相比于其他在线或需要下载安装的分析工具,ANPELA不仅可以自动检测多种流行的定量工具产生的各种数据格式,还提供了更全面的数据预处理方法。总之,ANPELA能通过对数据预处理组合方法进行综合性打分排名来发现最佳的LFQ数据处理流程,同时也为LFQ的研究提供重要的参考和指导。第三,本文对14种常用于无标定量蛋白质组学生物标志物发现的特征选择方法进行了系统性研究,并阐明了不同特征选择方法在预测分类准确度上的性能不仅存在显著差异,而且每种方法筛选的真阳性差异蛋白质数目的差异也很大。研究发现多变量分析方法(如PLS-DA)在筛选真阳性差异蛋白质和预测分类准确度两个方面上都表现出比较理想的效果。总体而言,具体选择哪种特征选择方法用于特定数据分析,除了需要综合考虑以上两个因素以外,还需要结合研究的目的。最后,本文提出并开发了一套新型生物标志物稳定识别算法,并开展了脑垂体瘤的代谢组学实验验证研究。本研究的新方法将重复随机抽样与一致性评分相结合,并评估不同数据集之间代谢特征排序的一致性。与传统的特征选择方法相比,本研究构建的新策略所筛选的特征表现出很好的稳定性和预测分类能力。基于垂体瘤血浆非靶向代谢组学分析,本文找到了45个与垂体瘤相关的且高度稳定的代谢物。基于差异代谢物的富集分析,研究发现了脂质代谢通路紊乱与垂体瘤密切相关,并为揭示垂体瘤的复杂病理机制提供重要的科学依据。综上所述,该论文系统性分析了基于质谱的蛋白质组学以及代谢组学数据预处理方法并搭建了在线分析工具,这为我们如何进行准确的、适合的无标记定量蛋白质组学和非靶向代谢组学数据预处理提供了重要的参考和指导,也为做该类分析的研究者提供了数据处理服务平台。此外,本文系统和全面研究了基于质谱技术的蛋白质组学特征选择方法在预测分类能力以及筛选真阳性差异特征能力的综合表现,为质谱组学数据分析中如何选择理想的特征选择方法来筛选准确的、可靠的生物标志物提供有用的指导,同时本研究开发的新型标志物稳定识别算法将为选择稳定的、可靠的潜在生物标志物提供新的算法资源。