论文部分内容阅读
气相色谱-质谱联用仪(GC-MS)因具有鲁棒性、高灵敏度、高可检测范围等优点,已被广泛运用于食品安全、医药、生化等领域的研究,是公认的分析和检测复杂样品的重要手段之一。国家已把发展国产质谱仪列为长远规划,目前国产质谱仪不仅核心检测器件比较落后,质谱数据处理算法和软件的研究也才刚刚起步。GC-MS数据处理需经过去噪、基线校正、谱峰识别、重叠峰解析、保留时间对齐和数据挖掘等步骤,其中重叠峰解析和保留时间对齐这两步最具挑战性和最耗时,急需精确的自动化算法。现有质谱分析算法大多只能处理单个样本、功能单一、计算速度缓慢、无法自动完成,难以满足有效管理、快速分析挖掘海量GC-MS数据的需求,成为制约质谱技术应用的瓶颈。为有效解决上述问题,本论文提出一种高度集成的智能GC-MS数据处理技术的构想,其主要工作如下:(1)GC-MS数据描述与已有算法分析。首先对GC-MS数据、提取离子流、总离子流进行数学描述并说明其物理意义;对GC-MS原始数据处理流程和方法、质谱标准数据检索进行了综述;最后对现GC-MS数据处理免费软件进了汇总和介绍。(2)提出一种用于GC-MS重叠峰精确解析的差异变量-多元曲线分辨(DV-MCR)方法。针对MCR-ALS算法用于GC-MS重叠峰解析时难以确定主成分数和初始矩阵而导致计算结果不够精确的问题,提出DV-MCR方法,并模拟不同条件的数据进行验证,结果表明,该方法比传统的MCR-ALS方法解析结果更加精确。(3)采用动态规划方法对保留时间对齐。针对其它保留时间对齐方法结果不够精确,难以自动化完成的问题,将动态规划成功引入保留时间对齐,该方法同时依赖特征峰所在的保留时间和质谱,可以同时对大量GC-MS样本进行自动对齐,并通过实验数据验证了该方法的对齐效果。(4)提出一种通用的基于多线程的并行交叉验证框架。针对GC-MS数据挖掘过程中,机器学习算法在模型评估时使用交叉验证计算量非常大、非常耗时的问题,提出了一种通用的基于多线程的并行交叉验证框架,并使用SVM和PLS算法,通过不同大小的数据集对框架验证其有效性。(5)提出CloudChem—一种基于云计算的化学计量学软件服务。它采用软件即服务模式和并行计算技术,可以较好克服传统化学计量学软件的缺点,基于该方法的软件服务平台可实现光谱、色谱、质谱等数据的有效、高速、一体化的存储、分析、挖掘,最大限度减小用户在使用化学计量软件的基础设施成本和软件成本。