GC-MS数据高性能分析算法研究

来源 :桂林电子科技大学 | 被引量 : 6次 | 上传用户:a3470114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
气相色谱-质谱联用仪(GC-MS)因具有鲁棒性、高灵敏度、高可检测范围等优点,已被广泛运用于食品安全、医药、生化等领域的研究,是公认的分析和检测复杂样品的重要手段之一。国家已把发展国产质谱仪列为长远规划,目前国产质谱仪不仅核心检测器件比较落后,质谱数据处理算法和软件的研究也才刚刚起步。GC-MS数据处理需经过去噪、基线校正、谱峰识别、重叠峰解析、保留时间对齐和数据挖掘等步骤,其中重叠峰解析和保留时间对齐这两步最具挑战性和最耗时,急需精确的自动化算法。现有质谱分析算法大多只能处理单个样本、功能单一、计算速度缓慢、无法自动完成,难以满足有效管理、快速分析挖掘海量GC-MS数据的需求,成为制约质谱技术应用的瓶颈。为有效解决上述问题,本论文提出一种高度集成的智能GC-MS数据处理技术的构想,其主要工作如下:(1)GC-MS数据描述与已有算法分析。首先对GC-MS数据、提取离子流、总离子流进行数学描述并说明其物理意义;对GC-MS原始数据处理流程和方法、质谱标准数据检索进行了综述;最后对现GC-MS数据处理免费软件进了汇总和介绍。(2)提出一种用于GC-MS重叠峰精确解析的差异变量-多元曲线分辨(DV-MCR)方法。针对MCR-ALS算法用于GC-MS重叠峰解析时难以确定主成分数和初始矩阵而导致计算结果不够精确的问题,提出DV-MCR方法,并模拟不同条件的数据进行验证,结果表明,该方法比传统的MCR-ALS方法解析结果更加精确。(3)采用动态规划方法对保留时间对齐。针对其它保留时间对齐方法结果不够精确,难以自动化完成的问题,将动态规划成功引入保留时间对齐,该方法同时依赖特征峰所在的保留时间和质谱,可以同时对大量GC-MS样本进行自动对齐,并通过实验数据验证了该方法的对齐效果。(4)提出一种通用的基于多线程的并行交叉验证框架。针对GC-MS数据挖掘过程中,机器学习算法在模型评估时使用交叉验证计算量非常大、非常耗时的问题,提出了一种通用的基于多线程的并行交叉验证框架,并使用SVM和PLS算法,通过不同大小的数据集对框架验证其有效性。(5)提出CloudChem—一种基于云计算的化学计量学软件服务。它采用软件即服务模式和并行计算技术,可以较好克服传统化学计量学软件的缺点,基于该方法的软件服务平台可实现光谱、色谱、质谱等数据的有效、高速、一体化的存储、分析、挖掘,最大限度减小用户在使用化学计量软件的基础设施成本和软件成本。
其他文献
双馈风力发电已成为风力发电的主流形式,然而它需要依靠电网才能启动和进行并网发电,不能孤岛运行。因此,利用这种传统的控制方式形成的双馈风力发电系统不能应用于微电网。
在建筑工程实际施工过程中,工程造价的动态管理和控制不仅是保证工程顺利开展的基础条件,同时也是降低企业施工成本和增加企业经济效益的重要途径.为此,各施工企业都需积极探
<正>教学在一定意义上,属于文化传递。美国文化人类学家玛格丽特·米德在《文化与承诺》一书中提出了著名的"三喻文化":前喻文化是年长者向年幼者传授,年轻者向年长者学习的
我国是教育大国,大学人均水耗量高、节水潜力大,节约用水是建设资源节约、环境友好大学校园的重要内容之一。本文运用工程规划设计管理理论和系统分析方法,对大学校园节水管