论文部分内容阅读
针对气相色谱质谱联用(GC-MS)数据处理过程复杂且计算量大、处理时间过长而严重拖延实验进度的问题,以多样本保留时间对齐为例,设计了基于分布式平台Sector/Sphere的GC-MS数据处理并行框架,实现了多样本并行对齐算法。首先分布式计算所有样本的相似度矩阵;然后依据层次聚类原理将原样本集划分为小样本集,分布式对齐各小样本集内部的样本;最后以各小样本集的平均样本作为对齐依据合并各样本集的对齐结果。实验结果表明:多样本并行对齐算法的错误率为2.9%,由4台PC组成的集群处理大量样本时,最高加速比达