论文部分内容阅读
蛋白质及蛋白质翻译后修饰(Post-Translation Modification,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着重要的意义。近年来,质谱设备的技术进步使得获取“自顶向下”(Top-Down,TD)的高精度完整蛋白质质谱数据成为可能。目前,基于TD质谱数据的完整蛋白质鉴定虽然在匹配精度、PTMs位点的推断上取得了不错的成效,但它们在运行时间和结果排序的正确性方面仍有很大的不足和提升空间。针对TD算法存在时间效率低下的问题,本文利用图形处理器(Graphics Processing Unit,GPU)可以将大规模的重复计算并行化的优势,提出基于CUDA(Computer Unified Device Architecture)架构来计算蛋白质与TD谱图匹配分数的CUDA-TP算法。首先,对每一个谱图,CUDA-TP通过优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(Adelson-Velskii and Landis)树加速匹配过程。GPU中的多线程技术被用来并行化图谱网格及最终数组中所有元素的前驱结点的求解。实验结果表明,CUDA-TP算法比目前常规算法快2至10倍。针对完整蛋白质鉴定结果(Protein-Spectrum Matches,PrSM)排序准确率偏低的问题,本文提出基于机器学习的鉴定结果重排算法RPML。RPML算法包含三个步骤:(1)特征提取;(2)模型构建;(3)分数整合。首先,RPML从原始的PrSM数据与相应的蛋白质序列及谱图中提取11种有效特征。然后,构建分类模型预测PrSM的概率值。最后,通过分数整合步骤确定每个PrSM最终的得分概率值。实验结果表明RPML能够有效提升PrSM的鉴定结果质量。