完整蛋白质鉴定算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:smsyzgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质及蛋白质翻译后修饰(Post-Translation Modification,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着重要的意义。近年来,质谱设备的技术进步使得获取“自顶向下”(Top-Down,TD)的高精度完整蛋白质质谱数据成为可能。目前,基于TD质谱数据的完整蛋白质鉴定虽然在匹配精度、PTMs位点的推断上取得了不错的成效,但它们在运行时间和结果排序的正确性方面仍有很大的不足和提升空间。针对TD算法存在时间效率低下的问题,本文利用图形处理器(Graphics Processing Unit,GPU)可以将大规模的重复计算并行化的优势,提出基于CUDA(Computer Unified Device Architecture)架构来计算蛋白质与TD谱图匹配分数的CUDA-TP算法。首先,对每一个谱图,CUDA-TP通过优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(Adelson-Velskii and Landis)树加速匹配过程。GPU中的多线程技术被用来并行化图谱网格及最终数组中所有元素的前驱结点的求解。实验结果表明,CUDA-TP算法比目前常规算法快2至10倍。针对完整蛋白质鉴定结果(Protein-Spectrum Matches,PrSM)排序准确率偏低的问题,本文提出基于机器学习的鉴定结果重排算法RPML。RPML算法包含三个步骤:(1)特征提取;(2)模型构建;(3)分数整合。首先,RPML从原始的PrSM数据与相应的蛋白质序列及谱图中提取11种有效特征。然后,构建分类模型预测PrSM的概率值。最后,通过分数整合步骤确定每个PrSM最终的得分概率值。实验结果表明RPML能够有效提升PrSM的鉴定结果质量。
其他文献
超大浮体是有广泛应用前景的一种海上结构。基于物理模型试验,研究了系泊弹性薄板(弹性模量E=6.4Gpa,长宽比为4:1)在规则波和不规则波波浪下的运动响应问题。试验测定了系泊
随着近年来海洋石油勘探、海上航运、海上风电等海洋事业的发展,海洋平台、跨海大桥等海洋工程建筑物得到了很大的发展。小直径群桩结构是海岸工程上常用的结构型式,在计算作
Ti3AlC2是一种三元层状陶瓷材料,这种材料兼有金属和陶瓷的性质,包括良好的导热导电性,较低的硬度,优良的抗氧化性,良好的耐热冲击性能,类似于金属的可加工性,以及与石墨相近
石油勘探领域中地震采集三维观测系统的设计及优化一直是该领域的研究热点,随着勘探要求不断高,对勘探作业工作区环境三维可视化的逼真度和实时性需求也越来越高。勘探作业工
天然气水合物作为一种极具潜能的清洁能源备受世界各国的广泛关注。目前,我国正处于海底天然气水合物勘探调查的关键时期。对海底天然气水合物沉积物的检测分析有助于建立其
库车前陆环境的白垩系砂岩储层的孔渗关系异常复杂。本论文结合前人研究成果,对储层砂岩的岩石学特征、物性特征、储层孔渗关系进行了研究,详细描述了各孔渗关系段的特征,对
芳烃钌(Ⅱ)配合物是一类结构极其稳定的金属配合物,且具有一定的生物活性,可以作为抗癌药物的候选物。在本文中,描述了四种新型的光敏性硝基席夫碱芳烃钌(Ⅱ)配合物的设计合成、
HR西部开发投资股份有限公司(以下简称“HR西部”)是中国华融在宁夏设立的一家控股子公司。设立目的是将HR西部作为响应“一带一路”倡议、支持西部大开发建设的桥头堡,更好
近30年来,随着技术日新月异,不断提升,机器人技术被逐步应用到外科手术中。相对于传统外科手术来说,机器人辅助外科手术具有手术切口较小、手术过程中流血少的优点,可以在很
货币政策对经济活动的作用存在滞后效应,将暂时性的价格波动误判为整体物价水平的趋势性增长会造成不可估量的后果。若价格水平只是暂行低位,而央行却将其判定为趋势性通货紧