基于序列模型的肽序列可信度评估

来源 :山东理工大学 | 被引量 : 1次 | 上传用户:juntao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在肽序列鉴定过程中对候选肽序列与实验串联质谱匹配对(肽谱匹配对)进行评估打分是非常关键的一步,准确有效的可信度评估算法能提高肽序列鉴定的准确度。传统的打分算法通常利用预测出的理论质谱谱图与实验质谱谱图的相似度分数进行分数计算,无法充分有效地利用肽碎裂规律。本文针对这一问题提出了一种结合肽序列信息表征的多分类概率和式可信度评估算法:deep Score-α。deep Score-α使用一维残差网络对序列底层信息进行抽取,再通过多头注意力机制融合序列不同肽键位点对当前肽键断裂位点产生的影响从而生成最终的碎片离子相对强度分布概率矩阵,结合肽序列碎片离子的实际相对强度计算出最终的肽谱匹配可信度。该算法从常用开源鉴定工具Comet以及MSGF+的鉴定结果中提取候选肽序列进行重新打分并与原有结果进行了比较:deep Score-α在人类蛋白组数据集中FDR=0.01时保留的肽序列数量相较于Comet和MSGF+提升了约14%,Top1命中率(正确肽序列得分最高的谱图所占比例)最大提升约5%。使用人类蛋白组数据集训练的模型在Proteome Tools2数据集上进行泛化性能测试,deep Score-α在FDR=0.01条件下保留的肽序列相较于Comet和MSGF+提升了约7%,Top1命中率提升约5%,Top1中来自Decoy库的鉴定结果减少约60%。实验结果证明,deep Score-α在FDR=0.01的情况下保留更多的肽序列并提升Top1的命中率,且具有较好的泛化性能。deep Score-α形成了对应的肽序列可信度计算工具,可以使用该工具直接对Comet以及MSGF+的鉴定结果重新进行可信度计算,按给定FDR阈值输出再次计算分数后的鉴定结果,也可自定义质谱对应的候选肽输入软件工具进行可信度计算。此外,该软件工具也提供了FDR分析功能,协助确定更有效的FDR阈值对鉴定结果进行过滤。
其他文献
随着城市化的持续发展和建筑高度的持续攀升,垂直交通已经是生产与生活中不可缺少的一部分。如何更好地管理垂直交通系统,提升其服务质量成为备受关注的问题。交通系统的优化
现实世界中,交通网络、电路网络、社交网络等许多物理信息网络需要用多层网络模型来描述。网络的同步一直是最重要的动力学行为之一,在各个领域都有重要的体现和实用价值。多层网络区别于单一网络的特性很大程度上体现在层间连接的作用上,层间连边的数量和类型对整个网络同步有很大影响,如何设计层间连边以及为层间连边分配边权,是设计双层网络的关键,本文旨在应用网络图谱理论给出多层网络的同步优化策略并推导多层网络层内同
课堂问题是高中地理课堂教学开展中最为重要的教学方式与环节之一,也是帮助教师掌握教学情况、推动教学发展的重要方式。其在高中地理课堂教学中具有普遍性和常见性。基于此,
2013年,党的十八届三中全会对深化司法体制改革作出了全面部署,我国将对司法管理体制进行改革,推动省以下地方法院、检察院人财物统一管理,探索建立与行政区划适当分离的司法
在医疗保健领域,大多数用来测量人类心脏活动的医疗仪器,如心电图,都依赖于接触电极。这种接触式的测量方式注定会引起诸多不便,而且会限制其应用范围。同时从理论上讲,通过
云计算为用户提供了较为廉价的大规模计算能力,也为互联网时代提供了诸多便利。而如今发达的互联网络与便捷的通信技术反作用于广大的使用者,所提交的网络访问请求愈来愈多、
光谱作为一种强大的物质成分检测手段,本质是物质接触光时吸收部分频率的光,使物质中分子或原子发生了能级跃迁。作为无损检测技术,光谱已被广泛应用于农业、化工、医药、食
法官助理是指专职审判辅助工作的司法人员,该职位发迹于19世纪后半期的美国,经过一百多年的发展,已经形成一套较为成熟的制度。我国的法官助理制度最早由最高人民法院在1999
加密系统分为对称加密系统和非对称加密系统,但是单独使用其中一个会遇到安全性或效率问题。因此,为了同时保证安全性和效率,现代加密系统将对称加密系统和非对称加密系统结
随着模数转换器向更高速发展,时间交织模数转换器成为研究热点。作为转换器系统最前端电路,采样保持电路决定了整个模数转换器的带宽、转换速率和转换精度,其性能至关重要。