蛋白质鉴定中串联质谱数据预处理的算法研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 2次 | 上传用户:yayabaobao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前蛋白质鉴定的研究中,通过串联质谱鉴定多肽序列从而鉴定蛋白质是最广泛使用的技术。实验中,从色谱中分离出来的多肽经过CID过程被裂解成碎片离子,这些离子的质量/电荷比值(m/z)被质谱仪器检测到,形成串联质谱。采用数据库搜索方法或者De novo从头解序方法,可从这些碎片离子的m/z值中鉴定出多肽的序列来。 然而,不管采用什么计算方法进行多肽序列的鉴定,高分辨率串联质谱数据的特点决定了其在计算上的困难。质谱中大量的物理噪声和离子的同位素峰,增加了多肽序列鉴定过程的计算量,而且使得随机匹配的可能性增高,从而导致鉴定的结果可靠性降低。此外,质谱中数据中的质量测量误差直接影响多肽鉴定结果。因此,在进行多肽序列鉴定之前,对质谱数据进行预处理非常关键。 本文从理论、算法和应用三个层次来讨论对串联质谱数据的预处理技术,实现对质谱数据的多种预处理,包括过滤质谱中的物理噪声、过滤同位素峰、预测离子对应的分子式、识别质谱的测量误差等。通过这些预处理,最终降低序列鉴定过程的计算量、提高单个质谱的鉴定可靠性、以及提高能能鉴定出多肽的质谱个数,从而提高蛋白质鉴定的可靠性。 本文首先提出一个关键的同位素模式概念,可以定量地刻画离子的一系列同位素在质量、丰度上的特征;并给出了计算离子的理论和实验同位素模式的公式,在此基础上可进行多种讨论,比如区分质谱中离子和噪声对应的谱峰、预测离子的分子式、估计质谱质量测量误差等。 基于同位素模式概念,本文提出了从质谱中挑选潜在的离子单同位素峰的算法PeakSelect。本文从理论上讨论了噪声和离子谱峰的本质区别以及质谱中离子同位素峰重叠的分布情况,并讨论了噪声谱峰在强度上的分布。在此基础上,本文提出多个有效的特征来区别噪声、孤立的离子谱峰、重叠的离子谱峰,并建立谱峰分类的决策树,从质谱中挑选潜在的离子的单同位素峰。实验结果表明PeakSelect能准确地挑选质谱中的离子单同位素谱峰,不仅能够大大缩短鉴定软件在多肽序列鉴定上所需的计算时间,并且能大大增加可靠鉴定出的多肽的个数,提高了质谱的利用率,也提高了所鉴定的蛋白质序列的覆盖率,从而提高了鉴定结果的可靠性。此外,本算法性能较之现有的商用软件,比如ProteinLynxTM Global Server对质谱有效峰选取的预处理效果更好。 在估计质谱质量误差之前,本文先提出了预测离子分子式的算法FFP。FFP通过比较分子式对应的理论同位素模式与质谱中实际出现的实验同位素模式间的差异来预测离
其他文献
护理专业是一门实践性很强的学科,临床教学的目的在于培养学生的临床思维能力、提高学生的分析问题及解决问题的能力、增强学生的实际动手能力,因此临床教学对于使学生将来成
在十五期间重点预研课题“火箭箱式发射技术”中,我们利用武器智能决策支持系统(Weapon Intelligence Decision Support System,简称WIDSS)在所调查的专家知识的基础上生成远程
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的研究经皮椎间孔脊柱内窥镜下技术治疗腰椎间盘突出症的临床疗效。方法收取本院120例腰椎间盘突出症患者,并随机分为两组,对照组患者采用常规手术治疗,观察组患者采用经皮椎
将从宋河酒业优质大曲中分离筛选的红曲霉1号功能菌应用于酯化酶生产;将酯化酶应用于黄浆水酯化液生产;将所生产的黄浆水酯化液兑入底锅蒸馏串蒸试验。结果表明,试验样与对照样
我国妇女初婚年龄的变化及其原因──河北省资料分析的启示叶文振一、理论背景和假设过去对我国妇女初婚年龄变化原因的研究可以分为两大理论派别,即人口政策派和社会经济发展
编译器在发掘高性能计算机系统并行性的过程中起着非常重要的作用,而其中程序分析又是编译器开发并行性的关键步骤之一。然而,对编译器精度和功能的要求的逐步提高,导致程序分析