论文部分内容阅读
基于串联质谱和数据库搜索算法是目前高通量鉴定蛋白质的主流方法,但其存在的主要问题是,直接搜索蛋白质组理论序列库的可信度不高;另一方面,基于目标-诱饵序列库搜索策略的质量控制方法能够估计鉴定结果中的假阳性率,可以有效弥补理论库搜索算法的局限性。而在后一种方法中,诱饵序列库的质量成为了蛋白质鉴定结果可信度高低的关键性因素。同时,人类蛋白质组计划不断发展,积累了海量的蛋白质氨基酸残基序列,为我们使用深度学习等数据驱动的方法来构建高质量的诱饵序列库提供了可能性。在上述背景下,本文引入深度学习中的序列建模方法到诱饵序列库构建流程中,以期提高蛋白质序列鉴定效果。本文通过分析UniProt数据库中7个物种的蛋白质序列各个属性以及不同方法构建诱饵序列库的特性,最终构建比较完备的训练集。本文采用深度学习中的编码-解码策略,处理这类序列到序列的生成问题。神经网络输入的蛋白质氨基酸残基序列使用Word2Vec方法进行向量化嵌入(embedding);神经网络编码部分采用2层Bi-LSTM,为了提高2层Bi-LSTM效果,我们使用融入了加法器的2层Bi-LSTM。解码部分则采用LSTM网络;在编码-解码框架之间,由于目标序列库与诱饵序列库等长的特性,引入局部注意力机制,实验结果显示可以节约时间。为验证本文所提出方法的有效性,通过该模型构建人和小鼠的蛋白质序列诱饵库,在公开发表质谱数据集进行相同的数据库搜索鉴定和质控,最后与同样用于诱饵库构建的反转法和随机法在不同层次进行鉴定结果对比。实验结果表明,基于本文方法构建的诱饵序列库,能满足理想诱饵序列库的各项特征要求,并且通过在不同大小实验数据集上测试,结果显示,该生成库在谱图、肽段、蛋白三个层面上具有较好的灵敏性,因而更优于传统方法。高通量蛋白质测序技术的不断发展以及海量质谱数据的积累,既对我们的数据处理方法提出了新挑战,也为我们引入深度学习等数据驱动的方法提供了机遇。我们相信,随着本文方法的改进,我们一定能够有效应对挑战。