基于深度学习的诱饵序列库构建方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xiao531313486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于串联质谱和数据库搜索算法是目前高通量鉴定蛋白质的主流方法,但其存在的主要问题是,直接搜索蛋白质组理论序列库的可信度不高;另一方面,基于目标-诱饵序列库搜索策略的质量控制方法能够估计鉴定结果中的假阳性率,可以有效弥补理论库搜索算法的局限性。而在后一种方法中,诱饵序列库的质量成为了蛋白质鉴定结果可信度高低的关键性因素。同时,人类蛋白质组计划不断发展,积累了海量的蛋白质氨基酸残基序列,为我们使用深度学习等数据驱动的方法来构建高质量的诱饵序列库提供了可能性。在上述背景下,本文引入深度学习中的序列建模方法到诱饵序列库构建流程中,以期提高蛋白质序列鉴定效果。本文通过分析UniProt数据库中7个物种的蛋白质序列各个属性以及不同方法构建诱饵序列库的特性,最终构建比较完备的训练集。本文采用深度学习中的编码-解码策略,处理这类序列到序列的生成问题。神经网络输入的蛋白质氨基酸残基序列使用Word2Vec方法进行向量化嵌入(embedding);神经网络编码部分采用2层Bi-LSTM,为了提高2层Bi-LSTM效果,我们使用融入了加法器的2层Bi-LSTM。解码部分则采用LSTM网络;在编码-解码框架之间,由于目标序列库与诱饵序列库等长的特性,引入局部注意力机制,实验结果显示可以节约时间。为验证本文所提出方法的有效性,通过该模型构建人和小鼠的蛋白质序列诱饵库,在公开发表质谱数据集进行相同的数据库搜索鉴定和质控,最后与同样用于诱饵库构建的反转法和随机法在不同层次进行鉴定结果对比。实验结果表明,基于本文方法构建的诱饵序列库,能满足理想诱饵序列库的各项特征要求,并且通过在不同大小实验数据集上测试,结果显示,该生成库在谱图、肽段、蛋白三个层面上具有较好的灵敏性,因而更优于传统方法。高通量蛋白质测序技术的不断发展以及海量质谱数据的积累,既对我们的数据处理方法提出了新挑战,也为我们引入深度学习等数据驱动的方法提供了机遇。我们相信,随着本文方法的改进,我们一定能够有效应对挑战。
其他文献
自《规划环境影响评价条例》颁布实施以来,规划环评工作取得了良好进展,规划环评的重要性不言而喻,文章就规划环评的编制依据和编制范围、规划环评与项目环评的区别与联系、
在经济形态活跃、商业机会日益信息化的今天,公司管理层违反忠实义务的投机行为越来越多,篡夺公司机会愈加成为最为惯常、也最为隐蔽的手段,而我国2005年《中华人民共和国公
分析了目前钻参仪未能普遍推广应用的原因.介绍了WZY-1型钻参仪的总体构成、测试参数、性能特点及其分别与钻机和水泵的一体化设计.
为了更好地落实我国素质教育的要求,新一轮的课程改革全面推进。小学教育作为我国教育的初始阶段,对于学生的成长和发展是非常重要的。而小学语文学科作为一门基础性学科,同
综述了纳米粉体在聚合物熔体中的分散理论,包括纳米粉体聚集体中聚集力的模型及影响因素、纳米粉体聚集体在流场中所受外力的模型及影响因素,介绍了纳米粉体聚集体分散的破裂
通过多步反应制备了一种自乳化的丙烯酸酯化聚氨酯,然后用种子乳液聚合法制备了以丙烯酸酯化聚氨酯和丙烯酸丁酯共聚物为核、聚甲基丙烯酸甲酯为壳的核壳粒子.该粒子对环氧树
长期以来,受应试教学观的影响,高中历史学科的教学围绕着高考转,只注重学生的学习结果,以学生取得高分为目标,片面地认为学生只要认真听与背,便可以取得高分。教学完全凭教师的主观