论文部分内容阅读
随着高通量测序技术的迅猛发展,对蛋白质的结构和功能的测定无法跟上测序技术的发展步伐。面对海量的蛋白质序列数据,如何寻求高效的计算手段以低成本地预测分析未知蛋白质的结构和功能,成为生物序列分析研究领域中的重难点之一。蛋白质折叠识别是研究蛋白质结构和功能的关键任务之一。通过蛋白质折叠识别研究,能够将序列相似度很低(低于25%)的目标蛋白和模板蛋白进行匹配,并分类到具有相似结构和功能的同一蛋白质折叠类型中,从而根据模板蛋白的结构和功能初步推断出目标蛋白的结构和功能。基于机器学习的性能提升的核心在于构建具有强判别力的特征向量和分类器。设计一个高效的特征提取方法仍然是机器学习方法性能提高的瓶颈。本文通过引入深度学习技术从原始蛋白质序列数据中提取更具有判别力的折叠特异性特征,同时引入生物学特性使深度学习的过程更加透明,可解释,来解决蛋白质折叠识别的问题。主要研究包括以下几个方面:本文针对领域内缺乏强判别力的蛋白质折叠特异性特征的问题,提出基于深度神经网络的折叠特异性特征提取方法。通过设计两种基于深度学习网络的特征提取方法:CNN-BLSTM和DCNN-BLSTM,来提取具有判别力的折叠特异性特征。通过使用卷积神经网络提取来自蛋白质结构和进化信息的局部特征,局部特征的依赖信息可以由双向长短期网络捕获,最终获取折叠特异性特征。在基准数据集LE上的特征分析结果表明基于深度神经网络的特征提取方法能够有效捕获蛋白质的折叠特异性信息,具有较强的判别能力。本文进一步针对基于深度神经网络的特征提取方法缺乏可解释性和生物学特性的问题,提出改进型折叠特异性特征提取方法:基于蛋白质结构模体的卷积神经网络的特征提取方法(Motif CNN和Motif DCNN)。通过将结构模体引入到卷积神经网络中来提取折叠特异性特征,从生物属性中探索蛋白质折叠识别的更具折叠特异性的判别特征。在基准数据集LE上,本文对Motif DCNN提取的折叠特异性特征进行了特征分析,特征分析表明由基于Motif DCNN模型提取的折叠特异性特征比DCNN-BLSTM网络模型提取的折叠特异性特征更具辨别力。同时,本文还进一步探索了Motif DCNN提取的折叠特异性特征所具有的生物学特性,验证了该特征能更好的捕捉蛋白质的结构信息。在此基础上,为了能够全面地融合来自进化信息和结构信息的折叠特异性特征,本文引入基于折叠特异性特征计算的成对序列相似性得分,采用融合的特征向量化策略与支持向量机SVM结合,进一步构建了两个蛋白质折叠识别预测器(Deep SVM-fold和Motif CNN-fold)。在基准数据集LE上与其他竞争方法对比发现,Deep SVM-fold已经取得了优异的效果,表明融合了来自进化信息和结构信息的成对序列相似性得分对蛋白质折叠识别是有效的。此外,Motif CNN-fold的识别准确率比Deep SVM-fold提高5.25%,表明基于蛋白质结构模体的卷积神经网络通过引入具有生物特性的结构模体提取的折叠特异性特征提高了折叠识别的性能。综上所述,本文围绕蛋白质折叠识别问题,提出了两类性能优越的基于深度学习的折叠特异性特征提取方法,并通过进化信息和结构信息的成对相似性打分融合策略进一步提升了折叠识别性能。最后,通过特征分析和基准数据集上的实验结果表明,生物特性与深度学习技术相融合的手段使深度学习技术在生物信息学领域的应用更具有生物学意义。