论文部分内容阅读
蛋白质二级结构预测在生物信息学领域具有重大意义,对充分了解蛋白质的功能和结构是十分必要的,科学家们从未停止对蛋白质结构的研究。本文主要使用了深度学习模型来进一步提高蛋白质二级结构的预测准确率,本文的主要工作包括以下几个方面:
(1)基于优化的卷积神经网络的方法。首先本文对蛋白质数据进行处理,将CASP11数据集作为验证集,并建立初始的卷积神经网络模型,然后将卷积神经网络的层数、学习率、梯度冲量和正则化系数四种超参数配合训练集和验证集构建贝叶斯优化算法,其次通过训练网络,经过贝叶斯优化得到最优的网络结构和参数,最后在测试集CASP10,CASP11和CB513数据集上获得了81.36%,80.83%和84.29%的Q3预测准确率。
(2)基于优化的卷积和BiLSTM网络的分类方法。该模型将优化的卷积神经网络和BiLSTM神经网络相结合,利用蛋白质特征矩阵预测蛋白质二级结构。优化后的卷积神经网络可以提取蛋白质序列中复杂氨基酸残基之间的局部特征。此外,BiLSTM神经网络可以进一步提取氨基酸之间复杂的远程相互作用。实验结果表明,本文提出的模型能够取得较好的效果。
(3)基于生成对抗网络和卷积神经网络的预测方法。本文将生成对抗网络和卷积神经网络相结合,提出了基于生成对抗网络和卷积神经网络相结合的方式去进行蛋白质二级结构的预测。生成对抗网络能够提取蛋白质序列之间氨基酸残基的特征,并将提取的特征与原始蛋白质特征融合之后利用卷积神经网络预测蛋白质二级结构。在CASP9,CASP10,CASP11,CASP12,CB513和25PDB数据集上分别获得了87.06%,87.24%,87.31%,87.39%,88.13%和88.93%的Q3预测准确率。实验结果表明,Q3预测准确率得到了显著提高。
(4)基于小波散射和卷积神经网络的分类方法。利用小波散射提取蛋白质数据的特征,由于小波散射网络中具有不同的尺度,所以设置不同的尺度进行分析。将通过小波散射网络提取到的不同的蛋白质特征利用卷积神经网络进行结果预测。因此,本章将采用小波散射网络与卷积神经网络结合起来进行特征二次处理达到了较好的分类效果。
实验表明,在本文所使用的方法中,使用公开的测试集来测试本文所使用的模型,通过贝叶斯优化卷积网络,结合BiLSTM网络模型,利用生成对抗和卷积神经网络,使用小波散射网络和卷积神经网络,本文所用的方法都比单独使用卷积神经网络得到的Q3准确率高。这就证明了,本文所提出的模型是切实可行的,并且都提高了Q3预测准确率。
(1)基于优化的卷积神经网络的方法。首先本文对蛋白质数据进行处理,将CASP11数据集作为验证集,并建立初始的卷积神经网络模型,然后将卷积神经网络的层数、学习率、梯度冲量和正则化系数四种超参数配合训练集和验证集构建贝叶斯优化算法,其次通过训练网络,经过贝叶斯优化得到最优的网络结构和参数,最后在测试集CASP10,CASP11和CB513数据集上获得了81.36%,80.83%和84.29%的Q3预测准确率。
(2)基于优化的卷积和BiLSTM网络的分类方法。该模型将优化的卷积神经网络和BiLSTM神经网络相结合,利用蛋白质特征矩阵预测蛋白质二级结构。优化后的卷积神经网络可以提取蛋白质序列中复杂氨基酸残基之间的局部特征。此外,BiLSTM神经网络可以进一步提取氨基酸之间复杂的远程相互作用。实验结果表明,本文提出的模型能够取得较好的效果。
(3)基于生成对抗网络和卷积神经网络的预测方法。本文将生成对抗网络和卷积神经网络相结合,提出了基于生成对抗网络和卷积神经网络相结合的方式去进行蛋白质二级结构的预测。生成对抗网络能够提取蛋白质序列之间氨基酸残基的特征,并将提取的特征与原始蛋白质特征融合之后利用卷积神经网络预测蛋白质二级结构。在CASP9,CASP10,CASP11,CASP12,CB513和25PDB数据集上分别获得了87.06%,87.24%,87.31%,87.39%,88.13%和88.93%的Q3预测准确率。实验结果表明,Q3预测准确率得到了显著提高。
(4)基于小波散射和卷积神经网络的分类方法。利用小波散射提取蛋白质数据的特征,由于小波散射网络中具有不同的尺度,所以设置不同的尺度进行分析。将通过小波散射网络提取到的不同的蛋白质特征利用卷积神经网络进行结果预测。因此,本章将采用小波散射网络与卷积神经网络结合起来进行特征二次处理达到了较好的分类效果。
实验表明,在本文所使用的方法中,使用公开的测试集来测试本文所使用的模型,通过贝叶斯优化卷积网络,结合BiLSTM网络模型,利用生成对抗和卷积神经网络,使用小波散射网络和卷积神经网络,本文所用的方法都比单独使用卷积神经网络得到的Q3准确率高。这就证明了,本文所提出的模型是切实可行的,并且都提高了Q3预测准确率。