论文部分内容阅读
随着生物医学大数据的到来,通过蛋白质组学数据挖掘其潜在的生物学价值,对于研究分子间作用机理、药物设计和人类疾病防治具有重要意义。而利用实验的方法是耗时且耗费资源的,运用计算方法预测蛋白质功能显得尤为重要。随着深度学习的蓬勃发展,通过深度学习预测蛋白质-蛋白质相互作用(ProteinProtein Interactions,PPIs)和药物-靶点相互作用(Drug-Target Interactions,DTIs)已经成为生物信息学的研究热点。本课题基于深度学习预测PPIs和DTIs,主要研究内容如下:1.提出基于集成残差卷积神经网络(Ensemble Residual Convolution Neural Network)的蛋白质-蛋白质相互作用预测方法,称之为EResCNN。首先融合伪氨基酸组成(Pseudo-Amino Acid Composition,PseAAC)、自协方差描述符(Auto Covariance,AC)、伪位置特异性得分矩阵(Pseudo Position-Specific Scoring Matrix,PsePSSM)、分组重量编码(Encoding Based on Grouped Weight,EBGW)、互信息描述符(Multivariate Mutual Information,MMI)和三联体(Conjoint Triad,CT)提取蛋白质的物理化学性质信息、进化信息和序列信息。然后通过残差卷积神经网络的逐层学习能力挖掘PPIs的高水平特征,集成全连接网络、LightGBM和极端随机树预测PPIs。五折交叉验证表明,在S.cerevisiae、H.pylori和Human-Y.pestis数据集上的总体准确率分别为94.88%、88.24%和97.88%,优于主流的蛋白质-蛋白质相互作用预测方法。EResCNN在H.sapiens、M.musculus、C.elegans和E.coli的ACC分别为95.25%、96.49%、92.08%和92.13%,具有优良的跨物种预测性能。网络预测结果表明,EResCNN可以用来探索蛋白质-蛋白质相互作用网络的拓扑结构和生物医学意义。2.提出基于深度神经网络(Deep Neural Network,DNN)的药物-靶点相互作用预测方法,称之为DNN-DTIs。首先利用伪氨基酸组成(PseAAC)、伪位置特异性得分矩阵(PsePSSM)、三联体(CT)、组成、转变和分布(Composition,Transition and Distribution,CTD)、Moreau-Broto自相关以及二级结构特征表征蛋白质靶点信息,使用PubChem数据库中分子亚结构指纹表征药物信息。其次使用XGBoost特征选择剔除冗余和不相关的特征,利用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)平衡样本数据集。最后构建基于深度神经网络(Deep Neural Network,DNN)的药物-靶点相互作用预测模型。五折交叉验证表明,DNN-DTIs在酶(Enzyme)、离子通道(IC)、GPCR和核受体(NR)数据集上的预测准确率分别为98.78%、98.60%、97.98%和98.24%,优于其它的药物-靶点相互作用预测方法。为进一步评估DNN-DTIs的优劣,我们预测并绘制了药物-靶点相互作用网路,可以为药物设计和鉴定新的DTIs提供新的思路和途径。