基于深度学习的亚硝基化位点预测算法设计与实现

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:zhuguangxinli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译后修饰(PTM)是指在蛋白质生物合成后对蛋白质进行共价修饰,通常是酶修饰。蛋白质翻译后修饰在蛋白质的加工、成熟以及改变蛋白质的物理和化学性质中起着非常重要的作用。蛋白质亚硝基化是一种重要的、可逆的蛋白质翻译后修饰,涉及一系列生物过程。此外,越来越多的人类疾病被发现与亚硝基化异常密切相关。因此,识别和理解亚硝基化对于细胞生物学的研究、疾病治疗十分重要。亚硝基化位点的准确预测不仅有助于揭示亚硝基化过程的分子调控机制,而且对于开发新的治疗策略和药物靶点具有潜在的指导意义。迄今为止,已经有多种亚硝基化位点识别的实验方法被开发。湿实验如生物素转换方法和质谱法可以准确地识别亚硝基化位点,但与使用昂贵、耗时的生物化学实验进行亚硝基化位点预测相比,计算方法因在这方面的良好表现而备受关注。应用机器学习方法预测亚硝基化位点的研究已成为生物信息学的热点,并促进了相关领域的发展。近年来,专家们已经提出了多种识别蛋白质亚硝基化位点的计算预测工具,大大提高亚硝基化位点预测效率。但是大多数预测工具使用的是旧版本的数据集,其中样本数量少不利于模型的学习,会导致过拟合现象的发生。此外其特征工程方法很大程度上依赖于专家们的先验知识,预测精度仍有待提高。因此蛋白质亚硝基化位点预测研究领域仍然值得关注、值得探索。针对亚硝基化位点预测问题,本文提出了一种基于卷积神经网络、门控循环单元的混合型神经网络架构Deep Sno。Deep Sno以亚硝基化蛋白为研究对象,采用最新的大规模数据集进行训练。为处理基准数据集样本不平衡的问题,将Bootstrapping机制引入训练过程,使得每一次网络迭代能够在相对平衡的训练数据集上进行训练,有效避免了数据不平衡带来的预测偏差。Deep Sno选取序列位置信息和理化属性两大类特征,不仅通过特征融合对序列进行多角度表征,还综合CNN网络与GRU网络的优势,深层次挖掘序列局部位置信息和时序相关信息,完成亚硝基化位点预测。上述实验步骤规避了人为干预的特征选择引起的偏差,提升了模型的学习训练能力。为了评估模型的泛化性能,访问6种预测工具并使用独立测试集进行亚硝基化修饰位点预测。考虑到如GPS-SNO、SNOSite等工具提供了阈值选项,为此还进行了不同工具下不同阈值的对比实验,丰富了实验内涵。独立测试集上的实验结果显示,Deep Sno的敏感度、特异性、MCC、F-measure分别可达77.2%、70.0%、0.288、0.335,性能显著优于其他工具,表现了良好的鲁棒性,进一步说明了深度学习框架Deep Sno的有效性。
其他文献
Schrodinger方程是量子力学中的基本模型,在Bose-Einstein凝聚等问题中有着重要的作用,对Schrodinger方程的正规化解的研究近年来引起人们的极大关注.本文主要应用变分法来寻找下述Schrodinger方程的正规化解其中正规化条件ρ>0是给定的,Lagrange乘子λ ∈R是未知的.结合Ekeland变分原理,Trudinger-Moser不等式和Nehari-Poh
设M是特征为0的代数闭域F上的有限维马尔切夫代数.本文主要研究了带有表示V的M上的O-(对偶-)N结构.我们主要证明了:O-(对偶-)N结构可以产生一对相容的O-算子.作为一个应用,我们得到,一个可逆的反对称r-矩阵可以通过r-N结构生成与之相容的r-矩阵,与此同时,我们在4维马尔切夫代数上给出了与上述结论对应的例子.最后,我们在预马尔切夫代数上得到了一些类似的结果.
超对称顶点代数是顶点代数的推广.本文研究了超对称顶点代数和超对称李共形代数的交换性和幂零性以及单超对称顶点代数与其相伴的超对称李共形代数之间的关系.讨论了超对称顶点代数的表示,证明了其表示满足弱结合性.进一步,建立了超对称空间下的场代数和超对称顶点代数的联系.最后给出了超对称李共形代数广义导子的相关结果.
本文,我们研究了二维有界区域上粘性系数依赖密度的可压缩Navier-Stokes方程(Kazhikhov模型)的初边值问题。在β>1的条件下,证明了Dirichlet边值球对称强解的整体存在性。
图像复原问题在数字图像处理研究领域中是一类重要的研究问题,这一问题包括数字图像去噪、去模糊、修复以及超分辨率等。近些年来,期望块对数似然(Expected Patch Log-Likelihood,简记EPLL)算法作为一种图像复原算法受到了学界的广泛关注。EPLL算法以统计先验模型和最大似然估计为基础对图像块进行处理,EPLL算法的优越性在于它可以与任何统计先验模型相结合,并且在实践中可以提供十
转置泊松超代数是转置泊松代数的一种推广.本文在此基础上得到了转置泊松超代数张量积仍是转置泊松超代数的结果.通过几类相关的超代数的研究,构造出了新的转置泊松超代数.接着研究了转置泊松超代数的中心扩张及泛中心扩张.进一步,引入了泊松3-李超代数和转置泊松3-李超代数的概念,获得了转置泊松超代数与3-李超代数和转置泊松3-李超代数之间的联系.最后,我们引入了pre-李超代数上N超算子、O超算子及R-B超
蛋白质泛素化修饰在细胞信号转导、细胞周期调控、DNA损伤应答和细胞免疫应答等众多生命过程中发挥关键调控作用。研究人员在多种遗传性的退行性疾病中发现了蛋白质泛素化修饰的改变,说明其与相关疾病的发生密切相关,揭示其调控机制对这些疾病的诊疗以及相关药物开发都具有重要意义。通过生物实验已经识别出了大量泛素化蛋白及其修饰位点,然而,生物实验难以进行快速大规模的位点识别。因此,生物信息学方法被引入到该研究领域
近年来,随着我国经济飞速发展,房地产行业在其中起着至关重要的作用。房地产价值的变动也会体现出国家经济发展的变化,而国家经济的波动或者国家针对房地产的宏观调控也会影响着房地产价值的走势,因此对于房地产的深入研究对国家发展或是国民生活都有着重要意义。然而真实的市场中存在各种各样的因素影响房产价值,因此对房产价值的评估变得十分困难。本文应用长春真实的房地产数据,通过多模态特征提取,对评估房产价值以及探究
随着图像数量日益激增,让机器自动识别图像内容,并用符合人们阅读习惯的语句描述图像内容的图像文本描述技术,成为目前人工智能领域一项重要的研究内容。图像文本描述技术的主要目标是让机器实现“看图说话”,“看图说话”同时也是幼儿教育的主要任务之一。通过图像文本描述技术,幼儿跟随机器一起进行“看图说话”,这将在一定程度上辅助引导幼儿理解图像内容,激发幼儿的学习兴趣。本文的研究目标是利用图像文本描述技术设计并
最小顶点覆盖问题(MVC)是组合优化领域的一类常见问题,在这类问题中,部分顶点覆盖问题(PVC)是其中一个热门研究方向。我们生活中很多问题都可以转化为PVC问题,比如监控设备安装问题、高校教师排课系统、网络优化问题、线路规划问题等。PVC问题属于NP难问题,也就是说随着数据规模的增大,问题的求解时间往往呈指数级增长,这种情况下要求出问题的精确解所需要的时间开销是难以忍受的,因此近似算法成为解决PV