【摘 要】
:
RNA与蛋白质的相互作用在许多重要的生物学过程中起着重要的作用。基于新一代测序技术的创新和发展过程,数以百计的RNA结合蛋白(RBP)及其相应的RNA被逐渐发现。通过对其生物学进程的总结和分析,使得在计算生物学方面,利用机器学习的方法对RNA-蛋白质相互作用进行大规模预测成为可能。到目前为止,在计算生物学领域的学者已经在此问题上探究和开发出了多种计算工具和方法,其中就包括深度学习模型,同时也利用基
论文部分内容阅读
RNA与蛋白质的相互作用在许多重要的生物学过程中起着重要的作用。基于新一代测序技术的创新和发展过程,数以百计的RNA结合蛋白(RBP)及其相应的RNA被逐渐发现。通过对其生物学进程的总结和分析,使得在计算生物学方面,利用机器学习的方法对RNA-蛋白质相互作用进行大规模预测成为可能。到目前为止,在计算生物学领域的学者已经在此问题上探究和开发出了多种计算工具和方法,其中就包括深度学习模型,同时也利用基于深度学习模型在RNA-蛋白结合亲和性和位点的识别方面取得了显著的成绩。RNA结合蛋白(RBPs)与许多重要的生物学过程密切相关。RNA与蛋白质发生结合关系后所产生的复合物在许多生物学过程中起到了至关重要的作用,例如:基因的表达调控、剪切方式、翻译规则及病毒复制等。因此,了解蛋白质RNA结合可能为许多细胞过程的功能和动态提供重要的视角。这激发了人们对蛋白质-RNA结合的实验研究和计算预测的兴趣。长链非编码RNA(Long non-coding RNA,lncRNA)是长度大于200个核苷酸的非编码RNA。虽然关于lncRNA的研究进展迅猛,但是绝大部分lncRNA应具有何种功能仍然是不清楚的。随着生物学研究的推进,相继发现了大量的lncRNA。因而种类繁多的lncRNA的研究逐渐成为了在RNA基因组研究问题当中非常值得关注的一个方向。lncRNA在大量生物进程中发挥着重要的作用。同时它们也会导致一些严重的遗传疾病的发生和发展,比如癌症。然而,很多lncRNA缺乏功能注释来解释此类问题。因此,对于lncRNA功能的了解是生物学和医学研究的必要步骤。由于计算方法对时间和费用较生物实验方法更适合大规模实验,因此通过计算的方法进行预测和分析可以为实验方法提供重要的参考和依据。然而,通过计算的手段来对lncRNA的功能进行预测,并且以此来检测新lncRNA的方法从目前的研究水平看仍然极具挑战性。有些lncRNA是根据与蛋白质的结合来工作的,因此通过计算lncRNA与蛋白的相互作用偏好可能为开发新的计算方法提供新的突破。在本文中,我们首先对于目前性能最好的RNA与蛋白质结合偏好预测的高性能深度神经网络DLPRB当中的卷积神经网络模型进行了算法上的改进和提升。使用该模型对RNAcompete数据集当中的全部244组RNA-蛋白质结合偏好的实验数据集进行了结合偏好的预测。我们对改进的模型进行与蛋白质功能相关的总结和分类,并通过迁移学习的方法将lncRNA序列及其特征作为实验输入数据放入模型当中,通过结合强度数值来预测lncRNA的功能。通过对本文实验模型的构建,我们对现有性能最好的实验模型效果进行了提升。在皮尔逊相关系数大于0.6的区间模型当中,本实验的提升效果占比90.8%。同时,我们基于设计的模型提出了一种预测lncRNA功能的投票算法。这是首次使用RNA与蛋白质结合强度和深度学习技术来预测lncRNA功能的计算方法。最后,我们采用了来自Lnc Book数据集中的25个lncRNA测试了我们的预测方法,实验结果的召回率达到88%,明显优于以前的实验方法,结果证实了我们的方法是有意义的。该方法仅使用基于序列的特征便可用于新检测到的lncRNA功能预测,我们认为这项工作可以为lncRNA的研究提供新的视角。
其他文献
图像复原问题在数字图像处理研究领域中是一类重要的研究问题,这一问题包括数字图像去噪、去模糊、修复以及超分辨率等。近些年来,期望块对数似然(Expected Patch Log-Likelihood,简记EPLL)算法作为一种图像复原算法受到了学界的广泛关注。EPLL算法以统计先验模型和最大似然估计为基础对图像块进行处理,EPLL算法的优越性在于它可以与任何统计先验模型相结合,并且在实践中可以提供十
转置泊松超代数是转置泊松代数的一种推广.本文在此基础上得到了转置泊松超代数张量积仍是转置泊松超代数的结果.通过几类相关的超代数的研究,构造出了新的转置泊松超代数.接着研究了转置泊松超代数的中心扩张及泛中心扩张.进一步,引入了泊松3-李超代数和转置泊松3-李超代数的概念,获得了转置泊松超代数与3-李超代数和转置泊松3-李超代数之间的联系.最后,我们引入了pre-李超代数上N超算子、O超算子及R-B超
蛋白质泛素化修饰在细胞信号转导、细胞周期调控、DNA损伤应答和细胞免疫应答等众多生命过程中发挥关键调控作用。研究人员在多种遗传性的退行性疾病中发现了蛋白质泛素化修饰的改变,说明其与相关疾病的发生密切相关,揭示其调控机制对这些疾病的诊疗以及相关药物开发都具有重要意义。通过生物实验已经识别出了大量泛素化蛋白及其修饰位点,然而,生物实验难以进行快速大规模的位点识别。因此,生物信息学方法被引入到该研究领域
近年来,随着我国经济飞速发展,房地产行业在其中起着至关重要的作用。房地产价值的变动也会体现出国家经济发展的变化,而国家经济的波动或者国家针对房地产的宏观调控也会影响着房地产价值的走势,因此对于房地产的深入研究对国家发展或是国民生活都有着重要意义。然而真实的市场中存在各种各样的因素影响房产价值,因此对房产价值的评估变得十分困难。本文应用长春真实的房地产数据,通过多模态特征提取,对评估房产价值以及探究
随着图像数量日益激增,让机器自动识别图像内容,并用符合人们阅读习惯的语句描述图像内容的图像文本描述技术,成为目前人工智能领域一项重要的研究内容。图像文本描述技术的主要目标是让机器实现“看图说话”,“看图说话”同时也是幼儿教育的主要任务之一。通过图像文本描述技术,幼儿跟随机器一起进行“看图说话”,这将在一定程度上辅助引导幼儿理解图像内容,激发幼儿的学习兴趣。本文的研究目标是利用图像文本描述技术设计并
最小顶点覆盖问题(MVC)是组合优化领域的一类常见问题,在这类问题中,部分顶点覆盖问题(PVC)是其中一个热门研究方向。我们生活中很多问题都可以转化为PVC问题,比如监控设备安装问题、高校教师排课系统、网络优化问题、线路规划问题等。PVC问题属于NP难问题,也就是说随着数据规模的增大,问题的求解时间往往呈指数级增长,这种情况下要求出问题的精确解所需要的时间开销是难以忍受的,因此近似算法成为解决PV
翻译后修饰(PTM)是指在蛋白质生物合成后对蛋白质进行共价修饰,通常是酶修饰。蛋白质翻译后修饰在蛋白质的加工、成熟以及改变蛋白质的物理和化学性质中起着非常重要的作用。蛋白质亚硝基化是一种重要的、可逆的蛋白质翻译后修饰,涉及一系列生物过程。此外,越来越多的人类疾病被发现与亚硝基化异常密切相关。因此,识别和理解亚硝基化对于细胞生物学的研究、疾病治疗十分重要。亚硝基化位点的准确预测不仅有助于揭示亚硝基化
随着在线医疗服务平台的发展,积累了大量的电子健康记录,使得患者可以从丰富的医疗信息资源中获得更好的医疗服务。然而,患者很难从复杂的信息资源中找到最适合医治自己疾病的医生。这些医疗数据中存在许多无法察觉但是又十分重要的联系,所以发现数据中内部关联对于疾病预测及医生推荐问题具有一定的研究价值。有效分析和挖掘电子健康记录对患者及时、准确获得治疗也具有重要意义。传统的医疗诊断方式往往凭借医生的专业知识和实
蛋白质结构预测的研究对了解蛋白质功能、促进蛋白质工程以及药物的研发具有重要意义。而跨膜蛋白则是蛋白质中结构比较特殊的一类蛋白,其通过特殊的跨膜结构穿透磷脂双分子层长期稳定地固定在生物膜上,是生物膜功能的主要承担者。因此,跨膜蛋白结构的研究具有非常重要的生物学和医学意义。根据跨膜区结构的不同,跨膜蛋白可以分为α螺旋和β桶状跨膜蛋白两大类。作为跨膜蛋白中重要一类的α螺旋跨膜蛋白,其结构的研究对于跨膜蛋