基于智能计算的生物网络构建算法的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:cheqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划(HGP)的完成,人类进入后基因组时代。研究也从单纯分析基因碱基构成,逐渐转向特定功能基因的研究。细胞是一个复杂的非线性系统,任何细胞活动都需要多个基因、多个蛋白质以及多种代谢物共同作用来完成,仅仅对单个基因进行分析很难获得其具体生物学功能,于是人们逐步开始探索多个基因、多个蛋白质之间的相互关系。生物网络是研究生物分子之间相互关系的一个重要工具。它能直观反映基因、蛋白质、代谢物以及环境之间相互作用的规律,对在分子水平上认识基因和蛋白质功能具有重要作用。同时,也能帮助揭示新陈代谢、信号转导、细胞分化、细胞生成和凋亡等细胞活动规律,为下一步进行新药开发、疾病预防和治疗提供重要理论依据。生物网络的构建十分困难,传统上利用人工方法通过生物实验数据进行,这种方法不但费时费力,效率也很低。随着生物技术特别是高通量技术发展,大量生物数据被测定出来,人工方法也越来越不能适应生物数据的快速增长,因此,人们开始探索使用计算方法来自动完成生物网络的构建。本文就是从这个思路出发,利用计算智能的方法,通过反向工程学原理,对生物网络进行自动构建。对于生物网络的构建,本文分为动态网络的构建和静态网络的构建两部分。动态网络的构建是指基因调控网络(GRN)的构建,是通过算法学习基因表达的时间序列数据,自动构建基因调控网络的动态调控模型,进而分析其动力学特性。静态网络的构建是指蛋白质相互作用网络的构建,是通过算法学习蛋白质序列数据,建立蛋白质相互作用的预测模型,进而确定网络中的边(即存在相互作用的蛋白质对)。对于这两个问题的研究,本文主要创新之处在于:1、提出使用基于质量作用定律的模型描述基因调控网络。描述基因调控网络的模型有很多,微分方程模型由于能反映基因调控的动力学特性而广受欢迎。传统的微分方程模型大都基于S-System模型,但该模型仅是一个经典数学模型,其参数没有具体生物学含义,因此即使模型被建立起来也难以对其进行解释。为解决这个问题,本文提出基于质量作用定律的微分方程模型(MA)。MA模型基于经典生化反应定律——质量作用定律,方程推导充分考虑基因调控的生物机制,能更精确反映基因相互作用的真实情况。此外,该模型的所有参数都可解释,有利于人们进一步分析基因调控背后的规律。2、提出基于质量作用模型的基因调控网络自动构建算法。MA模型虽然具有参数生物学含义明确、生物理论基础扎实的特点,但如何通过基因表达的时间序列数据,自动构建该模型仍是一个需要解决的问题。本文提出基于种群的增量学习算法(PBIL)和三角法差分进化算法(TDE)的混合算法,用于MA模型的构建。该算法分两步进行,第一步是利用改进的PBIL算法推导基因之间的相互作用(“激活”、“抑制”或“无调控”),构建出MA模型的结构。第二步是在第一步的基础上,利用TDE算法优化MA模型的参数,使计算出的数据与真实生物实验数据在最大程度上拟合。为验证该算法,实验在人工合成网络、酵母菌的IRMA合成网络、简化的IRMA合成网络、大肠杆菌的SOS DNA修复网络上进行,结果表明,该方法不仅能够完成基因调控网络MA模型的自动构建,而且与其他方法相比,该方法构建的网络也更加准确。3、提出使用基于时间延迟的质量作用模型(TDMA)描述基因调控网络。基因调控过程并不是一个瞬时完成的过程,期间涉及到很多化学反应环节,而这些环节都需要消耗一定的时间。传统的微分方程模型大都不考虑时间延迟,这显然是不符合事实的。为解决这个问题,本文在MA模型的基础上引入了时间延迟,提出TDMA模型,使用时滞微分方程去替代原来的常微分方程,这样可以更加精细的刻画基因调控的真实过程。4、提出基于延迟质量作用模型的基因调控网络并行化自动构建算法。对TDMA模型的基因调控网络自动构建算法仍采用PBIL和TDE的混合算法。但由于时间参数的引入造成了计算复杂度提升,为解决这个问题,本文利用消息传递接口模型(MPI),将上述网络自动构建算法进行并行化改进,使该算法能充分利用主流处理器的多个核心,实现算法加速。实验在三个基因调控网络模体协调-1型前馈环、非协调-1型前馈环、双扇网络,以及酵母菌的简化IRMA合成网络中进行,结果表明,该方法不仅能够成功的推导网络的结构和参数,也能够成功推导出基因调控延迟。5、提出基于集成概率神经网络的蛋白质相互作用预测算法。构建蛋白质相互作用网络的一个重要问题就是寻找存在相互作用的蛋白质对,即预测蛋白质之间是否存在相互作用。蛋白质相互作用预测中最常用的方法是基于蛋白质序列的方法。但由于蛋白质序列十分简单,如何选择合适的特征来表示蛋白质序列就显得至关重要。以前的方法都是选择单一的较优特征或者选择多个特征形成组合特征,然后输入预测模型计算。然而,选择单一特征往往不能全面反映蛋白质的特性,而选择多个特征虽然比较全面,但也存在计算量大,多个特征相互干扰的问题。为了解决这个问题,本文提出基于集成概率神经网络的预测方法。该方法首先利用11种不同的蛋白质理化性质和自协方差(AC)方法对蛋白质序列进行特征提取,获得11个不同的特征向量。然后,利用11个不同的概率神经网络(PNN)分别学习这11个特征。最后,通过将这些PNN的结果集成来确定最终结果。由于每个PNN仅学习一个特征,因此避免了多个特征之间的干扰。又由于它们学习的特征不同,因此会形成不同的决策函数,从而增加了决策多样性。此外,所有的PNN都参与了集成,使得所有的特征都得到了利用,这避免了选择部分特征学习而造成的偏差。实验对主流的DIP、H.pylori、Human三个数据集进行了测试,结果表明该算法相比于其他算法,具有更好的预测性能。
其他文献
<正>谈话是帮助幼儿学习在一定范围内运用语言与他人进行交流的活动,谈话拥有宽松自由的交谈气氛,允许幼儿根据个人感受,针对谈论主题说自己想说的话,说自己独特的经验。交谈
随着计算机、互联网和移动通讯的普及,特别是云计算、Web2.0、移动互联网等新型信息化技术的发展和应用,Web服务的开发、部署、管理、访问及维护成本均大幅度降低,海量服务应
目的检测在高脂高果糖饮食和维生素D缺乏条件下小鼠龈下菌群变化,探讨其导致牙周病变的可能机制。方法正常型和维生素D受体敲出的野生型C57BL/6J小鼠各20只,各自随机分成正常
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨非增强MSCT检查在非班时间段诊断急性阑尾炎的实用价值。方法采用SIEMENSEmotion16排螺旋CT机,对临床怀疑急性阑尾炎的患者进行全腹部或中下腹部的扫描,将采集的数据
随着国家大力推进生态文明建设,福建省成为首个生态文明先行示范区,继而成为首个生态文明试验区,将引领和带动全国生态文明建设和体制改革。福建省南平市是福建省的重要生态
<正>2017年6月25日,由中央财经大学财政税务学院和中央财经大学税收筹划与法律研究中心主办的电商税收征管:政策前瞻、方法与技术高峰论坛在中央财经大学举行。会议由中央财