系统发生网络构建算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mahonglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统分析是目前生物信息学领域最重要的课题之一。分子系统分析是通过分析各生物分子序列之间的特征,进而构建出能阐明生物间进化关系的系统树或者系统发生网络。系统发生网络是系统树的一般形式。系统发生网络可以描述物种在进化过程中发生的网状进化事件(如重组),也可以表示多棵系统树所隐含的冲突进化信息。因此如何构建系统发生网络是一个重要的研究领域。为了研究系统发生网络构建算法,本文首先研究了序列间距离计算方法,其次是基于距离的系统树构建算法及系统发生网络空间上度量的定义,最后重点研究了基于有根系统树的系统发生网络构建算法。本文的主要内容包括:(1)提出了一种DNA序列间距离计算方法——JCV。给定一组物种的DNA序列,JCV首先将每个物种的DNA序列表示为一个特征向量,然后基于特征向量计算物种间距离。计算得到的距离矩阵被用于构建系统树,以此进行分子系统分析。JCV绕过了计算多序列比对的复杂性,故JCV可以为任何长度大小的DNA序列数据计算距离。同时基于JCV方法的进化分析避免了基于单个基因构建物种树的歧义性。(2)提出了基于距离的系统树构建方法——FastJoin。邻接法是一种基于距离的系统树构建方法,由于其精确性高及运行速度快,被广泛使用。邻接法是基于理论:当输入的距离矩阵是完全可加时,通过距离矩阵计算得到的和矩阵S中的最小值Si0j0对应的两个分类单元(即物种) i0和j0是一对真正的邻接。故邻接法的建树过程是迭代地选取一对分类单元合并为一个新的分类单元,直到仅剩的分类单元个数≤3为止。经过对邻接法的深入研究,扩展了其理论并得到:当输入的距离矩阵是完全可加时,S中还存在另一对真正的邻接,即,S中去掉最小值Si0j0所在行和列后剩下元素中的最小值对应的两个分类单元。基于此理论,改进了邻接法。因此,邻接法改进算法的建树过程是迭代地选取出两对分类单元分别合并为两个新的分类单元,直到仅剩的分类单元个数≤3为止。实验证明邻接法改进算法比邻接法的运行速度快。将邻接法改进算法与RapidNJ的搜索策略及ERapidNJ的外存方式相结合得到了系统树构建方法——FastJoin。实验证明FastJoin是非常有效的,尤其在处理大数据时。(3)定义了部分简化系统发生网络空间上的度量。传统意义上,物种的进化史是被描述成一棵有根系统树。对于从不同的数据集(如不同的基因)构建得到的有根系统树,他们包含的进化信息通常是冲突的。冲突的进化信息不能被表示为一棵系统树。然而,系统发生网络可以表示这些冲突的进化信息。在系统发生网络的构建过程中,需要计算系统发生网络间的距离,例如计算得到的网络与仿真网络或者真实网络之间的距离。目前已经定义了许多用来量化两系统发生网络之间的拓扑差异度,其中的每一个被证明是在系统发生网络某一子空间上的度量。本文定义了部分简化系统发生网络空间,该空间包含已定义度量的子空间。并且本文在部分简化系统发生网络空间上定义了多项式时间内可计算的度量。(4)提出了基于有根系统树的系统发生网络构建方法——LNETWORK及BIMLR。目前已经有许多从有根系统树集构建系统发生网络的方法。CASS是目前较有效的系统发生网络构建方法,它所构建的网络比其他方法更简单,但是对于大数据集或者是那些需要很多网络节点表示的数据集,此方法运行速度极其慢。而且CASS构建的网络极大地依赖于输入数据顺序,即,对于同一数据集,当输入顺序不同时,CASS常常构建出不同的系统发生网络。本文首先基于种子增长算法定义了分离物种,其次基于分离物种及不相容物种提出了CASS的两种改进算法:LNETWORK及BIMLR。实验表明LNETWORK和BIMLR加速了CASS构建网络过程,而且有效地消弱了输入数据顺序的影响。同时LNETWORK和BIMLR所构建的网络比其他方法更简单,并且更能体现原始输入数据的进化信息。
其他文献
近年来,随着各种超精密及微细加工技术的不断发展,对表面形貌测量技术的要求也越来越高。因此涌现出了大量的测量方法,在这些众多的测量方法中,数字全息技术以其高精度、非接
不同产品市场企业的进入或退出是市场竞争中不可避免的过程。在生产技术飞速发展的今天,大多市场为完全竞争市场或垄断竞争市场,企业经受着“适者生存”的考验,然而如何进入
目的:分析6野的动态调强(dIMRT)与双弧的容积旋转调强(VMAT)两种不同的照射技术在左乳腺癌根治术后放疗中的剂量学差异。方法:选择接受放疗的左乳腺癌根治术后患者20例,采用M
籽粒及相关性状是小麦品种改良最为重要的目标,其影响因素众多。根据在田间实际观察的表型以及前人的研究结果,选择了影响籽粒性状的籽粒大小、叶片性状(旗叶相关性状和叶片
文章以省域的视角分析甘肃省生态文明建设的现状,从自然生态环境、生态农业、城市生态环境等方面探讨生态文明建设的系统构建,并据此提出实施策略。
从环境、基础理论、技术和管理四个方面研究图书馆管理学理论体系的影响因素,并提出资源管理、技术管理、服务管理三位一体新视角下的图书馆管理学理论体系,指出图书馆管理学
未决赔款准备金是保险公司的一项重要负债,提取充足与否直接影响到公司的财务状况好坏,过高过低估计未决赔款准备金都会对公司造成负面的影响。对于未决赔款准备金的估计,目
以高分辨率遥感卫星为代表的新一代数据获取技术取得了较大进步,地理栅格数据在时空分辨率、数据类型、覆盖面积等方面不断提高,为地理应用提供了更多的数据信息,然而这些提
理论上讲,关联交易是一个中性词,是公司与其关联人之间一种较为复杂的经济现象。关联交易并非单纯的市场行为,亦不属于内幕交易范畴,其产生有一定的必然性及合理性。一方面,
大容量内存、高速CPU及接口的IPv6路由器支撑下的QoS路由是解决IPv6 QoS问题的一项关键技术.针对适应于IPv6网络环境的QoS路由成果为数不多的现状,本文分析了IPv6在实现QoS路