基因组断点标本字符串提取算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:accessw2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从90年代初开始,随着人类基因组计划的展开与深入,科学工作者发现,人类的各种遗传、性状和甚至疾病等都与基因有着密切的联系。基因的载体是染色体,即一条完整的基因序列。不同的染色体代表某个个体在不同方面的性状。以往的研究表明,对应同一性状的两个个体的染色体的基因序列的相似程度,与这两个个体的某种性状的相似程度相关。   本文只讨论一个基因组仅包括一条染色体的且允许同一基因组包含重复基因(但同一种基因最多出现两次)的情况。1999年,D.Sankoff提出了一个去解决允许—条染色体上有重复基因的基因组重排问题的方法,即分别生成源基因组和目标基因组的一个包含所有基因且没有重复的子串。因为生成的子串可能有多种情况,目标就是找到这样一个子串对:它包含的两个子串互相转换所需的操作步数在所有的子串对中是最少的。由此建立了这样一个比较两条染色体基因序列的相似程度问题的数学模型:假设两条待比较的染色体上所含的基因种类是相同的。每条染色体看作一个字符串,每个基因是一个字母。一条染色体上的基因可以重复,问两条染色体是否存在这样一个公共子串:子串中每种基因均出现且只出现一次。是否存在这样的公共子串从某种程度上量化了两个基因组参与某一个生物进程的共同程度。   本文考虑一个基因组只包含一条染色体且每种基因在每个基因组上最多出现两次的情况。首次提出了无符号的情况下,解决这个问题的一个精确算法。详细分析了它的时间复杂度,给出了它的正确性证明,用Java语言实现了它,并用随机生成的实验数据验证了该算法的性能。   找出两条染色体的最长公共子串的问题已经被证明了是NP-hard且具有不可近似性,因此只能设计指数算法来解决它,所以想办法减少枚举的次数是本文所述算法的核心。算法分为两部分,第一部分是涉及枚举的,时间复杂度为O(1.86n),第二部分是在多项式时间内能够完成的,时间复杂度为O(n3)。若两条染色体存在公共子串,则返回该子串;若不存在,返回no。整个算法的时间复杂度为O(n31.86n)(其中n为基因种类数)。  
其他文献
表格识别是当前图像识别领域中的一个重要研究课题,由于信息化的普及和表格数据的大量出现,表单数据自动处理技术已经在很多行业和领域中取得应用。表格图像识别技术不仅可以
随着人类基因组计划的实施和基因组测序技术的快速发展,生物学家已得到几百种生物的全基因组序列,这些序列的背后隐藏着丰富的生物学知识和生物学规律。基因组序列测定之后,识别
科技的不断创新,也受惠于监控领域,使视频监控技术得到快速发展。安防行业的快速发展促进了智能监控系统的发展,其也成为模式识别与图形处理交叉领域中的热点之一。从摄像头的监
随着无线传感器网络(Wireless Sensor Network, WSN)应用的日益深入,海量数据的产生在WSN环境中也将变得越来越普遍。但是传统的如简单的数据查询等数据处理方式,不仅无法满
伴随着通信技术的不断发展和视频处理技术的日新月异,数字视频的应用范围越来越广泛。由于原始视频数据量比较大,因此很难全部在硬盘中进行储存或者在网络上进行传输。然而,
迁移工作流是近年来工作流研究的新方向,是一种基于移动agent计算的工作流管理新模式。迁移工作流引擎、迁移实例(migrating instance,mi)和工作位置是组成迁移工作流系统的
近年来,迁移工作流(Migrating Workflow)成为了工作流管理研究的一个新方向。基于移动计算的迁移工作流包含三个要素:工作流引擎、工作位置和迁移实例。工作流引擎定义工作流
动作数据是进行三维角色动画制作的重要元素,通过动作捕捉设备获得的人体动作数据比传统的关键帧技术生成的角色动作具有更好的视觉真实性。目前,人体动作捕获数据已经被广泛应
随着互联网的高速发展,网上数据量也呈指数级增长,Web已经成为一个非常巨大的数据源。为了高效地利用Web上有效信息,研究者们提出了Web数据集成的概念。Web数据集成就是把分
随着互联网技术以及各种数据库应用的快速发展,数据存储以及数据传输过程中所涉及的数据复杂程度已远超过传统的数据,许多现代的应用都要分析和处理一些不可靠、不一致和不准确