【摘 要】
:
重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律
论文部分内容阅读
重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中,识别这些重复体对基因组解码起到了很重要的作用。通过考虑重复体序列的长度和发生频率,提出了一种基于后缀树的识别初级重复体的RepSeeker算法。算法采用最低限制频率,并通过重叠性合并,最大程度地扩展了重复体的长度。算法以DNA序列所构造的后缀树作为输入,并以基于后缀树的查询算法作为手段,最终生成输入的DNA序列的初级重复体分类表。为了进一步地提高RepSeeker算法的效率,我们对后缀树构造算法进行了适应性改进。在构造后缀树时,给叶子节点编号,并在分支节点加入了叶子信息数组LL(LeafList)。在此基础上,改进了基于后缀树的查询算法,从而避免了RepSeeker算法进行高频度的子树遍历。对Ukkonen后缀树构造算法的改进所带来的问题是对空间要求加大,而构造后缀树算法的时间复杂度几乎没有受到影响。测试中使用了NCBI中的几条典型DNA序列作为测试对象,并与改进Ukkonen前的重复体识别算法做了比较分析。结果表明RepSeeker在没有损失精度的情况下很大程度地缩短了运行时间。
其他文献
随着计算机和网络技术的发展,使得人们通过网络来协作完成同一件工作成为可能。计算机支持的协同工作(Computer Supported Cooperation Work: CSCW)研究领域正是在这样的背景
作为互连网络中一种流行的拓扑网络,k-ary n-cube网络目前面临着多应用、多业务以及业务分布不均等问题,这就要求设计的路由算法要有较强的负载均衡能力,以及所采用的死锁解
基于构件的软件开发方法能够有效地提高软件开发的质量和效率,而构件组装技术是实现基于构件的软件开发的关键。目前,构件组装技术还多半停留在手工组装的阶段,自动化甚至半
网络中心战是人类战争进入信息化战争时代后,所提出的一种最新的作战思想和作战方式。它的实质是利用计算机网络把地理上分散的部队、各种探测器和武器平台连接成一个整体,实现
CMMI的全称为:Capability Maturity Model Integration,即集成能力成熟度模型。CMMI受到了世界各地许多公司的重视,得到了极为广泛的认可。然而,CMMI的应用不仅需要对CMMI有很深
近年来,二元删除信道模型由于其可用来模型化互联网传输系统而受到广泛关注。基于稀疏随机二部图模型的LDPC纠删码以线性时间复杂度的编译码算法和可任意逼近删除信道容量限
步态识别是生物识别技术研究中的新领域,它旨在根据人们走路的方式进行身份识别。步态识别以远距离识别、非侵犯性和难以隐藏等特点引起了视觉研究者的浓厚兴趣,成为近年来计算
跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代,克服语言壁垒,提供跨语言的文献信息检
FPGA(Field-Programmable Gate Array)作为一种半制定电路,不但解决了专用集成电路功能逻辑灵活性的不足,同时克服了原有可编程器件门电路数量十分有限的缺点。越来越广泛的用于
基因拼接是生物信息学领域研究的基础课题之一,也是一个难度较大但十分有意义的研究课题。基因拼接是指从给定的基因序列集合出发,利用计算机技术,再重新构造出该生物DNA序列