基因组序列拼接算法及ncRNA新基因的发现

来源 :中国科学院计算技术研究所 | 被引量 : 2次 | 上传用户:guannipishiwori
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组研究的不断深入,生物信息学这一领域得到了迅速的发展。 本论文就是在生物信息学中的大规模基因组测序中的信息分析和基因组中非编码区信息结构分析两个重要方面开展的一些研究工作。 具体来说是: 1.新的DNA序列拼接算法的研究; 2.Repeat Separation相关理论问题的研究; 3.基于EST序列寻找ncRNA新基因的方法的研究; 4.基于SARS蛋白的siRNA设计。 主要成果有: 针对基因组序列拼接问题提出了新的算法。其实质是将拼接问题抽象成为求解最短公共超串问题,并将局部搜索(Local Search)方法用于求解最短公共超串中。这一新的策略为克服传统的基于贪心算法的拼接软件所导致的拼接错误开辟了途径。本文还进一步提出了“邻域剪枝”(Neighborhood Pruning)和“互补校验”(Complementary-validation)两种优化策略,从提速和提高拼接质量两方面显著地改进了算法性能。 本文将基因组序列拼接中重复序列的处理问题形式化为K-最近子串问题(K-Closest Substring Problem)和K-最小海明距离和子串问题(K-Consensus Pattern Problem)。我们借鉴并发展了“随机维选取策略”(Random sampling strategy),取得以下研究成果: 1.给出O(1)-最近子串问题的一个PTAS。 2.给出O(1)-最小海明距离和子串问题的一个PTAS。 3.给出了K-最近串问题(Hamming radius K-clustering problem,K-最近子串问题当L=m时的一个特例)的(2—ε)不可近似性的一个新颖直接的证明。 以上研究结果可望为设计解决repeat相关问题的实用算法有所启发。 关于基因组中非编码区信息结构分析的研究当中本文主要包括以下两方面的工作: 建立了基于EST数据库发现新的ncRNA基因的系统方法,并完成了相应的软件。在利用这些软件寻找ncRNA基因的工作中我们发现了9条序列与已知的ncRNA基因高度同源,他们有scRNA、snRNA、snoRNA和SRP RNA;另有一条可能是人的新ncRNA候选序列。由此,表明EST数据库中确实包含ncRNA基因的信息。这一结果也证实了我们的方法是正确的、有效的。 针对SARS冠状病毒(SARS Coronavirus,SARS-CoV)中编码5个主要蛋白质的基因,用生物信息学的方法设计了348条候选siRNA靶位。理论上,相应的siRNA双链体可能会特异性地抑制SARS-CoV靶基因的表达,同时不会影响细胞正常基因。这也为下一步进行实验研究提供了理论基础。
其他文献
运动控制器在工业、国防和人们的日常生活中,有着广泛的应用。然而,目前常用的运动控制器体系结构存在很多缺陷,如体积过大,不支持网络通信,硬件一旦固化则不能改变等,从而导致运动控制器之间相互孤立,系统升级过程中大量资源浪费。为了解决这些问题,本文对运动控制器的体系结构进行了研究。 本文首先分析了目前运动控制器常用的体系结构,指出了它们在体积、通信协议、灵活性方面的不足。针对运动控制器的数据安全性
随着软件成为当今社会越来越重要的一个领域,人们对开发有效的、健壮的、复杂的软件需求也日益递增。虽然,我们在计算、网络、编程语言以及软件方法学等方面取得了显著的进步,但
随着时代的发展,远程教育已日益成为传统教育的重要补充.远程教育的发展经历了广播教学,电视教学,网络教学三个阶段,其中网络教学最能代表远程教育的发展方向.在远程教育的实
本文首先提出了一种新的多代理在线学习算法LU-Q,该算法通过对联合行动不断地实施剪枝,减少可选行动数目,加快多代理学习的收敛.实验表明,算法学习性能优于标准多代理Q学习.
近年来,远程办公、移动计算的应用需求不断增长。在无线应用中,当移动主机在不同的子网之间移动时,为了保证正常通信,必须进行切换。移动IP切换已成为影响无线网络性能的关键问题
网络测量工作表明,网络业务具有自相似性。业务的自相似性对因特网的设计、控制、分析和管理产生了巨大影响。迄今为止,大部分的网络测量仅仅限于有线网范围内。随着无线技术的
网格以共享资源协同计算为目标将成为今后服务于各领域的基础设施,该设施的核心部件包括高性能计算设备、存储设备和贵重仪器等重要资源。目前,机群系统以其优越的可扩展性、