蛋白质序列模式在细菌基因发现中的应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:songsdfasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
寻找遗漏基因是基因组注释中一项挑战性问题,即使对基因结构简单的原核基因组,基因遗漏的现象同样普遍存在。当基因与已知蛋白质缺乏显著同源关系时,作为基因预测最可靠途径的知识库检索方法就会失效。本文提出一种新的基因发现方法,通过搜索原核基因组中所有具备蛋白质序列模式特征的片段,寻找通常基因预测方法难以发现的基因。为研究该方法的有效性,本文系统研究了来源于气热菌属、棒状杆菌属、乳球菌属、乳杆菌属、片球菌属、链球菌属、和热酸菌属等7个属的22个原核基因组,利用InterProScan作蛋白质模式扫描并对,扫描结果进行了细致的比较基因组学和基因结构分析,发现1.所有(约40万个)与已知蛋白质序列无显著相似性的ORF(Open Reading Frame,开放读框)中,有7265个携带蛋白质序列模式,其中94%的蛋白质模式特征携带者是已注释基因,表明了在现实基因组序列背景下,模式特征与编码区之间良好的对应关系以及将模式特征扫描作为基因发现手段的合理性;2.在其余的6%(450个)GenBank未注释的ORF中,有395个在其他基因组中存在相似的ORF序列,另有323个ORF具有恰当的核糖体结合位点,这些额外的证据均支持这些ORF是可能的遗漏基因。基因组序列搜索还发现这450个ORF中有37个可能在进化过程中发生过移框或无义突变,为疑似假基因。还有10个ORF未找到其他证据;3.经过适当预处理,一个基因组的全基因组扫描约耗费100CPU小时,例如对Streptococcus mitis B6的扫描约耗时101CPU小时。这些结果证明蛋白质序列模式特征对于编码区有很高的覆盖率和很低的假阳性率,计算复杂性亦在可接受范围。因而蛋白质序列模式特征可以有效地发现原核基因组注释中的遗漏基因,弥补通常的从头预测方法和基于序列同源性方法的不足。
其他文献
本论文在集成了微小测量电路的金刚石对顶砧高压装置中引入磁场,通过使用无磁压机和垫片,实现了高压原位磁致电阻测量,并使测量精度和所能达到的最大压力大大提高。结合高压阻抗谱技术,系统地研究了β相硼及铁氧化物在高压下的电输运性质,给出了高压下各个亚稳相的电导率随压力的变化关系,对高压相的导电属性进行了标定,对多晶样品中晶界对电阻的贡献进行了分离,给出了晶界电阻随压力的变化规律,特别是获得了电阻在磁场下随
学位
1971年,Rosenfeld引入了模糊群的概念,由此开创了模糊代数的研究领域.正规子群在群论中起着很重要的作用,在模糊代数中模糊正规子群也同样起着重要的作用,我们对模糊正规子群作了进一步的研究,给出了一些新型的模糊正规子群的定义,并且得到了它们的一系列代数性质,具体内容如下:在第一章中,我们介绍了国内外有关于模糊正规子群的研究进程及本篇文章所做的工作和主要创新点.在第二章中,介绍了本篇文章所用到
目的 通过基因工程技术在大肠杆菌中高效表达rhBMP-4,并经变性、复性后,获得具有生物活性的rhBMP-4,以期广泛应用于科研及临床研究。 方法 为获得目的蛋白在大肠杆菌中的高效表达,在不改变氨基酸序列的前提下,以全基因合成的方式对人BMP-4成熟肽基因全长进行定点突变,然后重组入pET-3c表达载体并转化至大肠杆菌DH5α中。经过PCR和双酶切鉴定后,将阳性转化子转化入BL2
本文以约束力学系统对称性和守恒量理论中的若干问题研究为主题,主要研究三大力学体系(Nielsen体系、Appell体系和Lagrange体系)的对称性与守恒量问题.对称性主要有三种:Mei对称性,Lie对称性和Noether对称性.守恒量主要有Mei守恒量,Hojman守恒量和Noether守恒量.本文着重对Mei对称性和Lie对称性以及他们导致的守恒量做具体研究.Nielsen体系的对称性与守恒
本文给出了(∈,∈Vqλ,μ)-模糊子格,直觉模糊子格,(∈,∈Vqλ,μ)-模糊相对凸子格,(∈,∈Vqλ,μ)-模糊布尔代数,布尔代数的(∈,∈Vqλ,μ)-模糊理想,新型软子格的概念,并且研究了它们的等价条件和一些相关的性质.具体内容如下:第三章中,给出了(∈,∈Vqλ,μ)-模糊子格的概念,并得到了它的一些等价刻画.另外,还研究了(∈,∈Vqλ,μ)-模糊子格的同态像与同态原像的基本性质.
产甘油假丝酵母(Candida glycerinogenes WL2002-5)是迄今为止报道的最优良的甘油生产菌株,但是该工业菌株的相关知识特别是遗传和分子生物学信息比较匮乏。MAPK Hog1介导的HOG-MAPK信号途径是S. cerevisiae中高渗胁迫条件下激发的一条最重要的信号转导途径。而对于耐高渗菌株C. glycerinogenes,其HOG-MAPK信号途径知之甚少。为此,本文
本篇文章主要研究的是半群代数理论中的Thompson-Higman幺半群和前缀码.有单位元1的半群称为幺半群,幺半群就相当于半群与群的一个中介与桥梁,虽然半群的研究方法来源于对群的研究,但由于二者研究范围的不同,使得半群的研究从研究对象到研究方法、研究结果都与群都有着很大的差异.半群理论在应用方面显示出极大的优越性,尤其是在编码理论,密码学,传感等领域应用广泛.迄今为止半群代数理论已经研究了60余
系统生物学是研究一个生物系统中所有组成成分的构成,以及在特定条件下这些组成成分间的相互关系的学科,它以整体研究为特征.研究生物系统组成成分的构成与相互关系的结构、动态与发生,以系统论和实验、计算方法整合研究为特征的生物学.群体动力学系统是系统生物学的一个重要研究方向,从整个系统的角度出发,来研究生物群体间的竞争关系、捕食者与被捕食者的关系、共生关系等.群体动力学的研究大多使用数学建模的方法,对系统
利用微生物共培养(复合菌系)的方式进行木质纤维素降解,实现纤维质废弃物的有效利用,已成为当前各国学者研究的热点。利用复合菌系降解木质纤维素,因其产生的酶系种类更加多样,同时还能避免单菌降解木质纤维素时产生的底物抑制和反馈抑制,因此可以有效降解木质纤维素。但是由于菌系中微生物种类及其代谢方式的多种多样,且微生物之间的相互作用关系及其复杂,因此对复合菌系能够长期维持其结构和功能稳定性的机理的研究显得尤
钝齿棒杆菌Corynebacterium crenatum SYPA5-5是本课题组从土壤中筛选获得的一株高产L-精氨酸的突变株。应用于钝齿棒杆菌SYPA5-5遗传表达体系的启动子效率不够高。因此筛选钝齿棒杆菌内源高活性启动子是提高其遗传表达体系效率的重要手段。本研究基于2-DE技术对钝齿棒杆菌内源高效启动子进行了筛选,主要研究研究结果如下:(1)分别在常规条件(搅拌转速400r/min,通气量3