蛋白质二级结构预测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:new_spider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,人们已经获得了大量生物的遗传信息,数以万计的蛋白质序列也已经被测出,到2004年4月13日为止SWISS-PROT数据库中总共收集了148516条已被测序的蛋白质序列。然而一条蛋白质序列必须折叠成一定的空间结构时才能发挥它特定的生物功能,人们在对蛋白质序列测序完成之后更希望的是得到这些蛋白质的空间结构,以便发现结构与功能之间的联系。因此,蛋白质结构和功能的研究就成为了后基因组时代生命科学领域人们研究的主要任务和目的。 目前,通过实验的方法获得的蛋白质结构序列只有两万多条(2004年4月20日,PDB数据库中共收集了25176条),远远落后于蛋白质序列的测序速度,因此理论预测蛋白质结构势在必行。然而,直接从蛋白质一级序列预测其三维空间结构时人们又遇到了诸多困难。在对蛋白质分子的仔细研究和分析后发现由二级结构组装而成的空间结构是有限的。因此,如果能从蛋白质一级序列先预测出二级结构,再由二级结构预测三级结构便成为一条有效的途径。这里,蛋白质二级结构预测不仅成为联系蛋白质一级序列和三级结构的纽带,而且也是从一级序列预测其三维空间结构的关键步骤。 本文的主要工作是蛋白质二级结构预测方法的研究,具体工作概括如下: 1.从上世纪60年代中期至今,蛋白质二级结构预测已经发展了40年的时间,期间涌现出了许多好的预测方法。然而,由于每种方法选用的数据集不同、对二级结构的定义不同、选用的评价指标不同,因此方法间无法进行客观、全面的比较。而且研究证明,上述几个方面的因素对方法的预测结果影响较大,因此就迫切需要在一个统一的标准下将多种方法进行评价,从而找出目前最好的方法,也能从中发现需要继承和改进的方向。本文针对上述几个因素选择了统一的标准,对目前主要的十种方法进行了评价,这十种方法分别是:GORⅠ、PROF、GORⅣ、NNPREDICT、PHDsec、SSpro v 2.0、PSIPRED、PREDATOR、SOPMA和APSSP2。这一工作的过程是繁杂而费时的,工作量较大,至今没有其他人做出。 2.FDOD方法是一种比较多序列间差异程度的有效方法,作者将这一方法首次用于蛋白质二级结构预测中,得到了令人鼓舞的结果,准确率达到了78.8%,是目前二级结构预测中最好的结果之一。鉴于这一令作者也颇感意外的结果,文中对FDOD方法做了详细地分析,它的优势在于:一,它使用子序列分布作为序列特征的描述,无需引入其它物化参数且又挖掘出了序列本身尽可能多的特征信息,从而很好地给出了序列与结构之间的关系。二,FDOD函数的使用。FDOD函数是基于信息论中熵的概念,输入向量是一个概率分布,计算中只涉及到简单运算,因此对输入向量的规模没有大的限制。与其它方法相比,FDOD方法具有明显的运算速度优势而且预测准确率高。神经网络方法是蛋白质二级结构预测发展过程中的一类重要方法。从1988年Qian和Sejnowski首次将其应用到二级结构预测至今又有了很大的改进和提高。作者对这一方法进行了认真的学习,用一种改进的BP网络进行了实际预测。由于受到时间和经验等多方面的影响,目前这一尝试只得到了一个初步的结果,还需要在今后的工作中继续进行研究。支持向量机方法是一类较好的机器学习算法,我国学者孙之荣等人将这种方法首先用于了蛋白质二级结构的预测。然而由于支持向量机方法在处理大规模数据时需要的时间和空间的代价很高,为了解决这一问题我们将支持向量机与增量学习技术结合起来,提出了一种改进的支持向量机增量学习方法,并将其应用于蛋白质二级结构预测中。预测结果显示,此算法可在牺牲很小的测试精度(不足1%)的前提下节省一半左右的训练时间,从而提高了二级结构预测的效率。
其他文献
芦岭煤矿运输区针对井下斜巷轨道信号未能实现人员实时监控的现状,从实时监控人员、监控车皮数量、运行速度等方面入手进行研修改造,使得斜巷运输可操作性增强、安全性大大增
2017年,市纪委监察局全面落实监督执纪“四种形态”、保持高压态势,加强和改进纪律审查工作,深入推进党风廉政建设和反腐败斗争,全市纪律审查工作取得显著成效。$$一年来,市纪委领
报纸
明代 ,贵州各民族虽然受到统治民族中统治阶级的民族不平等思想意识的影响 ,但都是普遍劳动者 ,并无根本的利害冲突 ,相互间在经济、文化中的友好交往与和平共处。
<正>今年召开的中共舟山市第六届党代会报告中,明确提出今后5年舟山的第一任务是"大力发展港航产业,打造国际物流岛。"作为舟山群岛新区建设的核心内容,国际物流岛需要进一步
1980年4月 ̄1994年10月外科治疗108例甲状腺炎病例中17例(15.7%),并发甲状腺癌,男2,女15,年龄24 ̄65岁,平均39.5岁,其中桥本氏病13例,木样甲状腺炎3例,亚急性甲状腺炎1例,乳头乳腺癌8例,滤泡状腺癌4例,乳头加滤泡状腺癌1例,未分化癌2例,未
氯酚类化合物被广泛应用于防腐剂和消毒剂,并且是很难被降解的和易在环境中累积的一类毒性较大的持久性污染物。在氯酚处理方法中,由于生物学方法拥有相对低廉的成本和更少的
本文从社会互动论的角度分析"19楼空间"的特色、会员互动形式、网络组织以及与现实中社区生活更深层互动的可能性,试图为我国传统报业与网络新型媒体的融合提供一个有益的视
充分开发和利用广西特有的茶文化资源,发展广西茶文化生态旅游产业是促进广西经济社会发展和可持续发展的有效途径之一。本文扼要介绍了广西独特的茶文化旅游资源状况,并就开
试样制备是击实试验中的重要环节,采用塑限预估最优含水率的方法容易产生偏差.其试验结果可能出现没有干密度峰值的情况,通过对这一环节的改进,省略了含水率和界限含水率的试验过